2025 оны наймдугаар сарын 5

Нээлттэй жинтэй LLM-үүдийн хамгийн муу хувилбарын хил хязгаарын эрсдэлийг үнэлэх нь

Хураангуй

Энэ өгүүлэлд бид gpt-oss-ийг гаргахтай холбоотой хамгийн муу хувилбарын хил хязгаарын эрсдэлийг судалсан. Бид хортой нарийн тааруулалт (MFT)-ыг танилцуулж, gpt-oss-ийг биологи болон кибер аюулгүй байдал гэсэн хоёр хүрээнд аль болох өндөр чадвартай болгохоор нарийн тааруулан, дээд чадварыг нь илрүүлэхийг оролдсон. Биологийн эрсдэлийг (biorisk) дээд хэмжээнд хүргэхийн тулд бид заналхийлэл бүтээхтэй холбоотой даалгавруудыг сонгон цуглуулж, gpt-oss-ийг вэб үзэх боломжтой RL орчинд сургажээ. Кибер аюулгүй байдлын эрсдэлийг дээд хэмжээнд хүргэхийн тулд бид gpt-oss-ийг агент кодчиллын орчинд сургаж, capture-the-flag (CTF) сорилтуудыг шийдүүлсэн. Бид эдгээр MFT загваруудыг хилийн эрсдэлийн үнэлгээн дээр нээлттэй болон хаалттай жинтэй Том хэлний загвар (LLM)-уудтай харьцуулсан. Хил хязгаарын хаалттай жинтэй загваруудтай харьцуулахад, MFT gpt-oss нь OpenAI o3‑аас сул байсан бөгөөд энэ загвар нь биологийн эрсдэл болон кибер аюулгүй байдлын хувьд Preparedness High чадамжийн түвшнээс доогуур юм. Нээлттэй жинтэй загваруудтай харьцуулахад, gpt-oss нь биологийн чадамжийг ялимгүй нэмэгдүүлж магадгүй ч хил хязгаарыг мэдэгдэхүйц урагшлуулахгүй. Эдгээр үр дүнгүүдийг нэгтгэн үзвэл, загварыг гаргах шийдвэрт маань хувь нэмэр оруулсан бөгөөд манай MFT арга нь ирээдүйн нээлттэй жинтэй хувилбаруудаас үүсэх хор уршгийг үнэлэхэд хэрэгтэй чиглэл болно гэж найдаж байна.

2025

Зохиогч

Eric Wallace, Olivia Watkins, Miles Wang, Kai Chen, Chris Koch

Үргэлжлүүлэн уншина уу

Бүгдийг үзэх

Safety and alignment in an era of long-horizon models

Аюулгүй байдал2026 оны 7-р сарын 20

Why teens deserve access to safe AI

Аюулгүй байдал2026 оны 7-р сарын 16

GPT-Red: Unlocking Self-Improvement for Robustness

Аюулгүй байдал2026 оны 7-р сарын 15