Нээлттэй жинтэй LLM-үүдийн хамгийн муу хувилбарын хил хязгаарын эрсдэлийг үнэлэх нь
Энэ өгүүлэлд бид gpt-oss-ийг гаргахтай холбоотой хамгийн муу хувилбарын хил хязгаарын эрсдэлийг судалсан. Бид хортой нарийн тааруулалт (MFT)-ыг танилцуулж, gpt-oss-ийг биологи болон кибер аюулгүй байдал гэсэн хоёр хүрээнд аль болох өндөр чадвартай болгохоор нарийн тааруулан, дээд чадварыг нь илрүүлэхийг оролдсон. Биологийн эрсдэлийг (biorisk) дээд хэмжээнд хүргэхийн тулд бид заналхийлэл бүтээхтэй холбоотой даалгавруудыг сонгон цуглуулж, gpt-oss-ийг вэб үзэх боломжтой RL орчинд сургажээ. Кибер аюулгүй байдлын эрсдэлийг дээд хэмжээнд хүргэхийн тулд бид gpt-oss-ийг агент кодчиллын орчинд сургаж, capture-the-flag (CTF) сорилтуудыг шийдүүлсэн. Бид эдгээр MFT загваруудыг хилийн эрсдэлийн үнэлгээн дээр нээлттэй болон хаалттай жинтэй Том хэлний загвар (LLM)-уудтай харьцуулсан. Хил хязгаарын хаалттай жинтэй загваруудтай харьцуулахад, MFT gpt-oss нь OpenAI o3‑аас сул байсан бөгөөд энэ загвар нь биологийн эрсдэл болон кибер аюулгүй байдлын хувьд Preparedness High чадамжийн түвшнээс доогуур юм. Нээлттэй жинтэй загваруудтай харьцуулахад, gpt-oss нь биологийн чадамжийг ялимгүй нэмэгдүүлж магадгүй ч хил хязгаарыг мэдэгдэхүйц урагшлуулахгүй. Эдгээр үр дүнгүүдийг нэгтгэн үзвэл, загварыг гаргах шийдвэрт маань хувь нэмэр оруулсан бөгөөд манай MFT арга нь ирээдүйн нээлттэй жинтэй хувилбаруудаас үүсэх хор уршгийг үнэлэхэд хэрэгтэй чиглэл болно гэж найдаж байна.


