2026 оны тавдугаар сарын 29

Итгэл даахуйц гуравдагч талын үнэлгээний хамтын гарын авлага

Хил хязгаар загваруудын хамгаалалт ба чадварыг бие даан үр дүнтэй үнэлэхэд юу чухал вэ.

Ачаалж байна…

Бие даасан, итгэл даахуйц гуравдагч талын үнэлгээнүүд нь аюулгүй байдлын экосистемийг бэхжүүлэхэд чухал үүрэг⁠ гүйцэтгэдэг. Эдгээр үнэлгээг хил хязгаар загварууд дээр хийж, чухал чадвар болон аюулгүй байдлын бууруулах арга хэмжээний талаарх мэдэгдлүүдэд нэмэлт нотолгоо өгдөг. Энэ нийтлэлд бид өнөөг хүртэл сурсан зүйлсээ хуваалцаж, хил хязгаар загваруудыг хүчинтэйгээр үнэлж чадах үнэлгээг зохион бүтээх арга барилыг санал болгож байна. Энэ нь энэ салбарт шинээр бүрэлдэж буй стандартуудад тус болно гэж найдаж байна.

Өмнө нь олон үнэлгээнд загваруудыг чатбот шиг авч үздэг байсан: үнэлгээ нь загварыг асуулт асууж буй хэрэглэгч мэт өдөөж, загвар хариулж, үнэлгээчин гаралтыг нь үнэлдэг байв. Өнөөгийн хил хязгаарын загварууд илүү ихийг хийж чадна: тэд хэрэгслүүдийг ашиглаж, олон алхамаар мэдээллийг хянаж, илүү том ажлын урсгалд ажиллах боломжтой. Энэ нь гүйцэтгэл нь зөвхөн загвараас гадна даалгавар явагдаж буй орчин, түүний үйлдлийг хөнгөвчлөх тохиргооноос хамаарна гэсэн үг юм. Бидний "бэхэлгээ" гэж нэрлэдэг энэхүү эргэн тойрон дахь тохиргоо нь системийн гүйцэтгэлийн гол талыг өөрчилж чаддаг, үүнд хэрэгслүүдийг хэрхэн ашигладаг, мэдээллийг хэрхэн хянадаг эсвэл алдаанаас хэрхэн сэргэдэг зэрэг орно.

Өгөгдлийн хариуны ажлын урсгалыг агентын даалгаврын ажлын урсгалтай харьцуулсан диаграмм нь хяналтын гогцоо, хэрэгслүүд, контекст, төсөв болон хамгаалалтууд нь даалгаврыг бие даан гүйцэтгэх боломжийг хэрхэн олгодог болохыг харуулж байна.

Ингэснээр үнэлгээг хэрхэн явуулах, мөн уншигчид үнэлгээний тайлангаас юуг хайх ёстой нь өөрчлөгдөнө. Бидний үзэж байгаагаар хамгийн хэрэгтэй тайлангууд нь үр дүнгээс гадна хоёр зүйлийг тодорхой тайлбарладаг: нэгдүгээрт, үнэлгээний тохиргоо ямар мэдэгдлийг шалгахаар бүтээгдсэнийг; хоёрдугаарт, үнэлгээний үр дүн хүчинтэй гэдгийг харуулах боломжтой нотолгоог.

Үнэлгээнд шалгадаг мэдэгдлүүд ихэвчлэн гурван ангиллын аль нэгэнд ордог¹:

Чадвар илрүүлэн гаргалт: Загвар үнэлж буй чадварыг бодитойгоор гаргаж чадна уу?
Хамгаалалтын гүйцэтгэл: Туршсан хамгаалалтууд үнэлж буй зан үйл эсвэл довтолгооны эсрэг хэр бат бөх вэ?
Харьцуулалт: Ижил нөхцөлд өөр өөр загварууд хэрхэн гүйцэтгэж байна вэ?

Үнэлгээний тайлангууд мөн үр дүнгийн хүчинтэй байдалд нөлөөлж болох нөлөөнүүдийг үнэлэгчид хэрхэн шалгасныг тайлбарлах хэрэгтэй. Үүнд дараах зүйлс орно:

Шагнал хакдах: Даалгавар эсвэл оноологч дахь товчлолыг ашиглан, үнэлгээ хэмжихээр зорьсон зан үйлийг харуулахгүйгээр системд оноо авах боломж олгох.
Татгалзал: Туршиж буй зан үйлийг халхалсан байдлаар татгалзах.
Бохирдол: Үнэлгээний даалгавар, хариулт, эсвэл ойролцоо хувилбарууд сургалтын өгөгдөлд байсан, эсвэл жишээ нь вэб үзэх замаар үнэлгээний үеэр олдох боломжтой байсан тул хэт сайн гүйцэтгэх.
Эвдэрсэн асуудлууд: Даалгаврууд хүчин төгөлдөр бус тул дутуу гүйцэтгэх. Шалтгаанд шударга бус оноолт (жиш., зөв хариулт нь дурдаагүй хэрэгжилтийн нарийн ширийнийг шаарддаг) болон шийдэх боломжгүй орчин (жиш., чухал файл дутуу эсвэл найдваргүй хэрэгсэл) багтаж болно.
Санаатай сул гүйцэтгэл: Үнэлж байгааг мэдэрч байгаагаа харуулах үедээ зориуд муу гүйцэтгэх.

Үнэлгээнд зөв бэхэлгээ сонгох нь оновчтой үр дүнд маш чухал

Бид урт зам дагуу ажилладаг системүүдэд бэхэлгээний үүрэг онцгой чухал болохыг ажигласан. Загварууд нь хэрэгслүүдийг ашиглаж, төлөв байдлыг хадгалж, олон алхамаар алдаагаа сэргээж чаддаг үед бэхэлгээ нь ажиглагдсан гүйцэтгэлийн түвшинг өөрчилж, үнэлэгдэж буй чадвар нь үнэлгээнд огт гарч ирэх эсэхийг тодорхойлж чадна. Жишээлбэл, төлөв байдлыг хадгалж, бүтэлгүйтсэн үйлдлүүдийг дахин оролддог бэхэлгээ нь загварт ижил загвар нь энгийн бэхэлгээнд хэзээ ч хийж чадахгүй олон алхамт ажлыг гүйцэтгэх боломжийг олгодог.

Доорх хүснэгтэд бид үнэлэгчдийн гаргахыг хүсэж болох гурван төрлийн мэдэгдэл болон тэдгээр тус бүрт шаардлагатай гэж үзэж буй бэхэлгээг ялган харуулсан.

Үнэлгээ дэмжихээр оролдож буй мэдэгдэл	Тохиромжтой бэхэлгээ сонголт	Тайлагнах нотолгоо
Хүчтэй илрүүлэн гаргалтын үеийн чадвар: Тохиргоо нь хамгийн хүчтэй, итгэл төрүүлэхүйц гүйцэтгэлийг нь гаргаж ирэхээр хийгдсэн үед Систем A нь X төрлийн даалгаврыг гүйцэтгэж чадна.	Чадварлаг хэрэглэгчийн боломжийн үнэтэй ашиглах боломжтой бэхэлгээ, багаж хэрэгсэл, шат, төсөв зэрэг системийн хамгийн найдвартай, найдвартай өдөөлтийн тохиргоог ашиглаарай.	Бэхэлгээ болон хэрэгслийн тохиргоо, илрүүлэн гаргах заавар, зөвшөөрсөн төсөв/хүчин чармайлт, токен/зардал/хугацаа, мөн энэ тохиргоо нь мэдэгдэж буй чадварын итгэл төрүүлэхүйц төлөөлөл болох шалтгаан. Хэрэв системүүдийг өөр өөр оновчлогдсон тохиргоон дор харьцуулж байгаа бол үүнийг систем хоорондын эсвэл хүчтэй-илрүүлэн-гаргалтын харьцуулалт гэж тэмдэглэ.
Хяналттай харьцуулалт: Хуваалцсан үнэлгээний тохиргоон дор Систем A нь Систем B-ээс илүү гүйцэтгэдэг.	Даалгавар, оноолт, төсвийг тогтмол байлга. Харьцуулж буй системүүдэд боломжийн дээд илрүүлэн гаргалт өгөхөөр урьдчилан сонгосон, хуваалцсан бэхэлгээ/хэрэгслийн тохиргоо эсвэл тогтмол стандартчилсан бэхэлгээнүүдийн багцыг ашигла.	Хуваалцсан даалгаврын багц, хэрэгслүүд, оноолтын арга, harness, төсөв, токены үр ашиг/зардал, мөн мэдэгдэж буй хязгаарлалтууд. Код бичих агентын үнэлгээнд Codex CLI зэрэг нээлттэй эхийн harness нь системүүдийн хооронд тогтмол агентын цикл болон хэрэгслийн интерфейс өгч чадна. Хамгийн их илрүүлэн гаргалтын хамгийн тохиромжтой арга нь даалгавар, систем бүрт тусгай harness-ийг оновчлох явдал боловч одоогоор энэ нь практикт хэрэгжүүлэхэд хүндрэлтэй байна.
Илрүүлэн гаргасан довтолгооны үеийн хамгаалалтын бат бөх байдал: Систем A-ийн хамгаалалтууд нь холбогдох загварын зан үйл эсвэл илрүүлэн гаргасан довтолгоонд хангалттай.	Холбогдох өрсөлдөгчийн загварын дагуу хамгийн хүчтэй найдвартай халдлагыг илрүүлэх зориулалттай хамгаалалтын туршилтын тохиргоог ашиглана уу.	Үнэлгээчид холбогдох загварын зан төлөв, туршсан хамгаалалтын тохиргоо, өдөөх стратеги, түүнийг хэрэгжүүлэхэд ашигласан бэхэлгээ, зөвшөөрөгдсөн төсөв эсвэл хүчин чармайлтыг хэрхэн тодорхойлсон.

Чадварын мэдэгдэл нь түүний цаадах илрүүлэн гаргалттайгаа л адил хүчтэй байдаг: үнэлэгчид даалгавар болон үнэлгээ хэмжихээр зорьж буй чадварт хамгийн сайн тохирох harness-ийг сонгох хэрэгтэй. Стандартчилсан бэхэлгээ нь ижил нөхцөлд системүүдийг харьцуулахад зөв байж болох ч, загварт даалгавар гүйцэтгэхэд тусалдаг тодорхой harness-ийн шинжүүдийг орхигдуулбал чадварыг дутуу харуулж болно. Жишээлбэл, OpenAI-ийн кибер мужууд дээрх GPT‑5.5‑ийн гүйцэтгэл нь урт, олон алхамт хэрэгслийн хэрэглээ шаарддаг даалгаварт бэхэлгээний сонголт хэмжигдсэн чадварыг бодитоор өөрчилж болохыг харуулдаг: харилцан үйлчлэл уртсах тусам даалгаварт хамаарах контекстыг хадгалахын тулд бэхэлгээ нягтруулалт⁠ ашиглах үед загвар илүү сайн гүйцэтгэдэг. Энэ нь тодорхой загваруудын хувьд нягтруулалтыг орхигдуулсан бэхэлгээ нь гүйцэтгэлийг дутуу илрүүлэн гаргана гэдгийг харуулж байна.

Амжилтын түвшин өндөр байх тусам сайн

Бусад нийтлэгдсэн үнэлгээнүүд² нь үнэлгээний үр дүнг өөрчлөхийн тулд бэхэлгээ болон төсвийн сонголтуудыг харуулдаг. Туршилтын хугацааны тооцооллыг нэмэгдүүлэх нь үнэлгээ ямар чадварыг бий болгож байгааг мэдэгдэхүйц өөрчилж чадна, ялангуяа олон кибер даалгавар гэх мэт амжилтыг баталгаажуулахад хялбар байдаг салбарт. Их Британийн AISI-ийн кибер хүрээний үнэлгээнд⁠(шинэ цонхонд нээгдэнэ)төсвийг 10 саяас 100 сая токен болгон нэмэгдүүлэх нь гүйцэтгэлийг 59% хүртэл сайжруулсан бөгөөд гүйцэтгэл нь туршигдсан хамгийн өндөр төсөвт өссөөр байв. Үүнийг нарийвчлан тайлбарлах нь үнэлгээг илүү тайлбарлах боломжтой болгодог: энэ нь уншигчдад үр дүн нь туршигдсан өдөөлтийн тохиргооноос хэрхэн хамааралтай болохыг харуулдаг. Нэмэлт төсөвтэй бол гүйцэтгэл сайжирсаар байх үед оноог хэмжсэн чадварын дээд хязгаар биш харин тухайн бэхэлгээ болон төсвийн дагуух гүйцэтгэл гэж тодорхойлох ёстой. Чадавхи нь ихэвчлэн нэг удаа цэвэр хэмжиж болох тогтмол хэмжээнээс илүү нөөцөөс хамааралтай байдаг. Амжилтыг давтан оролдлогоор хэмжиж болох тохиолдолд тайланд зөвхөн тогтмол токен төсөвт амжилтын түвшинг бус, амжилттай шийдэл тус бүрийн хүлээгдэж буй зардлыг харгалзан үзэх хэрэгтэй. Энэ нь ноцтой байдлыг тайлбарлахад хялбар болгож болно: давтан оролдлогын өртөг нь холбогдох аюул заналын загварт багтсан тохиолдолд амжилтын түвшин бага байх нь практик ач холбогдолтой хэвээр байж болно. Чадавхийн нэхэмжлэлийн хувьд зайлсхийх боломжтой дутуу таталт нь хэмжилтийн алдаа юм: хэрэв бэхэлгээ эсвэл төсөв нь системийг өөрөөр үүсгэж болох зан үйлийг харуулахаас сэргийлж байвал оноо нь нэхэмжлэгдэж буй чадварыг хэмжихгүй. Үнэлгээчид таталтыг аль болох хол түлхсэн бөгөөд гүйцэтгэл сайжирсаар байгаа тохиолдолд тайланд үүнийг тодорхой хэлж, үр дүн нь зөвхөн доод хязгаарын тооцоолол гэдгийг тодорхой зааж өгөх ёстой.

Хамгаалалтын туршилт нь довтолгоо амжилттай болох эсэх, мөн хэр ноцтой байж болохыг дутуу харуулж болно, хэрэв довтлогчдод боломжтой нөөц, үүнд тусгай harness-уудыг тооцохгүй бол. Их Британийн AISI-ийн GPT‑5.5кибер хүрээний үнэлгээнд⁠(шинэ цонхонд нээгдэнэ) тэдний мэргэжлийн улаан баг нь OpenAI-гийн өгсөн хорлонтой асуулгуудын турш, олон ээлжит агентлаг нөхцөлүүдийг оролцуулан, зөрчилтэй кибер агуулгыг илрүүлэн гаргасан түгээмэл jailbreak-ийг олсон. Тэд загварын довтолгооны гүйцэтгэлийг бэхжүүлэхийн тулд Codex ашиглан тусгай harness бүтээсэн: энэ нь дахин ашиглаж болох хамгаалалт тойрох хэв маягийг харилцан үйлчлэлд суулгаж, тэр хэв маягийг ээлж болон блокуудын турш хадгалж, OpenAI-гийн өгсөн хорлонтой кибер асуулгуудад хэрэглэсэн. Хамгаалалтын туршилт нь дайсагнагчтай таарах ёстой. Хэрэв мэдэгдэл нь мэргэжлийн буруугаар ашиглалтын эсрэг бат бөх байдлын тухай бол туршилт нь тодорхой төсвийн хүрээнд, тэр стратегийг хадгалж дахин ашиглахад шаардлагатай аливаа harness-ийг оролцуулан, хамгийн хүчтэй итгэл төрүүлэхүйц төгсгөлөөс төгсгөл хүртэлх довтолгооны стратегийг үнэлэх ёстой. Үгүй бол үр дүн буруу калибровкын эрсдэлтэй: тэд зөвхөн илүү энгийн өгөгдөлд тэсвэртэй байдлын нарийвтар мэдэгдлийг дэмжиж магадгүй, илрүүлэн гаргах арга ажиллагаанд орсны дараах довтолгооны ноцтой байдал болон амжилтын магадлалыг хоёуланг нь алдаж магадгүй, мөн хэт их төсөв өгвөл асуудал хэр магадлалтай эсвэл ноцтойг хэтрүүлэн харуулж ч болно.

Стандартчилсан бэхэлгээний харьцуулалтад цаг, байр суурь бий, гэхдээ үнэлэгчид яагаад тогтвортой бэхэлгээний багц ашиглах нь тохиромжтой, мөн энэ нь ямар мэдэгдлийг дэмжиж чадахыг тодорхой хэлэх ёстой. METR-ийн цагийн хүрээний үнэлгээ⁠(шинэ цонхонд нээгдэнэ) нь илүү өргөн, зохих ёсоор тогтмол үнэлгээний тохиргооны жишээ юм: энэ нь үнэлдэг системүүдийн хооронд харьцуулж болох үр дүн гаргахаар бүтээгдсэн. METR нь нийтлэг үр дүнг тодорхойлдог: AI агент тодорхой найдвартай түвшинд амжилттай болно гэж таамаглагдах хүний даалгаврын ердийн үргэлжлэх хугацаа. Энэ нь хамт тайлагнасан үнэлгээний багц бүрийн дотор хуваалцсан даалгаврын цуглуулга, оноолтын арга, тааруулах арга, мөн Triframe болон ReAct⁠(шинэ цонхонд нээгдэнэ) зэрэг дахин ашиглаж болох цөөн scaffolds-ийг хэрэглэдэг. METR даалгаврын цуглуулгаа өргөжүүлж, үнэлгээний дэд бүтцийг Vivaria нэртэй хүрээнээс Inspect нэртэй хүрээ рүү шилжүүлэхдээ өөрчлөлтийг (Time Horizon 1.1 шинэчлэлт⁠(шинэ цонхонд нээгдэнэ)) тайлагнаж, шинэ үнэлгээний тохиргоон дор загваруудыг дахин үнэлсэн. Энэ бол тогтмол бэхэлгээний багцыг оролцуулсан стандартчилсан үнэлгээний тохиргооны үнэ цэнэ юм: онооны ялгаа нь хэмжилтийн тохиргоо өөрчлөгдсөнөөс бус, харьцуулж буй системүүдийн ялгааг үнэхээр тусгаж байна гэдэгт уншигчдад итгэл төрүүлж чадна.

Гуравдагч этгээдийн үнэлгээний тайланд үнэлгээний тохиргоо нь ямар төрлийн нэхэмжлэлийг дэмжих ёстойг дурдах; туршсан зүйл нь тухайн өргөн хүрээтэй нэхэмжлэлийг хэр зэрэг тусгаж байгааг тайлбарлах; үр дүнд нөлөөлсөн холбоосын сонголтуудыг тайлбарлах; эдгээр сонголтууд үнэлгээний хооронд хэзээ өөрчлөгдсөнийг нарийвчлан тайлбарлах; мөн үр дүн хэрхэн гарсан, энэ нь нэхэмжлэлд хэр сайн нийцэж байгааг харуулах нотлох баримтуудыг оруулахыг бид зөвлөж байна.

Үр дүнг гажуудуулж болох мэдэгдэж буй аюулуудыг шалгаж хүчинтэй байдлыг үнэл

Загварууд илүү чадварлаг болохын хэрээр үнэлгээний оноог буруу тайлбарлахад хялбар болдог. Бодит чадавхитай харьцуулахад загвар нь үнэлэгдэж байгаагаа хүлээн зөвшөөрч, стратегийн хувьд дутуу гүйцэтгэл үзүүлбэл үнэлгээний оноог зохиомлоор бууруулж болно. Хэрэв загвар нь даалгавар, даалгавар, өгөгдөл эсвэл бэхэлгээний товчлолыг ашиглавал тэдгээр нь хэт өндөр байж болно. Мөн бохирдол (загвар нь даалгаврыг шийдэлгүйгээр хариултыг аль хэдийн мэддэг эсвэл олж чаддаг) эсвэл хоёрдмол утгатай, буруу оноотой, шийдэгдэхгүй эсвэл санамсаргүй товчлолд өртөмтгий "эвдэрсэн" асуудлуудаар гажуудуулж болно. Тиймээс үнэлгээний тайланд гарчгийн оноог эдгээр аюулын талаарх хэлэлцүүлэгтэй хослуулах хэрэгтэй бөгөөд ингэснээр уншигчид оноо нь төлөвлөсөн зан үйлийг тусгасан эсэхийг үнэлэх боломжтой болно.

Бэхэлгээ, төсөв, хэрэгсэл, онооны дүрэм, хяналт, хяналтын журам нь агент зорилтот даалгавраа шийдвэрлэж байгаа эсэх, түүнээс зайлсхийх, цээжлэх эсвэл тойрч гарах зам олох эсэхэд нөлөөлдөг. Найдвартай тайлан нь эдгээр шалгалтыг ил тод болгодог: үнэлгээчид үнэлгээ хийх бүрт эдгээр зан үйлийн дээжийг хянаж байх ёстой.

Шагнал хакдах

Шагнал хакдах гэдэг нь зорьсон чадварыг тусгахгүй аргаар өндөр үнэлгээний оноо авахыг хэлнэ. Энд санаа зовниж буй зүйл нь систем үнэлгээ хэмжихээр зорьсон ажлыг хийхийн оронд даалгавар, оноологч, өгөгдөл, эсвэл бэхэлгээг ашиглан оноо авч байгаа явдал юм. METR-ийн GPT 5.4-ийн үнэлгээ⁠(шинэ цонхонд нээгдэнэ) яагаад энэ чухал болохыг харуулдаг: загвар эхний байдлаар ойролцоогоор 13 цагийн цагийн хүрээтэй тэнцэх амжилтын түвшинд даалгавруудыг гүйцэтгэсэн ч хүний хяналт тэдгээр амжилтын зарим нь шагнал хакдсанаас үүдэлтэйг харуулсан бөгөөд шагнал хакдалтгүй тохиолдлуудыг л тооцон үр дүнг засварлахад үнэлгээ ойролцоогоор 6 цаг болж буурсан. Үнэлэгчид ийм засвар хэрэгтэй эсэхийг үнэлж, хэрэгтэй бол түүнийг тодорхой тайлагнах ёстой: уншигчид аль илэрхий амжилтуудыг хүчингүй болгосон, яагаад хүчингүй болгосон, мөн үр дүн тэр дүгнэлтээс хэр их хамаарч байгааг харж чадвал чадварын үнэлгээ илүү ашигтай болдог.

Цаг хугацааны явц дахь AI загварын гүйцэтгэлийг чиг хандлагын шугам болон итгэлцлийн интервалуудтай харуулсан график.

Татгалзал

Загварууд нь хамгаалалтын арга хэмжээний улмаас чадавхийн үнэлгээг дутуу гүйцэтгэж болно. Загвар нь үнэлгээний даалгавруудыг гүйцэтгэхийн оронд татгалзсанаас болж чадавхаасаа доогуур үнэлгээний гүйцэтгэлтэй байж болно. Тиймээс тайланд татгалзал нь үнэлгээний үр дүнгийн нэг хэсэг байсан эсэх, хэрэв тийм бол тэдгээрээс болж хэдэн дээж алдагдсаныг тайлбарлах хэрэгтэй.

Бохирдол

Бохирдол нь нийтийн эсвэл дахин ашигласан жишиг үзүүлэлтүүд⁠-д хамгийн их ач холбогдолтой. Хэрэв даалгавар, хариулт, эсвэл ойролцоо хувилбарууд сургалтын өгөгдөлд байвал, эсвэл вэб үзэх боломжтой агент олж чадвал гүйцэтгэл нь загварын гүйцэтгэлээс илүү цээжлэлт эсвэл хайлтыг тусгаж болно. Үнэлэгчид боломжтой бол хувийн эсвэл шинээр бүтээсэн даалгаврыг илүүд үзэж, загварууд шийдэхээсээ өмнө даалгаварт онцгой нарийн ширийнийг давтаж гаргаж байгаа эсэхийг шалгах ёстой.

Эвдэрсэн асуудлууд

Эвдэрсэн асуудлуудад санамсаргүйгээр шийдэх боломжгүй болсон асуудал зэрэг нөхцөлүүд орно. Эвдэрсэн асуудлууд нь хангалттай түгээмэл⁠(шинэ цонхонд нээгдэнэ) тул тэдгээрийг хүчинтэй байдлын стандарт эрсдэл гэж үзэх ёстой. Үүнд буруу ground truth, хоёрдмол өгөгдөл, дутуу файлууд, тогтворгүй үйлчилгээ, шударга бус оноолтын шалгуур, мөн нууц хариултын файл эсвэл ground-truth patch агуулсан репозиторын түүх зэрэг товчлолыг ил гаргадаг орчин багтана.

Санаатай сул гүйцэтгэл

Загвар эсвэл системийн дагуу элсээр дарах нь хүчтэй гүйцэтгэл нь зарим зорилгод зөрчилдөх үед стратегийн хувьд дутуу гүйцэтгэлтэй байхыг хэлнэ. Аполлоны GPT‑5.5 үнэлгээ⁠(шинэ цонхонд нээгдэнэ) нь загвар нь өндөр үнэлгээний оноо нь суралцахаа болих эсвэл байршуулалтыг хаахад хүргэж болзошгүйг ойлгосон нөхцөл байдлыг бий болгосноор үүнийг туршиж үзсэн. GPT‑5.5 нь зөв хариулт өгсөн хэвээр байгаа нь стратегийн дутуу гүйцэтгэлийн зан үйлийн нотолгоо бага байгааг харуулж байна ³. Гэхдээ тэдний үндэслэлийн ул мөрийг хянах нь чухал нөхцөл байдлыг нэмсэн: Аполло элсээр дарах нөхцөл байдлын дээжийн 52%-д дунд зэргийн буюу түүнээс дээш түвшний уялдаа холбоо-үнэлгээний мэдлэгийн шинж тэмдгийг илрүүлсэн бол эсрэг баримтад 0% байна. Энэ нотолгоо нь үр дүнгийн тайлбарыг төвөгтэй болгодог боловч эцэст нь уншигчдад илүү их дохио өгдөг: уншигчид тайвшруулах зан үйлийн үр дүн болон хэт тайлбарлахаас болгоомжлох шалтгааныг хоёуланг нь харж чадна.

Бид илүү хүчтэй үнэлгээг хэрхэн дэмжиж байна вэ

Хүчтэй нэхэмжлэлүүд нь зан төлөвийг тодорхойлох зөв бэхэлгээ болон үр дүн нь зөв болохыг харуулах хүчин төгөлдөр байдлын шалгалтыг хоёуланг нь шаарддаг. Бэхэлгээ болон хүчин төгөлдөр байдлын шалгалт нь үнэлгээний үр дүнгийн нэг хэсэг гэсэн бидний үзэл бодол нь бид гуравдагч этгээдийн үнэлгээг практикт хэрхэн дэмждэгийг тодорхойлдог:

Бид үнэлэгчидтэй хамгийн их илрүүлэн гаргалтын тодорхой зааврыг хуваалцаж байна.
Бид чадварын үнэлэгчдээс OpenAI загваруудад Codex-ийг нийтлэг доод түвшин болгон ашиглахыг хүсэж байна: туршилтууд нь зөвхөн хялбаршуулсан загварын интерфейсээр бус, хэрэглэгчид найдах магадлалтай ижил агентлаг интерфейсээр дор хаяж суурь хувилбарыг ажиллуулах ёстой.
Мөн хууран мэхлэлт, санаатай сул гүйцэтгэл, эсвэл үнэлгээний талаарх мэдрэмжийг үнэлэхэд шаардлагатай үед сэтгэн бодох мөрүүд болон бусад завсрын артефактуудыг бид нээлттэй болгож байна. METR болон Apollo нь GPT‑5‑аас хойш OpenAI үнэлгээнүүдэд энэ хандалтыг ашигласан.
Эцэст нь бид сонголтуудыг ашиглах нь үр дүнг хэзээ, хэрхэн мэдэгдэхүйц өөрчилдөгийг илүү гүнзгий ойлгохын тулд судалгааг эрэмбэлж байна. Үүнд контекст менежмент, хэрэгслийн хандалтаас эхлээд дахин оролдох зан төлөв, оноо, нөөцийн төсөв хүртэл орно.

Энэ нь үнэлгээний стандартууд болон ирээдүйн судалгааны чиглэлүүдэд юу гэсэн үг вэ

Эдгээр зөвлөмж нь зөвхөн тус тусын үнэлгээний тайланг сайжруулахад бус, мөн хил хязгаар AI-ийн үнэлгээ, тайлагналын шинээр бүрэлдэж буй үндэсний ⁠(шинэ цонхонд нээгдэнэ)болон олон улсын ⁠(шинэ цонхонд нээгдэнэ)стандартуудад мэдээлэл өгөх зорилготой. Цаашид гуравдагч талын үнэлгээний стандартууд нь шийдвэр гаргагчдад тухайн үнэлгээнүүд ямар мэдэгдлийг дэмжиж байгааг, ямар систем туршсан, үр дүнг хэрхэн илрүүлэн гаргасан, мөн үнэлэгчид хүчинтэй байдлыг нь хэрхэн шалгасныг ойлгоход хангалттай дэлгэрэнгүй мэдээлэл шаардах ёстой. Агентлаг чадвар чухал даалгавруудаар туршигдаж буй хил хязгаар системүүдийн хувьд дэлгэрэнгүй мэдээлэлд (аюулгүй байдал эсвэл нууцлалын аливаа асуудлыг харгалзан) дараах зүйлс багтах ёстой:

Мэдэгдэл: үнэлгээ нь системүүдийг харьцуулж байна уу, чадварын дээд хязгаарыг тооцож байна уу, эсвэл хамгаалалтыг туршиж байна уу.
Үнэлгээний агуулга: Үнэлгээ нь үнэндээ ямар ур чадвар, зан байдал, эсвэл бүтэлгүйтлийн хэлбэрүүд болохыг уншигчдад ойлгоход даалгавар эсвэл даалгаврын хуваарилалтын талаар хангалттай дэлгэрэнгүй мэдээлэл өгөх.
Туршсан систем: загвар, сэтгэн бодох тохиргоо, хэрэгслийн хандалт, бэхэлгээ, болон хамгаалалтууд.
Төсөв: ээлж, токен,оролдлого/дахин оролдлого, ханын цагийн хугацаа, дүгнэлтийн зардал, мөн шаардлагатай бол амжилттай шийдэл тус бүрийн хүлээгдэж буй зардал.
Илрүүлэн гаргах аргууд: үр дүнг гаргаж ирэхэд ашигласан harness-ийн сонголтууд, мөн туршсан зүйл нь гаргаж буй өргөн мэдэгдлийг хэр ойр тусгаж байгааг.
Хүчинтэй байдлын шалгалтууд: үнэлэгчид шагнал хакдах, үнэлгээний талаарх мэдрэмж, бохирдол, татгалзал, санаатай сул гүйцэтгэл болон үр дүнг сулруулж болох бусад зан үйлийг хэрхэн хайсныг, мөн батлагдсан тохиолдлууд оноолт эсвэл тайлбарт хэрхэн нөлөөлснийг.

Бэхэлгээний сонголт эсвэл хүчин төгөлдөр байдлын шалгалтыг орхигдуулсан стандартууд нь систем юу хийж чадахыг дутуу үнэлэх эсвэл аюулгүй байдлын мэдэгдэлд итгэх итгэлийг хэтрүүлж болзошгүй юм. Хүчтэй бэхэлгээ болон өдөөх аргуудыг бий болгох нь нээлттэй судалгааны чиглэл хэвээр байгаа бөгөөд цаашид судалгаа, хөрөнгө оруулалтын гол анхаарал хандуулах ёстой.

2026

Зохиогч

OpenAI

Тайлбар толь

Бид энэ нийтлэлд хэд хэдэн урлагийн нэр томьёог ашигласан тул доор бидний юу гэж хэлснийг энгийн хэлээр тайлбарласан тайлбар толь бичгийг оруулсан болно:

Агент систем: Зөвхөн ганц хариулт өгөгдөл болгон буцаахаас илүүтэйгээр хэрэгслүүдийг ашиглах, даалгаврын төлөвийг хадгалах, орчинд ажиллах замаар даалгаврыг олон алхамаар гүйцэтгэх боломжтой систем.
Үнэлгээ дүгнэлт: Үнэлгээний өгөгдөл, баримт бичгийн хяналт, ярилцлага, үйл явцын хяналт болон бусад холбогдох олдворууд дээр үндэслэсэн байж болох нэхэмжлэл, эрсдэлийн дүгнэлт эсвэл баталгаажуулалтын байр суурийг нотлох баримт дэмжиж байгаа эсэх талаарх өргөн хүрээтэй дүгнэлт.
Нягтруулалт: Урт хугацааны явцад даалгаварт хамаарах контекстыг хадгалах арга.
Тохиргоо: Загварын нэрнээс гадна яг туршсан систем болон үнэлгээний нөхцөлүүд.
Бохирдол: Үнэлгээний даалгавар, хариулт эсвэл хаалтын хувилбарууд нь загварын сургалтын өгөгдөлд гарч ирэх эсвэл үнэлгээний явцад (жишээлбэл, хөтөч гэх мэт хэрэгслүүдээр дамжуулан) илрэх боломжтой үед гүйцэтгэл нь загварын жинхэнэ ерөнхийлөлтийг хэтрүүлэн харуулдаг үзэгдэл.
Илрүүлэн гаргах: Үнэлгээний явцад системээс чадвар эсвэл зан төлөвийг гаргаж авахыг оролдох үйл явц.
Орчин: Системийг турших даалгаврын тохиргоо. Үүнд агентын үнэлгээний явцад харилцан үйлчилж, өөрчилдөг гадаад төлөв, тухайлбал терминалын орчин эсвэл видео тоглоом зэрэг зүйлс багтана.
Үнэлгээ: Үнэлгээ дүгнэлтийн доторх тодорхой туршилт эсвэл хэмжилт.
Үнэлгээний талаарх мэдрэмж: Үнэлгээний талаарх мэдрэмж гэдэг нь загвар нь өөрийгөө үнэлж байгаагаа хүлээн зөвшөөрч эсвэл хүлээн зөвшөөрч байгаа мэт харагдаж, тухайн нөхцөл байдалд хариу үйлдэл үзүүлж, зан төлөвөө өөрчлөхийг хэлнэ. Энэ нь загвар нь туршиж үзэх, үнэлгээний зорилгыг дүгнэх, эсвэл үр дүн нь түүнийг хэрхэн үнэлэх, ашиглахад нөлөөлнө гэж найдаж байгаа тул зан төлөвөө өөрчлөх талаар тодорхой сэтгэн бодох үндэслэл гаргаж байгаа мэт харагдаж болно.
Бэхэлгээ: Загварт даалгавар гүйцэтгэх боломжийг олгодог загварт чиглэсэн бүтэц: хүлээх мөрүүд, хэрэгслүүд, интерфэйсүүд, хяналтын логик, санах ой, дахин оролдлого, баталгаажуулагч болон загварыг тойрсон бусад дэмжих бүтэц.
Хамгийн их илрүүлэн гаргалт: Системийг стандартчилсан бэхэлгээгээр нэг удаа ажиллуулахаас илүүтэйгээр, тодорхой төсвийн хүрээнд систем гаргаж чадах хамгийн хүчтэй, итгэл төрүүлэхүйц гүйцэтгэл эсвэл алдааны горимыг олоход чиглэсэн туршилт.
Сэтгэн бодох мөрүүд: Туршилтын үеийн загварын завсрын сэтгэн бодох үйл явцын бичлэгүүд.
Шагнал хакдах: Үнэлэгчийн зорилгоос гадуурх товчлол эсвэл зан үйлээр өндөр оноо авах.
Хамгаалалтууд: Загвар эсвэл бүтээгдэхүүний эргэн тойронд хэрэглэдэг шүүлтүүр, хяналт, хаах систем болон бусад хамгаалалт.
Санаатай сул гүйцэтгэл: Үр дүнг нь үгүйсгэх байдлаар үнэлгээнд стратегийн дутуу гүйцэтгэл гаргах.
Оноолт: Гүйцэтгэлийг хэрхэн хэмжих, эсвэл даалгавар амжилттай болсон эсэхийг шийдэхэд ашигладаг арга.
Стандартчилсан бэхэлгээ: Тодорхой загвар эсвэл даалгаварт тохируулан өөрчлөхийн оронд системүүдийн хооронд ижил байлгадаг бэхэлгээ бөгөөд ингэснээр үр дүнгийн ялгааг туршсан загвартай холбон тайлбарлахад хялбар болдог.
Цагийн хүрээ: Систем тодорхой найдвартай байдлаар гүйцэтгэж чадах даалгаврын урт бөгөөд үүнийг ихэвчлэн ижил даалгаврыг хүн хийхэд хэр хугацаа орох вэ гэдгээр илэрхийлдэг.
Хэрэгслийн хандалт: Үнэлгээний үеэр загварт ашиглах боломжтой гадаад хэрэгслүүд.
Траекторууд: Даалгавар дээр ажиллахдаа системийн дагадаг алхам алхмын замууд.
Түгээмэл jailbreak: Олон өгөгдөл эсвэл даалгаврын турш системийг хамгаалалтаа тойрон гарахад хүргэдэг нэг төрлийн довтолгооны хэв маяг.

Зүүлт тайлбар

1
Энэ нийтлэл нь гуравдагч этгээдүүд буруу тохируулга эсвэл хандлагатай холбоотой нэхэмжлэлийг хэрхэн үнэлэх ёстойг шийдэхийг оролдоогүй болно. Ялангуяа урт хугацааны зан төлөвийг дэмждэг бэхэлгээ нь үнэлгээчдийн хянах шаардлагатай санамсаргүй зан төлөвийн төрлийг өөрчилж болох тул бэхэлгээний сонголтууд эдгээр үнэлгээнд хэрхэн нөлөөлдөг болохыг ойлгохын тулд илүү их ажил хийх шаардлагатай байна.
2
HAL⁠(шинэ цонхонд нээгдэнэ) нь агентын үнэлгээнээс нэмэлт жишээ өгдөг: CORE-Bench⁠(шинэ цонхонд нээгдэнэ) дээр harness-ийг Claude Code болгон өөрчлөхөд ижил benchmark дээр хэмжигдсэн гүйцэтгэл болон зардлын профайл хоёул өөрчлөгдсөн. Бусад олон нийтэд нээлттэй жишээнд SWE-agent⁠(шинэ цонхонд нээгдэнэ), SeeAct⁠(шинэ цонхонд нээгдэнэ), ScienceAgentBench⁠(шинэ цонхонд нээгдэнэ), CORE-Bench⁠(шинэ цонхонд нээгдэнэ), болон Inspect Cyber⁠(шинэ цонхонд нээгдэнэ) орно; тус бүр нь ямар интерфейс эсвэл harness-аар оноо гарсныг уншигчдад хэлдэг.
3
Sandbagging QA-ийн хоёр хувилбар дээр 100%, мөн стратегийн хууран мэхлэлтийн sandbagging даалгавар дээр 99.6% оноо авсан.

Үргэлжлүүлэн уншина уу

Бүгдийг үзэх

Safety and alignment in an era of long-horizon models

Аюулгүй байдал2026 оны 7-р сарын 20

Why teens deserve access to safe AI

Аюулгүй байдал2026 оны 7-р сарын 16

GPT-Red: Unlocking Self-Improvement for Robustness

Аюулгүй байдал2026 оны 7-р сарын 15