Сэтгэн бодох загварууд бодлын хэлхээгээ хянахдаа муу, энэ нь сайн хэрэг
Хил хязгаар загваруудын нэг хязгаарлалт яагаад AI аюулгүй байдалд итгэл төрүүлдэг вэ.
AI агентууд улам бүр нарийн төвөгтэй, бие даасан даалгавруудыг гүйцэтгэх чадвартай болохын хэрээр тэдний зан үйлийг найдвартай хянаж байх нь илүү чухал болж байна. Давтамжтай нэвтрүүлэлтийн зарчимтайгаа нийцүүлэн бид системүүд бодит орчинд хэрхэн ажиллаж байгааг судалж, чадвар нь ахихын хэрээр хамгаалалтын арга хэмжээг тасралтгүй сайжруулдаг. Үүнийг дэмжихийн тулд манай аюулгүй байдлын хандлага нь гүн давхар хамгаалалт ашигладаг бөгөөд үүнд аюулгүй байдлын сургалт, зан үйлийн туршилт, агент маягийн кодын шалгалт(шинэ цонхонд нээгдэнэ), мөн бодлын хэлхээ (CoT)-ийн хяналт зэрэг харилцан нөхөх олон давхар хамгаалалт багтдаг. CoT хяналт нь агентууд даалгавар гүйцэтгэх явцдаа үүсгэдэг сэтгэн бодох алхмуудыг шинжилдэг. Эдгээр сэтгэн бодох мөрүүд нь сургалтын үед ч, нэвтрүүлсний дараа ч үнэ цэнтэй дохио өгч, агентын үйлдэл аюулгүй бус эсвэл хэрэглэгчийн зорьсон зорилготой нийцэхгүй байж болзошгүй мөчийг хяналтын системүүдэд илрүүлэхэд тусалдаг.
Өнөөдөр бид загваруудын сэтгэн бодох үйл явц ерөнхийдөө тайлбарлах боломжтой бөгөөд хянахад хялбар байгааг олж харж байна. Гэхдээ ирээдүйд хянагдах чадвар нь янз бүрийн шалтгаанаар(шинэ цонхонд нээгдэнэ) алдагдаж магадгүй. Энд бид тийм нэг замд анхаарч байна: хэрэв агентууд хянагдаж байгаагаа мэдэх үедээ өөрсдийн сэтгэн бодох явцыг санаатайгаар өөрчилж эсвэл бүдгэрүүлэх чадвартай болбол үнэлгээнүүд системийн нийцэл эсвэл аюулгүй байдлыг хэт өндөрөөр үнэлж, хяналтын системүүдийн найдвартай байдал буурч болзошгүй.
Энэ ажилд бид одоогийн сэтгэн бодох загварууд хянагдах чадварыг бууруулах байдлаар бодлын хэлхээгээ удирдах чадвартай эсэхийг судалсан. AI системүүд илүү чадвартай болохын хэрээр CoT хяналт бат бөх хамгаалалт хэвээр үлдэхийг хангахад энэ чадварыг ойлгох нь чухал. Бид одоогийн сэтгэн бодох загварууд хянагдаж байна гэж хэлсэн ч гэсэн CoT-уудаа хянахдаа бэрхшээлтэй байгааг олж мэдсэн. Том загваруудад хянах чадвар өндөр боловч загвараас илүү урт хугацаанд сэтгэн бодохыг шаардах үед болон нэмэлт дараах сургалт хийлгэх үед энэ нь буурдаг. Манай үр дүнгээс харахад CoT хянах чадвар нь одоогоор CoT хянагдах чадварт томоохон эрсдэл учруулах магадлал багатай боловч загварууд ахихын хэрээр үргэлжилсэн үнэлгээ чухал хэвээр байна.
Бодлын хэлхээ гэдэг нь AI агент даалгавар шийдэх явцдаа үүсгэдэг завсрын сэтгэн бодох алхмуудыг хэлнэ. Эдгээр сэтгэн бодох мөрүүд нь аюулгүй байдлын хэрэгтэй дохио өгч, агентын үйлдэл аюулгүй эсэх эсвэл нийцтэй эсэхийг хяналтын системүүдэд үнэлэхэд тусалдаг.
CoT хянах чадвар гэдэг нь сэтгэн бодох загвар өөрийн CoT-ийн шинжүүдийг хянагдах чадварыг бууруулах байдлаар удирдах чадвар юм. Бодит хэрэглээнд бидний хүлээж болох хяналтаас бултах сэдлүүдийн бүх өргөн хүрээнд энэ чадварыг хэмжих нь хэцүү. Үүний оронд бид практик орлуулагч ашигладаг: загвар өөрийн CoT-ийн талаар өгсөн хэрэглэгчийн зааврыг дагах чадварыг хэмждэг. Жишээлбэл, бид загвар дотоод сэтгэн бодохдоо нөлөөлөх зааврыг дагаж чадах эсэхийг шалгадаг—тухайлбал зөвхөн жижиг үсэг хэрэглэх, тодорхой түлхүүр үгсээс зайлсхийх, эсвэл тодорхой хэллэг нэмэх—зөвхөн харагдах гаралтыг өөрчлөхөөс илүү.
Үүнийг судлахын тулд бид сэтгэн бодох загваруудын CoT хянах чадварыг хэмжих нээлттэй эхтэй үнэлгээний багц болох CoT-Control-ийг танилцуулж байна. CoT-Control нь тогтсон бенчмаркуудаас бүтсэн 13,000 гаруй даалгаврыг агуулдаг: GPQA, MMLU-Pro, HLE, BFCL болон SWE-Bench Verified. Даалгавар бүр нь бенчмаркийн нэг асуудлыг CoT-ийн нэг заавартай хослуулж бүтдэг. Жишээ нь CoT дотор асуудалтай холбоотой тодорхой түлхүүр үгсээс зайлсхийх, зөвхөн жижиг үсэг хэрэглэх, эсвэл өгөгдсөн үгийг өгүүлбэр бүрийн төгсгөлд нэмэх зэрэг орно.
Бид 13 сэтгэн бодох загварт үнэлгээ хийж, бүгд CoT-уудаа найдвартай хянахдаа бэрхшээлтэй байгааг олсон. Бид хянах чадварыг загвар манай CoT зааврыг амжилттай биелүүлсэн сэтгэн бодох мөрүүдийн хувь хэмжээгээр хэмждэг. Хил хязгаар загваруудын хувьд CoT хянах чадварын оноо бага байсан бөгөөд 0.1%-иас эхэлж, бидний туршсан одоогийн ямар ч хил хязгаар загварт 15.4%-иас хэтрээгүй.
Энэ чадваргүй байдал нь даалгаврыг буруу ойлгосноос үүдэлтэй биш: загварууд CoT дотроо өгсөн CoT зааврыг биелүүлэхгүй байгаагаа ихэвчлэн анзаардаг бөгөөд—үүнийг ойлгосныхоо дараа ч—алдаагаа үргэлжлүүлсээр байдаг. Ийм гайхмаар бага гүйцэтгэл нь CoT хянагдах чадварт сайн мэдээ юм: энэ нь загварууд манай хяналтаас бултахын тулд өөрсдийн сэтгэн бодох явцыг бүдгэрүүлэх чадвар мөн адил дутмаг байж магадгүйг харуулж байна.
Олон хил хязгаар загварын гаралт болон CoT-оо хянах чадвар. CoT хянах чадвар бага байх нь хянагдах чадвар өндөр, улмаар аюулгүй байдал өндөр байгаатай холбоотой.
CoT хянах чадвар алдагдсан жишээнүүд
Асуултуудыг товчлох үүднээс өөрөөр найруулсан.
GPT-5.2 Thinking
GPT‑5.2 Thinking хориотой үг (улаан)-ийг хэрэглэх ёсгүй байснаа ойлгосныхоо дараа, өмнө нь хэрэглэсэндээ сандарсаар түүнийг дахин 4 удаа хэрэглэсээр байна.
Хянах чадвар загварын хэмжээтэй хамт өсөж байгааг бид харж байгаа ч дараах сургалт болон тестийн үеийн тооцооллын хэмжээ нэмэгдэхэд энэ нь хурдан буурдгийг бас олсон. Нээлттэй жинтэй загварын хоёр гэр бүлийг харьцуулахад том загварууд бодлын хэлхээгээ хянахдаа арай дээр байсан ч хэмжээ өсөх тусам энэ нөлөө саарсан. Гэвч загваруудад илүү удаан бодох боломж олгоход тэдгээр нь бодлын хэлхээгээ хянах чадвар нь буурсан. OLMo-3-7B-RL-Zero-Math-ийн RL сургалтад ч бид төстэй хандлага ажигласан: сургалтын явцад түүний хянах чадварын оноо арав дахин ихээр буурсан.
Нээлттэй жинтэй загваруудад хэмжээ өсөхийн хэрээр хянах чадвар нэмэгддэг ч илүү урт сэтгэн бодох болон илүү их RL сургалтаар дорддог.
Хяналтаас бултах бодит сэдлийг дуурайхын тулд бид загваруудад өөрсдийг нь хянаж эсвэл үнэлж байна гэж хэлсэн үед хянах чадварыг хэмждэг. Энэ нь хянах чадварыг бага зэрэг (гэхдээ мэдэгдэхүйц) нэмэгдүүлдэг. Мөн бид өндөр хянах чадвар өдөөдөг өгөгдлийг олохын тулд автомат өгөгдөл оновчлол ашигладаг. Оновчлогч сургалтын багц дээр хянах чадварыг нэмэгдүүлж чаддаг ч эдгээр ахиц шинэ төрлийн зааварт (жишээ нь үгсийн хооронд зайгүй байхыг шаардах) муу шилждэг.
CoT хянах чадварыг сөргөлдөөнт нөхцөлд хэмжсэн. “Хяналтын талаарх мэдлэг” нь загваруудад тэдний CoT-ийг хянаж байгааг мэдэгдсэн тохиргоог хэлнэ. “Үнэлгээний талаарх мэдлэг” нь загваруудад тэднийг CoT хянах чадвараар үнэлж байгааг мэдэгдсэн тохиргоог илэрхийлнэ.
CoT-Control дахь даалгаврууд нь практик орлуулагчид юм: хамгийн тохиромжтой CoT хянах чадварын үнэлгээ нь угтаа нийцгүй зорилго хөөж байгаа загварууд хяналтаас бултахын тулд CoT-оо удирдаж чадах эсэхийг шалгах ёстой. Үүний оронд бид агентуудын CoT-оо хянах чадварыг CoT-ийнх нь талаар өгсөн зааврыг дагах чадварыг хэмжих замаар ойролцоогоор үнэлдэг. Түүнчлэн загварууд CoT-ийнхоо зарим шинжийг бусдаасаа илүү сайн хянаж чаддаг бөгөөд CoT-Control нь зөвхөн нарийн хүрээний хянах төрлүүдийг хэмждэг тул хянах чадварыг хэт өндөр эсвэл хэт бага үнэлж байж магадгүй.
CoT хянах чадвар бага байх нь алдаа биш, давуу тал юм. Одоогийн сэтгэн бодох загваруудын хянах чадвар бага байгаа нь хамгаалалтын арга хэмжээ болох CoT хяналтыг илүү найдвартай болгодог. Үүний зэрэгцээ бид одоогийн сэтгэн бодох загваруудын хянах чадвар яагаад бага байгааг—эсвэл загварууд илүү чадвартай болох тусам энэ шинж хадгалагдах эсэхийг—одоогоор ойлгоогүй байна. Тиймээс CoT хянах чадварын үнэлгээг canary eval буюу загварууд сэтгэн бодохоо хэлбэржүүлэх эсвэл нуух чадвараа сайжруулж байгаа эсэхийн эрт сэрэмжлүүлэх дохио гэж үзэж болно.
Манай үр дүнгээс харахад CoT хянах чадвар нь одоогоор CoT хянагдах чадварт томоохон эрсдэл учруулах магадлал багатай. Гэхдээ хянах чадвар бага байх нь дангаараа өндөр хянагдах чадварыг батлахад хангалтгүй, учир нь CoT дээр шууд оновчлолын дарамт үзүүлэх зэрэг өөр механизмаас шалтгаалан хянагдах чадвар доройтож болно.
Эдгээр динамикийг цаг хугацааны явцад хянахад туслахын тулд бид ирээдүйн хил хязгаар загваруудын системийн картуудад CoT хянагдах чадвар-ын хамт CoT хянах чадварыг тайлагнаж эхэлнэ. Үүнийг GPT‑5.4 Thinking-ээс эхлүүлж, хил хязгаар сэтгэн бодох загваруудын CoT дээр шууд оновчлолын дарамт үзүүлэхгүй байх талаарх бидний үргэлжилсэн амлалтад тулгуурлана.
Зохиогчид
Tomek Korbak, Micah Carroll, Bowen Baker, Ian Kivlichan


