Model nalar angel ngontrol ranté pikirané, lan iki kabar apik
Napa watesan model tercanggih iki njanjekake kanggo safety AI.
Nalika agen AI saya mampu nindakake tugas sing saya rumit lan otonom, njaga pengawasan sing andal marang prilakune dadi saya penting. Selaras karo prinsip deployment iteratif, kita nyinaoni carane sistem tumindak ing setelan donya nyata lan terus nyempurnakake pengaman nalika kapabilitas maju. Kanggo ndhukung iki, pendekatan safety kita nggunakake defense-in-depth, kanthi pirang-pirang lapisan pertahanan pelengkap kaya pelatihan safety, uji perilaku, tinjauan kode agentik(mbukak ing jendhela anyar), lan pemantauan chain-of-thought (CoT). Pemantauan CoT nganalisis langkah nalar sing digawe agen nalika nggayuh tugas. Jejak nalar iki bisa menehi sinyal berharga nalika latihan lan deployment, nulungi sistem pemantauan ngenali nalika prilaku agen bisa uga ora aman utawa ora selaras karo tujuan sing dikarepake pangguna.
Dina iki, kita nemokake yen nalar model umume bisa diinterpretasi lan gampang dipantau. Nanging, mbesuk, monitorabilitas bisa rusak amarga macem-macem sebab(mbukak ing jendhela anyar). Ing kene, kita fokus marang salah siji jalur kasebut: yen agen dadi mampu kanthi sengaja mbentuk ulang utawa nyamarke nalare nalika ngerti yen dheweke lagi dipantau, evaluasi bisa kakehan ngira alignment utawa safety sistem, lan sistem pemantauan bisa dadi kurang andal.
Ing karya iki, kita nyinaoni apa model nalar saiki mampu ngontrol ranté pikirané kanthi cara sing nyuda monitorabilitas. Ngerti kapabilitas iki penting kanggo mesthekake yen pemantauan CoT tetep dadi pengaman sing kukuh nalika sistem AI saya mampu. Kita nemokake yen model nalar saiki angel ngontrol CoT-ne, sanajan wis dikandhani yen lagi dipantau. Sanajan kontrolabilitas luwih dhuwur ing model sing luwih gedhe, kontrolabilitas mudhun nalika model dijaluk nalar luwih suwe lan nalika ngalami post-training tambahan. Asil kita nuduhake yen kontrolabilitas CoT saiki cenderung ora dadi risiko gedhe kanggo monitorabilitas CoT, sanajan evaluasi terus-terusan bakal tetep penting nalika model maju.
Chain of thought nuduhake langkah nalar antarané sing digawe agen AI nalika ngrampungake tugas. Jejak nalar iki bisa menehi sinyal safety sing migunani, nulungi sistem pemantauan netepake apa prilaku agen aman utawa selaras.
Kontrolabilitas CoT yaiku kemampuan model nalar kanggo ngontrol sifat-sifat CoT-ne kanthi cara sing nyuda monitorabilitas. Ngukur kapabilitas iki kanthi jangkauan lengkap insentif realistis kanggo nyingkiri monitor sing bisa diarepake ing praktik iku angel. Mula, kita nggunakake proxy praktis: kita ngukur kemampuan model kanggo nuruti instruksi pangguna babagan CoT-ne. Tuladhane, kita nguji apa model bisa nuruti instruksi sing mengaruhi nalar internalé—kayata mung nganggo huruf cilik, nyingkiri tembung kunci tartamtu, utawa nambah frasa tartamtu—tinimbang mung ngowahi output sing katon.
Kanggo nyinaoni iki, kita ngenalake CoT-Control, paket evaluasi open-source kanggo ngukur kontrolabilitas CoT saka model nalar. CoT-Control ngemot luwih saka 13.000 tugas sing dibangun saka benchmark sing wis mapan: GPQA, MMLU-Pro, HLE, BFCL lan SWE-Bench Verified. Saben tugas digawe kanthi masangake masalah benchmark karo siji instruksi CoT kayata nyingkiri tembung kunci tartamtu sing relevan karo masalah ing CoT, mung nganggo huruf cilik, utawa nambahi tembung sing diwenehake ing saben ukara.
Kita nindakake evaluasi marang 13 model nalar, lan nemokake yen kabeh angel ngontrol CoT-ne kanthi andal. Kita ngukur kontrolabilitas minangka fraksi jejak nalar nalika model kasil netepi instruksi CoT saka kita. Ing model tercanggih, skor kontrolabilitas CoT rendah, saka 0,1% lan ora ngluwihi 15,4% kanggo model tercanggih saiki sing kita uji.
Ketidakmampuan iki dudu amarga salah paham tugas: model asring ngerti ing CoT-ne yen dheweke gagal netepi instruksi CoT sing diwenehake lan—sanajan wis nyadari iki—isih terus gagal. Kinerja sing nggumunake rendah iki kabar apik kanggo monitorabilitas CoT: iki nuduhake model bisa uga uga durung nduweni kemampuan kanggo nyamarke nalare supaya lolos saka monitor kita.
Kemampuan pirang-pirang model tercanggih kanggo ngontrol output lan CoT-ne. Kontrolabilitas CoT sing luwih rendah gegandhengan karo monitorabilitas sing luwih dhuwur lan, mula, safety sing luwih dhuwur.
Tuladha kegagalan kontrolabilitas CoT
Pitakon diparafrase supaya luwih cekak.
GPT-5.2 Thinking
GPT‑5.2 Thinking nyadari manawa dheweke ora kudune nggunakke tembung sing dilarang (abang), banjur malah nggunakke maneh 4 kaping liyane karo panik amarga wis kebacut nggunakke.
Sanajan kita pancen weruh yen kontrolabilitas mundhak bareng gedhene model, kita uga nemokake yen kontrolabilitas cepet mudhun amarga jumlah post-training lan komputasi wektu-uji. Nalika ndeleng rong kulawarga model open-weight, model sing luwih gedhe rada luwih apik ngontrol ranté pikirané, senajan pengaruhé saya cilik ing ukuran sing luwih gedhe. Nanging nalika model dakkandhani supaya mikir luwih suwe, dheweke dadi kurang mampu ngontrol ranté pikiran kasebut. Kita weruh tren sing padha kanggo latihan RL saka OLMo-3-7B-RL-Zero-Math: skor kontrolabilitasé mudhun luwih saka sepuluh kali lipat sajrone latihan.
Kontrolabilitas mundhak kanthi skala ing model open-weight nanging mudhun amarga nalar luwih dawa lan latihan RL luwih akeh.
Kanggo nyimulasi insentif realistis kanggo nyingkiri monitor, kita ngukur kontrolabilitas nalika model dikandhani yen dheweke lagi dipantau utawa dievaluasi. Iki rada (nanging katon) nambah kontrolabilitas. Kita uga nggunakake optimisasi prompt otomatis kanggo nemokake prompt sing nimbulake kontrolabilitas dhuwur. Sanajan optimizer bisa nambah kontrolabilitas ing set latihan, peningkatan iki kurang bisa pindhah menyang jinis instruksi anyar (kayata mewajibkan tanpa spasi antarane tembung).
Kontrolabilitas CoT ana ing kondisi adversarial. “Kesadaran monitor” nuduhake setelan nalika kita ngandhani model manawa CoT-ne lagi dipantau. “Kesadaran evaluasi” nuduhake setelan nalika kita ngandhani model manawa dheweke lagi dievaluasi kanggo kontrolabilitas CoT.
Tugas ing CoT-Control iku proxy praktis: evaluasi kontrolabilitas CoT sing ideal bakal nglibatake pengujian apa model sing kanthi alami nggayuh tujuan sing ora selaras bisa ngontrol CoT-ne kanggo nyingkiri pemantauan. Nanging, kita ngira kemampuan agen ngontrol CoT-ne kanthi ngukur kemampuané nuruti instruksi babagan CoT-ne. Kajaba iku, model bisa ngontrol sawetara fitur CoT luwih apik tinimbang liyane, lan CoT-Control bisa uga kakehan utawa kekurangan ngira kontrolabilitas amarga mung ngukur sak set sempit jinis kontrolabilitas.
Kontrolabilitas CoT sing rendah iku fitur, dudu bug. Kontrolabilitas model nalar saiki sing rendah ndadekake pemantauan CoT luwih bisa dipercaya minangka pengaman. Ing wektu sing padha, kita durung ngerti kenapa kontrolabilitas model nalar saiki rendah—utawa apa sifat iki bakal tetep ana nalika model saya mampu. Mula, evaluasi kontrolabilitas CoT bisa dianggep minangka eval canary: tandha peringatan awal apa model dadi luwih apik mbentuk utawa ndhelikake nalare.
Asil kita nuduhake yen kontrolabilitas CoT saiki cenderung ora dadi risiko gedhe kanggo monitorabilitas CoT. Nanging, kontrolabilitas rendah dhewe ora cukup kanggo njamin monitorabilitas dhuwur amarga monitorabilitas isih bisa mudhun amarga mekanisme liya kayata tekanan optimisasi langsung marang CoT.
Kanggo nulungi nglacak dinamika iki saka wektu ke wektu, kita bakal miwiti nglaporake kontrolabilitas CoT bebarengan karo monitorabilitas CoT ing kertu sistem kanggo model tercanggih mbesuk, diwiwiti saka GPT‑5.4 Thinking, nerusake komitmen berkelanjutan kita supaya ora nerapake tekanan optimisasi langsung marang CoT saka model nalar tercanggih.
Penulis
Tomek Korbak, Micah Carroll, Bowen Baker, Ian Kivlichan


