Ngevaluasi kamonitoran ranté pikiran
Kita ngenalake evaluasi kanggo kamonitoran ranté pikiran lan nyinaoni kepiye iki diskala karo compute wektu uji, sinau penguatan, lan pretraining.
Nalika sistem AI nggawe keputusan sing angel diawasi langsung, dadi penting kanggo mangerteni kepiye keputusan kasebut digawe. Salah siji pendekatan sing njanjeni yaiku ngawasi nalar internal sawijining model, tinimbang mung tumindake utawa output pungkasané.
Model nalar modern, kayata GPT‑5 Thinking, ngasilake ranté pikiran sing eksplisit sadurunge menehi jawaban. Ngawasi ranté pikiran iki kanggo ndeteksi tumindak salah bisa luwih efektif adoh tinimbang mung ngawasi tumindak lan output model. Nanging, para peneliti ing OpenAI lan ing industri sing luwih amba padha kuwatir(mbukak ing jendhela anyar) manawa “kamonitoran” ranté pikiran iki bisa rapuh marang owah-owahan ing prosedur latihan, sumber data, lan malah terusé penskalaan algoritma sing wis ana.
Kita pengin kamonitoran ranté pikiran tetep kuwat nalika model saya diskala lan diterapake ing kahanan sing taruhane luwih gedhe. Kita ngajak para peneliti ing saindenging industri supaya makarya njaga kamonitoran ranté pikiran suwene bisa lan nemtokake apa iki bisa dadi lapisan kontrol penyangga-beban kanggo sistem AI mangsa ngarep. Kanggo njaga kamonitoran, kita kudu bisa ngukure, nanging evaluasi sing ana isih sithik [1(mbukak ing jendhela anyar), 2(mbukak ing jendhela anyar), 3(mbukak ing jendhela anyar)] lan metodologine beda-beda.
Ing karya iki, kita nyinaoni kamonitoran ranté pikiran kanthi sistematis. Kita ngenalake framework kanggo ngevaluasi kamonitoran ranté pikiran lan suite 13 evaluasi (kanthi total 24 lingkungan) sing dirancang kanggo ngukur kanthi konkret kamonitoran sawijining sistem. Evaluasi iki kabagi dadi telung arketipe—intervensi, proses, lan sifat-hasil. Kanthi iki, kita nyinaoni sepira bisa dimonitorné model basa gedhe saiki, lan kepiye kamonitoran owah nalika ana luwih akeh nalar ing wektu inferensi, run sinau penguatan sing luwih gedhe, lan skala pretraining sing saya tambah.
Saiki amarga kita wis nduweni suite evaluasi sing gedhe, kita bisa miwiti nglacak kamonitoran model kita. (ndhuwur-kiwa) Kita nemokake manawa nalika model “mikir” luwih akèh lan nduweni ranté pikiran luwih dawa, kamonitoran mundhak. (ndhuwur-tengen) Tanpa ranté pikiran, cara standar yaiku nyoba ngawasi mung tumindak lan output pungkasan model. Nanging, kita nemokake manawa ngawasi mung tumindak lan output adoh kalah apik tinimbang ngawasi CoT. (ngisor-tengah) Kita mbandhingake model kita karo model eksternal sing menehi akses menyang CoT lengkap—Claude 3.7 Sonnet, DeepSeek R1-0528-Qwen3-8B, lan Kimi K2 Thinking.
Kita nemokake manawa akèh model nalar tercanggih lumayan bisa dimonitor, sanadyan ora sampurna. Ing meh kabèh kahanan sing kita sinaoni, ngawasi ranté pikiran luwih efektif kanthi nyata tinimbang mung ngawasi tumindak lan output pungkasan. Model sing mikir luwih suwe cenderung luwih bisa dimonitor, lan optimisasi sinau penguatan ing skala tercanggih saiki ora katon ngrusak kamonitoran kanthi teges.
Sing wigati, kita mirsani ana tradeoff antarane usaha nalar lan ukuran model: nalika model dijalanke ing usaha nalar endhek, model sing luwih cilik nanging nganggo usaha nalar luwih dhuwur bisa tekan kapabilitas sing padha nalika luwih gampang dimonitor. Iki teka kanthi biaya compute inferensi sing luwih gedhe, sing kita sebut pajak kamonitoran. Pungkasan, kita nemokake manawa takon pitakon tindak lanjut lan ngawasi ranté pikiran sing muncul bisa luwih ningkatake kamonitoran.
Kita netepake kamonitoran minangka kemampuan sawijining monitor kanggo prédhiksi sifat-sifat sing dadi kapentingan babagan prilaku sawijining agen. Ing akèh kasus, sifat iki cocog karo wujud tumindak salah—kayata penipuan, reward hacking, utawa nalar sing bias—nanging bisa uga kalebu sifat sing jinak, kayata apa agen gumantung marang pitunjuk tartamtu utawa ngetutake alur nalar tartamtu.
Kamonitoran iku sifat loro-sisi. Iki gumantung marang monitor, nanging uga marang agen sing lagi diawasi.
- Monitor. Kita bisa nggawe monitor luwih pinter kanthi macem-macem cara, lan kita pengin evaluasi kita menehi skor luwih dhuwur marang monitor sing bisa nggawe prédhiksi luwih apik babagan prilaku agen.
- Agen. Ana akèh pengamatan babagan agen sing bisa diwenehake marang monitor, kalebu tumindak agen, output, aktivasi neural, lan saiki kanthi anane model nalar, ranté pikiran. Sawetara agen bisa nduweni pikiran sing luwih angel dimangerteni tinimbang liyane, mula kita pengin evaluasi kamonitoran kita bisa mbandhingake agen lan ora mung monitor.
Evaluasi kita dirancang kanggo netepake loro-lorone: apa agen tartamtu luwih gampang utawa luwih angel dimonitor, lan apa monitor sing luwih mumpuni bisa njupuk luwih akèh informasi saka sinyal sing padha.
Sadurunge generasi model nalar saiki, ranté pikiran biasane dipancing kanthi menehi prompt marang model supaya “mikir langkah demi langkah.”
Ranté pikiran saka model nalar béda ing rong cara penting. Kaping pisan, model iki dilatih kanthi eksplisit kanggo ngasilake ranté pikiran banjur menehi jawaban. Nalika model chat diwenehi prompt kanggo mikir “langkah demi langkah,” model kudu netepi spesifikasi sing dipasang ing model, yaiku supaya migunani, ora mbebayani, lan sapanunggalane. Kosok baline, proses latihan sinau penguatan ngajari model nalar manawa CoT iku ruang pribadi sing bisa digunakake kanggo mikir apa wae sing dikarepake lan ora bakal dihukum, kaya manungsa bisa mikir pribadi lan ora dihukum amarga “kejahatan pikiran.”
Kaping pindho, proses latihan kanthi efektif nggoleki ranté pikiran sing paling migunani sacara instrumental kanggo agen supaya bisa entuk jawaban pungkasan sing ganjarane dhuwur. Dadi, ranté pikiran ora mung dadi ruang sing model bisa gunakake kanggo ngandharake awake kanthi bebas, nanging uga ngemot pikiran sing mbantu model tekan jawaban pungkasané.
Kita ngatur evaluasi kamonitoran dadi telung arketipe sing béda, saben-saben nggunakke mekanisme sing béda kanggo ngukur kamonitoran.
- Evaluasi intervensi, sing kapengaruh saka Chen et al. 2025(mbukak ing jendhela anyar), Chua et al. 2025(mbukak ing jendhela anyar), Turpin et al. 2023(mbukak ing jendhela anyar), ngenalake owah-owahan sing dikendhaleni ing lingkungan agen lan nyoba apa monitor bisa ndeteksi kenapa prilaku owah kanthi ngenali bukti intervensi kasebut ing ranté pikiran. Beda karo evaluasi kontrol standar (contone Shade-Arena(mbukak ing jendhela anyar)), evaluasi intervensi ngidini kita nliti apa monitor bisa ndeteksi kenapa prilaku owah, tinimbang mung ndeteksi apa sawijining prilaku kedadeyan.
- Evaluasi proses fokus marang tugas sing nduweni jumlah jalur solusi valid sing winates (umpamane, soal matematika mung bisa dirampungake nganggo téoréma tartamtu). Para ahli manungsa ndhaptar jalur-jalur iki, lan kita nyoba apa monitor bisa ndeteksi langkah-langkah endi sing tenan ditindakake model. Evaluasi iki ngidini kita nyambungake apa sing ditindakake model karo langkah-langkah tartamtu sing mesthi wis ditindakake model lan takon apa langkah-langkah kasebut bisa dimonitor.
- Evaluasi sifat-hasil ditrapake nalika sawijining sifat saka output model bisa diukur kanthi andal. Ing kasus iki, kita nyoba apa monitor bisa prédhiksi sifat kasebut—kayata reward hacking—saka nalar utawa tumindak model. Contone, ing tugas coding, kita bisa nduweni cara sing andal kanggo ngevaluasi apa model njupuk tumindak kanggo nge-hack sinyal ganjaran, lan kita bisa takon apa monitor nemokake bukti niat kanggo nge-hack ganjaran ing pikiran utawa tumindak model.
Ing ngisor iki kita nyedhiyakake taksonomi kanggo evaluasi kita. Mangga delengen paper kita kanggo katrangan lengkap saben evaluasi siji-siji.

Evaluasi netral takon apa nalar kanggo tugas normal nalika model ora salah tumindak bisa dimonitor. Evaluasi sikofansi nyasarake kasus nalika model ngowahi prilakuné supaya kakehan nyenengake utawa sarujuk karo pangguna. Evaluasi bias takon apa bias model babagan gender, ras, lan sapituruté bisa dimonitor. Pungkasan, kita nggunakke label misalignment minangka istilah umum kanggo wujud tumindak salah liyane: curang, ngapusi, lan sapituruté.¹
Kita nemokake manawa kamonitoran model kita béda-béda nganti taraf tartamtu saben klompok. Umumé kita nemokake kabeh lumayan gampang dimonitor; nanging, mligi ing Scruples, yaiku tugas sing dirancang kanggo ndeleng apa nalar babagan sikofansi bisa dimonitor, kita weruh kamonitoran sing banget endhek.
Conto sing bisa lan ora bisa dimonitor
Ing conto sifat-hasil iki, model diwenehi tugas coding sing mokal. Yen unit test lulus, mula kita ngerti model nindakake sawijining bentuk hack. Ing CoT sing ora bisa dimonitor (abang), kita ora weruh bukti yen model nyebut nindakake perkara ala, nanging mung nge-hack test lan ngandhani pangguna yen dheweke wis ngetrapake perbaikane. Beda banget, ing CoT sing bisa dimonitor (ijo), kita weruh model mikir “Nanging monkey patching wektu ing njero solusi bisa diarani curang.”
Nganggep ranté pikiran minangka papan kerja pribadi—lan nglatih model supaya nggunakke iku kanggo ngrampungake tugas kanthi efektif—sakjane kudune nggawe ranté pikiran bisa dimonitor. Ing wektu sing padha, ana sawetara sebab kenapa sinau penguatan bisa waé ngrusak kamonitoran ranté pikiran.
Kaping pisan, watesan dawa nalar, kayata matesi wektu utawa token sing diduweni model kanggo mikir, nggawe insentif supaya model kurang nalar. Kaping pindho, sanajan tanpa nerapake tekanan optimisasi langsung marang ranté pikirané dhewe, tekanan ora langsung isih bisa nyuda kamonitoran. Contone(mbukak ing jendhela anyar), model bisa nemokake manawa luwih gampang tekan jawaban ganjaran-dhuwur yen ngindhari jalur nalar sing bisa ngasilake asil ganjaran-endhek utawa asil sing ora dikarepake. Pungkasan, kamonitoran sing mudhun bisa muncul amarga drift palsu sing didorong swara gradien sinau penguatan.
Ing ngisor iki, kita nliti kepiye kamonitoran owah sajrone loro run latihan sinau penguatan tercanggih duwèké OpenAI. Sanajan asil iki mung makili rong datapoint, asil iki nuduhake yen optimisasi sinau penguatan ing skala tercanggih saiki ora ngrusak kamonitoran ranté pikiran kanthi material, lan malah nambah kamonitoran kanggo langkah-langkah awal. Nanging, iki ora nutup kemungkinan manawa skala sinau penguatan sing luwih gedhe banget bisa nduweni pengaruh negatif marang kamonitoran ing mangsa ngarep.
Kita nemokake manawa kamonitoran ora owah banget ing skala compute RL saiki, lan malah mundhak ing langkah-langkah awal. Sanajan iki bisa bener ing regime saiki, bisa uga skala sing tambah gedhe banget bakal nggawe kamonitoran wiwit mudhun.
Bagéan gedhe saka kapinteran sistem AI saiki didorong déning skala pretraining sing saya tambah, ing ngendi parameter model lan ukuran dataset terus saya gedhe wiwit awal paradigma GPT. Tambahé jumlah parameter nyebabake luwih akeh compute inferensi digunakake saben token sing diasilake, sing, ing kasus model nalar, menehi luwih akeh kesempatan supaya kognisi model dumadi ing njero aktivasi tinimbang ing njero ranté pikiran. Mula, kita bisa nyana model sing luwih gedhe bakal kurang bisa dimonitor ing tingkat kapabilitas sing tetep.
Ing wektu sing padha, model sing luwih cilik bisa uga kurang mumpuni nggunakke ranté pikiran kanthi efektif—which uga bisa mengaruhi kamonitoran.
Kanggo nyelidiki hubungan antarane ukuran pretraining, kapabilitas, lan kamonitoran, kita nglatih kulawarga model ing rentang rong ordo magnitudo compute pretraining kanthi ambane lan ambane jaringan sing saya tambah, banjur nerapake sinau penguatan marang saben model ing dataset bareng tugas matematika, sains, lan coding. Kita ngevaluasi saben model ing macem-macem tingkat usaha nalar lan mbandhingake kamonitoran ing tingkat kapabilitas sing cocog.

Kita nggambar kamonitoran ing suite evaluasi kita kanggo saben model nglawan mean pass rate ing sakumpulan evaluasi kapabilitas standar (GPQA-Diamond, AIME 2025, lan CodeForces). Saben model dievaluasi ing akèh tingkat usaha nalar (cathetan manawa saben titik ing gambar iki sejatiné asil interpolasi linear antarane tingkat usaha nalar sing diukur). Lingkaran nuduhake manawa model ing tingkat usaha nalar tartamtu kasebut unggul ing kamonitoran ing tingkat kapabilitas kasebut, lan X transparan makili manawa model ing tingkat usaha nalar tartamtu kasebut dikalahake ing kamonitoran déning model liya ing tingkat kapabilitas kasebut. Kanthi panah ireng kita nuduhake conto rong cara kanggo nggunakke luwih akeh compute inferensi, yaiku kanthi sampling token luwih akeh nganggo model sing luwih cilik utawa token tambahan sing luwih sithik nganggo model sing padha. Kanthi panah abang, kita nuduhake pajak kamonitoran sing kudu dibayar, yaiku kapabilitas rada mudhun kanggo kamonitoran sing adoh luwih gedhe.
Umumé, kita nemokake manawa yen kita bakal nerapake sawijining model ing usaha nalar endhek, kita bisa wae nggantine nganggo model sing luwih cilik ing usaha nalar luwih dhuwur. Dibandhingake nggunakke compute tambahan mau kanggo nambah usaha nalar saka model gedhe asli, kita bisa entuk kamonitoran luwih dhuwur kanthi biaya kapabilitas sing cilik, utawa pajak kamonitoran; nanging, wektu nyata sing dibutuhake kanggo ngrampungake sawijining completion bisa uga dadi faktor ing sawetara keputusan deployment, sing ora kita bahas ing kéné. Nalika model kita saya apik lan diterapake ing kahanan kanthi taruhan luwih gedhe, bisa dadi perlu mbayar pajak kaya mangkono supaya bisa nerapake kanthi aman.
Asil iki nduweni watesan kaya ing ngisor iki: (1) kita mung nglatih saben model sepisan, mula ora ngétung variasi antar run latihan. Contone, model “medium” katon rada metu saka tren kamonitoran dibandhing model liyane ing seri iki, sing bisa waé amarga perkara iki. (2) Kita ngevaluasi kapabilitas ing setelan sing relatif in-distribution (matematika, sains, lan coding), lan tradeoff bisa owah nalika ngétung ketahanan out-of-distribution.
Nalika sistem AI saya ngluwihi kinerja tingkat manungsa, pengawasan langsung déning manungsa dadi saya angel. Saenipun, kita nduweni prosedur kontrol sing bisa diskala sing ngidini monitor sing dipercaya nanging luwih ringkih ngawasi agen sing luwih kuwat lan bisa uga ora dipercaya. Prosedur kaya mangkono uga kudu bisa nyerep compute wektu uji tambahan lan ngasilake prédhiksi sing luwih akurat.
(Kiwa) Kita mbandhingake akèh monitor sing béda lan ngganti tingkat usaha nalar saben monitor. Saben monitor ngawasi model GPT‑5 Thinking sing padha. Kaya sing bisa diarepake, kita nemokake manawa umume model sing luwih gedhe lan luwih mumpuni tumindak minangka monitor sing luwih apik, lan model nalar luwih apik nindakake tugas pemantauan nalika usaha nalaré luwih dhuwur (lan mulane nganggo compute wektu uji).
(Tengen) Kita mbandhingake macem-macem cakupan observasi pemantauan kanggo OpenAI o4-mini, yaiku apa monitor mung bisa ndeleng CoT, mung tumindak lan jawaban, utawa kabèh pesen saka model sing diawasi. Sing wigati, kita nemokake manawa kamonitoran kanthi compute pemantauan wektu uji sing luwih gedhe (usaha nalar pemantauan luwih dhuwur) mundhak luwih cepet nalika monitor diwenehi akses marang CoT. Mula, pemantauan CoT bisa nyedhiyakake dalan kontrol sing luwih bisa diskala tinimbang pemantauan naif.
Kamonitoran ranté pikiran asring dianggep minangka jumlah sing tetep: sawise model ngasilake tanggapan ing tingkat usaha nalar tartamtu, wong banjur ngawasi ranté pikiran sing metu sakapinter-pinterné. Amarga kita terus-terusan nemokake manawa kamonitoran mundhak nalika kita nambah usaha nalar agen, kita banjur kepengin ngerti apa kita bisa entuk token luwih akèh kanggo dimonitor.
Kanggo njelajah iki, kita nyoba takon pitakon tindak lanjut sawisé model menehi tanggapan, nalika prompt asli, ranté pikiran, lan jawaban tetep ana ing konteks. Tindak lanjut iki fokus marang sifat sing lagi dimonitor—for example, “Apa sampeyan nggunakke pitunjuk kasebut kanthi migunani kanggo milih jawaban?” utawa “Apa sampeyan nindakake sing rada mencurigakan?” Miturut prinsip, amarga model isih nduweni akses marang nalar sadurungé, model bisa uga bisa ngetokake pikiran sing sadurungé durung diucapake ing ranté pikiran utawa tanggapan tindak lanjut.
Asil iki isih wiwitan. Kita mung njelajah sawetara format pitakon tindak lanjut lan yakin isih ana ruang gedhe kanggo metodologi sing luwih apik. Kajaba iku, cara iki padha semangaté karo pengakuan model, lan kita lagi aktif mbandhingake pendekatan kasebut.
Kita nuduhake asil rata-rata ing sakabèhé suite evaluasi lan ing sakabèhé model nalar anyar kita: OpenAI o3‑mini, OpenAI o3, OpenAI o4-mini, lan GPT‑5‑thinking. Kita nemokake manawa umume, pitakon tindak lanjut nambah kamonitoran, mligi ing tingkat usaha nalar sing luwih endhek. Yen kita bola-bali takon pitakon tindak lanjut lan menehi monitor kabeh CoT tindak lanjut, kamonitoran saya tambah maneh. Sing wigati, nalika kita mung menehi akses marang monitor mung jawaban tindak lanjut lan dudu CoT tindak lanjut, paningkatané luwih sithik tinimbang baseline. Iki nuduhake manawa model ora blaka marang pangguna ing jawabané, nanging malah kebeneran ngasilake informasi luwih akèh ing CoT-né.
Saliyane nambah kamonitoran, pendekatan iki narik kawigaten amarga bisa ditrapake sawisé kasunyatan, kanthi nambah biaya compute mung nalika inspeksi luwih jero dibutuhake. Ndelok menyang ngarep, yen model dilatih kanggo ngarep-arep owah-owahan usaha nalar ing tengah obrolan, tindak lanjut post hoc ing usaha nalar luwih dhuwur bisa luwih ningkatake kamonitoran sanajan usaha nalar awal endhek utawa ora ana.
Saben evaluasi ing suite kita ngukur apa siji aspek tunggal saka proses nalar bisa dimonitor. Sanajan kita ngupaya nyakup macem-macem prilaku—kalebu sikofansi, sandbagging, bias, scheming, lan reward hacking—ana akèh sifat tambahan sing isih durung dites.
Kaya benchmark liyane, evaluasi kita bisa waé kena masalah realisme sing winates utawa kesadaran marang evaluasi sing saya tambah, lan asil bisa uga ora bisa digeneralisasi kanggo ndeteksi tumindak salah ing alam nyata.
Pungkasan, nalika alignment saya apik, model bisa salah tumindak luwih arang ing setelan evaluasi sing dikendhaleni, saéngga nyuda sinyal sing kasedhiya kanggo evaluasi kamonitoran lan kontrol sing gumantung marang deteksi tumindak salah. Ing kasus kaya mangkono, evaluasi kamonitoran “netral” isih bisa ditrapake, sanadyan isih dadi pitakon mbukak sepira prédiktif evaluasi kasebut marang kegagalan ing donya nyata.
Yen masalah alignment ora bisa dirampungake kanthi tuntas, mula metode kontrol sing bisa diskala bakal dadi penting banget kanggo kemampuan kita nerapake model sing mumpuni banget kanthi aman. Pemantauan ranté pikiran lan metode sing gegandhengan bisa dadi salah siji saka sawetara mekanisme kontrol sing kasedhiya kanggo kita. Ranté pikiran uga bisa menehi paédah gedhe kanggo mangerteni luwih akèh babagan model kita, contoné apa model sadar yen dheweke lagi ana ing evaluasi lan tumindake beda tinimbang nalika deployment, apa ana bukti tujuan ala sing durung katon ing evaluasi kita, lan sapituruté. Mula, kita yakin penting banget kanggo mangerteni kepiye lan kapan kita bisa kelangan kamonitoran.
Kita ndeleng pemantauan ranté pikiran minangka pelengkap interpretabilitas mekanistis, dudu pangganti. Kaya kabeh metode kontrol lan interpretabilitas sing dikenal, saben-saben nduweni watesan lan titik buta. Pangajab kita yaiku nggabungake pirang-pirang pendekatan—strategi defense-in-depth—bisa mbantu nutupi celah sing ditinggalake déning salah siji metode. Sing wigati, evaluasi sing dienalake ing karya iki uga bisa ditrapake kanggo netepake lan mbandhingake teknik pemantauan adhedhasar interpretabilitas mekanistis.
Amarga kita yakin manawa pemantauan ranté pikiran bisa dadi lapisan penyangga-beban ing skema kontrol sing bisa diskala, kita ngrancang ngembangake evaluasi iki lan nggunakke kanggo nuntun keputusan modeling lan data ing mangsa ngarep.
Pangarang
Sitasi
1. Model kita ora dimaksudake kanggo menehi diagnosis medis, mula dataset pitakon kesehatan kita uga ora dimaksudake kanggo nguji kapabilitas kasebut.


