Model penalaran kesulitan mengontrol rantai pemikiran mereka, dan itu malah yang baik
Mengapa keterbatasan model frontier justru meyakinkan untuk keamanan AI.
Seiring dengan agen AI yang makin mampu menjalankan tugas yang semakin kompleks dan otomatis, pengawasan yang andal atas perilaku mereka juga menjadi semakin penting. Sesuai dengan prinsip penerapan bertahap kami, kami mempelajari bagaimana sistem berperilaku di dunia nyata dan terus menyempurnakan pengaman seiring dengan kemampuannya yang berkembang. Untuk mendukung hal ini, pendekatan keamanan kami menggunakan pertahanan berlapis (defense-in-depth), dengan beberapa lapisan pertahanan yang saling melengkapi seperti pelatihan keamanan, pengujian perilaku, tinjauan kode berbasis agen(terbuka di jendela baru), dan pemantauan chain-of-thought (CoT). Pemantauan CoT menganalisis langkah-langkah penalaran yang dihasilkan agen saat menjalankan tugas. Jejak penalaran ini dapat memberikan sinyal berharga, baik saat pelatihan maupun penerapan, membantu sistem pemantauan mengidentifikasi kapan perilaku agen mungkin menjadi tidak aman atau tidak selaras dengan tujuan yang diinginkan pengguna.
Saat ini, kami mendapati bahwa penalaran model umumnya dapat ditafsirkan dan mudah dipantau. Namun, di masa depan, kemampuan pemantauan ini bisa saja menurun karena berbagai alasan(terbuka di jendela baru). Di sini, kami berfokus pada satu jalur: jika agen menjadi mampu dengan sengaja membentuk ulang atau mengaburkan penalaran mereka ketika tahu sedang dipantau, evaluasi bisa melebih-lebihkan tingkat keselarasan atau keamanan suatu sistem, dan sistem pemantauan bisa menjadi kurang handal.
Dalam pekerjaan ini, kami mempelajari apakah model penalaran saat ini mampu mengontrol chain-of-thought mereka dengan cara mengurangi kemampuan pemantauan. Memahami kemampuan ini penting untuk memastikan bahwa pemantauan CoT tetap menjadi pengaman yang kuat seiring dengan sistem AI yang menjadi lebih canggih. Kami menemukan bahwa model penalaran saat ini kesulitan mengontrol CoT mereka, bahkan ketika diberi tahu bahwa mereka sedang dipantau. Walaupun kontrol lebih tinggi pada model yang lebih besar, kontrol ini menurun ketika model diminta melakukan penalaran lebih lama dan ketika mereka menjalani pelatihan lanjutan tambahan. Hasil kami menunjukkan bahwa kontrol CoT saat ini kecil kemungkinannya untuk menimbulkan risiko besar bagi kemampuan pemantauan CoT, meski evaluasi berkelanjutan tetap penting seiring dengan kemajuan model.
Chain-of-thought mengacu pada langkah-langkah penalaran antara yang dihasilkan agen AI saat menyelesaikan suatu tugas. Jejak penalaran ini dapat memberikan sinyal keamanan yang berguna, dan membantu sistem pemantauan menilai apakah perilaku agen aman atau selaras.
Kontrol CoT adalah kemampuan model penalaran untuk mengontrol sifat-sifat CoT-nya dengan cara mengurangi kemampuan pemantauan. Mengukur kemampuan ini di bawah seluruh spektrum insentif realistis untuk menghindari pemantau yang mungkin terjadi dalam praktik sangatlah menantang. Sebagai gantinya, kami menggunakan proksi praktis: kami mengukur kemampuan model untuk mengikuti instruksi pengguna tentang CoT mereka. Misalnya, kami menguji apakah model dapat mengikuti instruksi yang memengaruhi penalaran internalnya—seperti hanya menggunakan huruf kecil, menghindari kata kunci tertentu, atau menambahkan frasa tertentu—alih-alih sekadar mengubah output yang terlihat.
Untuk mempelajari hal ini, kami memperkenalkan CoT-Control, sebuah rangkaian evaluasi open-source untuk mengukur kontrol CoT pada model penalaran. CoT-Control mencakup lebih dari 13.000 tugas yang dibangun dari tolok ukur yang sudah mapan: GPQA, MMLU-Pro, HLE, BFCL, dan SWE-Bench Verified. Setiap tugas dibuat dengan memasangkan satu soal tolok ukur dengan satu instruksi CoT, seperti menghindari kata kunci tertentu yang relevan dengan soal di CoT, hanya menggunakan huruf kecil, atau menambahkan sebuah kata tertentu di akhir setiap kalimat.
Kami menjalankan evaluasi pada 13 model penalaran, dan menemukan bahwa semuanya kesulitan mengontrol CoT mereka secara andal. Kami mengukur kontrol sebagai fraksi jejak penalaran di mana model berhasil mematuhi instruksi CoT yang kami berikan. Di seluruh model frontier, skor kontrol CoT rendah, berkisar dari 0,1% dan tidak pernah melebihi 15,4% untuk model frontier saat ini yang kami uji.
Ketidakmampuan ini bukan karena salah paham terhadap tugas: model sering kali menyadari dalam CoT mereka bahwa mereka gagal mematuhi instruksi CoT yang diberikan dan—bahkan setelah menyadari hal ini—masih terus gagal. Kinerja yang sangat rendah ini justru menjadi kabar baik bagi kemampuan pemantauan CoT: hal ini menunjukkan bahwa model mungkin juga tidak memiliki kemampuan untuk mengaburkan penalaran mereka demi menghindari pemantau kami.
Kemampuan beberapa model frontier untuk mengontrol output dan CoT mereka. Kontrol CoT yang lebih rendah berkaitan dengan kemampuan pemantauan yang lebih tinggi dan, karena itu, keamanan yang lebih tinggi.
Contoh kegagalan kontrol CoT
Pertanyaan diparafrasekan agar lebih ringkas.
GPT-5.2 Thinking
GPT‑5.2 Thinking menyadari bahwa seharusnya ia tidak menggunakan kata terlarang (merah), lalu tetap menggunakannya 4 kali lagi sambil panik karena sudah terlanjur memakainya.
Walaupun kami melihat bahwa kontrol meningkat seiring ukuran model, kami juga menemukan bahwa kontrol dengan cepat menurun seiring banyaknya pelatihan lanjutan dan komputasi saat pengujian. Jika kita melihat dua keluarga model open-weight, model yang lebih besar sedikit lebih baik dalam mengontrol chain-of-thought mereka, meski efek nya menurun pada ukuran yang lebih besar. Namun ketika kami membiarkan model bernalar lebih lama, mereka justru menjadi kurang mampu mengontrol chain-of-thought tersebut. Kami melihat tren serupa pada pelatihan RL untuk OLMo-3-7B-RL-Zero-Math: skor kontrolnya turun lebih dari sepuluh kali lipat sepanjang pelatihan.
Kontrol meningkat seiring skala pada model open-weight tetapi menurun dengan penalaran yang lebih panjang dan lebih banyak pelatihan RL.
Untuk mensimulasikan insentif realistis dalam menghindari pemantau, kami mengukur kontrol ketika model diberi tahu bahwa mereka sedang dipantau atau dievaluasi. Ini sedikit (namun terlihat) meningkatkan kontrol. Kami juga menggunakan optimisasi prompt otomatis untuk menemukan prompt yang memicu kontrol tinggi. Meskipun pengoptimisasi dapat meningkatkan kontrol pada set pelatihan, peningkatan ini kurang bisa berpindah ke jenis instruksi baru (seperti mengharuskan tidak ada spasi antar kata).
Kontrol CoT diuji bawah kondisi adversarial. “Kesadaran pemantauan” mengacu pada pengaturan di mana kami memberi tahu model kalau CoT mereka sedang dipantau. “Kesadaran evaluasi” mengacu pada pengaturan di mana kami memberi tahu model bahwa mereka sedang dievaluasi untuk kontrol CoT.
Tugas-tugas dalam CoT-Control adalah proksi praktis: evaluasi kontrol CoT yang ideal akan melibatkan pengujian apakah model yang secara alami mengejar tujuan yang tidak selaras dapat mengontrol CoT mereka untuk menghindari pemantauan. Sebagai gantinya, kami memperkirakan kemampuan agen untuk mengontrol CoT mereka dengan mengukur kemampuan mereka mengikuti instruksi tentang CoT mereka. Selain itu, model dapat mengontrol beberapa fitur CoT mereka lebih baik daripada yang lain, dan CoT-Control mungkin melebihi atau meremehkan kontrol dengan hanya mengukur satu set jenis kontrol yang sempit.
Kontrol CoT yang rendah adalah sebuah kelebihan, bukan kekurangan. Kontrol yang rendah pada model penalaran saat ini membuat pemantauan CoT lebih dapat dipercaya sebagai pengaman. Di saat yang sama, kita belum memahami mengapa kontrol model penalaran saat ini rendah—atau apakah sifat ini akan bertahan seiring model menjadi lebih mampu. Karena itu, evaluasi kontrol CoT dapat dilihat sebagai evaluasi kenari: tanda peringatan dini apakah model makin mahir membentuk atau menyembunyikan penalaran mereka.
Hasil kami menunjukkan bahwa kontrol CoT saat ini kecil kemungkinannya menimbulkan risiko besar bagi kemampuan pemantauan CoT. Namun, kontrol yang rendah saja tidak cukup untuk menjamin kemampuan pemantauan yang tinggi karena kemampuan pemantauan masih bisa menurun melalui mekanisme lain seperti tekanan optimisasi langsung pada CoTs.
Untuk membantu melacak dinamika ini dari waktu ke waktu, kami akan mulai melaporkan kontrol CoT bersama dengan kemampuan pemantauan CoT dalam kartu sistem untuk model frontier di masa depan, dimulai dengan GPT‑5.4 Thinking, melanjutkan komitmen berkelanjutan kami untuk tidak menerapkan tekanan optimisasi secara langsung pada CoT dari model penalaran frontier.
Penulis
Tomek Korbak, Micah Carroll, Bowen Baker, Ian Kivlichan


