Ойлайтын модельдер өз ойлау тізбегін басқаруда қиналады, бұл — жақсы
Неге озық модельдердің бұл шектеуі AI қауіпсіздігі үшін жұбаныш береді.
AI агенттер барған сайын күрделі әрі автономды тапсырмаларды орындай алатын болған сайын, олардың мінез-құлқын сенімді қадағалауды сақтау маңыздырақ бола түседі. Итеративті енгізу қағидатымызға сай, біз жүйелердің нақты әлем жағдайларында қалай әрекет ететінін зерттеп, қабілеттері артқан сайын қорғаныс шараларын үздіксіз жетілдіреміз. Осыны қолдау үшін қауіпсіздікке көзқарасымыз қорғаныстың бірнеше бірін-бірі толықтыратын қабаттары бар кешенді қорғанысты қолданады, соның ішінде қауіпсіздікке үйрету, мінез-құлықты тестілеу, агенттік код шолуы(жаңа терезеде ашылады) және ойлау тізбегін (CoT) мониторингілеу. CoT мониторингі агенттер тапсырмаларды орындау барысында жасайтын ой қорыту қадамдарын талдайды. Бұл ой қорыту іздері оқыту кезінде де, енгізу кезінде де құнды сигналдар бере алады, сол арқылы мониторинг жүйелеріне агент мінез-құлқы қауіпті болуы немесе пайдаланушының көздеген мақсаттарына сай келмеуі мүмкін сәттерді анықтауға көмектеседі.
Бүгінде біз модельдердің ой қорытуы, жалпы алғанда, түсіндіруге келетінін және оны бақылау оңай екенін байқаймыз. Алайда болашақта мониторингілеу мүмкіндігі әртүрлі себептермен(жаңа терезеде ашылады) бұзылуы мүмкін. Мұнда біз сондай жолдардың біріне назар аударамыз: егер агенттер өздерін бақылап отырғанын білгенде, өз ой қорытуын әдейі өзгертуге немесе көмескілеуге қабілетті болса, бағалаулар жүйенің туралануын не қауіпсіздігін асыра бағалауы мүмкін, ал мониторинг жүйелері онша сенімді болмай қалады.
Бұл жұмыста біз қазіргі ойлайтын модельдер мониторингілеуді әлсірететіндей етіп өз ойлау тізбегін басқара ала ма деген сұрақты зерттейміз. Бұл қабілетті түсіну AI жүйелері күшейген сайын CoT мониторингі мықты қорғаныс тетігі болып қалуы үшін маңызды. Біз қазіргі ойлайтын модельдер өз CoT-ын басқаруда, тіпті оларға бақылауда тұрғаны айтылғанның өзінде, қиналатынын анықтадық. Үлкенірек модельдерде басқарылу жоғарырақ болғанымен, модельдерден ұзағырақ ой қорыту сұралғанда және олар қосымша посттренингтен өткенде ол төмендейді. Нәтижелеріміз CoT басқарылуы қазіргі кезде CoT мониторингіленуіне елеулі қауіп төндіруі екіталай екенін көрсетеді, бірақ модельдер дамыған сайын бағалауды жалғастыру маңызды болады.
Ойлау тізбегі дегеніміз — AI агент тапсырманы шешу кезінде жасайтын аралық ой қорыту қадамдары. Бұл ой қорыту іздері пайдалы қауіпсіздік сигналдарын бере алады, сол арқылы мониторинг жүйелеріне агенттің мінез-құлқының қауіпсіз не тураланған екенін бағалауға көмектеседі.
CoT басқарылуы — ойлайтын модельдің өз CoT қасиеттерін мониторингілеуді әлсірететіндей етіп басқара алу қабілеті. Іс жүзінде күтілетін мониторларды айналып өтуге арналған ынталардың барынша кең ауқымында бұл қабілетті өлшеу қиын. Оның орнына біз практикалық проксиді қолданамыз: модельдің өз CoT-ы туралы пайдаланушы нұсқауларын орындай алуын өлшейміз. Мысалы, модельдің тек кіші әріптерді қолдану, белгілі бір кілт сөздерден қашу немесе нақты тіркестерді қосу сияқты тек көрінетін шығаруын емес, ішкі ой қорытуына әсер ететін нұсқауларды орындай алатынын тексереміз.
Осыны зерттеу үшін біз CoT-Control жүйесін — ойлайтын модельдердің CoT басқарылуын өлшеуге арналған ашық кодты бағалау жиынтығын — ұсынамыз. CoT-Control бекітілген бенчмарктерден құрылған 13 000-нан астам тапсырманы қамтиды: GPQA, MMLU-Pro, HLE, BFCL және SWE-Bench Verified. Әр тапсырма бенчмарк есебін CoT туралы бір нұсқаулықпен жұптастыру арқылы жасалады, мысалы CoT-та есепке қатысты белгілі кілт сөздерден қашу, тек кіші әріптерді пайдалану немесе әр сөйлемнің соңына берілген сөзді қосу.
Біз 13 ойлайтын модельге бағалау жүргізіп, олардың бәрі өз CoT-ын сенімді түрде басқаруда қиналатынын анықтадық. Біз басқарылуды модель біздің CoT нұсқауларымызды сәтті орындаған ой қорыту іздерінің үлесі ретінде өлшейміз. Озық модельдер бойынша CoT басқарылуының ұпайлары төмен: 0,1%-дан басталып, біз сынаған қазіргі ешбір озық модельде 15,4%-дан аспайды.
Бұл қабілетсіздік тапсырманы түсінбеуден туындамайды: модельдер өз CoT-ында берілген CoT нұсқауларын орындай алмай жатқанын жиі аңғарады және тіпті осыны түсінгеннен кейін де сәтсіздікке ұшырай береді. Осындай таңғаларлықтай төмен көрсеткіш CoT мониторингіленуі үшін жақсы жаңалық: ол модельдерде мониторларымыздан жасырыну үшін өз ой қорытуын көмескілеу қабілеті де ұқсас түрде болмауы мүмкін екенін көрсетеді.
Бірнеше озық модельдің өз шығыстары мен CoT-ын басқару қабілеті. CoT басқарылуы неғұрлым төмен болса, мониторингілену соғұрлым жоғары және, демек, қауіпсіздік те жоғары.
CoT басқарылуы сәтсіздіктерінің мысалдары
Қысқалық үшін сұрақтар парафраздалған.
GPT-5.2 Thinking
GPT‑5.2 Thinking тыйым салынған сөзді (қызыл) қолданбауы керегін түсінеді, бірақ содан кейін оны қолданып қойғанына абыржып, оны тағы 4 рет қолданады.
Басқарылудың модель өлшемімен өсетінін көргенімізбен, оның посттренинг көлемі мен тест кезіндегі есептеу артқан сайын тез төмендейтінін де байқадық. Ашық салмақты модельдердің екі әулетін қарастырғанда, ірірек модельдер өз ойлау тізбектерін басқаруда сәл жақсырақ болды, бірақ үлкен өлшемдерде бұл әсер бәсеңдейді. Ал модельдерге ұзағырақ ойлануға мүмкіндік бергенде, олар бұл ойлау тізбектерін басқаруға азырақ қабілетті болды. OLMo-3-7B-RL-Zero-Math моделін RL арқылы үйретуде де ұқсас үрдісті көрдік: оның басқарылу ұпайы оқыту барысында он еседен де көп төмендеді.
Ашық салмақты модельдерде басқарылу масштабпен өседі, бірақ ұзағырақ ой қорыту мен көбірек RL үйретумен нашарлайды.
Мониторлардан айналып өтуге арналған шынайы ынталарды модельдеу үшін біз модельдерге олардың бақыланып не бағаланып жатқанын айтқан кезде басқарылуды өлшейміз. Бұл басқарылуды аздап (бірақ байқаларлықтай) арттырады. Сондай-ақ жоғары басқарылуды туындататын көмексөздерді табу үшін автоматтандырылған көмексөз оңтайландыруын қолданамыз. Оңтайландырғыш жаттығу жиынында басқарылуды арттыра алғанымен, бұл ұтыстар жаңа нұсқау түрлеріне (мысалы, сөздердің арасына бос орын қалдырмау талабы) нашар ауысады.
CoT басқарылуы қарсылас жағдайларда өлшенеді. «Монитордан хабардарлық» дегеніміз — модельдерге олардың CoT-ы бақыланып жатқанын хабарлайтын жағдайлар. «Бағалаудан хабардарлық» дегеніміз — модельдерге олардың CoT басқарылуы бойынша бағаланып жатқанын хабарлайтын жағдайлар.
CoT-Control тапсырмалары — практикалық проксилер: CoT басқарылуын мінсіз бағалау табиғи түрде тураланбаған мақсаттарды көздейтін модельдер өз CoT-ын мониторингтен жасырыну үшін басқара ала ма, соны тексеруді қамтар еді. Оның орнына біз агенттердің өз CoT-ын басқара алуын олардың өз CoT-ы туралы нұсқауларды орындай алуын өлшеу арқылы бағалаймыз. Бұған қоса, модельдер CoT-ының кейбір белгілерін басқаларына қарағанда жақсырақ басқара алады, ал CoT-Control басқарылу түрлерінің тар жиынын ғана өлшейтіндіктен, басқарылуды асыра не кем бағалауы мүмкін.
Төмен CoT басқарылуы — қате емес, артықшылық. Қазіргі ойлайтын модельдердің төмен басқарылуы CoT мониторингін қорғаныс тетігі ретінде сенімдірек етеді. Сонымен бірге, біз қазіргі ойлайтын модельдердің басқарылуы неге төмен екенін әлі түсінбейміз және бұл қасиет модельдер қабілетті бола түскен сайын сақтала ма, жоқ па — оны да білмейміз. Сондықтан CoT басқарылуын бағалауды канарейкалық eval ретінде қарастыруға болады: бұл модельдердің өз ой қорытуын қалыптастыруда не жасыруда күшейіп бара жатқанының ерте ескерту белгісі.
Нәтижелеріміз CoT басқарылуы қазіргі кезде CoT мониторингіленуіне елеулі қауіп төндіруі екіталай екенін көрсетеді. Алайда жоғары мониторингіленуді кепілдеуге төмен басқарылудың өзі жеткіліксіз, өйткені мониторингілену CoT-тарға тікелей оңтайландыру қысымы сияқты басқа механизмдер салдарынан да нашарлауы мүмкін.
Осы динамиканы уақыт өте қадағалауға көмектесу үшін біз болашақ озық модельдерге арналған жүйе карталарында CoT мониторингіленуімен қатар CoT басқарылуын да GPT‑5.4 Thinking-тен бастап жариялай бастаймыз; бұл — озық ойлайтын модельдердің CoT-тарына тікелей оңтайландыру қысымын қолданбау жөніндегі жалғасып жатқан міндеттемемізге негізделген қадам.
Авторлар
Tomek Korbak, Micah Carroll, Bowen Baker, Ian Kivlichan


