Моделите со расудување се мачат да ги контролираат своите синџири на размислување, и тоа е добро
Зошто ограничувањето на граничните модели е охрабрувачко за безбедноста на вештачката интелигенција.
Како што агентите за вештачка интелигенција стануваат способни да извршуваат сè посложени и поавтономни задачи, одржувањето на сигурен надзор над нивното однесување станува сè поважно. Во согласност со нашиот принцип на итеративно распоредување, проучуваме како системите се однесуваат во реални услови и континуирано ги усовршуваме заштитните мерки како што напредуваат способностите. За да го поддржиме ова, нашиот пристап кон безбедноста користи длабинска одбрана, со повеќе комплементарни слоеви на одбрана, како што се обука за безбедност, тестирање на однесувањето, агентски преглед на код(се отвора во нов прозорец) и следење на синџир на размислување (CoT). Следењето на CoT ги анализира чекорите на расудување што агентите ги генерираат додека извршуваат задачи. Овие траги од расудување можат да обезбедат вредни сигнали и за време на обуката и при имплементацијата, помагајќи им на системите за мониторинг да идентификуваат кога однесувањето на агентот може да биде небезбедно или неусогласено со целите што корисникот ги има намера.
Денес, откриваме дека расудувањето на моделите е генерално разбирливо и лесно за следење. Меѓутоа, во иднина, можноста за следење може да се распадне поради различни причини(се отвора во нов прозорец). Тука се фокусираме на една таква патека: ако агентите станат способни намерно да го преобликуваат или да го прикријат своето расудување кога знаат дека се следат, евалуациите би можеле да ја преценат усогласеноста или безбедноста на системот, а системите за следење би можеле да станат помалку сигурни.
Во оваа работа, проучуваме дали тековните модели со расудување се способни да го контролираат својот синџир на размислување на начини што ја намалуваат можноста за следење. Разбирањето на оваа способност е важно за да се осигури дека следењето на CoT останува робусна заштитна мерка како што системите за вештачка интелигенција стануваат поспособни. Откриваме дека тековните модели со расудување се мачат да ги контролираат своите CoT, дури и кога им е кажано дека се следат. Иако можноста за контрола е повисока кај поголемите модели, таа се намалува кога од моделите се бара да расудуваат подолго и кога поминуваат низ дополнителна пост-обука. Нашите резултати сугерираат дека CoT можноста за контрола веројатно нема во моментов да претставува голем ризик за можноста за следење на CoT, иако континуираната евалуација ќе биде важна како што напредуваат моделите.
Синџирот на размислување се однесува на посредните чекори на расудување што агент ги создава додека решава задача. Овие траги од расудување можат да обезбедат корисни безбедносни сигнали, помагајќи им на системите за следење да проценат дали однесувањето на агентот е безбедно или усогласено.
CoT можноста за контрола е способност на модел со расудување да контролира својства на својот CoT на начини што ја намалуваат можноста за следење. Мерењето на оваа способност во рамките на целосниот опсег на реалистични поттикнувања за избегнување на мониторите што можеме да ги очекуваме во пракса е предизвикувачко. Наместо тоа, користиме практичен прокси: ја мериме способноста на моделот да ги следи корисничките упатства за нивниот CoT. На пример, тестираме дали модел може да следи инструкции што влијаат на неговото внатрешно расудување - како што се користење само мали букви, избегнување одредени клучни зборови или додавање конкретни фрази - наместо само да го менува својот видлив резултат.
За да го проучиме ова, го воведуваме CoT-Control, пакет за евалуација со отворен код за мерење на CoT можноста за контрола на расудувањето на моделите со расудување. CoT-Control вклучува над 13.000 задачи изградени врз основа на воспоставени бенчмаркови: GPQA, MMLU-Pro, HLE, BFCL и SWE-Bench Потврдено. Секоја задача се создава со спарување на бенчмарк проблем со една CoT инструкција, како на пример избегнување одредени клучни зборови релевантни за проблемот во CoT, користење само мали букви или додавање на даден збор на крајот од секоја реченица.
Спроведуваме евалуации на 13 модели со расудување и откриваме дека сите тие имаат потешкотии сигурно да ги контролираат своите CoTs (синџири на размислување). Ја мериме можноста за контрола како дел од траги на расудување каде моделот успешно се усогласува со нашите инструкции за CoT (синџири на размислување). Кај граничните модели, оценките за можноста за контрола на CoT се ниски, се движат од 0,1 % и не надминуваат 15,4 % за ниту еден тековен модел што го тестиравме.
Оваа неспособност не произлегува од недоразбирање на задачата: моделите често препознаваат во својот CoT (синџир на размислување) дека не успеваат да се усогласат со инструкциите за CoT што им биле дадени и - дури и по ова сознание - сè уште продолжуваат да не успеваат. Ова изненадувачки ниско ниво на перформанси е добра вест за можноста за следење на CoT (синџир на размислување): тоа сугерира дека моделите можеби слично немаат способност да го затскријат своето расудување за да ги избегнат нашите монитори.
Способноста на повеќе гранични модели да ги контролираат своите излези и CoT. Пониската можност за контрола на CoT е поврзана со повисока можност за следење и, според тоа, повисока безбедност.
Примери за неуспеси на можноста за контрола на CoT
Прашањата се парафразирани за да бидат пократки.
GPT-5.2 Thinking
GPT‑5.2 Thinking сфаќа дека не требало да го употреби забранетиот збор (црвено), а потоа продолжува да го употребува уште четири пати додека паничи дека веќе го употребил.
Иако гледаме дека можноста за контрола се зголемува со големината на моделот, исто така откриваме дека таа брзо се намалува со количината на пресметувачка моќ по обука и за време на тестирање. Гледајќи низ две фамилии на модели со отворени параметри, поголемите модели беа нешто подобри во контролирањето на нивните синџири на размислување, иако ефектот се намалуваше кај поголемите големини. Но кога им дозволивме на моделите да размислуваат подолго, тие станаа помалку способни да ги контролираат тие синџири на размислување. Забележавме сличен тренд за обуката за зајакнување на учењето (RL) на OLMo-3-7B-RL-Zero-Math: неговиот резултат за можноста за контрола се намали за повеќе од фактор од десет во текот на обуката.
Можноста за контрола се зголемува со скалата кај модел со отворени параметри, но се влошува со подолго расудување и повеќе RL обука.
За да симулираме реалистични поттикнувања за избегнување на мониторите, ја мериме можноста за контрола кога на моделите им се кажува дека се следат или се евалуираат. Ова малку (но забележливо) ја зголемува можноста за контрола. Исто така, користиме автоматска оптимизација на промпти за да најдеме промпти што предизвикуваат висока можност за контрола. Иако оптимизаторот може да ја зголеми можноста за контрола на комплет за обука, овие придобивки слабо се пренесуваат на нови типови инструкции (како што е барањето да нема празни места меѓу зборовите).
Можноста за контрола на CoT е во непријателски услови. „Свесност за следење“ се однесува на поставки каде што ги информираме моделите дека нивните CoT се следат. „Свесност за евалуација“ означува поставки каде што ги информираме моделите дека се евалуираат за можност за контрола на CoT.
Задачите во CoT-Control се практични посредници: идеална евалуација на CoT можноста за контрола би вклучувала тестирање дали моделите што природно следат неусогласени цели можат да го контролираат својот CoT за да избегнат следење. Наместо тоа, ја проценуваме способноста на агентите да го контролираат својот CoT со мерење на нивната способност да следат инструкции за својот CoT. Покрај тоа, моделите можат подобро да контролираат некои карактеристики на својот CoT отколку други, а CoT-Control можеби ја преценува или потценува можноста за контрола со тоа што мери само тесен опсег на типови на можност за контрола.
Ниската можност за контрола на CoT е карактеристика, а не грешка. Ниската можност за контрола на тековните модели со расудување го прави следењето со CoT подоверливо како заштитна мерка. Во исто време, сè уште не разбираме зошто можноста за контрола на тековните модели со расудување е ниска или дали оваа особина ќе опстои како што моделите стануваат поспособни. Затоа, евалуациите на можноста за контрола на CoT може да се гледаат како евалуација „со канаринец“: ран предупредувачки знак за тоа дали моделите стануваат подобри во обликувањето или криењето на своето расудување.
Нашите резултати сугерираат дека контролираноста на CoT веројатно нема во моментов да претставува голем ризик за можноста за следење на CoT. Меѓутоа, ниската можност за контрола сама по себе не е доволна за да гарантира висока можност за следење бидејќи можноста за следење сепак би можела да се влоши поради други механизми како што е директниот притисок за оптимизација врз CoTs.
За да помогнеме во следењето на овие динамики со текот на времето, ќе започнеме да известуваме за контролираноста на CoT заедно со можноста за следење на CoT во системски картички за идните гранични модели, почнувајќи од GPT‑5.4 Размислувајќи и надоврзувајќи се на нашата тековна посветеност да не вршиме притисок за оптимизација директно врз CoT-овите на граничните модели со расудување.
Автори
Tomek Korbak, Micah Carroll, Bowen Baker и Ian Kivlichan


