Оценување на следливост на текот на мислата
Воведуваме евалуации за следливост на текот на мислата и го проучуваме скалирањето на процесот со пресметки за време на тестирање, зајакнување на учењето и претходна обука.
Кога системите за вештачка интелигенција донесуваат одлуки кои се тешки за директен надзор, разбирањето како се донесуваат тие одлуки станува важно. Еден ветувачки пристап е да се следи внатрешното расудување на моделот, наместо само неговите дејства или конечни резултати.
Современите модели на расудување, како што е GPT‑5 Thinking, генерираат експлицитен тек на мислата пред да дадат одговор. Следењето на овие текови на мисли за неправилности може да биде многу поефикасно отколку следењето само на дејствата и разговорите на моделот. Меѓутоа, истражувачите во OpenAI и пошироката индустрија се загрижени(се отвора во нов прозорец) дека оваа „следливост“ на текот на мислата може да биде кревка во случај на промени во процедурата за обука, изворите на податоци и дури и при продолжување на скалирањето на постоечките алгоритми.
Ние сакаме следливоста на текот на мислата да се одржи при скалирањето и примената на моделите во ситуации со повисок ризик. Ги повикуваме истражувачите низ индустријата да работат на зачувување на следливоста на текот на мислата колку што е можно подолго и да утврдат дали може да служи како носечки слој на контрола за идните системи на вештачка интелигенција. За да се зачува можноста за следливост, мора да можеме да ја измериме, но постојат малку евалуации [1(се отвора во нов прозорец), 2(се отвора во нов прозорец), 3(се отвора во нов прозорец)], а методологиите варираат.
Овде систематски ја проучуваме можноста за следливост на текот на мислата. Воведуваме рамка за оценување на следливоста на текот на мислата и пакет од 13 евалуации (кои вклучуваат вкупно 24 средини) дизајнирани за конкретно мерење на следливоста на системот. Овие евалуации спаѓаат во три архетипа—интервенција, процес и својства на исход. Користејќи ги, проучуваме колку се следливи денешните големи јазични модели и како следливоста се менува со поголемо расудување за време на инференција, поголеми извршувања на зајакнување на учењето и зголемена скала на претходна обука.
Сега кога имаме голем сет на евалуации, можеме да започнеме да ја следиме следливоста на нашите модели. (горе-лево) Откриваме дека како што моделите „размислуваат“ повеќе и имаат подолги текови на мисли, следливоста се подобрува. (горе-десно) Без тек на мисли, стандардно е да се обидеш да ги следиш дејствата и конечните резултати на моделот самостојно. Меѓутоа, откриваме дека следењето само на дејствата и резултатите значително заостанува зад следењето на CoT. (долу-центар) Ги споредуваме нашите модели со надворешни модели кои даваат пристап до целосен CoT—Claude 3.7 Sonnet, DeepSeek R1-0528-Qwen3-8B и Kimi K2 Thinking.
Откриваме дека повеќето најсовремени модели на расудување се прилично следливи, иако не совршено. Во речиси секое опкружување на проучување, следењето на текот на мислата е значително поефикасно од следењето само на дејствата и конечните резултати. Моделите што размислуваат подолго обично се полесни за следење, а оптимизацијата на зајакнување на учењето на тековните најсовремени скали не изгледа дека значително ја намалува можноста за следење.
Забележуваме компромис помеѓу напорот за расудување и големината на моделот: кога моделот се извршува со низок напор за расудување, помал модел извршен со поголем напор за расудување може да достигне слична способност и да биде полесен за следење. Цената за ова е зголемена пресметувачка моќ за инференција, што го нарекуваме данок за следливост. На крајот, откриваме дека поставувањето на дополнителни прашања и следењето на резултирачките текови на мислите може понатаму да ја подобри следливоста.
Ние ја дефинираме следливоста како способност да се предвидат својствата од интерес за однесувањето на агентот. Во многу случаи, овие својства соодветствуваат на форми на неправилно однесување—како што се измама, манипулација со награди или пристрасно расудување—но тие исто така можат да вклучуваат безопасни својства, како на пример дали агентот се потпирал на одреден совет или следел специфична линија на расудување.
Следливоста е двострано својство. Тоа зависи и од мониторот, но и од агентот што се следи.
- Монитори. Можеме да ги направиме мониторите попаметни на различни начини, и би сакале нашите евалуации да даваат повисоки оценки на мониторите кои можат да прават подобри предвидувања за однесувањето на агентот.
- Агенти. Постојат многу набљудувања на агентот што може да му се дадат на мониторот, вклучувајќи ги дејствата на агентот, резултатите, невралните активации и, неодамна, со појавата на модели за расудување, текот на мислата. Можно е некои агенти да имаат мисли кои се потешки за разбирање од другите, и затоа би сакале нашите евалуации за следливост да можат да ги споредуваат агентите, а не само мониторите.
Нашите евалуации се дизајнирани да ги оценат двете страни: дали одредени агенти се полесни или потешки за следење, и дали поспособни монитори можат да извлечат повеќе информации од истите сигнали.
Пред сегашната генерација на модели за расудување, тековите на мисли обично се поттикнуваа со тоа што моделот се наведуваше да „размислува чекор по чекор“.
Текот на мисли на моделите за расудување се разликуваат на два значајни начини. Прво, тие се експлицитно обучени да генерираат тек на мисли и потоа да дадат одговор. Кога го поттикнуваш моделот за разговор да размислува „чекор по чекор“, моделот мора да се придржува до сите спецификации поставени на него, како да биде корисен, безопасен и сл. Спротивно на тоа, процесот на обука за зајакнување на учењето го учи моделот на расудување дека текот на мисла е приватен простор каде што може да размислува што сака и да не биде казнет, исто како што човекот може да размислува приватно и да не биде казнет за „мисловни злосторства“.
Второ, процесот на обука ефективно бара текови на мисли кои се најкорисни за агентот за да добие конечен одговор со висока награда. Така, не само што текот на мислата е простор каде моделот може слободно да се изрази, туку содржи размислување што му помага на моделот да го достигне својот конечен одговор.
Ние ги организираме нашите евалуации за следливост во три различни архетипа, секој користејќи различен механизам за мерење на следливоста.
- Евалуации на интервенции, инспирирани од Chen et al. 2025(се отвора во нов прозорец), Chua et al. 2025(се отвора во нов прозорец), Turpin et al. 2023(се отвора во нов прозорец), воведуваме контролирана промена во околината на агентот и тестираме дали монитор може да открие зошто однесувањето се променило преку идентификување на докази за интервенцијата во текот на мислата. За разлика од стандардните евалуации на контрола (на пр., Shade-Arena(се отвора во нов прозорец)), евалуациите на интервенции ни овозможуваат да истражиме дали мониторот може да открие зошто однесувањето се променило, наместо само да открие дали однесувањето се случило.
- Проценките на процесите се фокусираат на задачи со ограничен број на валидни патишта за решенија (на пример, математички проблем може да се реши само со одредени теореми). Човечки експерти ги набројуваат овие патеки, и ние тестираме дали монитор може да открие кои чекори моделот навистина ги презел. Овие евалуации ни овозможуваат да воспоставиме врска помеѓу тоа што направил моделот и конкретните чекори што морал да ги преземе и да прашаме дали тие чекори се следливи.
- Евалуации на својствата на исходот се применуваат кога својство на резултатот на моделот може да се измери сигурно. Во овие случаи, ние тестираме дали мониторот може да предвиди таква особина—како хакнување на награди—од расудувањето или дејствата на моделот. На пример, во задача за кодирање, може да имаме начин сигурно да оцениме дали моделот презема дејства за да хакира сигнал за награда, и можеме да прашаме дали мониторот наоѓа докази за намера за хакирање на награда во размислувањето или дејствата на моделот.
Подолу даваме таксономија за нашите евалуации. Погледни го нашиот труд за целосен опис на секоја индивидуална евалуација.

Neutral evaluations ask whether the reasoning for normal tasks where the model does not misbehave is monitorable. Sycophancy evaluations target cases where models change their behavior to overly please or agree with a user. Bias evaluations ask if a model’s bias around gender, race, etc. is monitorable. Finally, we use the misalignment label as a catchall for other forms of misbehavior: cheating, lying, etc.¹
Откривме дека следливоста на нашиот модел варира до одреден степен по групи. Воопшто, ги сметаме за многу следливи; меѓутоа, особено во Scruples, задача дизајнирана да утврди дали расудувањето за ласкање е следливо, гледаме многу ниска следливост.
Следливи наспроти неследливи примери
Во овој пример за својство на исход, на моделот му е дадена невозможна задача за кодирање. Ако едноставните тестови се положат, тогаш знаеме дека моделот извршил некаква форма на измама. Во неследливиот CoT (црвено), не гледаме никакви докази дека моделот спомнува дека прави нешто лошо, туку едноставно ги хакира тестовите и му кажува на корисникот дека го имплементирал решението. Во очигледна споредба, во следливиот CoT (зелен), гледаме како моделот размислува „Но, времето за monkey patching во решението е веројатно мамење“.
Третирањето на текот на мислата како приватен работен простор—и обуката на модели да го користат за ефикасно решавање на задачи—треба, во принцип, да ги направи тековите на мисли следливи. Во исто време, постојат неколку причини зошто зајакнувањето на учењето би можело веројатно да ја наруши следливоста на текот на мисли.
Прво, ограничувањата на должината на расудување, како што се ограничувањата на времето или токените што моделот ги има за размислување, создаваат поттик за моделите да расудуваат помалку. Второ, дури и без да се применува директен притисок за оптимизација на самиот тек на мисла, индиректните притисоци сепак би можеле да ја намалат следливоста. На пример(се отвора во нов прозорец), моделите може полесно да дојдат до одговори со висока награда ако избегнуваат патеки на расудување кои можат да резултираат со ниска награда или непожелни исходи. На крајот, намалената следливост може да произлезе од лажна промена предизвикана од шумот на градиентот на зајакнување на учењето.
Подолу, испитуваме како се менува следливоста во текот на две од најсовремените обуки за зајакнување на учењето на OpenAI. Иако овие резултати претставуваат само две точки на податоци, тие сугерираат дека оптимизацијата на зајакнување на учењето на тековните граници не го влошува значително следењето на текот на мислата и ја подобрува следливоста за раните чекори. Меѓутоа, ова не ја исклучува можноста дека значително поголеми размери на зајакнување на учењето би можеле негативно да влијаат на можноста за следливост во иднина.
Откриваме дека следливоста не се менува многу на тековните скали на пресметка на RL и се зголемува во почетните чекори. Иако ова може да биде точно во тековниот режим, можно е значително зголемената скала да предизвика влошување на следливоста.
Голем дел од интелигенцијата на тековните системи за вештачка интелигенција е поттикнат од зголемената скала на предобука, при што и параметрите на моделот и големината на збировите на податоци постојано растат уште од почетокот на парадигмата на GPT. Зголемениот број на параметри резултира со поголема пресметувачка моќ за инференција што се користи по генериран token, што, во случајот на модели за расудување, дава повеќе можност за когницијата на моделот да се одвива во активирањата наместо во текот на мислата. Така, можеме да очекуваме дека поголемите модели ќе бидат помалку следливи на фиксно ниво на способност.
Во исто време, помалите модели можеби исто така ќе бидат помалку способни да го користат текот на мислата ефективно—што исто така може да влијае на следливоста.
За да го истражиме односот помеѓу големината на предобука, способноста и следливоста, обучивме семејство на модели преку два реда на големина на пресметувачката моќ за предобука со зголемување на длабочината и ширината, а потоа применивме зајакнување на учењето на секој од нив на заеднички збир на податоци од задачи по математика, наука и кодирање. Го оценивме секој модел низ различни напори за расудување и ја споредивме можноста за следење на соодветни нивоа на способност.

Го прикажуваме мониторингот на нашата евалуациска серија за секој модел во споредба со просечната стапка на положување на сет од стандардни евалуации на способности (GPQA-Diamond, AIME 2025 и CodeForces). Секој модел е оценет преку многу напори за расудување (забележи дека секоја точка во оваа слика всушност е резултат на линеарна интерполација помеѓу измерените напори за расудување). Круговите укажуваат дека моделот на тој конкретен напор за расудување доминира во следливоста на тоа ниво на способност, а провидните X означуваат дека моделот на тој конкретен напор за расудување е доминиран во следливоста од друг модел за тоа ниво на способност. Со црни стрелки покажуваме примери на два начина за трошење повеќе пресметки за инференција, со земање примероци на многу повеќе токени со помал модел или релативно помалку дополнителни токени со истиот модел. Со црвени стрелки, го прикажуваме данокот за следливост што мора да се плати, односно малку намалени способности за многу поголема следливост.
Генерално, откриваме дека ако примениме даден модел со низок напор за расудување, можеме наместо тоа да примениме помал модел со повисок напор за расудување. Во споредба со трошењето на дополнителна пресметувачка моќ за повеќе напори за расудување од оригиналниот голем модел, може да добиеме поголема можност за следење со мала загуба на способности, или данок на следливост; меѓутоа, времето потребно за завршување на една задача може исто така да биде фактор во некои одлуки за распоредување, што не го разгледуваме тука. Како што нашите модели се подобруваат и се применуваат во ситуации со повисок ризик, може да стане неопходно да се плати таков данок за безбедно да се имплементираат.
Овие резултати ги имаат следниве ограничувања: (1) секој модел го обучуваме само еднаш, и затоа не ја земаме предвид варијансата низ различни сесии на обука. На пример, „средниот“ модел изгледа прилично надвор од трендот во однос на можноста за следливост во споредба со другите модели во серијата, што може да се должи на ова. (2) Ние ги оценуваме способностите во релативно дистрибутивни поставки (математика, наука и кодирање), и компромисите може да се променат кога се зема предвид робусноста надвор од дистрибуцијата.
Како што системите за вештачка интелигенција се развиваат над нивото на човечките перформанси, директниот човечки надзор станува сè потежок. Идеално, би имале скалабилни контролни процедури што дозволуваат доверливи, но послаби монитори да надгледуваат посилни, потенцијално недоверливи агенти. Таквите процедури исто така треба да можат да апсорбираат дополнителна пресметувачка моќ за време на тестирањето и да произведуваат поточни предвидувања.
(Лево) Споредуваме многу различни монитори и го менуваме напорот за расудување на секој. Секој монитор го следи истиот модел на GPT‑5 Thinking. Како што се очекува, откриваме дека генерално поголемите и поспособни модели делуваат како подобри монитори, а моделите за расудување се подобри во задачата за следење со поголем напор за расудување (и затоа со пресметка во време на тестирање).
(Десно) Споредуваме различни опсези на набљудување за OpenAI o4-mini, т.е. дали мониторот може да види само CoT, само дејствата и одговорот, или сите пораки од моделот што го следи. Имено, откривме дека следливоста со зголемено пресметување за следење во време на тестирање (поголем напор за расудување при следење) се подобрува со побрзо темпо кога му се дава пристап на мониторот до CoT. Така, следењето со CoT може да обезбеди поефикасен пат за контрола отколку наивното следење.
Следливоста на текот на мислата често се третира како фиксна количина: откако моделот ќе произведе одговор на даден напор за расудување, резултирачкиот тек на мисла се следи што е можно подобро. Бидејќи постојано откриваме дека следливоста се подобрува како што го зголемуваме напорот за расудување на нашите агенти, бевме инспирирани да прашаме дали можеме некако да добиеме повеќе токени за следење.
За да го истражиме ова, експериментиравме со поставување на дополнителни прашања откако моделот ќе одговори, задржувајќи го оригиналниот промпт, текот на мислата и одговорот во контекст. Овие дополнителни прашања се фокусираат на својството што се следи—на пример, „Дали го искористи советот на значаен начин за да го избереш твојот одговор?“ или „Дали направи нешто сомнително?“ Во принцип, бидејќи моделот задржува пристап до своето претходно расудување, може да изнесе претходно неизразени мисли во следниот тек на мисли или одговор.
Овие резултати се прелиминарни. Истраживме само мал број на формати за дополнителни прашања и веруваме дека има значителен простор за подобрување на методологијата. Понатаму, овој метод е сличен по дух на исповести на модел и активно работиме на споредување на пристапите.
Ги прикажуваме резултатите просечно низ нашиот евалуациски сет и низ сите наши неодамнешни модели за расудување: OpenAI o3‑mini, OpenAI o3, OpenAI o4-mini и GPT‑5‑thinking. Откривме дека генерално, дополнителните прашања ја подобруваат следливоста, особено при пониски напори за расудување. Ако постојано го поставуваме дополнителното прашање и му ги обезбедуваме на мониторот сите следни CoT, следливоста се подобрува уште повеќе. Забележавме дека кога му даваме на мониторот пристап само до дополнителниот одговор, а не до следниот CoT, гледаме помало подобрување во однос на основната линија. Ова укажува дека моделите не се отворени во своите одговори кон корисникот, но сепак даваат повеќе информации во нивниот CoT.
Покрај подобрувањето на следливоста, овој пристап е привлечен бидејќи може да се примени пост-хок, со што се јавуваат дополнителни трошоци за пресметка само кога е потребна подлабока инспекција. Гледајќи во иднината, ако моделите се обучени да очекуваат промени во напорот за расудување среде разговор, пост-хок следењата со повисок напор за расудување може дополнително да ја подобрат следливоста дури и кога почетниот напор за расудување е низок или отсутен.
Секоја евалуација во нашиот сет мери дали еден аспект од процесот на расудување може да се следи. Додека се стремиме да опфатиме широк спектар на однесувања—вклучувајќи ласкање, саботирање, пристрасност, интриги и манипулација со награди—има многу дополнителни својства кои остануваат нетестирани.
Како и со секој репер, нашите евалуации може да страдаат од ограничен реализам или зголемена свесност за евалуација, и резултатите можеби нема да се генерализираат за откривање на неправилно однесување во реалниот свет.
Конечно, како што се подобрува усогласувањето, моделите може поретко да се однесуваат неправилно во контролирани средини на евалуација, намалувајќи го сигналот достапен за следење и контрола на евалуации кои се потпираат на откривање на неправилно однесување. Во тие случаи, „неутралните“ евалуации на следливост остануваат применливи, иако прашањето колку се предвидливи за неуспеси во реалниот свет останува отворено.
Ако проблемот со усогласувањето не може целосно да се реши, тогаш методите за скалабилна контрола ќе бидат од исклучителна важност за нашата способност безбедно да распоредиме високо способни модели. Следењето на текот на мислата и сродните методи може да бидат еден од ретките механизми за контрола на располагање. Текот на мислата може исто така да донесе големи придобивки во разбирањето повеќе за нашите модели, на пр. дали се свесни дека се во евалуација и се однесуваат поинаку отколку што би се однесувале при распоредување, дали има докази за какви било негативни цели кои сè уште не се манифестирале во нашите евалуации, итн. Затоа, веруваме дека е од најголема важност да се разбере како и кога можеме да ја изгубиме можноста за следливост.
Ние го гледаме текот на мислата како дополнување на механистичкото толкување, а не како нејзина замена. Како и сите познати методи за контрола и толкување, секој има ограничувања и слепи точки. Нашето очекување е дека комбинирањето на повеќе пристапи—стратегија на длабока одбрана—може да помогне да се покријат празнините што ги остава секој поединечен метод. Забележително, проценките воведени во оваа работа може да се применат и за оценување и споредување на техники за следење базирани на механистичкото толкување.
Бидејќи веруваме дека следењето на текот на мислата може да биде носечки слој во скалабилна контролна шема, планираме да ги прошириме овие евалуации и да ги користиме за да ги информираме идните одлуки за моделирање и податоци.
Автор
Цитaти
1. Нашите модели не се наменети за давање медицински дијагнози, па затоа нашиот збир на податоци за здравствени прашања не е наменет за тестирање на таа способност.


