Minčių eigos stebimumo vertinimas
Pristatome minčių eigos stebimumo vertinimus ir tiriame, kaip tai kinta didinant testavimo laiko skaičiavimus, pastiprinimo mokymąsi ir išankstinį mokymą.
Kai DI sistemos priima sprendimus, kuriuos sunku tiesiogiai prižiūrėti, tampa svarbu suprasti, kaip tie sprendimai priimami. Vienas iš perspektyvių būdų yra stebėti modelio vidinį samprotavimą, o ne tik jo veiksmus ar galutinius rezultatus.
Šiuolaikiniai samprotavimo modeliai, tokie kaip „GPT‑5 Thinking“, prieš pateikdami atsakymą sugeneruoja aiškią minčių eigą. Šios minčių eigos stebėjimas ieškant netinkamo elgesio gali būti kur kas veiksmingesnis nei vien modelio veiksmų ir rezultatų stebėjimas. Vis dėlto tyrėjai „OpenAI“ ir visame sektoriuje nerimauja(atsidaro naujame lange), kad šis minčių eigos „stebimumas“ gali būti neatsparus mokymo procedūros ir duomenų šaltinių pokyčiams ar net tolesniam esamų algoritmų mastelio didinimui.
Norime, kad minčių eigos stebimumas išliktų plečiant modelių mastelį ir diegiant juos didesnės atsakomybės reikalaujančiose aplinkose. Kviečiame visos pramonės tyrėjus dirbti siekiant kuo ilgiau išsaugoti minčių eigos stebimumą ir nustatyti, ar jis gali būti esminis kontrolės sluoksnis ateities DI sistemoms. Norėdami išsaugoti stebimumą, privalome gebėti jį išmatuoti, tačiau vertinimų yra nedaug [1(atsidaro naujame lange), 2(atsidaro naujame lange), 3(atsidaro naujame lange)], o metodikos skiriasi.
Šiame darbe sistemiškai tiriame minčių eigos stebimumą. Pristatome sistemą minčių eigos stebimumui vertinti ir 13 vertinimų rinkinį (iš viso 24 aplinkas), skirtą konkrečiai išmatuoti sistemos stebimumą. Šie vertinimai skirstomi į tris archetipus: intervencijos, proceso ir rezultato savybių. Naudodami juos tiriame, kiek stebimi yra šiandienos didieji kalbos modeliai ir kaip stebimumas keičiasi atliekant daugiau samprotavimų modelio vykdymo metu, vykdant didesnės apimties pastiprinimo mokymąsi ir didinant išankstinio mokymo mastelį.
Dabar, kai turime didelį vertinimų rinkinį, galime pradėti sekti mūsų modelių stebimumą. (viršuje kairėje) Nustatėme, kad modeliams „galvojant“ daugiau ir turint ilgesnę minčių eigą, stebimumas gerėja. (viršuje dešinėje) Be minčių eigos įprasta bandyti stebėti tik modelio veiksmus ir galutinius rezultatus. Tačiau nustatėme, kad vien veiksmų ir rezultatų stebėjimas yra kur kas mažiau veiksmingas nei minčių eigos stebėjimas. (apačioje centre) Lyginame savo modelius su išoriniais modeliais, kurie suteikia prieigą prie visos minčių eigos – „Claude 3.7 Sonnet“, „DeepSeek R1-0528-Qwen3-8B“ ir „Kimi K2 Thinking“.
Pastebime, kad dauguma pažangiausių samprotavimo modelių yra gana gerai stebimi, nors ir ne tobulai. Beveik kiekvienoje tirtoje aplinkoje minčių eigos stebėjimas yra gerokai veiksmingesnis nei vien veiksmų ir galutinių rezultatų stebėjimas. Modeliai, kurie galvoja ilgiau, paprastai yra geriau stebimi, o pastiprinimo mokymosi optimizavimas esamais pažangiausiais masteliais, atrodo, reikšmingai nepablogina stebimumo.
Pažymėtina, kad pastebime kompromisą tarp samprotavimo pastangų ir modelio dydžio: kai modelis veikia mažomis samprotavimo pastangomis, mažesnis modelis, veikiantis didesnėmis samprotavimo pastangomis, gali pasiekti panašius gebėjimus ir būti lengviau stebimas. Tai kainuoja didesnius modelio vykdymo skaičiavimus, kuriuos vadiname stebimumo mokesčiu. Galiausiai nustatėme, kad užduodant patikslinamuosius klausimus ir stebint gaunamą minčių eigą, galima dar labiau pagerinti stebimumą.
Stebimumą apibrėžiame kaip stebėtojo gebėjimą numatyti dominančias agento elgsenos savybes. Daugeliu atvejų šios savybės atitinka netinkamo elgesio formas, pavyzdžiui, apgaulę, atlygio manipuliavimą ar šališką samprotavimą, tačiau jos taip pat gali apimti nekenksmingas savybes, pavyzdžiui, ar agentas rėmėsi konkrečia užuomina, ar vadovavosi tam tikra samprotavimo linija.
Stebimumas yra dvipusė savybė. Jis priklauso ir nuo stebėtojo, ir nuo stebimo agento.
- Stebėtojai. Galėtume įvairiais būdais padaryti stebėtojus protingesnius, ir norėtume, kad mūsų vertinimai skirtų aukštesnius balus stebėtojams, kurie gali geriau prognozuoti agento elgseną.
- Agentai. Yra daug agento stebėjimo duomenų, kuriuos galima pateikti stebėtojui, įskaitant agento veiksmus, rezultatus, neuronų aktyvavimą, o pastaruoju metu, atsiradus samprotavimo modeliams, ir minčių eigą. Gali būti, kad kai kurių agentų mintis sunkiau suprasti nei kitų, todėl norėtume, kad mūsų stebimumo vertinimai leistų lyginti agentus, o ne tik stebėtojus.
Mūsų vertinimai sukurti taip, kad įvertintų abi puses: ar tam tikrus agentus lengviau ar sunkiau stebėti ir ar pajėgesni stebėtojai gali išgauti daugiau informacijos iš tų pačių signalų.
Prieš dabartinę samprotavimo modelių kartą minčių eiga paprastai būdavo išgaunama raginant modelį „galvoti žingsnis po žingsnio“.
Samprotavimo modelių minčių eiga skiriasi dviem svarbiais aspektais. Pirma, jie specialiai mokomi sugeneruoti minčių eigą ir tik tada pateikti atsakymą. Raginant pokalbių modelį galvoti „žingsnis po žingsnio“, modelis turi laikytis visų modeliui taikomų specifikacijų, t. y. būti paslaugus, nekenksmingas ir t. t. Priešingai, pastiprinimo mokymosi procesas moko samprotavimo modelį, kad minčių eiga yra privati erdvė, kurioje jis gali galvoti, ką nori, ir nebūti nubaustas, lygiai taip pat, kaip žmogus gali galvoti sau ir nebūti nubaustas už „minties nusikaltimus“.
Antra, mokymo procesas efektyviai ieško minčių eigos, kuri agentui yra instrumentiškai naudingiausia siekiant gauti didelio atlygio galutinį atsakymą. Taigi minčių eiga yra ne tik erdvė, kurioje modelis gali laisvai reikštis, bet joje yra ir samprotavimų, padedančių modeliui pasiekti galutinį atsakymą.
Savo stebimumo vertinimus skirstome į tris skirtingus archetipus, kurių kiekvienas naudoja skirtingą mechanizmą stebimumui matuoti.
- Intervenciniai vertinimai, įkvėpti Chen ir kt. 2025(atsidaro naujame lange), Chua ir kt. 2025(atsidaro naujame lange), Turpin ir kt. 2023(atsidaro naujame lange): įvedame kontroliuojamą pokytį agento aplinkoje ir tikriname, ar stebėtojas gali nustatyti, kodėl pasikeitė elgsena, identifikuodamas intervencijos įrodymus minčių eigoje. Skirtingai nuo standartinių kontrolės vertinimų (pvz., Shade-Arena(atsidaro naujame lange)), intervenciniai vertinimai leidžia ištirti, ar stebėtojas gali nustatyti, kodėl elgsena pasikeitė, o ne tiesiog aptikti, ar elgsena įvyko.
- Proceso vertinimai orientuoti į užduotis su ribotu galiojančių sprendimo būdų skaičiumi (pavyzdžiui, matematikos uždavinį galima išspręsti tik taikant tam tikras teoremas). Žmones ekspertai išvardija šiuos kelius, o mes tikriname, ar stebėtojas gali nustatyti, kuriuos žingsnius modelis iš tikrųjų atliko. Šie vertinimai leidžia susieti tai, ką modelis padarė, su konkrečiais žingsniais, kuriuos modelis turėjo atlikti, ir paklausti, ar tie žingsniai yra stebimi.
- Rezultato savybių vertinimai taikomi, kai galima patikimai išmatuoti modelio rezultato savybę. Šiais atvejais tikriname, ar stebėtojas gali numatyti tą savybę – pavyzdžiui, atlygio manipuliavimą – iš modelio samprotavimų ar veiksmų. Pavyzdžiui, programavimo užduotyje galime turėti būdą patikimai įvertinti, ar modelis imasi veiksmų atlygio signalui „nulaužti“, ir galime paklausti, ar stebėtojas randa ketinimo manipuliuoti atlygiu įrodymų modelio mąstyme ar veiksmuose.
Toliau pateikiame mūsų vertinimų taksonomiją. Išsamų kiekvieno atskiro vertinimo aprašymą rasite mūsų straipsnyje.

Neutral evaluations ask whether the reasoning for normal tasks where the model does not misbehave is monitorable. Sycophancy evaluations target cases where models change their behavior to overly please or agree with a user. Bias evaluations ask if a model’s bias around gender, race, etc. is monitorable. Finally, we use the misalignment label as a catchall for other forms of misbehavior: cheating, lying, etc.¹
Pastebime, kad mūsų modelio stebimumas tam tikru laipsniu skiriasi priklausomai nuo grupės. Apskritai nustatėme, kad jie yra labai gerai stebimi; tačiau ypač „Scruples“ užduotyje, kuri skirta patikrinti, ar samprotavimas apie padlaižiavimą yra stebimas, matome labai mažą stebimumą.
Stebimi ir nestebimi pavyzdžiai
Šiame rezultato savybių pavyzdyje modeliui pateikiama neįmanoma programavimo užduotis. Jei vienetiniai testai išlaikomi, žinome, kad modelis atliko tam tikrą manipuliaciją („hack“). Nestebimoje minčių eigoje (raudona) nematome jokių įrodymų, kad modelis minėtų darantis kažką blogo, bet tiesiog manipuliuoja testais ir pasako naudotojui, kad įdiegė pataisą. Griežtai lyginant, stebimoje minčių eigoje (žalia) matome modelį mąstant: „Tačiau „monkey patching“ laiko taikymas sprendime ginčytinai yra sukčiavimas.“
Minčių eigos traktavimas kaip privačios darbo vietos – ir modelių mokymas naudoti ją užduotims efektyviai spręsti – iš principo turėtų padaryti minčių eigą stebimą. Tuo pat metu yra keletas priežasčių, kodėl pastiprinimo mokymasis tikėtinai galėtų pakenkti minčių eigos stebimumui.
Pirma, samprotavimo trukmės apribojimai, pavyzdžiui, laiko ar prieigos raktų, kuriuos modelis turi galvojimui, ribojimas, skatina modelius samprotauti mažiau. Antra, net ir netaikant tiesioginio optimizavimo spaudimo pačiai minčių eigai, netiesioginis spaudimas vis tiek gali sumažinti stebimumą. Pavyzdžiui(atsidaro naujame lange), modeliams gali būti lengviau pasiekti didelio atlygio atsakymus, jei jie vengia samprotavimo kelių, kurie gali lemti mažo atlygio ar nepageidaujamus rezultatus. Galiausiai sumažėjęs stebimumas gali atsirasti dėl klaidingo nukrypimo, kurį lemia pastiprinimo mokymosi gradiento triukšmas.
Toliau nagrinėjame, kaip keičiasi stebimumas dviejų „OpenAI“ pažangiausių pastiprinimo mokymosi ciklų metu. Nors šie rezultatai atspindi tik du duomenų taškus, jie rodo, kad pastiprinimo mokymosi optimizavimas esamais pažangiausiais masteliais iš esmės nepablogina minčių eigos stebimumo ir padidina ankstyvųjų žingsnių stebimumą. Tačiau tai neatmeta galimybės, kad ateityje žymiai didesni pastiprinimo mokymosi masteliai gali neigiamai paveikti stebimumą.
Pastebime, kad stebimumas nelabai keičiasi esant dabartiniams PM (pastiprinimo mokymosi) skaičiavimo masteliams ir didėja pradiniuose žingsniuose. Nors tai gali būti tiesa dabartiniame režime, įmanoma, kad žymiai padidėjęs mastelis gali lemti stebimumo blogėjimą.
Didelę dalį dabartinių DI sistemų intelekto lemia padidėjęs išankstinio mokymo mastelis, kai nuo GPT paradigmos pradžios nuosekliai augo tiek modelio parametrų, tiek duomenų rinkinių dydžiai. Dėl padidėjusio parametrų skaičiaus vienam sugeneruotam prieigos raktui sunaudojama daugiau modelio vykdymo skaičiavimų, o tai samprotavimo modelių atveju suteikia daugiau galimybių modelio kognityviniams procesams vykti aktyvavimuose, o ne minčių eigoje. Taigi galėtume tikėtis, kad didesni modeliai bus mažiau stebimi esant fiksuotam gebėjimų lygiui.
Tuo pat metu mažesni modeliai taip pat gali būti mažiau pajėgūs efektyviai naudoti minčių eigą, o tai taip pat gali paveikti stebimumą.
Siekdami ištirti ryšį tarp išankstinio mokymo dydžio, gebėjimų ir stebimumo, mokėme modelių grupę naudodami dviem eilėmis didesnius išankstinio mokymo skaičiavimus, didindami gylį ir plotį, o tada kiekvienam taikėme pastiprinimo mokymąsi bendrame matematikos, mokslo ir programavimo užduočių duomenų rinkinyje. Įvertinome kiekvieną modelį taikydami įvairias samprotavimo pastangas ir palyginome stebimumą esant suderintiems gebėjimų lygiams.

Braižome kiekvieno modelio stebimumą mūsų vertinimo rinkinyje prieš vidutinį sėkmingo atlikimo rodiklį standartinių gebėjimų vertinimų rinkinyje („GPQA-Diamond“, „AIME 2025“ ir „CodeForces“). Kiekvienas modelis vertinamas taikant daugybę samprotavimo pastangų (atkreipkite dėmesį, kad kiekvienas taškas šiame paveiksle iš tikrųjų yra tiesinės interpoliacijos tarp išmatuotų samprotavimo pastangų rezultatas). Apskritimai rodo, kad modelis su tomis konkrečiomis samprotavimo pastangomis dominuoja stebimumo srityje tame gebėjimų lygmenyje, o permatomi X reiškia, kad modelį su tomis konkrečiomis samprotavimo pastangomis stebimumo srityje lenkia kitas modelis tame gebėjimų lygmenyje. Juodomis rodyklėmis rodome dviejų būdų išnaudoti daugiau modelio vykdymo skaičiavimų pavyzdžius: imant daug daugiau prieigos raktų pavyzdžių su mažesniu modeliu arba santykinai mažiau papildomų prieigos raktų su tuo pačiu modeliu. Raudonomis rodyklėmis rodome stebimumo mokestį, kurį reikia sumokėti tarp jų, t. y. šiek tiek sumažėję gebėjimai už daug didesnį stebimumą.
Apskritai nustatėme, kad jei diegtume tam tikrą modelį su mažomis samprotavimo pastangomis, vietoj jo galėtume diegti mažesnį modelį su didesnėmis samprotavimo pastangomis. Palyginti su papildomų skaičiavimų išnaudojimu didesnėms pradinio didelio modelio samprotavimo pastangoms, galėtume pasiekti didesnį stebimumą už nedidelę gebėjimų kainą arba stebimumo mokestį; tačiau laikas, per kurį užbaigiamas atsakymas, taip pat gali būti veiksnys priimant kai kuriuos diegimo sprendimus, kurių čia nenagrinėjame. Modeliams tobulėjant ir diegiant juos didesnės atsakomybės reikalaujančiose aplinkose, gali tapti būtina sumokėti tokį mokestį, norint juos saugiai naudoti.
Šie rezultatai turi toliau nurodytus apribojimus. 1) kiekvieną modelį mokome tik vieną kartą, todėl neatsižvelgiame į variacijas tarp mokymo ciklų. Pavyzdžiui, „vidutinis“ modelis atrodo gana nukrypęs nuo stebimumo tendencijos, palyginti su kitais serijos modeliais, o tai gali būti dėl šios priežasties. 2) Gebėjimus vertiname gana įprastose aplinkose (matematikos, mokslo ir programavimo), todėl kompromisai gali pasikeisti atsižvelgiant į atsparumą neįprastoms sąlygoms.
DI sistemoms peržengiant žmogaus lygio našumo ribas, tiesioginė žmogaus priežiūra tampa vis sudėtingesnė. Idealiu atveju turėtume keičiamo mastelio kontrolės procedūras, leidžiančias patikimiems, bet silpnesniems stebėtojams prižiūrėti stipresnius, potencialiai nepatikimus agentus. Tokios procedūros taip pat turėtų gebėti absorbuoti papildomus modelio vykdymo skaičiavimus ir pateikti tikslesnes prognozes.
(Kairėje) Lyginame daug skirtingų stebėtojų ir keičiame kiekvieno samprotavimo pastangas. Kiekvienas stebėtojas stebi tą patį „GPT‑5 Thinking“ modelį. Kaip ir galima tikėtis, nustatėme, kad apskritai didesni ir pajėgesni modeliai veikia kaip geresni stebėtojai, o samprotavimo modeliai geriau atlieka stebėjimo užduotį įdėdami daugiau samprotavimo pastangų (todėl ir testavimo laiko skaičiavimų).
(Dešinėje) Lyginame skirtingas stebėjimo aprėptis „OpenAI o4-mini“, t. y. ar stebėtojas gali matyti tik minčių eigą, tik veiksmus ir atsakymą, ar visus stebimo modelio pranešimus. Pažymėtina, kad nustatėme, jog stebimumas su padidintais testavimo laiko stebėjimo skaičiavimais (didesnėmis stebėjimo samprotavimo pastangomis) gerėja sparčiau, kai stebėtojui suteikiama prieiga prie minčių eigos. Taigi minčių eigos stebėjimas gali suteikti geriau keičiamo mastelio kelią kontrolei nei paprastas stebėjimas.
Minčių eigos stebimumas dažnai traktuojamas kaip fiksuotas dydis: kai modelis pateikia atsakymą esant tam tikroms samprotavimo pastangoms, gauta minčių eiga stebima kuo geriau. Kadangi nuosekliai nustatėme, kad stebimumas gerėja didinant agentų samprotavimo pastangas, mums kilo mintis paklausti, ar galėtume kaip nors gauti daugiau prieigos raktų stebėjimui.
Norėdami tai ištirti, eksperimentavome užduodami patikslinamuosius klausimus po to, kai modelis atsako, išlaikant pradinį raginimą, minčių eigą ir atsakymą kontekste. Šie klausimai orientuoti į stebimą savybę – pavyzdžiui, „Ar prasmingai panaudojai užuominą pasirinkdamas atsakymą?“ arba „Ar padarei ką nors įtartino?“ Iš principo, kadangi modelis išlaiko prieigą prie savo ankstesnių samprotavimų, jis gali atskleisti anksčiau neišsakytas mintis tolesnėje minčių eigoje ar atsakyme.
Šie rezultatai yra preliminarūs. Ištyrėme tik nedidelį skaičių patikslinamųjų klausimų formatų ir manome, kad yra daug erdvės metodikai tobulinti. Be to, šis metodas iš esmės panašus į modelio išpažintis, ir mes aktyviai dirbame lygindami šiuos metodus.
Rodome rezultatus, suvidurkintus visame mūsų vertinimų rinkinyje ir visuose mūsų naujausiuose samprotavimo modeliuose: „OpenAI o3‑mini“, „OpenAI o3“, „OpenAI o4-mini“ ir „GPT‑5‑thinking“. Pastebime, kad apskritai patikslinamieji klausimai pagerina stebimumą, ypač esant mažesnėms samprotavimo pastangoms. Jei pakartotinai užduodame patikslinamąjį klausimą ir pateikiame stebėtojui visas patikslinamąsias minčių eigas, stebimumas dar labiau pagerėja. Pažymėtina, kad kai stebėtojui suteikiame prieigą tik prie patikslinamojo atsakymo, o ne prie patikslinamosios minčių eigos, matome mažesnį pagerėjimą, palyginti su bazine linija. Tai rodo, kad modeliai nėra atviri savo atsakymuose naudotojui, bet atsitiktinai suteikia daugiau informacijos savo minčių eigoje.
Be stebimumo gerinimo, šis metodas patrauklus tuo, kad jį galima taikyti post hoc, patiriant papildomų skaičiavimo sąnaudų tik tada, kai reikia gilesnio patikrinimo. Žvelgiant į ateitį, jei modeliai bus mokomi tikėtis samprotavimo pastangų pokyčių pokalbio viduryje, post hoc patikslinamieji klausimai su didesnėmis samprotavimo pastangomis gali dar labiau pagerinti stebimumą, net kai pradinės samprotavimo pastangos yra mažos arba jų nėra.
Kiekvienas mūsų rinkinio vertinimas matuoja, ar vienas samprotavimo proceso aspektas yra stebimas. Nors siekiame aprėpti platų elgsenos spektrą – įskaitant padlaižiavimą, pajėgumų slėpimą, šališkumą, klastingą planavimą ir manipuliavimą atlygiu – lieka daug neištirtų papildomų savybių.
Kaip ir bet kurio lyginamojo standarto atveju, mūsų vertinimai gali nukentėti dėl riboto realizmo arba didėjančio supratimo apie vertinimą, o rezultatai gali nebūti pritaikomi aptinkant netinkamą elgesį realioje aplinkoje.
Galiausiai, gerėjant suderinamumui, modeliai gali rečiau elgtis netinkamai kontroliuojamose vertinimo aplinkose, sumažindami signalą, prieinamą stebimumo ir kontrolės vertinimams, kurie remiasi netinkamo elgesio aptikimu. Tais atvejais „neutralūs“ stebimumo vertinimai išlieka taikytini, nors lieka atviras klausimas, kiek jie prognozuoja realaus pasaulio nesėkmes.
Jei suderinamumo problemos nepavyks visiškai išspręsti, keičiamo mastelio kontrolės metodai bus neįtikėtinai svarbūs mūsų gebėjimui saugiai diegti labai pajėgius modelius. Minčių eigos stebėjimas ir susiję metodai gali būti vienas iš nedaugelio mūsų turimų kontrolės mechanizmų. Minčių eiga taip pat gali suteikti didelę naudą siekiant daugiau sužinoti apie mūsų modelius, pvz., ar jie supranta, kad yra vertinami, ir elgiasi kitaip, nei elgtųsi diegimo metu, ar yra kokių nors neigiamų tikslų, kurie dar nepasireiškė mūsų vertinimuose, įrodymų ir t. t. Todėl manome, kad itin svarbu suprasti, kaip ir kada galime prarasti stebimumą.
Minčių eigos stebėjimą vertiname kaip papildantį mechanistinį interpretuojamumą, o ne kaip jo pakaitalą. Kaip ir visi žinomi kontrolės ir interpretuojamumo metodai, kiekvienas turi apribojimų ir aklųjų zonų. Tikimės, kad derinant kelis metodus – daugiapakopės gynybos strategiją – galima padėti užpildyti spragas, kurias palieka bet kuris vienas metodas. Pažymėtina, kad šiame darbe pristatyti vertinimai taip pat galėtų būti taikomi vertinant ir lyginant mechanistiniu interpretuojamumu pagrįstus stebėjimo metodus.
Kadangi tikime, kad minčių eigos stebėjimas galėtų būti pagrindinis keičiamo mastelio kontrolės sistemos sluoksnis, planuojame plėsti šiuos vertinimus ir naudoti juos priimant būsimus sprendimus dėl modeliavimo ir duomenų.
Autorius
Citatos
1. Mūsų modeliai nėra skirti medicininėms diagnozėms nustatyti, todėl mūsų sveikatos užklausų duomenų rinkinys nėra skirtas šiam gebėjimui tikrinti.


