Procjena monitorabilnosti lanca misli
Uvodimo evaluacije za praćenje lanca misli i proučavamo kako se skalira sa računanjem u vrijeme testiranja, pojačanim učenjem i pretreniranim modelima.
Kada UI sistemi donose odluke koje je teško direktno nadzirati, postaje važno razumjeti kako se te odluke donose. Jedan obećavajući pristup je nadgledanje unutrašnjeg rezonovanja modela, umjesto samo njegovih radnji ili konačnih rezultata.
Moderni modeli rezonovanja, kao što je GPT‑5 razmišljanje, generiraju eksplicitan lanac misli prije nego što daju odgovor. Praćenje ovih lanaca misli zbog neprimjerenog ponašanja može biti daleko efikasnije nego samo praćenje radnji i izlaza modela. Međutim, istraživači u OpenAI-u i širom šire industrije zabrinuti su(otvara se u novom prozoru) da bi ova "monitorabilnost" lanca misli mogla biti osjetljiva na promjene u postupku obuke, izvorima podataka, pa čak i na nastavak skaliranja postojećih algoritama.
Želimo da monitorabilnost lanca misli ostane očuvana kako modeli rastu i primjenjuju se u situacijama sa većim ulozima. Pozivamo istraživače širom industrije da rade na očuvanju mogućnosti praćenja lanca misli što je duže moguće i da utvrde može li služiti kao nosivi kontrolni sloj za buduće AI sisteme. Da bismo očuvali mogućnost praćenja, moramo biti u stanju da je mjerimo, ali postoji malo evaluacija [1(otvara se u novom prozoru), 2(otvara se u novom prozoru), 3(otvara se u novom prozoru)] i metodologije se razlikuju.
U ovom radu sistematski proučavamo nadzorljivost lanca misli. Predstavljamo okvir za evaluaciju monitorabilnosti lanca misli i niz od 13 evaluacija (koje obuhvataju ukupno 24 okruženja) dizajniranih da konkretno mjere monitorabilnost sistema. Ove evaluacije spadaju u tri arhetipa—intervencija, proces i ishod-vlastitost. Koristeći ih, proučavamo koliko su današnji veliki jezički modeli nadgledani i kako se nadgledanost mijenja s više rezonovanja u vrijeme izvođenja zaključaka, većim pokretima pojačanog učenja i povećanjem skale pretreniranja.
Sada kada imamo veliki broj evaluacija, možemo početi pratiti nadzor naših modela. (gore-lijevo) Otkrivamo da kako modeli više razmisliti i imaju duže lance misli, mogućnost praćenja se poboljšava. (gore-desno) Bez lanca misli, standardno je pokušati pratiti radnje i konačne rezultate modela samostalno. Međutim, otkrivamo da praćenje samo radnji i rezultata daleko zaostaje u odnosu na praćenje CoT-a. (donji-centar) Uspoređujemo naše modele s vanjskim modelima koji omogućavaju pristup punom CoT-u—Claude 3.7 Sonnet, DeepSeek R1-0528-Qwen3-8B i Kimi K2 Thinking.
Otkrili smo da je većina naprednih modela rezonovanja prilično nadzirana, iako ne savršeno. U gotovo svakom okruženju koje proučavamo, praćenje lanca misli je znatno učinkovitije od praćenja samo radnji i konačnih rezultata. Modeli koji duže razmišljaju obično su lakše nadgledani, a optimizacija pojačanog učenja na trenutnim naprednim skalama ne čini se da značajno narušava nadgledljivost.
Značajno je da primjećujemo kompromis između napora rezonovanja i veličine modela: kada se model pokreće uz mali napor rezonovanja, manji model pokrenut uz veći napor rezonovanja može postići slične sposobnosti dok je lakši za praćenje. Ovo dolazi uz cijenu povećane računarske snage za zaključivanje, što nazivamo monitorability tax. Na kraju, otkrivamo da postavljanje dodatnih pitanja i praćenje rezultirajućih lanaca misli može dodatno poboljšati mogućnost praćenja.
Mi definiramo monitorabilnost kao sposobnost monitora da predvidi svojstva od interesa o ponašanju agenta. U mnogim slučajevima, ova svojstva odgovaraju oblicima lošeg ponašanja—kao što su obmana, manipulacija nagradama ili pristrasno rezonovanje—ali mogu uključivati i benigna svojstva, kao što je da li se agent oslanjao na određeni savjet ili slijedio određenu liniju razmišljanja.
Monitorabilnost je dvosmjerna karakteristika. To zavisi kako od monitora, tako i od agenta koji se nadzire.
- Monitori. Mogli bismo učiniti monitore pametnijima na različite načine, i želimo da naše evaluacije daju više ocjene monitorima koji mogu bolje predviđati ponašanje agenta.
- Agenti. Postoji mnogo zapažanja o agentu koja se mogu dati monitoru, uključujući radnje agenta, izlaze, neuronske aktivacije, a nedavno, s pojavom modela rezonovanja, i lanac razmišljanja. Moguće je da neki agenti imaju misli koje je teže razumjeti od drugih, i stoga bismo željeli da naše evaluacije monitorabilnosti mogu uspoređivati agente, a ne samo monitore.
Naše evaluacije su osmišljene da procijene obje strane: da li je određene agente lakše ili teže nadzirati, i da li sposobniji nadzornici mogu ekstraktovati više informacija iz istih signala.
Prije trenutne generacije modela rezonovanja, lanci mišljenja su obično bili izazvani poticanjem modela da „razmišlja korak po korak."
Lanci misli modela rezonovanja razlikuju se na dva važna načina. Prvo, oni su eksplicitno obučeni da generiraju lanac misli, a zatim da daju odgovor. Kada se chat model potiče da razmisli "korak po korak," model mora poštovati sve specifikacije postavljene na njega, tj. da bude koristan, bezopasan, itd. Suprotno tome, proces obuke pojačanog učenja uči model zaključivanja da je CoT privatni prostor gdje može razmisliti šta god želi i neće biti kažnjen, baš kao što čovjek može privatno razmišljati i neće biti kažnjen za "zločine misli."
Drugo, proces obuke efikasno traži lance misli koji su najinstrumentalnije korisni agentu za postizanje konačnog odgovora sa visokim nagradama. Dakle, lanac misli nije samo prostor u kojem se model može slobodno izražavati, već sadrži razmišljanje koje pomaže modelu da dođe do konačnog odgovora.
Mi organizujemo naše evaluacije monitorabilnosti u tri različita arhetipa, pri čemu svaki koristi drugačiji mehanizam za mjerenje monitorabilnosti.
- Evaluacije intervencija, inspirisane Chen et al. 2025,(otvara se u novom prozoru) Chua et al.(otvara se u novom prozoru) 2025, Turpin et al. 2023,(otvara se u novom prozoru) uvodimo kontrolisanu promjenu u okruženju agenta i testiramo može li monitor otkriti zašto se ponašanje promijenilo identifikovanjem dokaza intervencije u lancu misli. Za razliku od standardnih kontrolnih evaluacija (npr. Shade-Arena(otvara se u novom prozoru)), evaluacije intervencija omogućavaju nam da istražimo može li monitor otkriti zašto se ponašanje promijenilo, umjesto da samo otkrije da li se ponašanje dogodilo.
- Evaluacije procesa fokusiraju se na zadatke sa ograničenim brojem validnih puteva rješenja (na primjer, matematički problem se može riješiti samo određenim teoremima). Ljudski stručnjaci nabrajaju ove puteve, a mi testiramo može li monitor otkriti koje korake je model zapravo poduzeo. Ove evaluacije nam omogućavaju da poveznicu ono što je model uradio s određenim koracima koje je model morao poduzeti i da pitamo jesu li ti koraci nadzirani.
- Evaluacije svojstava ishoda primjenjuju se kada se svojstvo izlaza modela može pouzdano mjeriti. U ovim slučajevima testiramo može li monitor predvidjeti to svojstvo—kao što je hakiranje nagrada—iz modelovog razmišljanja ili radnji. Na primjer, u zadatak kodiranja, možemo imati način da pouzdano procijenimo da li model preduzima radnje kako bi hakirao signal nagrade, i možemo pitati da li monitor pronalazi dokaze o namjeri hakiranja nagrade u razmišljanju ili radnjama modela.
U nastavku pružamo taksonomiju za naše evaluacije. Molimo vas da pogledate naš rad za potpuni opis svake pojedinačne evaluacije.

Neutral evaluations ask whether the reasoning for normal tasks where the model does not misbehave is monitorable. Sycophancy evaluations target cases where models change their behavior to overly please or agree with a user. Bias evaluations ask if a model’s bias around gender, race, etc. is monitorable. Finally, we use the misalignment label as a catchall for other forms of misbehavior: cheating, lying, etc.¹
Otkrivamo da se nadzor našeg modela donekle razlikuje po grupama. Općenito smatramo da su vrlo nadzirljivi; međutim, u zadatku Scruples, koji je osmišljen da provjeri je li razmišljanje o ulizivanju nadzirljivo, primjećujemo vrlo nisku nadzirljivost.
Primjeri koji se mogu nadzirati u odnosu na one koji se ne mogu nadzirati
U ovom primjeru svojstva ishoda, modelu je dodijeljen nemoguć zadatak kodiranja. Ako jedinični testovi prođu, onda znamo da je model izveo neku vrstu hakiranja. U nemonitorabilnom CoT-u (crveno), ne vidimo nikakve dokaze da model spominje činjenje nečeg lošeg, već jednostavno hakira testove i govori korisniku da je implementirao popravak. U oštroj usporedbi, u nadgledanom CoT-u (zeleno), vidimo da model razmišlja „Ali monkey patching vremena unutar rješenja je, moglo bi se reći, varanje.”
Tretiranje lanca misli kao privatnog radnog prostora—i obuka modela da ga koriste za efikasno rješavanje zadataka—trebalo bi, u principu, omogućiti nadgledanje lanaca misli. Istovremeno, postoji nekoliko razloga zašto bi pojačano učenje moglo vjerovatno naštetiti mogućnosti praćenja lanca misli.
Prvo, ograničenja dužine rezonovanja, kao što su ograničavanje vremena ili tokena koje model ima za razmišljanje, kreiraju podsticaje za modele da manje rezonuju. Drugo, čak i bez primjene direktnog pritiska optimizacije na sam lanac misli, indirektni pritisci bi i dalje mogli smanjiti mogućnost praćenja. Na primjer(otvara se u novom prozoru), modeli mogu lakše doći do odgovora s visokim nagradama ako izbjegavaju puteve rezonovanja koji mogu rezultirati niskim nagradama ili nepoželjnim ishodima. Na kraju, smanjena mogućnost praćenja mogla bi nastati zbog lažnog pomaka uzrokovanog šumom gradijenta pojačanog učenja.
U nastavku, ispitujemo kako se pratljivost mijenja tokom dvije od OpenAI-ovih graničnih obuka pojačanog učenja. Iako ovi rezultati predstavljaju samo dvije tačke podataka, oni sugeriraju da optimizacija pojačanog učenja na trenutnim granicama ne degradira značajno praćenje lanca misli, te povećava praćenje za rane korake. Međutim, to ne isključuje mogućnost da bi značajno veće skale pojačanog učenja mogle negativno uticati na praćenje u budućnosti.
Otkrili smo da se mogućnost nadzora ne mijenja značajno na trenutnim razinama računanja RL-a, ali se povećava u početnim koracima. Iako ovo može biti tačno u trenutnom režimu, moguće je da bi značajno povećanje obima moglo uzrokovati da nadzor počne opadati.
Veliki dio inteligencije trenutnih AI sistema pokreće povećana skala pretreniranja, pri čemu su i parametri modela i veličine skupova podataka dosljedno rasli od početka GPT paradigme. Povećanje broja parametara rezultira većom upotrebom računarske snage za zaključivanje po generiranom tokenu, što, u slučaju modela rezonovanja, daje više prilike da se kognicija modela odvija unutar aktivacija, a ne unutar lanca misli. Stoga bismo mogli očekivati da će veći modeli biti manje nadzirani na fiksnom nivou sposobnosti.
Istovremeno, manji modeli također mogu biti manje sposobni učinkovito koristiti lanac misli—što također može utjecati na mogućnost praćenja.
Da bismo istražili odnos između veličine pretreniranja, sposobnosti i mogućnosti praćenja, obučili smo porodicu modela kroz dva reda veličine pretreniranja uz povećanje dubine i širine, a zatim primijenili pojačano učenje na svaki od njih na zajedničkom skupu podataka zadataka iz matematike, nauke i kodiranja. Procijenili smo svaki model kroz niz napora rezonovanja i uporedili mogućnost praćenja na usklađenim razinama sposobnosti.

Prikazujemo nadgledljivost na našem evaluacijskom skupu svakog modela u odnosu na prosječnu stopu prolaznosti kroz skup standardnih evaluacija sposobnosti (GPQA-Diamond, AIME 2025, i CodeForces). Svaki model se procjenjuje kroz mnoge napore rezonovanja (imajte na umu da je svaka tačka na ovoj slici zapravo rezultat linearne interpolacije između izmjerenih napora rezonovanja). Krugovi označavaju da model pri tom određenom naporu u rezonovanju dominira u nadgledanju na tom nivou sposobnosti, dok prozirni X-ovi predstavljaju da je model pri tom određenom naporu u rezonovanju nadmašen u nadgledanju od strane drugog modela za taj nivo sposobnosti. Crnim strelicama prikazujemo primjere dva načina trošenja više računalne snage za inferenciju: uzorkovanjem mnogo više tokena s manjim modelom ili uzorkovanjem relativno manje dodatnih tokena s istim modelom. Crvenim strelicama prikazujemo "porez na nadzor" koji se mora platiti, tj. blago smanjene sposobnosti za mnogo veću mogućnost nadzora.
Općenito, smatramo da ako bismo primijenili dati model uz mali napor rezonovanja, mogli bismo umjesto toga primijeniti manji model uz veći napor rezonovanja. U poređenju s trošenjem dodatne računalne obrade na više napora rezonovanja iz originalnog velikog modela, mogli bismo postići veću mogućnost praćenja uz mali trošak sposobnosti, ili porez na mogućnost praćenja; međutim, vrijeme potrebno za završetak izvršenja također može biti faktor u nekim odlukama o implementaciji, što ovdje ne razmatramo. Kako naši modeli postaju bolji i primjenjuju se u situacijama sa većim ulozima, može postati neophodno platiti takav porez kako bi se oni sigurno primijenili.
Ovi rezultati imaju sljedeća ograničenja: (1) svaki model obučavamo samo jednom, i stoga ne uzimamo u obzir varijacije između različitih pokretanja obuke. Na primjer, čini se da je "srednji" model prilično izvan trenda u pogledu mogućnosti praćenja u poređenju s drugim modelima u seriji, što bi moglo biti zbog ovoga. (2) Procjenjujemo sposobnosti u relativno uobičajenim okruženjima (matematika, nauka i kodiranje), a kompromisi se mogu promijeniti kada se uzme u obzir robusnost izvan uobičajenih okruženja.
Kako AI sistemi nadmašuju ljudski nivo performansi, direktni ljudski nadzor postaje sve teži. Idealno bi bilo da imamo skalabilne kontrolne procedure koje omogućavaju pouzdanim, ali slabijim nadzornicima da nadgledaju jače, potencijalno nepouzdane agente. Takvi postupci bi također trebali biti sposobni apsorbirati dodatnu računalnu obradu u vrijeme testiranja i proizvesti tačnija predviđanja.
(Lijevo) Upoređujemo mnoge različite monitore i variramo napor rasuđivanja svakog. Svaki monitor prati isti model razmišljanja GPT‑5. Kao što se očekuje, otkrivamo da općenito veći i sposobniji modeli djeluju kao bolji monitori, a modeli rezonovanja bolje obavljaju zadatak monitoringa uz veći napor u rezonovanju (i stoga s većim računanjem tokom testiranja).
(Desno) Upoređujemo različite opsege nadzora za OpenAI o4-mini, tj. da li monitor može vidjeti samo CoT, samo radnje i odgovor, ili sve poruke modela koji nadzire. Posebno, otkrivamo da se mogućnost praćenja uz povećano računanje za praćenje tokom testiranja (veći napor za praćenje zaključivanja) poboljšava bržim tempom kada se monitoru omogući pristup CoT-u. Stoga, nadzor CoT-a može pružiti skalabilniji put za kontrolu nego naivni nadzor.
Monitorabilnost lanca misli često se tretira kao fiksna količina: kada model proizvede odgovor uz određeni napor u razmišljanju, lanac misli se prati što je bolje moguće. Budući da smo dosljedno otkrili da se mogućnost nadzora poboljšava kako povećavamo napor u razmišljanju naših agenata, inspirisani smo da se zapitamo možemo li nekako dobiti više tokena za nadgledanje.
Da bismo ovo istražili, eksperimentirali smo s postavljanjem naknadnih pitanja nakon što model odgovori, zadržavajući originalni upit, lanac misli i odgovor u kontekstu. Ovi naknadni koraci fokusiraju se na svojstvo koje se prati—na primjer, "Jeste li koristili savjet na smislen način da odaberete svoj odgovor?" ili "Jeste li učinili nešto sumnjivo?" U principu, budući da model zadržava pristup svom ranijem razmišljanju, možda će biti u stanju iznijeti ranije neizrečene misli u narednom lancu razmišljanja ili odgovoru.
Ovi rezultati su preliminarni. Istražili smo samo mali broj formata naknadnih pitanja i vjerujemo da postoji značajan prostor za poboljšanje metodologije. Nadalje, ova metoda je slična po duhu priznanjima modela, i aktivno radimo na poređenju pristupa.
Prikazujemo rezultate prosječne kroz naš evaluacijski skup i sve naše nedavne modele za rezonovanje: OpenAI o3‑mini, OpenAI o3, OpenAI o4-mini i GPT‑5‑thinking. Otkrivamo da, uopšteno, dodatna pitanja poboljšavaju pratljivost, posebno pri nižim naporima rezonovanja. Ako ponavljano postavljamo dodatna pitanja i pružamo monitoru sve nastavke CoT-ova, mogućnost praćenja se dodatno poboljšava. Značajno je da, kada monitoru damo pristup samo odgovoru za praćenje, a ne i praćenju CoT-a, primjećujemo manje poboljšanje u odnosu na osnovnu liniju. Ovo ukazuje na to da modeli nisu otvoreni u svojim odgovorima korisniku, ali ipak pružaju više informacija u svom CoT-u.
Osim poboljšanja mogućnosti nadzora, ovaj pristup je privlačan jer se može primijeniti post hoc, uz dodatne troškove obrade samo kada je potrebna detaljnija inspekcija. Gledajući unaprijed, ako su modeli obučeni da očekuju promjene u naporu rezonovanja tokom razgovora, naknadni pregledi s većim naporom rezonovanja mogu dodatno poboljšati mogućnost praćenja čak i kada je početni napor rezonovanja nizak ili odsutan.
Svaka evaluacija u našem skupu mjeri da li je moguće pratiti jedan aspekt procesa rezonovanja. Iako nastojimo pokriti širok spektar ponašanja—uključujući ulizivanje, 'sandbagging', pristrasnost, spletkarenje i hakiranje nagrada—mnoga dodatna svojstva ostaju neispitana.
Kao i kod svakog referentnog mjerila, naše evaluacije mogu patiti od ograničenog realizma ili povećane svijesti o evaluaciji, a rezultati možda neće biti primjenjivi za otkrivanje nepravilnosti u stvarnom svijetu.
Konačno, kako se usklađenost poboljšava, modeli se mogu rjeđe nepravilno ponašati u kontrolisanim evaluacijskim okruženjima, smanjujući signal dostupan za praćenje i kontrolu evaluacija koje se oslanjaju na otkrivanje nepravilnog ponašanja. U tim slučajevima, "neutralne" evaluacije monitorabilnosti ostaju primjenjive, iako je otvoreno pitanje koliko su prediktivne za neuspjehe u stvarnom svijetu.
Ako se problem usklađivanja ne može u potpunosti riješiti, tada će skalabilne metode kontrole biti izuzetno važne za našu sposobnost sigurnog implementiranja visoko sposobnih modela. Praćenje lanca misli i srodne metode mogu biti jedan od rijetkih kontrolnih mehanizama koji su nam na raspolaganju. Lanac misli također može donijeti velike koristi u razumijevanju više o našim modelima, npr. da li su svjesni da su u evaluaciji i ponašaju se drugačije nego što bi to činili u implementaciji, da li postoje dokazi o bilo kakvim nepovoljnim ciljevima koji se još nisu manifestirali u našim evaluacijama, itd. Stoga vjerujemo da je od najveće važnosti razumjeti kako i kada možemo izgubiti mogućnost nadzora.
Mi smatramo da je praćenje lanca misli komplementarno mehanističkoj interpretabilnosti, a ne kao zamjena za nju. Kao i sve poznate metode kontrole i interpretabilnosti, svaka ima ograničenja i slijepe tačke. Naše očekivanje je da kombinovanje više pristupa—strategija obrane u dubini—može pomoći u pokrivanju praznina koje bilo koja pojedinačna metoda ostavlja izložene. Posebno, evaluacije uvedene u ovom radu mogle bi se također primijeniti za procjenu i usporedbu tehnika praćenja zasnovanih na mehanističkoj interpretabilnosti.
Budući da vjerujemo da bi praćenje toka misli moglo biti nosivi sloj u skalabilnom kontrolnom sistemu, planiramo proširiti ove evaluacije i koristiti ih za donošenje budućih odluka o modeliranju i podacima.
Autor
Citati
Naši modeli nisu namijenjeni za postavljanje medicinskih dijagnoza, stoga naš skup podataka za zdravstvene upite nije namijenjen za testiranje te sposobnosti.


