Modeli za rasuđivanje teško uspijevaju kontrolirati svoje lance razmišljanja, što je dobro
Zašto ograničenje graničnih modela ulijeva povjerenje u sigurnost umjetne inteligencije.
Kako AI agenti postaju sposobni obavljati sve složenije i autonomnije zadatke, sve je važnije održavati pouzdan nadzor nad njihovim ponašanjem. U skladu s našim načelom postupnog uvođenja, proučavamo kako se sustavi ponašaju u stvarnim uvjetima i kontinuirano usavršavamo zaštitne mjere kako se sposobnosti razvijaju. Kako bismo to podržali, naš pristup sigurnosti koristi dubinsku obranu, s više komplementarnih slojeva obrane kao što su obuka o sigurnosti, testiranje ponašanja, agentni pregled koda(otvara se u novom prozoru) i praćenje lanca razmišljanja (CoT). Nadzor lanca razmišljanja analizira korake rasuđivanja koje agenti generiraju dok izvršavaju zadatke. Ti tragovi rasuđivanja mogu pružiti vrijedne signale i tijekom obuke i tijekom implementacije, pomažući sustavima za praćenje da prepoznaju kada ponašanje agenta može biti nesigurno ili nedosljedno s korisnikovim namjeravanim ciljevima.
Danas otkrivamo da je rasuđivanje modela općenito interpretabilno i lako pratiti. No, u budućnosti bi se mogućnost praćenja mogla narušiti iz različitih razloga(otvara se u novom prozoru). Ovdje se usredotočujemo na jedan takav put: ako agenti postanu sposobni namjerno preoblikovati ili prikriti svoje rasuđivanje kada znaju da se nadziru, evaluacije bi mogle precijeniti usklađenost ili sigurnost sustava, a sustavi nadzora mogli bi postati manje pouzdani.
U ovom radu proučavamo jesu li trenutačni modeli za rasuđivanje sposobni kontrolirati svoj lanac razmišljanja na načine koji smanjuju mogućnost praćenja. Razumijevanje te sposobnosti važno je kako bi se osiguralo da praćenje lanca razmišljanja ostane snažna zaštitna mjera kako AI sustavi postaju sposobniji. Otkrivamo da se trenutačni modeli za rasuđivanje teško nose s kontrolom svojih lanaca razmišljanja, čak i kada im se kaže da su pod nadzorom. Iako je mogućnost kontrole veća kod većih modela, ona se smanjuje kada se od modela traži da prosuđuju dulje i kada prolaze dodatnu obuku. Naši rezultati upućuju na to da je malo vjerojatno da će mogućnost upravljanja lancem razmišljanja trenutačno predstavljati velik rizik za mogućnost praćenja lanca razmišljanja, iako će kontinuirana evaluacija biti važna kako modeli napreduju.
Lanac razmišljanja odnosi se na međukorake u rasuđivanju koje AI agent generira dok rješava neki zadatak. Ti tragovi rasuđivanja mogu pružiti korisne sigurnosne signale, što sustavima pomaže u praćenju procijene je li ponašanje agenta sigurno ili usklađeno.
Upravljivost lanca razmišljanja jest sposobnost modela za rasuđivanje da kontrolira svojstva svojeg lanca razmišljanja na načine koji smanjuju mogućnost praćenja. Mjerenje te sposobnosti u punom opsegu realističnih poticaja za izbjegavanje nadzornika koje možemo očekivati u praksi predstavlja izazov. Umjesto toga, koristimo praktični proxy: mjerimo sposobnost modela da slijedi korisničke upute o njihovom lancu razmišljanja. Na primjer, testiramo može li model slijediti upute koje utječu na njegovo interno rasuđivanje — poput korištenja samo malih slova, izbjegavanja određenih ključnih riječi ili dodavanja specifičnih fraza — umjesto da samo mijenja svoj vidljivi izlaz.
Kako bismo to proučili, uvodimo CoT-Control, evaluacijski paket otvorenog koda za mjerenje upravljivosti lanca razmišljanja modela za rasuđivanje. CoT-Control uključuje više od 13 000 zadataka izrađenih na temelju etabliranih mjerila: GPQA, MMLU-Pro, HLE, BFCL i SWE-Bench Verified. Svaki se zadatak izrađuje uparivanjem referentnog problema s jednom uputom lanca razmišljanja, kao što je izbjegavanje određenih ključnih riječi relevantnih za problem u lancu razmišljanja, upotrebu samo malih slova ili dodavanje zadane riječi na kraj svake rečenice.
Provodimo evaluacije na 13 modela za rasuđivanje i utvrđujemo da se svi muče s pouzdanim upravljanjem svojim lancima razmišljanja. Mjerimo upravljivost kao udio tragova rasuđivanja u kojima model uspješno postupa u skladu s našim uputama za lanac razmišljanja. U svim graničnim modelima, rezultati upravljivosti lancem razmišljanja su niski, u rasponu od 0,1 % i ne prelaze 15,4 % ni za jedan trenutačni granični model koji smo testirali.
Ta nemogućnost ne proizlazi iz nerazumijevanja zadatka: modeli često u svom lancu razmišljanja prepoznaju da ne uspijevaju postupiti u skladu s uputama lanca razmišljanja koje su dobili i — čak i nakon te spoznaje — i dalje nastavljaju ne uspijevati. Ta iznenađujuće niska izvedba dobra je vijest za mogućnost praćenja lanca razmišljanja: sugerira da bi modelima slično mogla nedostajati sposobnost prikrivanja svojeg rasuđivanja kako bi izbjegli naše nadzorne sustave.
Sposobnost više graničnih modela da kontroliraju svoje izlaze i lance razmišljanja. Niža kontrolabilnost lanca razmišljanja povezana je s većom mogućnošću praćenja i stoga većom sigurnošću.
Primjeri neuspjeha upravljivosti lanca razmišljanja
Pitanja su parafrazirana radi sažetosti.
GPT-5.2 Thinking
GPT‑5.2 Thinking shvaća da nije smio upotrijebiti zabranjenu riječ (crveno). U panici zbog toga što ju je već upotrijebio, nastavlja je upotrebljavati još četiri puta.
Iako vidimo da se mogućnost kontrole povećava s veličinom modela, također otkrivamo da se ona brzo smanjuje s količinom računalne snage za naknadnu obuku i tijekom vremena testiranja. Promatrajući dvije obitelji modela s otvorenim težinama, veći modeli bili su nešto bolji u kontroliranju svojih lanaca razmišljanja, iako se učinak smanjivao pri većim veličinama. No kad smo modelima dopustili da razmišljaju dulje, postali su manje sposobni kontrolirati te lance razmišljanja. Uočili smo sličan trend za RL treniranje OLMo-3-7B-RL-Zero-Math: njegova ocjena upravljivosti pala je za više od faktora deset tijekom treniranja.
Mogućnost upravljanja povećava se s razmjerom u modelima s otvorenim težinama, ali se pogoršava s duljim rasuđivanjem i više RL obuke.
Kako bismo simulirali realistične poticaje za izbjegavanje nadzora, mjerimo mogućnost praćenja kada se modelima kaže da se nadziru ili procjenjuju. To pomalo (ali primjetno) povećava mogućnost kontrole. Uz to upotrebljavamo automatiziranu optimizaciju upita kako bismo pronašli upite koji potiču visoku upravljivost. Iako optimizator može povećati mogućnost kontrole na skupu za treniranje, ti se dobici slabo prenose na nove tipove instrukcija (kao što je zahtjev da nema razmaka između riječi).
Mogućnost upravljanja lancem razmišljanja u adverzalnim uvjetima. „Svijest o nadzoru” odnosi se na postavke u kojima modelima dajemo do znanja da se njihovi lanci razmišljanja nadziru. „Eval svijest” označava postavke u kojima obavještavamo modele da se evaluiraju radi mogućnosti upravljanja lancem razmišljanja.
Zadaci u CoT-Controlu praktični su proxyji: idealna evaluacija mogućnosti kontrole lanca razmišljanja uključivala bi testiranje mogu li modeli koji prirodno slijede neusklađene ciljeve kontrolirati svoj lanac razmišljanja kako bi izbjegli praćenje. Umjesto toga, procjenjujemo sposobnost agenata da kontroliraju svoje lance razmišljanja mjerenjem njihove sposobnosti da slijede upute o svojem lancu razmišljanja. Štoviše, modeli mogu bolje kontrolirati neke značajke svojeg lanca razmišljanja (CoT) nego druge, a CoT-Control možda precjenjuje ili podcjenjuje mogućnost kontrole mjereći samo uzak skup vrsta mogućnosti kontrole.
Niska mogućnost upravljanja lancem razmišljanja predstavlja značajku, a ne greška. Niska mogućnost upravljanja trenutačnih modela za rasuđivanje čini praćenje lanca razmišljanja pouzdanijim kao zaštitnu mjeru. Istodobno još uvijek ne razumijemo zašto je upravljivost trenutačnih modela za rasuđivanje niska — ili hoće li se to svojstvo zadržati kako modeli postaju sve sposobniji. Stoga se evaluacije upravljivosti lancem razmišljanja mogu promatrati kao upozorenje: rani znak upozorenja o tome postaju li modeli bolji u oblikovanju ili skrivanju svojeg rasuđivanja.
Naši rezultati upućuju na to da mogućnost upravljanja lancem razmišljanja trenutačno vjerojatno ne predstavlja velik rizik za mogućnost praćenja lanca razmišljanja. No niska mogućnost kontrole sama po sebi nije dovoljna da jamči visoku mogućnost praćenja jer bi se mogućnost praćenja i dalje mogla pogoršati zbog drugih mehanizama, kao što je izravni pritisak optimizacije na lance razmišljanja.
Kako bismo lakše pratili tu dinamiku tijekom vremena, počet ćemo izvještavati o mogućnosti kontrole lanca razmišljanja uz mogućnost praćenja lanca razmišljanja u dokumentima o sustavu za buduće granične modele, počevši s GPT‑5.4 Razmišljanje, nadovezujući se na našu stalnu predanost tome da ne primjenjujemo optimizacijski pritisak izravno na lance razmišljanja graničnih modela za rasuđivanje.
Autori
Tomek Korbak, Micah Carroll, Bowen Baker i Ian Kivlichan


