Resonneringsmodeller sliter med å kontrollere tankerekker sine, og det er bra
Hvorfor en begrensning ved banebrytende modeller er betryggende for KI-sikkerhet.
Etter hvert som KI-agenter blir i stand til å utføre stadig mer komplekse og autonome oppgaver, blir det stadig viktigere å opprettholde pålitelig tilsyn med atferden deres. I tråd med prinsippet vårt om gradvis lansering studerer vi hvordan systemer oppfører seg i virkelige omgivelser og finjusterer kontinuerlig sikkerhetstiltak etter hvert som kapasitetene utvikler seg. For å støtte dette bruker sikkerhetstilnærmingen vår forsvar i dybde, med flere komplementære forsvarslag, som sikkerhetsopplæring, atferdstesting, agentisk kodegjennomgang(åpnes i et nytt vindu) og overvåking av tankerekke (CoT). CoT-overvåking analyserer resonneringstrinnene som agenter genererer mens de utfører oppgaver. Disse resonneringssporene kan gi verdifulle signaler både under opplæring og i implementering, og hjelpe overvåkingssystemer med å identifisere når en agents atferd kan være utrygg eller ikke samsvarer med brukerens mål.
I dag finner vi at modellenes resonnering generelt er tolkbar og lett å overvåke. Imidlertid kan overvåkbarheten i fremtiden bryte sammen av flere årsaker(åpnes i et nytt vindu). Her fokuserer vi på én slik vei: Hvis agenter blir i stand til bevisst å omforme eller skjule resonneringen sin når de vet at de blir overvåket, kan evalueringer overvurdere et systems samsvar eller sikkerhet, og overvåkingssystemer kan bli mindre pålitelige.
I dette arbeidet studerer vi om dagens resonneringsmodeller er i stand til å kontrollere tankerekker på måter som reduserer overvåkbarheten. Å forstå denne egenskapen er viktig for å sikre at CoT-overvåking forblir et robust sikkerhetstiltak etter hvert som KI-systemer blir mer kapable. Vi finner at nåværende resonneringsmodeller sliter med å kontrollere CoT-ene sine, selv når de får beskjed om at de blir overvåket. Selv om styrbarheten er høyere for større modeller, avtar den når modeller blir bedt om å resonnere over lengre tid og når de gjennomgår ytterligere etteropplæring. Resultatene våre tyder på at CoT-kontrollerbarhet neppe vil utgjøre en stor risiko for CoT-overvåkbarhet per i dag, selv om fortsatt evaluering vil være viktig etter hvert som modellene utvikler seg.
Tankerekke refererer til de mellomliggende resonneringstrinnene en KI-agent genererer mens den løser en oppgave. Disse resonneringssporene kan gi nyttige sikkerhetssignaler, og hjelpe overvåkingssystemer med å vurdere om en agents atferd er trygg eller i samsvar.
CoT-kontrollerbarhet er en Resonneringsmodells evne til å kontrollere egenskaper ved sin CoT på måter som reduserer overvåkbarheten. Å måle denne kapabiliteten under hele bredden av realistiske insentiver til å omgå overvåkere som vi kan forvente i praksis, er utfordrende. I stedet bruker vi en praktisk proxy: vi måler modellens evne til å følge brukerinstruksjoner om CoT-en deres. For eksempel tester vi om en modell kan følge instruksjoner som påvirker dens interne resonnering—som å bruke bare små bokstaver, unngå visse nøkkelord eller legge til bestemte fraser—i stedet for bare å endre dens synlige utdata.
For å studere dette introduserer vi CoT-Control, en evalueringspakke med åpen kildekode for å måle CoT-kontrollerbarhet for resonneringsmodeller. CoT-Control inkluderer over 13 000 oppgaver bygget på etablerte benchmarks: GPQA, MMLU-Pro, HLE, BFCL og Verifisert med SWE-Bench. Hver oppgave opprettes ved å pare et benchmarkproblem med én CoT-instruksjon, for eksempel å unngå visse problemrelevante nøkkelord i CoT, bruke bare små bokstaver, eller legge til et gitt ord i hver setning.
Vi kjører evalueringer på 13 resonneringsmodeller, og finner at de alle sliter med å pålitelig kontrollere sine CoTs. Vi måler kontrollerbarhet som en andel av resonneringsspor der modellen lykkes med å etterleve CoT-instruksjonene våre. På tvers av banebrytende modeller er CoT-kontrollerbarhetsscorene lave, fra 0.1% og ikke over 15.4% for noen nåværende banebrytende modell vi testet.
Denne manglende evnen skyldes ikke en misforståelse av oppgaven: modeller erkjenner ofte i tankerekken at de ikke klarer å følge CoT-instruksjonene de fikk, og—selv etter denne erkjennelsen—fortsetter de likevel å mislykkes. Denne overraskende lave ytelsen er gode nyheter for CoT-overvåkbarhet: den tyder på at modeller på lignende vis kan mangle evnen til å tilsløre resonneringen sin for å unngå overvåkerne våre.
Evnen til flere banebrytende modeller til å kontrollere utdataene sine og CoTs. Lavere CoT-kontrollerbarhet er knyttet til høyere overvåkbarhet og dermed høyere sikkerhet.
Eksempler på CoT-kontrollerbarhetssvikt
Spørsmål er omskrevet for korthets skyld.
GPT-5.2 Thinking
GPT‑5.2 Thinking innser at den ikke skulle bruke det forbudte ordet (red), og fortsetter deretter med å bruke det 4 ganger til mens den panikker over å allerede ha brukt det.
Selv om vi ser at styrbarheten øker med modellstørrelsen, finner vi også at den raskt avtar med mengden datakraft til ettertrening og testtid. Når vi ser på tvers av to familier av modeller med åpen vekt, var større modeller noe bedre til å kontrollere tankerekkene sine, selv om effekten avtok ved større størrelser. Men når vi lot modeller tenke lenger, ble de mindre i stand til å kontrollere disse tankerekkene. Vi så en lignende trend for RL-opplæring av OLMo-3-7B-RL-Zero-Math: kontrollerbarhetsscoren falt med mer enn en faktor på ti i løpet av opplæringen.
Kontrollerbarheten øker med skala i modeller med åpen vekt, men svekkes med lengre resonnering og mer RL-trening.
For å simulere realistiske insentiver til å unngå overvåkere, måler vi kontrollerbarhet når modeller får beskjed om at de blir overvåket eller evaluert. Dette øker kontrollmulighetene litt (men merkbart). Vi bruker også automatisert prompt-optimalisering for å finne prompter som gir høy kontrollerbarhet. Selv om optimalisereren kan øke kontrollerbarheten på et treningssett, overføres disse gevinstene dårlig til nye instruksjonstyper (for eksempel å kreve ingen mellomrom mellom ord).
CoT-kontrollerbarhet er utfordrende forhold. “Monitor awareness” refererer til innstillinger der vi informerer modeller om at CoT-ene deres blir overvåket. «Eval Awareness» betegner innstillinger der vi informerer modeller om at de blir evaluert for CoT-kontrollerbarhet.
Oppgavene i CoT-Control er praktiske stedfortredere: en ideell evaluering av CoT-kontrollerbarhet ville innebære å teste om modeller som naturlig forfølger feiljusterte mål kan kontrollere CoT-ene sine for å unngå overvåking. I stedet estimerer vi agenters evne til å kontrollere sine CoT-er ved å måle deres evne til å følge instruksjoner om sin CoT. Dessuten kan modeller kontrollere noen funksjoner ved sin CoT bedre enn andre, og CoT-Control kan over- eller undervurdere kontrollerbarheten ved å måle bare et snevert sett av kontrollerbarhetstyper.
Lav kontrollerbarhet for CoT er en funksjon, ikke en feil. Den lave styrbarheten til dagens Resonneringsmodeller gjør CoT-overvåking mer pålitelig som et sikkerhetstiltak. Samtidig forstår vi ennå ikke hvorfor dagens resonneringsmodellers styrbarhet er lav – eller om denne egenskapen vil vedvare etter hvert som modeller blir mer kapable. Derfor kan CoT-kontrollerbarhetsevalueringer ses på som en kanarie-evaluering: et tidlig varseltegn på om modellene blir bedre til å forme eller skjule resonneringen sin.
Våre resultater tyder på at CoT-kontrollerbarhet neppe vil utgjøre en stor risiko for CoT-overvåkbarhet på nåværende tidspunkt. Lav kontrollerbarhet er imidlertid ikke tilstrekkelig i seg selv til å garantere høy overvåkbarhet, fordi overvåkbarheten fortsatt kan forringes på grunn av andre mekanismer, som direkte optimaliseringstrykk på CoTs.
For å bidra til å spore denne dynamikken over tid, kommer vi til å begynne å rapportere CoT-kontrollerbarhet sammen med CoT-overvåkbarhet i systemkort for fremtidige banebrytende modeller, med start med GPT‑5.4 Tenking, bygger på vår pågående forpliktelse til ikke å bruke optimaliseringstrykk direkte mot CoT-ene til banebrytende Resonneringsmodeller.
Forfattere
Tomek Korbak, Micah Carroll, Bowen Baker og Ian Kivlichan


