Resonemangsmodeller har svårt att kontrollera sina tankekedjor, och det är bra
Varför en begränsning av banbrytande modeller är ett gott tecken för AI-säkerheten.
I takt med att AI-agenter blir kapabla att utföra allt mer komplexa och autonoma uppgifter blir det allt viktigare att upprätthålla en tillförlitlig övervakning av deras beteende. I enlighet med vår princip om iterativ implementering studerar vi hur systemen fungerar i verkliga miljöer och förfinar kontinuerligt säkerhetsåtgärderna i takt med att kapaciteten utvecklas. För att stödja detta använder vårt säkerhetsarbete djupgående försvar, med flera kompletterande försvarslager såsom säkerhetsträning, beteendetestning, agentisk kodgranskning(öppnas i ett nytt fönster) och övervakning av tankekedjan (CoT). CoT-övervakning analyserar de resonemang som agenter genererar medan de utför uppgifter. Dessa resonemangsspår kan ge värdefulla signaler både under träning och drift, och hjälpa övervakningssystem att identifiera när en agents beteende kan vara osäkert eller oförenligt med användarens avsedda mål.
Idag finner vi att modellernas resonemang i allmänhet är tolkningsbara och lätta att övervaka. I framtiden kan dock övervakningsbarheten upphöra av en rad olika skäl(öppnas i ett nytt fönster). Här fokuserar vi på en sådan väg: om agenter blir kapabla att medvetet omforma eller dölja sitt resonemang när de vet att de övervakas, kan utvärderingar överskatta ett systems anpassning eller säkerhet, och övervakningssystem kan bli mindre tillförlitliga.
I detta arbete undersöker vi om dagens resonemangsmodeller kan kontrollera sin tankekedja på ett sätt som minskar övervakningsbarheten. Det är viktigt att förstå denna förmåga för att säkerställa att CoT-övervakning förblir ett robust skydd i takt med att AI-systemen blir allt mer kapabla. Vi har konstaterat att dagliga resonemangsmodeller har svårt att kontrollera sina CoT, även när de informeras om att de övervakas. Kontrollbarheten är högre för större modeller, men minskar när modellerna måste resonera längre och när de genomgår ytterligare efterträning. Våra resultat tyder på att CoT-kontrollerbarheten för närvarande inte utgör någon större risk för CoT-övervakbarheten, men det är viktigt att fortsätta utvärderingen i takt med att modellerna utvecklas.
Tankekedjan avser de mellanliggande resonemang som en AI-agent genererar när den löser en uppgift. Dessa resonemang kan ge användbara säkerhetssignaler som hjälper övervakningssystem att bedöma om en agents beteende är säkert eller anpassat.
CoT-kontrollerbarhet är en resonemangsmodells förmåga att kontrollera egenskaperna hos dess CoT på ett sätt som minskar övervakningsbarheten. Det är svårt att mäta denna förmåga under alla realistiska incitament att undvika övervakning som vi kan förvänta oss i praktiken. Istället använder vi en praktisk proxy: vi mäter modellens förmåga att följa användarnas instruktioner om deras CoT. Vi testar till exempel om en modell kan följa instruktioner som påverkar dess interna resonemang – såsom att endast använda små bokstäver, undvika vissa nyckelord eller lägga till specifika fraser – snarare än att bara ändra dess synliga resultat.
För att undersöka detta introducerar vi CoT-Control, en öppen källkodssvit för utvärdering av CoT-kontrollerbarheten hos resonemangsmodeller. CoT-Control innehåller över 13 000 uppgifter som bygger på etablerade benchmarktest: GPQA, MMLU-Pro, HLE, BFCL och SWE-Bench Verified. Varje uppgift skapas genom att para ihop ett referensproblem med en CoT-instruktion, till exempel att undvika vissa problemrelaterade nyckelord i CoT, att endast använda små bokstäver eller att lägga till ett visst ord i varje mening.
Vi har utvärderat 13 resonemangsmodeller och funnit att alla har svårt att på ett tillförlitligt sätt kontrollera sina CoT. Vi mäter kontrollbarheten som en andelen av resonemangsspår där modellen framgångsrikt följer våra CoT-instruktioner. I banbrytande modeller är poängen för CoT-kontrollerbarhet låga, mellan 0,1 % och högst 15,4 % för alla banbrytande modeller som vi testat.
Denna oförmåga beror inte på att de missförstår uppgiften: modellerna inser ofta i sin CoT att de inte följer de CoT-instruktioner de fått och fortsätter att misslyckas även efter denna insikt. Denna överraskande låga prestanda är goda nyheter för CoT:s övervakningsbarhet: det tyder på att modellerna på liknande sätt kan sakna förmågan att dölja sitt resonemang för att undgå våra övervakare.
Förmågan hos flera banbrytande modeller att kontrollera sina utdata och CoT:er. Lägre CoT-kontrollerbarhet är förknippad med högre övervakningsbarhet och därmed högre säkerhet.
Exempel på brister i CoT-kontrollbarhet
Frågorna är omformulerade för att göra dem kortare.
GPT-5.2 Thinking
GPT‑5.2 Thinking inser att det inte var meningen att använda det förbjudna ordet (rött), men fortsätter sedan att använda det ytterligare fyra gånger samtidigt som det panikartat oroar sig över att redan ha använt det.
Vi ser visserligen att kontrollbarheten ökar med modellens storlek, men vi ser också att den snabbt minskar med mängden beräkningar efter träning och testtid. När man jämförde två familjer av modeller med öppen vikt var större modeller något bättre på att kontrollera sina tankekedjor, även om effekten avtog vid större storlekar. Men när vi lät modellerna tänka längre blev de mindre kapabla att kontrollera dessa tankekedjor. Vi såg en liknande trend för RL-träning av OLMo-3-7B-RL-Zero-Math: dess kontrollbarhetspoäng sjönk med mer än en faktor tio under träningens gång.
Kontrollerbarheten ökar med skalan i modeller med öppen vikt, men försämras med längre resonemang och mer RL-träning.
För att simulera realistiska incitament att undvika övervakning mäter vi kontrollbarheten när modellerna får veta att de övervakas eller utvärderas. Detta ökar kontrollbarheten något (men märkbart). Vi använder också automatiserad promptoptimering för att hitta prompter som ger hög kontrollbarhet. Optimeraren kan visserligen öka kontrollbarheten i en träningsuppsättning, men dessa vinster överförs dåligt till nya instruktionstyper (som att inga mellanslag mellan ord krävs).
CoT-kontrollerbarhet är kontradiktoriska förhållanden. ”Monitor awareness” avser inställningar där vi informerar Modeller om att deras CoT övervakas. ”Eval Awareness” betecknar inställningar där vi informerar Modeller om att de utvärderas för CoT-styrbarhet.
Uppgifterna i CoT-Control är praktiska approximationer: en idealisk utvärdering av CoT-kontrollerbarhet skulle innebära att testa om modeller som naturligt strävar efter felaktigt anpassade mål kan kontrollera sin CoT för att undvika övervakning. Istället uppskattar vi agenternas förmåga att kontrollera sina CoT genom att mäta deras förmåga att följa instruktioner om deras CoT. Dessutom kan modeller kontrollera vissa funktioner i sin CoT bättre än andra, och CoT-Control kan över- eller underskatta kontrollbarheten genom att endast mäta ett begränsat antal typer av kontrollbarhet.
Låg CoT-kontrollerbarhet är en funktion, inte en bugg. De nuvarande resonemangsmodellernas låga kontrollbarhet gör CoT-övervakning mer tillförlitlig som säkerhetsåtgärd. Samtidigt förstår vi ännu inte varför de nuvarande resonemangsmodellernas kontrollbarhet är låg – eller om denna egenskap kommer att bestå när modellerna blir mer kapabla. Därför kan CoT-kontrollerbarhetsutvärderingar ses som en kanariefågelutvärdering: ett tidigt varningssignal om huruvida modellerna blir bättre på att forma eller dölja sitt resonemang.
Våra resultat tyder på att CoT-kontrollerbarheten för närvarande inte utgör någon större risk för CoT-övervakbarheten. Låg kontrollbarhet räcker dock inte i sig för att garantera hög övervakningsbarhet, eftersom övervakningsbarheten fortfarande kan försämras på grund av andra mekanismer, såsom direkt optimeringspress på CoT.
För att hjälpa till att följa denna dynamik över tid kommer vi att börja rapportera CoT-kontrollerbarhet tillsammans med övervakningsbarhet för tankekedjan (CoT) i systemkort för framtida banbrytande modeller, med start med GPT‑5.4. Med utgångspunkt i vårt pågående åtagande att inte tillämpa optimeringstryck direkt på CoT:er för banbrytande resonemangsmodeller.
Författare
Tomek Korbak, Micah Carroll, Bowen Baker, Ian Kivlichan


