Modelele de raționament au dificultăți în a-și controla lanțurile de gândire, și asta e bine
De ce o limitare a modelelor de vârf este liniștitoare pentru siguranța AI.
Pe măsură ce agenții AI devin capabili să îndeplinească sarcini din ce în ce mai complexe și autonome, menținerea unei supravegheri fiabile asupra comportamentului lor devine mai importantă. În concordanță cu principiul nostru de implementare iterativă, studiem modul în care se comportă sistemele în medii reale și perfecționăm continuu măsurile de siguranță pe măsură ce capabilitățile avansează. Pentru a susține acest lucru, abordarea noastră privind siguranța folosește apărarea aprofundată, cu mai multe straturi complementare de apărare, cum ar fi instruirea privind siguranța, testarea comportamentală, revizuirea codului agentic(se deschide într-o fereastră nouă) și monitorizarea lanțului de gândire (CoT). Monitorizarea CoT analizează pașii de raţionament pe care agenții îi generează în timp ce își îndeplinesc sarcinile. Aceste trasee de raţionament pot furniza semnale valoroase atât în timpul instruirii, cât și al implementării, ajutând sistemele de monitorizare să identifice când comportamentul unui agent poate fi nesigur sau inconsecvent cu obiectivele propuse de utilizator.
Astăzi, constatăm că raționamentul modelelor este, în general, interpretabil și ușor de monitorizat. Cu toate acestea, în viitor, capacitatea de monitorizare poate eșua din diverse motive(se deschide într-o fereastră nouă). Aici, ne concentrăm pe o astfel de cale: dacă agenții devin capabili să își remodeleze sau să își ascundă în mod deliberat raționamentul atunci când știu că sunt monitorizați, evaluările ar putea supraestima alinierea sau siguranța unui sistem, iar sistemele de monitorizare ar putea deveni mai puțin fiabile.
În această lucrare, studiem dacă modelele actuale de raţionament sunt capabile să-și controleze lanțul de gândire în moduri care reduc capacitatea de monitorizare. Înțelegerea acestei capacități este importantă pentru a ne asigura că monitorizarea CoT rămâne o garanție solidă pe măsură ce sistemele de inteligență artificială devin tot mai performante. Constatăm că modelele actuale de raţionament întâmpină dificultăți în a-și controla CoT-urile, chiar și atunci când li se spune că sunt monitorizate. Deși controlabilitatea este mai bună pentru modelele mai mari, aceasta scade pe măsură ce li se cere modelelor să raționeze mai mult timp și atunci când acestea trec prin post-instruire suplimentară. Rezultatele noastre sugerează că este puțin probabil ca, în prezent, controlabilitatea CoT să reprezinte un risc major pentru capacitatea de monitorizare a CoT, deși evaluarea continuă va fi importantă pe măsură ce modelele avansează.
Lanțul de gândire se referă la pașii intermediari de raţionament pe care un agent AI îi generează în timp ce rezolvă o sarcină. Aceste trasee de raţionament pot oferi semnale utile de siguranță, ajutând sistemele de monitorizare să evalueze dacă comportamentul unui agent este sigur sau aliniat.
Controlabilitatea CoT este capacitatea unui model de raţionament de a controla proprietățile CoT-ului său în moduri care reduc capacitatea de monitorizare. Măsurarea acestei capacități în contextul gamei complete de stimulente realiste pentru a eluda monitorizările la care ne-am putea aștepta în practică este dificilă. În schimb, folosim o metodă practică de aproximare: măsurăm capacitatea modelului de a urma instrucțiunile utilizatorului despre CoT-ul său. De exemplu, testăm dacă un model poate urma instrucțiuni care îi afectează raționamentul intern — cum ar fi folosirea doar a literelor mici, evitarea anumitor cuvinte-cheie sau adăugarea unor expresii specifice — în loc să își schimbe doar rezultatul vizibil.
Pentru a studia acest lucru, introducem CoT-Control, o suită de evaluare open-source pentru măsurarea controlabilității CoT a modelelor de raţionament. CoT-Control include peste 13.000 de sarcini construite pe baza unor repere consacrate: GPQA, MMLU-Pro, HLE, BFCL și SWE-Bench Verified. Fiecare sarcină este creată prin asocierea unei probleme de referință cu o instrucțiune CoT, cum ar fi evitarea anumitor cuvinte-cheie relevante pentru problemă în CoT, folosirea doar a literelor mici sau adăugarea unui cuvânt dat la fiecare propoziție.
Rulăm evaluări pe 13 modele de raţionament și constatăm că toate au dificultăți în a-și controla în mod fiabil CoT-urile. Măsurăm controlabilitatea ca o fracțiune din urmele de raționament în care modelul respectă cu succes instrucțiunile noastre CoT. În toate modelele de vârf, scorurile de controlabilitate CoT sunt scăzute, începând de la 0,1% și nedepășind 15,4% pentru niciun model de vârf actual pe care l-am testat.
Această incapacitate nu rezultă din neînțelegerea sarcinii: modelele recunosc adesea în CoT-ul lor că nu reușesc să respecte instrucțiunile CoT pe care le-au primit și — chiar și după ce își dau seama — continuă să eșueze. Această performanță surprinzător de scăzută este o veste bună pentru capacitatea de monitorizare a CoT: sugerează că modelele ar putea, în mod similar, să nu aibă capacitatea de a-și ascunde raționamentul pentru a evita monitoarele noastre.
Capacitatea mai multor modele de vârf de a-și controla rezultatele și lanțurile de gândire. O controlabilitate CoT mai scăzută este asociată cu o capacitate de monitorizare mai mare și, prin urmare, cu o siguranță mai mare.
Exemple de eșecuri de controlabilitate CoT
Întrebările sunt parafrazate pentru concizie.
GPT-5.2 Thinking
GPT‑5.2 Thinking își dă seama că nu trebuia să folosească cuvântul interzis (roșu), apoi continuă să-l folosească de încă 4 ori, intrând în panică pentru că l-a folosit deja.
Deși observăm că controlabilitatea crește odată cu dimensiunea modelului, constatăm și că aceasta scade rapid odată cu cantitatea de calcul post-antrenament și în timpul testării. Privind în ansamblu două familii de modele de tip open-weight, modelele mai mari au fost oarecum mai bune la controlul lanțului de gândire, deși efectul s-a estompat la dimensiuni mai mari. Dar când am lăsat modelele să „gândească” mai mult timp, au devenit mai puțin capabile să controleze acele lanțuri de gândire. Am observat o tendință similară pentru instruirea RL a OLMo-3-7B-RL-Zero-Math: scorul său de controlabilitate a scăzut de peste zece ori pe parcursul instruirii.
Controlabilitatea crește odată cu scalarea în modelele de tip open-weight, dar se degradează odată cu raționamentul mai îndelungat și cu mai mult antrenament RL.
Pentru a simula stimulente realiste de a evita monitoarele, măsurăm controlabilitatea atunci când modelelor li se spune că sunt monitorizate sau evaluate. Acest lucru crește ușor (dar vizibil) controlabilitatea. Folosim, de asemenea, optimizarea automată a solicitărilor pentru a găsi solicitări care determină un nivel ridicat de controlabilitate. Deși optimizatorul poate crește controlabilitatea pe un set de antrenament, aceste câștiguri se transferă slab la tipuri noi de instrucțiuni (cum ar fi cerința de a nu exista spații între cuvinte).
Controlabilitatea CoT este în condiții adversariale. „Conștientizarea monitorizării” se referă la setări în care informăm modelele că CoT-urile lor sunt monitorizate. „Conștientizarea evaluării” denotă setări în care informăm modelele că sunt evaluate în ce privește controlabilitatea CoT.
Sarcinile din CoT-Control sunt indicatori practici: o evaluare ideală a controlabilității CoT ar implica testarea dacă modelele care urmăresc în mod natural obiective nealiniate își pot controla CoT-ul pentru a evita monitorizarea. În schimb, estimăm capacitatea agenților de a-și controla CoT-urile măsurând abilitatea lor de a urma instrucțiuni despre CoT-ul lor. Mai mult, modelele pot controla unele caracteristici ale CoT-ului lor mai bine decât altele, iar CoT-Control ar putea supraestima sau subestima controlabilitatea prin măsurarea unui set restrâns de tipuri de controlabilitate.
Controlabilitatea CoT scăzută este un beneficiu, nu un defect. Controlabilitatea scăzută a modelelor actuale de raţionament face ca monitorizarea CoT să fie mai fiabilă ca măsură de siguranță. În același timp, încă nu înțelegem de ce controlabilitatea modelelor actuale de raţionament este scăzută — sau dacă această proprietate va persista pe măsură ce modelele devin mai capabile. Prin urmare, evaluările de controlabilitate CoT pot fi văzute ca un semn timpuriu de avertizare dacă modelele devin mai bune la modelarea sau ascunderea raționamentului lor.
Rezultatele noastre sugerează că este puțin probabil ca, în prezent, controlabilitatea CoT să reprezinte un risc major pentru capacitatea de monitorizare a CoT. Cu toate acestea, controlabilitatea scăzută nu este suficientă de una singură pentru a garanta o capacitate de monitorizare ridicată, deoarece capacitatea de monitorizare s-ar putea totuși degrada din cauza altor mecanisme, cum ar fi presiunea directă de optimizare a CoT.
Pentru a ajuta la urmărirea acestor dinamici în timp, vom începe să raportăm controlabilitatea CoT alături de monitorizarea CoT în fișe de sistem pentru modelele de vârf viitoare, începând cu GPT‑5.4 Gândind, bazându-ne pe angajamentul nostru continuu de a nu aplica presiuni de optimizare direct asupra lanțurilor de gândire ale modelelor de raţionament de vârf.
Autori
Tomek Korbak, Micah Carroll, Bowen Baker, Ian Kivlichan


