Els models de raonament tenen dificultats per controlar les seves cadenes de pensament, i això és bo
Per què una limitació dels models d’avantguarda és tranquil·litzadora per a la seguretat de la IA.
A mesura que els agents d’IA esdevenen capaços de dur a terme tasques cada vegada més complexes i autònomes, mantenir una supervisió fiable del seu comportament esdevé més important. D’acord amb el nostre principi de desplegament iteratiu, estudiem com es comporten els sistemes en entorns del món real i perfeccionem contínuament les salvaguardes a mesura que avancen les capacitats. Per donar-hi suport, el nostre enfocament de seguretat utilitza defensa en profunditat, amb múltiples capes de defensa complementàries, com ara la formació en seguretat, les proves de comportament, la revisió agentica de codi(s'obre en una finestra nova) i el monitoratge de la cadena de pensament (CoT). El monitoratge de la CoT analitza els passos de raonament que els agents generen mentre duen a terme tasques. Aquests rastres de raonament poden proporcionar senyals valuosos tant durant l’entrenament com durant el desplegament, ajudant els sistemes de monitoratge a identificar quan el comportament d’un agent pot ser insegur o incoherent amb els objectius previstos per l’usuari.
Avui, constatem que el raonament dels models és generalment interpretable i fàcil de monitorar. Tanmateix, en el futur, la monitorabilitat podria deteriorar-se per diversos motius(s'obre en una finestra nova). Aquí ens centrem en una d’aquestes vies: si els agents arriben a ser capaços de remodelar o enfosquir deliberadament el seu raonament quan saben que estan sent monitorats, les avaluacions podrien sobreestimar l’alineació o la seguretat d’un sistema, i els sistemes de monitoratge podrien esdevenir menys fiables.
En aquest treball, estudiem si els models de raonament actuals són capaços de controlar la seva cadena de pensament de maneres que redueixin la monitorabilitat. Entendre aquesta capacitat és important per garantir que el monitoratge de la CoT continuï sent una salvaguarda robusta a mesura que els sistemes d’IA esdevenen més capaços. Hem constatat que els models de raonament actuals tenen dificultats per controlar les seves CoT, fins i tot quan se’ls diu que estan sent monitorats. Tot i que la controlabilitat és més alta en els models més grans, disminueix quan se’ls demana que raonin durant més temps i quan se sotmeten a entrenament posterior addicional. Els nostres resultats suggereixen que és poc probable que la controlabilitat de la CoT representi actualment un risc important per a la monitorabilitat de la CoT, tot i que serà important continuar avaluant-la a mesura que avancin els models.
La cadena de pensament es refereix als passos intermedis de raonament que un agent d’IA genera mentre resol una tasca. Aquests rastres de raonament poden proporcionar senyals de seguretat útils, ajudant els sistemes de monitoratge a avaluar si el comportament d’un agent és segur o està alineat.
La controlabilitat de la CoT és la capacitat d’un model de raonament per controlar propietats de la seva CoT de maneres que redueixin la monitorabilitat. Mesurar aquesta capacitat en tota l’amplitud dels incentius realistes per eludir monitors que podem esperar en la pràctica és difícil. En lloc d’això, utilitzem un indicador pràctic: mesurem la capacitat del model per seguir instruccions de l’usuari sobre la seva CoT. Per exemple, comprovem si un model pot seguir instruccions que afecten el seu raonament intern —com ara fer servir només lletres minúscules, evitar determinades paraules clau o afegir frases específiques— en lloc de limitar-se a canviar la seva sortida visible.
Per estudiar-ho, presentem CoT-Control, una suite d’avaluació de codi obert per mesurar la controlabilitat de la CoT dels models de raonament. CoT-Control inclou més de 13.000 tasques construïdes a partir de referències establertes: GPQA, MMLU-Pro, HLE, BFCL i SWE-Bench Verified. Cada tasca es crea aparellant un problema de referència amb una instrucció de CoT, com ara evitar certes paraules clau rellevants per al problema a la CoT, fer servir només lletres minúscules o afegir una paraula determinada al final de cada frase.
Executem avaluacions sobre 13 models de raonament i constatem que tots tenen dificultats per controlar de manera fiable les seves CoT. Mesurem la controlabilitat com la fracció de rastres de raonament en què el model compleix amb èxit les nostres instruccions de CoT. En els models d’avantguarda, les puntuacions de controlabilitat de la CoT són baixes: van del 0,1% i no superen el 15,4% en cap dels models d’avantguarda actuals que hem provat.
Aquesta incapacitat no és resultat d’un malentès de la tasca: sovint els models reconeixen en la seva CoT que no estan complint les instruccions de CoT que se’ls han donat i, fins i tot després d’adonar-se’n, continuen sense complir-les. Aquest rendiment sorprenentment baix és una bona notícia per a la monitorabilitat de la CoT: suggereix que els models podrien igualment no tenir la capacitat d’ofuscar el seu raonament per eludir els nostres monitors.
La capacitat de diversos models d’avantguarda per controlar les seves sortides i les seves CoT. Una controlabilitat més baixa de la CoT s’associa amb una monitorabilitat més alta i, per tant, amb una seguretat més alta.
Exemples de fallades de controlabilitat de la CoT
Les preguntes s’han parafrasejat per brevetat.
GPT-5.2 Thinking
GPT‑5.2 Thinking s’adona que no havia d’utilitzar la paraula prohibida (vermell) i després la fa servir 4 vegades més mentre entra en pànic per haver-la usat ja.
Tot i que observem que la controlabilitat augmenta amb la mida del model, també constatem que disminueix ràpidament amb la quantitat d’entrenament posterior i de còmput en temps de prova. Si observem dues famílies de models de pesos oberts, els models més grans eren una mica millors controlant les seves cadenes de pensament, tot i que l’efecte s’atenuava en mides més grans. Però quan deixàvem que els models pensessin durant més temps, eren menys capaços de controlar aquestes cadenes de pensament. Vam observar una tendència similar en l’entrenament RL d’OLMo-3-7B-RL-Zero-Math: la seva puntuació de controlabilitat va caure en més d’un factor de deu al llarg de l’entrenament.
La controlabilitat augmenta amb l’escala en els models de pesos oberts, però es degrada amb un raonament més llarg i amb més entrenament RL.
Per simular incentius realistes per eludir monitors, mesurem la controlabilitat quan s’informa els models que estan sent monitorats o avaluats. Això n’augmenta lleugerament (però de manera perceptible) la controlabilitat. També utilitzem optimització automàtica d’indicacions per trobar indicacions que provoquin una alta controlabilitat. Tot i que l’optimitzador pot augmentar la controlabilitat en un conjunt d’entrenament, aquests guanys es transfereixen malament a nous tipus d’instruccions (com ara exigir que no hi hagi espais entre paraules).
La controlabilitat de la CoT en condicions adversàries. «Consciència del monitoratge» fa referència a situacions en què informem els models que les seves CoT estan sent monitorades. «Consciència de l’avaluació» designa situacions en què informem els models que se’ls està avaluant per la controlabilitat de la CoT.
Les tasques de CoT-Control són indicadors pràctics: una avaluació ideal de la controlabilitat de la CoT consistiria a comprovar si models que persegueixen de manera natural objectius desalineats poden controlar la seva CoT per eludir el monitoratge. En lloc d’això, estimem la capacitat dels agents per controlar les seves CoT mesurant la seva capacitat per seguir instruccions sobre la seva CoT. A més, els models poden controlar algunes característiques de la seva CoT millor que d’altres, i CoT-Control podria sobreestimar o infraestimar la controlabilitat en mesurar només un conjunt estret de tipus de controlabilitat.
La baixa controlabilitat de la CoT és una característica, no un defecte. La baixa controlabilitat dels models de raonament actuals fa que el monitoratge de la CoT sigui més fiable com a salvaguarda. Al mateix temps, encara no entenem per què la controlabilitat dels models de raonament actuals és baixa, ni si aquesta propietat persistirà a mesura que els models esdevinguin més capaços. Per tant, les avaluacions de controlabilitat de la CoT es poden veure com una avaluació canària: un senyal d’alerta primerenca sobre si els models estan millorant a l’hora de modelar o amagar el seu raonament.
Els nostres resultats suggereixen que és poc probable que la controlabilitat de la CoT representi actualment un risc important per a la monitorabilitat de la CoT. Tanmateix, una baixa controlabilitat no és suficient per si sola per garantir una alta monitorabilitat, perquè la monitorabilitat encara podria degradar-se a causa d’altres mecanismes, com ara la pressió d’optimització directa sobre les CoT.
Per ajudar a fer un seguiment d’aquestes dinàmiques al llarg del temps, començarem a informar sobre la controlabilitat de la CoT juntament amb la monitorabilitat de la CoT a les fitxes del model dels futurs models d’avantguarda, començant per GPT‑5.4 Thinking, i continuant el nostre compromís continu de no aplicar pressió d’optimització directament a les CoT dels models de raonament d’avantguarda.
Autors
Tomek Korbak, Micah Carroll, Bowen Baker i Ian Kivlichan


