I modelli di ragionamento faticano a controllare le proprie chain of thought, ed è un bene
Perché un limite dei modelli di frontiera è rassicurante per la sicurezza dell’IA.
Man mano che gli agenti di IA diventano in grado di svolgere compiti sempre più complessi e autonomi, mantenere un controllo affidabile sul loro comportamento diventa ancora più importante. In linea con il nostro principio di distribuzione iterativa, studiamo come i sistemi si comportano in contesti reali e perfezioniamo continuamente le misure di sicurezza man mano che le capacità avanzano. Per supportare ciò, il nostro approccio alla sicurezza utilizza una difesa stratificata, con più livelli complementari di protezione come la formazione alla sicurezza, i test comportamentali, la revisione del codice tramite agenti(si apre in una nuova finestra) e il monitoraggio delle chain of thought (CoT). Il monitoraggio CoT analizza i passaggi di ragionamento che gli agenti generano mentre portano avanti i compiti. Queste tracce di ragionamento possono fornire segnali preziosi sia in fase di training sia in fase di deployment, aiutando i sistemi di monitoraggio a identificare quando il comportamento di un agente potrebbe essere non sicuro o non coerente con gli obiettivi desiderati dall’utente.
Oggi riscontriamo che il ragionamento dei modelli è in generale interpretabile e facile da monitorare. Tuttavia, in futuro la monitorabilità potrebbe degradarsi per una serie di motivi(si apre in una nuova finestra). Qui ci concentriamo su una di queste possibilità: se gli agenti diventassero in grado di rimodellare o oscurare deliberatamente il proprio ragionamento quando sanno di essere monitorati, le valutazioni potrebbero sovrastimare l’allineamento o la sicurezza di un sistema e i sistemi di monitoraggio potrebbero diventare meno affidabili.
In questo lavoro studiamo se gli attuali modelli di ragionamento sono in grado di controllare la propria chain of thought in modi che riducono la monitorabilità. Comprendere questa capacità è importante per garantire che il monitoraggio CoT resti una misura di sicurezza solida man mano che i sistemi di IA diventano più capaci. Riscontriamo che gli attuali modelli di ragionamento faticano a controllare le proprie CoT, anche quando viene detto loro che sono monitorati. Sebbene la controllabilità sia più alta per i modelli più grandi, diminuisce quando si chiede ai modelli di ragionare più a lungo e quando vengono sottoposti a ulteriore post-training. I nostri risultati suggeriscono che, al momento, la controllabilità CoT difficilmente rappresenti un rischio significativo per la monitorabilità CoT, anche se sarà importante continuare a valutarla man mano che i modelli avanzano.
La chain of thought indica i passaggi intermedi di ragionamento che un agente di IA genera mentre risolve un compito. Queste tracce di ragionamento possono fornire utili segnali di sicurezza, aiutando i sistemi di monitoraggio a valutare se il comportamento di un agente è sicuro o allineato.
La controllabilità CoT è la capacità di un modello di ragionamento di controllare le proprietà della propria CoT in modi che riducono la monitorabilità. Misurare questa capacità tenendo conto di tutto l’insieme realistico di incentivi a eludere i monitor che ci si può aspettare in pratica è complesso. Usiamo quindi un proxy pratico: misuriamo la capacità del modello di seguire le istruzioni dell’utente sulla propria CoT. Per esempio, testiamo se un modello riesce a seguire istruzioni che influenzano il suo ragionamento interno, come usare solo lettere minuscole, evitare determinate parole chiave o aggiungere frasi specifiche, invece di limitarsi a modificare il proprio output visibile.
Per studiare questo aspetto introduciamo CoT-Control, una suite di valutazione open source per misurare la controllabilità CoT dei modelli di ragionamento. CoT-Control include oltre 13.000 compiti costruiti a partire da benchmark consolidati: GPQA, MMLU-Pro, HLE, BFCL e SWE-Bench Verified. Ogni compito viene creato abbinando un problema del benchmark a un’istruzione CoT, come evitare determinate parole chiave rilevanti per il problema nella CoT, usare solo lettere minuscole o aggiungere una parola specifica alla fine di ogni frase.
Eseguiamo valutazioni su 13 modelli di ragionamento e constatiamo che tutti faticano a controllare in modo affidabile le proprie CoT. Misuriamo la controllabilità come la frazione di tracce di ragionamento in cui il modello rispetta con successo le nostre istruzioni CoT. Nei modelli di frontiera, i punteggi di controllabilità CoT sono bassi, vanno dallo 0,1% e non superano il 15,4% per nessuno dei modelli di frontiera attuali che abbiamo testato.
Questa incapacità non deriva dal fatto che il compito non viene compreso: spesso i modelli riconoscono nella loro CoT che non stanno rispettando le istruzioni CoT ricevute e, anche dopo essersene resi conto, continuano comunque a non riuscirci. Questa performance sorprendentemente bassa è una buona notizia per la monitorabilità CoT: suggerisce che i modelli potrebbero allo stesso modo non avere la capacità di offuscare il proprio ragionamento per eludere i nostri monitor.
La capacità di più modelli di frontiera di controllare i propri output e le proprie CoT. Una minore controllabilità CoT è associata a una maggiore monitorabilità e quindi a una maggiore sicurezza.
Esempi di errori di controllabilità CoT
Le domande sono parafrasate per brevità.
GPT-5.2 Thinking
GPT‑5.2 Thinking si rende conto di non dover usare la parola proibita (in rosso), poi continua a usarla altre 4 volte mentre va nel panico per averla già usata.
Pur osservando che la controllabilità aumenta con la dimensione del modello, riscontriamo anche che diminuisce rapidamente con la quantità di post-training e di calcolo in fase di test. Considerando due famiglie di modelli open-weight, i modelli più grandi erano in qualche misura migliori nel controllare le proprie chain of thought, anche se l’effetto si attenuava alle dimensioni maggiori. Ma quando lasciamo che i modelli «pensino» più a lungo, diventano meno capaci di controllare quelle chain of thought. Abbiamo osservato una tendenza simile per il training RL di OLMo-3-7B-RL-Zero-Math: il suo punteggio di controllabilità è diminuito di oltre un fattore dieci nel corso del training.
La controllabilità aumenta con la scala nei modelli open-weight ma peggiora con un ragionamento più lungo e con più training RL.
Per simulare incentivi realistici a eludere i monitor, misuriamo la controllabilità quando ai modelli viene detto che sono monitorati o valutati. Questo aumenta la controllabilità in modo lieve ma percepibile. Usiamo anche un’ottimizzazione automatica dei prompt per trovare prompt che producano un’elevata controllabilità. Sebbene l’ottimizzatore possa aumentare la controllabilità su un set di training, questi miglioramenti si trasferiscono poco a nuovi tipi di istruzioni (come richiedere l’assenza di spazi tra le parole).
La controllabilità CoT è misurata in condizioni avversariali. “Monitor awareness” indica gli scenari in cui informiamo i modelli che le loro CoT sono monitorate. “Eval Awareness” indica gli scenari in cui informiamo i modelli che vengono valutati per la controllabilità CoT.
I compiti in CoT-Control sono proxy pratici: una valutazione ideale della controllabilità CoT prevedrebbe di testare se modelli che perseguono naturalmente obiettivi non allineati riescono a controllare la propria CoT per eludere il monitoraggio. Invece, stimiamo la capacità degli agenti di controllare le proprie CoT misurando la loro capacità di seguire istruzioni sulla propria CoT. Inoltre, i modelli possono controllare alcune caratteristiche della propria CoT meglio di altre e CoT-Control potrebbe sovrastimare o sottostimare la controllabilità misurando solo un insieme ristretto di tipi di controllabilità.
La bassa controllabilità CoT è una caratteristica, non un difetto. La bassa controllabilità degli attuali modelli di ragionamento rende il monitoraggio CoT una misura di sicurezza più affidabile. Allo stesso tempo, non sappiamo ancora perché la controllabilità degli attuali modelli di ragionamento sia bassa, né se questa proprietà persisterà man mano che i modelli diventeranno più capaci. Per questo motivo, le valutazioni della controllabilità CoT possono essere viste come una «canary eval»: un segnale di allarme precoce sul fatto che i modelli stiano diventando più bravi a modellare o nascondere il proprio ragionamento.
I nostri risultati suggeriscono che, al momento, la controllabilità CoT difficilmente rappresenti un rischio significativo per la monitorabilità CoT. Tuttavia, una bassa controllabilità non è di per sé sufficiente a garantire un’elevata monitorabilità, perché la monitorabilità potrebbe comunque degradarsi a causa di altri meccanismi, come una pressione di ottimizzazione diretta sulle CoT.
Per contribuire a monitorare queste dinamiche nel tempo, inizieremo a riportare la controllabilità CoT insieme alla monitorabilità CoT nelle schede di sistema dei futuri modelli di frontiera, a partire da GPT‑5.4 Thinking, proseguendo il nostro impegno continuo a non applicare pressione di ottimizzazione direttamente sulle CoT dei modelli di ragionamento di frontiera.
Autori
Tomek Korbak, Micah Carroll, Bowen Baker e Ian Kivlichan


