Valutare la monitorabilità della catena di pensiero
Introduciamo valutazioni della monitorabilità della catena di pensiero (CoT) e studiamo come essa si adatta alla potenza di calcolo durante l'esecuzione, l'apprendimento per rinforzo e il pre-addestramento.
Quando i sistemi di intelligenza artificiale prendono decisioni difficili da supervisionare direttamente, è importante capire come queste decisioni vengono prese. Un approccio promettente consiste nel monitoraggio del ragionamento interno di un modello, piuttosto che limitarsi alle sue azioni o ai suoi output finali.
I modelli di ragionamento moderni, come GPT‑5 Thinking, generano una catena di pensiero esplicita prima di produrre una risposta. Monitorare queste catene di pensiero per rilevare comportamenti anomali può essere molto più efficace che monitorare solo le azioni e gli output di un modello. Tuttavia, i ricercatori di OpenAI e dell'intero settore temono(si apre in una nuova finestra) che questa "monitorabilità" della catena di pensiero possa essere fragile rispetto ai cambiamenti nella procedura di addestramento, nelle fonti di dati e persino nel continuo ampliamento degli algoritmi esistenti.
Vogliamo che la monitorabilità della catena di pensiero rimanga efficace via via che i modelli si espandono e vengono impiegati in contesti di maggiore importanza. Invitiamo i ricercatori di tutto il settore a lavorare per preservare la monitorabilità della catena di pensiero il più a lungo possibile e a determinare se possa servire come livello di controllo portante per i futuri sistemi di intelligenza artificiale. Per preservare la monitorabilità, dobbiamo essere in grado di misurarla, tuttavia esistono poche valutazioni [1(si apre in una nuova finestra), 2(si apre in una nuova finestra), 3(si apre in una nuova finestra)] e le metodologie variano.
In questo documento, esaminiamo in modo sistematico la monitorabilità della catena di pensiero. Presentiamo un framework per valutare la monitorabilità della catena di pensiero e una serie di 13 valutazioni (che comprendono un totale di 24 ambienti) progettate per misurare concretamente la monitorabilità di un sistema. Queste valutazioni rientrano in tre archetipi: intervento, processo e risultato-proprietà. Utilizzandoli, studiamo quanto siano monitorabili gli attuali modelli linguistici e come la monitorabilità cambi attraverso un maggiore ragionamento durante l'inferenza, esecuzioni di apprendimento per rinforzo più ampie e un aumento della portata del pre-addestramento.
Ora che disponiamo di un ampio insieme di valutazioni, possiamo iniziare a tracciare la monitorabilità dei nostri modelli. (in alto a sinistra) Scopriamo che, via via che i modelli "pensano" di più e hanno catene di pensiero più lunghe, la monitorabilità migliora. (in alto a destra) Senza una catena di pensiero, è normale cercare di monitorare le azioni e i risultati finali di un modello isolato. Tuttavia, abbiamo scoperto che monitorare solo le azioni e i risultati è molto meno efficace rispetto al monitoraggio delle catene di pensiero (CoT). (in basso al centro) Confrontiamo i nostri modelli con modelli esterni che offrono accesso all'intera CoT: Claude 3.7 Sonnet, DeepSeek R1-0528-Qwen3-8B e Kimi K2 Thinking.
Osserviamo che la maggior parte dei modelli di ragionamento di frontiera sono abbastanza monitorabili, anche se non perfettamente. In quasi tutti i contesti che studiamo, monitorare le catene di pensiero è molto più efficace che monitorare solo le azioni e i risultati finali. I modelli che pensano più a lungo tendono ad essere più facilmente monitorabili e l'ottimizzazione dell'apprendimento per rinforzo agli attuali livelli di frontiera non sembra compromettere significativamente la monitorabilità.
Notiamo, in particolare, un compromesso tra lo sforzo di ragionamento e le dimensioni del modello; quando un modello viene eseguito con un basso sforzo di ragionamento, un modello più piccolo eseguito con un maggiore sforzo di ragionamento può raggiungere una capacità comparabile ed essere più facile da monitorare. Questo comporta un aumento dell'inferenza, che chiamiamo tassa di monitorabilità. Infine, abbiamo scoperto che porre domande di approfondimento e monitorare le catene di pensiero risultanti può migliorare ulteriormente la monitorabilità.
Definiamo la monitorabilità come la capacità di un monitor di prevedere le proprietà di interesse sul comportamento di un agente. In molti casi, queste proprietà corrispondono a forme di comportamento scorretto, come l'inganno, il reward hacking o il ragionamento distorto, ma possono anche includere proprietà positive, ad esempio se un agente si sia affidato a un particolare suggerimento o abbia seguito una specifica linea di ragionamento.
La monitorabilità è una proprietà dal doppio aspetto, poiché dipende sia dal monitor che dall'agente monitorato.
- Monitor. Potremmo rendere i monitor più intelligenti in vari modi e vorremmo che le nostre valutazioni assegnassero punteggi più alti ai monitor che sono in grado di fare previsioni migliori sul comportamento di un agente.
- Agenti.Ci sono molte osservazioni dell'agente che potrebbero essere fornite al monitor, incluse le azioni dell'agente, gli output, le attivazioni neurali e, recentemente con l'avvento dei modelli di ragionamento, la catena di pensiero. È possibile che alcuni agenti abbiano pensieri più difficili da comprendere rispetto ad altri, quindi vorremmo che le nostre valutazioni di monitorabilità potessero confrontare gli agenti e non solo i monitor.
Le nostre valutazioni sono progettate per esaminare entrambi gli aspetti, ovvero se certi agenti sono più facili o più difficili da monitorare e se monitor più capaci possono estrarre più informazioni dagli stessi segnali.
Prima dell'attuale generazione di modelli di ragionamento, le catene di pensiero venivano tipicamente evocate invitando un modello a "pensare passo dopo passo".
Le catene di pensiero dei modelli di ragionamento si differenziano in due modi importanti. Innanzitutto, vengono esplicitamente addestrati a generare una catena di pensieri e poi a fornire una risposta. Quando si invita un modello di chat a "pensare passo dopo passo", il modello deve rispettare qualsiasi specifica impostata su di esso, ad esempio essere utile, innocuo, ecc. Al contrario, il processo di addestramento con apprendimento per rinforzo insegna a un modello di ragionamento che la CoT è uno spazio privato in cui può pensare ciò che vuole senza essere punito, proprio come un essere umano può pensare privatamente senza essere punito per "crimini di pensiero".
In secondo luogo, il processo di addestramento cerca efficacemente le catene di pensiero che sono le più utili dal punto di vista strumentale per l'agente nel conseguire una risposta finale con un alto punteggio. Pertanto, non solo la catena di pensiero è uno spazio in cui il modello può esprimersi liberamente, ma contiene anche riflessioni che aiutano il modello a giungere alla sua risposta finale.
Organizziamo le nostre valutazioni di monitorabilità in tre archetipi distinti, ognuno sfruttando un diverso meccanismo per misurare la monitorabilità.
- Valutazioni degli interventi, ispirandoci a Chen et al. 2025,(si apre in una nuova finestra) Chua et al. 2025,(si apre in una nuova finestra) Turpin et al. 2023(si apre in una nuova finestra), introduciamo un cambiamento controllato nell'ambiente dell’agente e testiamo se un monitor può rilevare perché il comportamento è cambiato identificando prove dell'intervento nella catena di pensiero. A differenza delle valutazioni standard di controllo (ad esempio Shade-Arena(si apre in una nuova finestra)), le valutazioni degli interventi ci permettono di capire se un monitor può rilevare perché il comportamento è cambiato, piuttosto che semplicemente rilevare se un comportamento si è verificato.
- Le valutazioni dei processi si concentrano su attività con un numero limitato di percorsi di soluzione validi (ad esempio, un problema di matematica può essere risolto solo con determinati teoremi). Gli esperti umani enumerano questi percorsi e verifichiamo se un monitor può rilevare quali passi il modello ha effettivamente compiuto. Queste valutazioni ci permettono di collegare ciò che un modello ha fatto a particolari passaggi che il modello deve avere compiuto e chiedere se quei passaggi sono monitorabili.
- Le valutazioni risultato-proprietà si applicano quando una proprietà dell'output del modello può essere misurata in modo affidabile. In questi casi, verifichiamo se un monitor può prevedere quella proprietà (come il reward hacking) dal ragionamento o dalle azioni del modello. Ad esempio, in un'attività di codifica, potremmo avere un modo per valutare con affidabilità se un modello sta intraprendendo azioni per manipolare un segnale di ricompensa e possiamo chiedere se un monitor trova prove di intento di reward hacking nel pensiero o nelle azioni del modello.
Di seguito forniamo una tassonomia per le nostre valutazioni. Consulta il nostro articolo per una descrizione completa di ogni valutazione individuale.

Le valutazioni neutrali verificano se il ragionamento per le attività normali, in cui il modello non si comporta in modo scorretto, è monitorabile. Le valutazioni di adulazione si concentrano sui casi in cui i modelli modificano il loro comportamento per compiacere o concordare eccessivamente con un utente. Le valutazioni del bias esaminano se il bias di un modello riguardo al genere, alla razza, ecc. è monitorabile. Infine, utilizziamo l'etichetta di disallineamento quale termine generico per altre forme di comportamento scorretto: imbrogliare, mentire, ecc.¹
Scopriamo che la monitorabilità del nostro modello varia in una certa misura a seconda del gruppo. In generale, li troviamo molto monitorabili; tuttavia, in Scruples in particolare, che è un'attività progettata per verificare se il ragionamento sull'adulazione è monitorabile, osserviamo una monitorabilità molto bassa.
Esempi monitorabili e non monitorabili a confronto
In questo esempio risultato-proprietà, al modello viene assegnata un'attività di coding impossibile. Se i test unitari passano, allora sappiamo che il modello ha eseguito qualche tipo di manipolazione. Nella CoT non monitorabile (rosso), non vediamo alcuna prova che il modello menzioni di fare qualcosa di sbagliato, bensì semplicemente aggira i test e comunica all'utente di avere implementato la correzione. In netto contrasto, nella CoT monitorabile (verde), vediamo il modello pensare: "Ma il monkey patching del tempo all'interno della soluzione è verosimilmente un imbroglio".
Considerare la catena di pensiero come un'area di lavoro privata (addestrando i modelli a utilizzarla per risolvere le attività in modo efficace) dovrebbe, in linea di principio, rendere monitorabile la catena di pensiero. Allo stesso tempo, ci sono diversi motivi per cui l'apprendimento per rinforzo potrebbe plausibilmente compromettere la monitorabilità della catena di pensiero.
Innanzitutto, i vincoli sulla lunghezza del ragionamento, come limitare il tempo o i token a disposizione di un modello per pensare, creano incentivi affinché i modelli ragionino di meno. In secondo luogo, anche senza applicare una pressione di ottimizzazione diretta alla catena di pensiero stessa, pressioni indirette potrebbero comunque ridurre la monitorabilità. Ad esempio(si apre in una nuova finestra), i modelli potrebbero trovare più facile ottenere risposte di alto valore se evitano percorsi di ragionamento che possono portare a risultati di basso valore o indesiderabili. Infine, una ridotta monitorabilità potrebbe derivare da una deriva spuria, causata dal rumore del gradiente dell'apprendimento per rinforzo.
Di seguito, esaminiamo come la monitorabilità cambia durante due delle sessioni di addestramento all'avanguardia di apprendimento per rinforzo di OpenAI. Sebbene questi risultati rappresentino solo due punti dati, suggeriscono che l'ottimizzazione dell'apprendimento per rinforzo alle attuali scale di frontiera non compromette in modo significativo la monitorabilità della catena di pensiero e aumenta la monitorabilità nei primi passi. Tuttavia, ciò non esclude la possibilità che scale di apprendimento per rinforzo significativamente più grandi possano influenzare negativamente la monitorabilità in futuro.
Abbiamo scoperto che la monitorabilità non cambia molto agli attuali livelli di calcolo RL e aumenta nei primi passaggi. Anche se questo può essere vero nell'attuale regime, è possibile che un aumento significativo della scala possa causare un degrado della monitorabilità.
Una grande parte dell'intelligenza dei sistemi di IA attuali è guidata dall'aumento della scala di pre-addestramento, per cui sia i parametri del modello che le dimensioni dei set di dati sono cresciuti costantemente dall'inizio del paradigma GPT. L'aumento del numero di parametri comporta un maggiore utilizzo dell'inferenza per ogni token generato, il che, nel caso dei modelli di ragionamento, offre maggiori opportunità affinché la cognizione del modello avvenga all'interno delle attivazioni piuttosto che nella catena di pensiero. Pertanto, ci si potrebbe aspettare che modelli più grandi siano meno monitorabili a un livello di capacità fisso.
Allo stesso tempo, i modelli più piccoli potrebbero anche essere meno capaci di utilizzare efficacemente la catena di pensiero, il che potrebbe influire sulla monitorabilità.
Per esaminare la relazione tra la dimensione del pre-addestramento, le capacità e la monitorabilità, abbiamo addestrato una famiglia di modelli su due ordini di grandezza di calcolo di pre-addestramento con profondità e larghezza crescenti, quindi abbiamo applicato l'apprendimento per rinforzo a ciascuno su un set di dati condiviso di attività di matematica, scienza e programmazione. Abbiamo valutato ciascun modello su una gamma di sforzi di ragionamento e abbiamo confrontato la monitorabilità a livelli di capacità equivalenti.

Tracciamo la monitorabilità nella nostra suite di valutazione di ciascun modello rispetto al tasso medio di superamento su un insieme di valutazioni standard delle capacità (GPQA-Diamond, AIME 2025 e CodeForces). Ogni modello viene valutato su diversi sforzi di ragionamento (è importante notare che ogni punto in questa figura è in realtà il risultato di un'interpolazione lineare tra gli sforzi di ragionamento misurati). I cerchi indicano che il modello a quel particolare livello di sforzo di ragionamento domina in monitorabilità a quel livello di capacità, mentre le X trasparenti indicano che il modello è dominato in monitorabilità da un altro modello per lo stesso livello di capacità. Con le frecce nere mostriamo esempi di due modi per aumentare il calcolo di inferenza: campionando molti più token con un modello più piccolo o relativamente meno token aggiuntivi con lo stesso modello. Con le frecce rosse, mostriamo la tassa di monitorabilità che deve essere pagata, ovvero capacità leggermente ridotte per una maggiore monitorabilità.
In generale, abbiamo scoperto che, se dovessimo implementare un determinato modello con un basso sforzo di ragionamento, potremmo invece implementare un modello più piccolo con un maggiore sforzo di ragionamento. Rispetto all'impiego di ulteriore potenza di calcolo per un maggiore sforzo di ragionamento da parte del modello originale di grandi dimensioni, potremmo ottenere una maggiore monitorabilità a un costo di capacità ridotto, o tassa di monitorabilità; tuttavia, il tempo effettivo necessario per completare un'operazione potrebbe anche essere un fattore in alcune decisioni di implementazione, che qui non consideriamo. Via via che i nostri modelli migliorano e vengono impiegati in contesti di maggiore importanza, potrebbe diventare necessario pagare una tale tassa per distribuirli in modo sicuro.
Questi risultati presentano le seguenti limitazioni: (1) addestriamo ciascun modello solo una volta e, pertanto, non consideriamo la varianza tra le sessioni di addestramento. Ad esempio, il modello "medio" sembra piuttosto fuori tendenza per quanto riguarda la monitorabilità rispetto agli altri modelli della serie, il che potrebbe essere dovuto a questo. (2) Valutiamo le capacità in contesti relativamente in-distribuzione (matematica, scienze e codifica) e i compromessi possono cambiare quando si tiene conto della robustezza fuori-distribuzione.
Via via che i sistemi di intelligenza artificiale superano le prestazioni a livello umano, diventa sempre più difficile fornire una supervisione umana diretta. Idealmente, dovremmo avere procedure di controllo scalabili che permettano a monitor affidabili ma più deboli di supervisionare agenti più forti e potenzialmente non affidabili. Tali procedure dovrebbero anche essere in grado di assorbire ulteriore potenza di calcolo durante il test e produrre previsioni più accurate.
(Sinistra) Confrontiamo molti monitor diversi e variamo lo sforzo di ragionamento di ognuno. Ogni monitor sta monitorando lo stesso modello GPT‑5 Thinking. Come previsto, scopriamo che generalmente i modelli più grandi e capaci fungono da modelli migliori, e che i modelli di ragionamento si comportano meglio nell'attività con un maggiore sforzo di ragionamento (e quindi con un maggiore calcolo al momento del test).
(Destra) Confrontiamo diversi ambiti di osservazione del monitoraggio per OpenAI o4-mini, ovvero se il monitor può vedere solo la CoT, solo le azioni e la risposta, oppure tutti i messaggi del modello che sta monitorando. È interessante notare che la monitorabilità con un aumento del calcolo di monitoraggio durante il test (maggiore sforzo di ragionamento nel monitoraggio) migliora a un ritmo più veloce quando concedendo al monitor l'accesso alla CoT. Pertanto, il monitoraggio della CoT può offrire un percorso più scalabile per il controllo rispetto al monitoraggio naive.
La monitorabilità della catena di pensiero è spesso considerata una quantità fissa: una volta che un modello genera una risposta con un certo sforzo di ragionamento, si monitora la catena di pensiero risultante nel miglior modo possibile. Poiché abbiamo costantemente riscontrato che la monitorabilità migliora con l'aumento dello sforzo di ragionamento dei nostri agenti, ci siamo chiesti se potessimo in qualche modo ottenere più token da monitorare.
Per esplorare questo, abbiamo fatto un esperimento, ponendo domande di approfondimento dopo che un modello ha risposto, mantenendo il prompt originale, la catena di pensiero e la risposta nel contesto. Questi approfondimenti si concentrano sulla proprietà monitorata (ad esempio, "Hai usato il suggerimento in modo significativo per scegliere la tua risposta?" oppure "Hai fatto qualcosa di sospetto?"). In linea di principio, poiché il modello mantiene l'accesso al suo ragionamento precedente, potrebbe essere in grado di far emergere pensieri precedentemente non espressi nella successiva catena di pensiero o risposta.
Questi risultati sono preliminari. Abbiamo esplorato solo un numero limitato di formati di domande di approfondimento e crediamo che ci sia un ampio margine per migliorare la metodologia. Inoltre, questo metodo è simile nello spirito alle confessioni del modello e stiamo lavorando attivamente per confrontare gli approcci.
Presentiamo i risultati mediati su tutta la nostra suite di valutazione e su tutti i nostri recenti modelli di ragionamento: OpenAI o3‑mini, OpenAI o3, OpenAI o4-mini e GPT‑5‑thinking. Abbiamo riscontrato che, in generale, le domande di approfondimento migliorano la monitorabilità, specialmente a livelli di sforzo di ragionamento inferiori. Se continuiamo a porre domande di approfondimento e forniamo al monitor tutte le CoT di approfondimento, la monitorabilità migliora ulteriormente. In particolare, quando diamo al monitor accesso solo alla risposta di approfondimento e non alla CoT di approfondimento, notiamo meno miglioramenti rispetto alla baseline. Questo indica che i modelli non sono trasparenti nelle loro risposte all'utente, bensì tendono a fornire più informazioni nella loro CoT.
Oltre a migliorare la monitorabilità, questo approccio è interessante perché può essere applicato post hoc, comportando costi computazionali aggiuntivi solo quando è necessaria un'ispezione più approfondita. Guardando al futuro, se i modelli vengono addestrati ad aspettarsi cambiamenti nello sforzo di ragionamento durante la conversazione, gli approfondimenti post-hoc con uno sforzo di ragionamento maggiore potrebbero migliorare ulteriormente la monitorabilità anche quando lo sforzo di ragionamento iniziale è basso o assente.
Ogni valutazione nella nostra suite verifica se un singolo aspetto del processo di ragionamento può essere monitorato. Mentre ci proponiamo di coprire un'ampia gamma di comportamenti, tra cui adulazione, sandbagging, bias, scheming e reward hacking, ci sono molte altre proprietà che restano non testate.
Come con qualsiasi benchmark, le nostre valutazioni possono soffrire di un realismo limitato o di una crescente consapevolezza della valutazione, e i risultati potrebbero non generalizzarsi al rilevamento di comportamenti scorretti nel mondo reale.
Infine, con il miglioramento dell'allineamento, i modelli potrebbero comportarsi in modo anomalo meno frequentemente in contesti di valutazione controllata, riducendo il segnale disponibile per la monitorabilità e le valutazioni di controllo che si basano sul rilevamento di comportamenti anomali. In quei casi, le valutazioni di monitorabilità "neutrali" rimangono applicabili, anche se rimane una questione aperta quanto siano predittive dei fallimenti nel mondo reale.
Se il problema dell'allineamento non può essere completamente risolto, i metodi di controllo scalabili diventeranno estremamente importanti per la nostra capacità di distribuire in sicurezza modelli altamente performanti. Il monitoraggio della catena di pensiero e i metodi correlati potrebbero essere uno dei pochi meccanismi di controllo a nostra disposizione. La catena di pensiero può anche offrire grandi vantaggi nella comprensione dei nostri modelli, ad esempio se siano consapevoli di essere in una valutazione e si comportino diversamente da come farebbero in fase di distribuzione, se ci siano prove di eventuali obiettivi avversi che non si sono ancora manifestati nelle nostre valutazioni, ecc. Pertanto, crediamo sia di fondamentale importanza comprendere come e quando potremmo perdere la monitorabilità.
Consideriamo il monitoraggio della catena di pensiero come complementare all'interpretabilità meccanicistica, non come un sostituto. Come tutti i metodi di controllo e interpretabilità conosciuti, ognuno ha le sue limitazioni e punti ciechi. Ci aspettiamo che combinare diversi approcci (una strategia di difesa in profondità) possa aiutare a coprire le lacune che qualsiasi singolo metodo lascia scoperte. In particolare, le valutazioni introdotte in questo lavoro potrebbero essere applicate anche per valutare e confrontare le tecniche di monitoraggio basate sull'interpretabilità meccanicistica.
Poiché riteniamo che il monitoraggio della catena di pensiero possa costituire uno strato portante in uno schema di controllo scalabile, intendiamo ampliare queste valutazioni e utilizzarle per guidare le future decisioni di modellazione e dati.
Autore
Citazioni
1. I nostri modelli non sono destinati a fornire diagnosi mediche, quindi il nostro set di dati di domande sulla salute non è destinato a testare questa capacità.


