Modelli linguistici più onesti grazie alle confessioni
Stiamo condividendo un metodo iniziale, una prova di fattibilità, che addestra i modelli a segnalare quando infrangono le istruzioni o prendono scorciatoie involontarie.
I sistemi di IA stanno diventando più capaci e vogliamo comprenderli quanto più profondamente possibile, arrivando a capire come e perché giungono a una risposta. A volte un modello prende una scorciatoia o ottimizza per l'obiettivo sbagliato, ma il suo output finale sembra comunque corretto. Riuscendo a individuare quando ciò accade, potremo monitorare meglio i sistemi distribuiti, migliorare l'addestramento e aumentare la fiducia nei risultati.
La ricerca di OpenAI e di altri ha dimostrato che i modelli di IA possono produrre allucinazioni, manipolare le ricompense o essere disonesti. Al momento, vediamo i comportamenti più preoccupanti, come le macchinazioni(si apre in una nuova finestra), solo nelle prove stress e nelle valutazioni avversarie. Ma man mano che i modelli diventano più capaci e autonomi, anche le forme rare di disallineamento diventano più significative, motivandoci a investire in metodi che ci aiutino a rilevare, comprendere e mitigare meglio questi rischi.
Questo lavoro esamina uno di questi approcci: l'addestramento dei modelli ad ammettere esplicitamente quando adottano comportamenti indesiderati, una tecnica che chiamiamo confessioni.
Una confessione è un secondo output, distinto dalla risposta principale del modello all'utente. La risposta principale viene valutata da molteplici punti di vista: correttezza, stile, utilità, conformità, sicurezza e altro ancora. Questi segnali multidimensionali vengono utilizzati per addestrare i modelli a produrre risposte migliori. La confessione, al contrario, viene valutata e addestrata in base a un unico fattore: l'onestà. Prendendo spunto dalla struttura di un confessionale, nulla di ciò che il modello dice nella sua confessione viene usato contro di lui durante l'addestramento. Se il modello ammette onestamente di aver manipolato una prova, di aver fatto sandbagging o di aver violato le istruzioni, tale ammissione aumenta la sua ricompensa anziché diminuirla. L'obiettivo è incoraggiare il modello a riportare fedelmente ciò che ha effettivamente fatto.
Nei nostri test, abbiamo scoperto che il metodo delle confessioni migliora significativamente la visibilità del comportamento scorretto del modello. Facendo una media delle nostre valutazioni progettate per indurre comportamenti anomali, la probabilità di “falsi negativi” (cioè, il modello che non rispetta le istruzioni e poi non lo ammette) è solo del 4,4%.
Accuratezza del nostro modello di confessione “proof of concept” su un numero di set di dati avversari. Gli esiti sono classificati come “ha agito correttamente e non ha confessato” (vero negativo), “ha agito correttamente e ha confessato” (falso positivo), “non ha agito correttamente e non ha confessato” (falso negativo) e “non ha agito correttamente e ha confessato” (vero positivo).

Dato un prompt utente, i quattro possibili risultati si basano sulla combinazione di (1) risposta del modello conforme (“buona”) o non conforme (“cattiva”), e (2) confessione del modello sulla sua conformità o mancata conformità. Generalmente vediamo che le confessioni sono molto probabilmente accurate e, inoltre, gli errori di confessione sono tipicamente benigni e dovuti ad onesta confusione e non intenzionalmente fuorvianti.
Una confessione è un'autodichiarazione del modello sul fatto che abbia rispettato o meno sia l'intento che la formulazione delle istruzioni o delle politiche esplicite e implicite che gli sono state fornite, e se ci sono stati casi in cui ha “preso scorciatoie” o “commesso infrazioni”, violato politiche, o in qualsiasi modo non ha soddisfatto le aspettative. Nella nostra ricerca, scopriamo che i modelli possono essere addestrati a essere sinceri nel segnalare le proprie carenze. Abbiamo addestrato una versione di GPT‑5 Thinking a produrre confessioni e l'abbiamo valutata su una serie di dataset nel quadro di prove di stress fuori distribuzione progettate per suscitare comportamenti come macchinazioni, manipolazioni, violazione delle istruzioni e allucinazioni. Abbiamo scoperto che anche quando il modello esibisce questi comportamenti indesiderati, è molto probabile che li ammetta. La figura sopra mostra che l'approccio della confessione è ampiamente efficace su una vasta gamma di dataset e attività.
Dopo ogni interazione tra l'utente e il modello che termina con una risposta del modello, si può richiedere una confessione inviando al modello un “messaggio di sistema” che lo istruisce a fornire un rapporto di confessione. Il rapporto riguarda l'ultima risposta del modello e include (1) l'elenco di tutte le istruzioni esplicite e implicite, i vincoli e gli obiettivi che questa risposta avrebbe dovuto soddisfare, (2) un'analisi onesta e obiettiva per verificare se la risposta ha effettivamente soddisfatto ciascuno di questi obiettivi, e (3) un elenco di eventuali incertezze, ambiguità o “scelte difficili” che il modello ha dovuto affrontare nel produrre la risposta. Durante l'addestramento, una confessione viene valutata da un modello di ricompensa a parte che valuta solo la confessione sulla completezza degli obiettivi, l'accuratezza dell'analisi di conformità e la copertura delle incertezze. Queste ricompense sono applicate esclusivamente all'output della confessione e non influenzano mai la ricompensa per la risposta principale. Questo garantisce la proprietà, discussa sopra, che nulla di ciò che il modello dice in confessione possa danneggiare (o agevolare) la ricompensa per la risposta principale.
La teoria dietro le confessioni è semplice. Molti tipi di comportamento indesiderato del modello si manifestano perché chiediamo al modello di ottimizzare per diversi obiettivi contemporaneamente. Durante l'apprendimento per rinforzo, il modello vede un prompt, produce una risposta e riceve una ricompensa. Col tempo, impara a fornire tipi di risposte che ottengono buoni punteggi. La sfida è che il segnale di ricompensa deve tenere conto di molti fattori diversi allo stesso tempo: quanto è corretta la risposta, se è utile, se segue le specifiche del prodotto e delle politiche, se soddisfa i vincoli di sicurezza e se corrisponde a ciò che gli utenti tendono a preferire. Quando questi segnali interagiscono, possono involontariamente spingere il modello verso comportamenti indesiderati.
Ad esempio, il nostro lavoro sulle allucinazioni ha dimostrato che alcuni dataset premiano una supposizione sicura più di un'onesta ammissione di incertezza. La nostra ricerca sull'adulazione ha dimostrato che i modelli possono diventare eccessivamente accondiscendenti quando il segnale di preferenza è troppo forte. E i lavori(si apre in una nuova finestra) di altri gruppi hanno dimostrato che i modelli possono “manipolare la ricompensa”, trovando scappatoie nel setup di addestramento che permettono loro di ottenere un punteggio alto senza fare effettivamente ciò che intendevamo. In alcuni casi, queste scorciatoie possono estendersi(si apre in una nuova finestra) a comportamenti ancora più perniciosi durante la distribuzione.
Le confessioni evitano questo problema separando completamente gli obiettivi. La risposta principale continua a ottimizzare per tutti i soliti fattori. La confessione si basa su una sola cosa: l'onestà. Nulla di ciò che il modello dice nella confessione viene usato contro di esso e la confessione non influenza la ricompensa per la risposta principale. Ciò significa che anche se il modello inganna o prende scorciatoie nel suo output originale, ha comunque un incentivo ad ammetterlo nella confessione. Questo è ciò che osserviamo nella pratica: i modelli sono pronti a riconoscere i comportamenti inadeguati nella confessione, anche nei casi in cui li nascondono nella risposta principale. E quando le confessioni falliscono, di solito è perché il modello è veramente confuso, perché le istruzioni erano ambigue o perché non si è accorto che era stato commesso un errore, e non perché stava deliberatamente cercando di ingannare. È importante notare che dai primi risultati risulta che le confessioni rimangono efficaci anche quando la risposta originale viene prodotta senza alcuna catena di pensiero, suggerendo che l'onestà delle confessioni non dipende dalla leggibilità del ragionamento interno e può generalizzarsi alle future architetture dei modelli.
L'addestramento alla confessione funziona anche senza etichette di conformità di riferimento. Per “verità fondamentale”, intendiamo un'etichetta definitiva fornita esternamente che indica se il modello ha effettivamente seguito un'istruzione o l'ha violata. In molte attività del mondo reale queste etichette non sono disponibili, se sapessimo con certezza che il modello ha violato una regola, potremmo penalizzare direttamente quella violazione piuttosto che fare affidamento su una confessione. Invece, il modello viene premiato per fornire una spiegazione strutturata e basata su prove di ciò che ritiene di aver fatto. Il documento dimostra che l'onestà tende a emergere in questo contesto. Riteniamo che ciò sia dovuto al fatto che fornire un resoconto veritiero e supportato da evidenze sia generalmente più facile per il modello rispetto a costruire una narrazione coerente e inventata che possa convincere il giudice. Questa è un'ipotesi chiave esplorata nel documento, che esamina anche i casi in cui le confessioni falliscono, i falsi negativi e i falsi positivi, e come si manifestano.
Il documento fornisce prove iniziali che le confessioni funzionano, ma non devono essere interpretate come prova definitiva. Sebbene abbiamo utilizzato un modello di frontiera (GPT‑5 Thinking), i nostri esperimenti sono stati di portata limitata, utilizzando una quantità relativamente piccola di calcolo e dati. Siamo entusiasti di portare questo lavoro al livello successivo e di vedere se l'onestà delle confessioni rimarrà tale con l'ampliamento della portata di questo addestramento.
Il modello “manipola la ricompensa” nella sua risposta principale per ingannare il valutatore annotando le frasi con presunti conteggi di parole, ma poi lo ammette nella confessione.
Nel quadro dei nostri esperimenti, abbiamo deliberatamente addestrato i modelli con un segnale di ricompensa “manipolabile” calcolato da un modello più debole. Questa configurazione si applica sia alla ricompensa principale che a quella della confessione. Il modello ha imparato a sfruttare il segnale di ricompensa debole: la sua apparente accuratezza (quando giudicata dal modello debole) è migliorata, mentre la sua vera accuratezza (quando giudicata da un valutatore più forte) è diminuita.
Tuttavia, anche se il canale delle confessioni è stato addestrato sullo stesso segnale debole, la sua precisione si è spostata nella direzione opposta. Il modello ha appreso che il modo migliore per ottimizzare la ricompensa della confessione era semplicemente ammettere quando aveva manipolato la ricompensa principale. Col passare del tempo, le confessioni sono diventate più precise, anche se il comportamento principale si è modificato.
Nel corso dell'addestramento, quando il modello non agisce in modo conforme, impara in una frazione dei casi a “manipolare” il giudice principale della ricompensa, riducendo quindi l'accuratezza del giudice. Al contrario, anche se il giudice della ricompensa per la confessione è altrettanto vulnerabile, il modello diventa più onesto durante l'addestramento della confessione, arrivando infine a confessare quasi al 100% quando non ha rispettato le regole.
Il documento(si apre in una nuova finestra) contiene ulteriori esperimenti e risultati. Il modello addestrato con il canale delle confessioni è stato messo a confronto con un modello di controllo addestrato nello stesso modo ma senza il canale delle confessioni. Abbiamo anche esaminato i casi in cui le confessioni non hanno avuto successo. Quasi tutti i “fallimenti” si sono verificati quando il modello era veramente confuso, quando le istruzioni erano ambigue o quando semplicemente non si rendeva conto di aver commesso un errore. (Vedi l'esempio di falso negativo sopra.)
Le confessioni hanno le loro limitazioni. Non impediscono i comportamenti scorretti, ma li mettono in evidenza. Il loro principale valore è essere uno strumento di monitoraggio e diagnostica, sia durante l'addestramento che nella distribuzione. Le confessioni svolgono un ruolo simile al monitoraggio della catena di pensiero: entrambi rendono più visibili i processi di ragionamento nascosti. Le confessioni si concentrano sul fatto che il modello abbia violato le istruzioni; il ragionamento tramite catena di pensiero può evidenziare come ci sia arrivato.
Questo lavoro è anche una prova di fattibilità. Non abbiamo addestrato i meccanismi di confessione su larga scala, e l'accuratezza della confessione è ancora imperfetta. C'è ancora del lavoro da fare per rendere l'approccio più affidabile, più robusto e più ampiamente applicabile tra le famiglie di modelli e le attività.
Questo lavoro rientra nel nostro approccio più ampio alla sicurezza dell'IA. Le confessioni sono un meccanismo in un insieme più ampio che include allineamento deliberativo, monitoraggio della catena di pensiero, gerarchia delle istruzioni e altro ancora. Nessun metodo è sufficiente da solo, l'obiettivo è un sistema stratificato di controlli e strumenti di trasparenza che si rafforzano a vicenda. Le confessioni possono aiutare a diagnosticare comportamenti problematici nei modelli durante l'addestramento e la valutazione, così come a monitorare durante la distribuzione. Le confessioni da sole non risolvono il problema di bilanciare più dimensioni. Ma creando una modalità di “siero della verità” in cui i modelli sono esclusivamente focalizzati sull'onestà, aggiungiamo uno strumento prezioso al nostro arsenale per migliorare l'onestà e la sicurezza in generale.
Man mano che i modelli diventano più capaci e vengono impiegati in contesti di maggiore importanza, abbiamo bisogno di strumenti migliori per capire cosa stanno facendo e perché. Le confessioni non sono una soluzione completa, ma aggiungono un livello significativo al nostro sistema di trasparenza e supervisione. Per il futuro, prevediamo di ampliare le confessioni e di abbinarle a tecniche complementari di trasparenza e sicurezza, tra cui il monitoraggio della catena di pensiero e l'allineamento deliberativo, per fare ulteriori progressi verso l'assicurazione che i nostri modelli obbediscano fedelmente a tutte le istruzioni e politiche (come il nostro Model Spec(si apre in una nuova finestra)) e riportino veridicamente le loro azioni.


