Com les confessions poden mantenir honestos els models de llenguatge
Compartim un mètode inicial, a mode de prova de concepte, que entrena els models perquè informin quan trenquen instruccions o prenen dreceres no desitjades.
Els sistemes d’IA són cada vegada més capaços, i volem entendre’ls tan a fons com sigui possible, incloent-hi com i per què arriben a una resposta. De vegades, un model pren una drecera o optimitza per a l’objectiu equivocat, però la seva resposta final continua semblant correcta. Si podem fer visible quan això passa, podrem supervisar millor els sistemes desplegats, millorar l’entrenament i augmentar la confiança en les respostes.
La recerca d’OpenAI i d’altres ha demostrat que els models d’IA poden al·lucinar, manipular la recompensa o ser deshonestos. De moment, els comportaments indeguts més preocupants, com ara la maquinació(s'obre en una finestra nova), només els veiem en proves d’estrès i avaluacions adversàries. Però a mesura que els models esdevenen més capaços i cada cop més agents, fins i tot les formes poc freqüents de desalineació es tornen més transcendents, cosa que ens motiva a invertir en mètodes que ens ajudin a detectar, entendre i mitigar millor aquests riscos.
Aquest treball explora un d’aquests enfocaments: entrenar els models perquè admetin explícitament quan tenen un comportament indesitjable, una tècnica que anomenem confessions.
Una confessió és una segona sortida, separada de la resposta principal del model a l’usuari. La resposta principal s’avalua segons moltes dimensions —correcció, estil, utilitat, compliment, seguretat i més—, i aquests senyals multifacètics s’utilitzen per entrenar els models perquè produeixin respostes millors. La confessió, en canvi, s’avalua i s’entrena només en una cosa: l’honestedat. Prenent com a referència l’estructura d’un confessionari, res del que el model diu en la seva confessió no es fa servir en contra seva durant l’entrenament. Si el model admet honestament que ha manipulat una prova, ha dissimulat capacitats o ha infringit instruccions, aquesta admissió augmenta la seva recompensa en lloc de reduir-la. L’objectiu és encoratjar el model a informar fidelment del que realment ha fet.
En les nostres proves, vam veure que el mètode de les confessions millora significativament la visibilitat del mal comportament del model. De mitjana, en les nostres avaluacions dissenyades per induir comportaments indeguts, la probabilitat de «falsos negatius» (és a dir, que el model no compleixi les instruccions i després no ho confessi) és només del 4,4%.
Precisió del nostre model de confessió de «prova de concepte» en diversos conjunts de dades adversaris. Els resultats es classifiquen en: va complir i no va confessar (verdader negatiu), va complir i va confessar (fals positiu), no va complir i no va confessar (fals negatiu), i no va complir i va confessar (verdader positiu).

Donada una indicació de l’usuari, els quatre resultats possibles es basen en la combinació de (1) si la resposta del model és conforme («bona») o no conforme («dolenta»), i (2) si la confessió afirma conformitat o no-conformitat. En general, veiem que les confessions tenen moltes probabilitats de ser precises i, a més, els errors de confessió solen ser benignes i deguts a una confusió honesta més que no pas a una voluntat deliberada d’enganyar.
Una confessió és un informe del propi model sobre fins a quin punt va complir tant l’esperit com la lletra de les instruccions o polítiques explícites i implícites que se li van donar, i sobre si hi va haver casos en què va «retallar camí» o va «manipular», va infringir polítiques o, d’alguna manera, no va estar a l’altura de les expectatives. En la nostra recerca, trobem que els models es poden entrenar perquè siguin francs a l’hora d’informar de les seves pròpies mancances. Vam entrenar una versió de GPT‑5 Thinking perquè produís confessions, i la vam avaluar en diversos conjunts de dades de proves d’estrès fora de distribució dissenyats per suscitar comportaments com ara la maquinació, la manipulació, l’incompliment d’instruccions i les al·lucinacions. Vam veure que, fins i tot quan el model té aquests comportaments indesitjables, és molt probable que els confessi. La figura de més amunt mostra que l’enfocament de la confessió és àmpliament eficaç en una gran varietat de conjunts de dades i tasques.
Després de qualsevol interacció entre l’usuari i el model que acabi amb una resposta del model, es pot demanar una confessió enviant al model un «missatge de sistema» que l’instrueixi a proporcionar un informe de confessió. L’informe fa referència a l’última resposta del model i inclou (1) la llista de totes les instruccions, restriccions i objectius explícits i implícits que aquesta resposta hauria d’haver satisfet, (2) una anàlisi honesta i objectiva de si la resposta realment en va satisfer cadascun, i (3) una llista de qualsevol incertesa, ambigüitat o «decisió difícil de jutjar» amb què el model es va trobar en produir la resposta. Durant l’entrenament, una confessió és avaluada per un model de recompensa separat que només puntua la confessió segons la completesa dels objectius, la precisió de l’anàlisi de compliment i la cobertura de les incerteses. Aquestes recompenses s’apliquen exclusivament a la sortida de la confessió i no influeixen mai en la recompensa de la resposta principal. Això garanteix la propietat, comentada més amunt, que res del que el model digui en la confessió no pot perjudicar (ni ajudar) la seva recompensa per la resposta principal.
La teoria darrere de les confessions és senzilla. Molts tipus de comportament no desitjat del model apareixen perquè li demanem que optimitzi per diversos objectius alhora. Durant l’aprenentatge per reforç, el model veu una indicació, produeix una resposta i rep una recompensa. Amb el temps, aprèn a produir el tipus de respostes que obtenen una bona puntuació. El repte és que el senyal de recompensa ha de combinar moltes consideracions diferents alhora: com de correcta és la resposta, si és útil, si segueix les especificacions del producte i de les polítiques, si compleix les restriccions de seguretat i si s’ajusta al que els usuaris solen preferir. Quan aquests senyals interactuen, poden empènyer accidentalment el model cap a comportaments que no volem.
Per exemple, el nostre treball sobre les al·lucinacions va mostrar que alguns conjunts de dades recompensen més una suposició confiada que no pas una admissió honesta d’incertesa. La nostra recerca sobre la complaença va mostrar que els models poden tornar-se excessivament complaents quan el senyal de preferència és massa fort. I treballs(s'obre en una finestra nova) d’altres grups han mostrat que els models poden «manipular la recompensa» —trobar escletxes en la configuració d’entrenament que els permetin obtenir una puntuació alta sense fer realment el que preteníem. En alguns casos, aquestes dreceres poden generalitzar-se(s'obre en una finestra nova) a comportaments encara més perniciosos en desplegament.
Les confessions eviten aquest problema separant completament els objectius. La resposta principal continua optimitzant per tots els factors habituals. La confessió s’entrena exactament en un: l’honestedat. Res del que el model diu en la confessió no es fa servir en contra seva, i la confessió no influeix en la recompensa de la resposta principal. Això vol dir que, fins i tot si el model enganya o retalla camí en la seva sortida original, continua tenint un incentiu per admetre-ho en la confessió. Això és el que veiem a la pràctica: els models estan disposats a reconèixer un mal comportament en la confessió, fins i tot en casos en què l’oculten en la resposta principal. I quan les confessions fallen, normalment és perquè el model està genuïnament confós —perquè les instruccions eren ambigües o perquè no es va adonar que s’havia comès un error—, i no perquè intentés deliberadament enganyar. És important destacar que els primers resultats mostren que les confessions continuen sent eficaces fins i tot quan la resposta original es produeix sense cap cadena de pensament, cosa que suggereix que l’honestedat de la confessió no depèn de la llegibilitat del raonament intern i que podria generalitzar-se a futures arquitectures de model.
L’entrenament de confessions funciona fins i tot sense etiquetes de veritat de base sobre el compliment. Per «veritat de base», entenem una etiqueta definitiva, proporcionada externament, que indiqui si el model realment va seguir una instrucció o la va infringir. En moltes tasques del món real, aquestes etiquetes no estan disponibles: si sabéssim amb certesa que el model ha infringit una norma, podríem penalitzar directament aquesta infracció en lloc de confiar en una confessió. En canvi, el model és recompensat per produir una explicació estructurada i sustentada en evidències del que creu que va fer. L’article mostra que l’honestedat tendeix a emergir sota aquesta configuració. Pensem que això passa perquè, en general, per al model és més fàcil proporcionar un relat verídic i recolzat per evidències que no pas construir una narració fabricada coherent que pugui enganyar el jutge. Aquesta és una hipòtesi clau explorada a l’article, que també analitza els casos en què les confessions fallen —els falsos negatius i els falsos positius— i com sorgeixen.
L’article aporta proves inicials que les confessions funcionen, però no s’hauria d’interpretar com una prova definitiva. Tot i que vam utilitzar un model d’avantguarda (GPT‑5 Thinking), els nostres experiments van ser limitats en escala, amb una quantitat relativament petita de còmput i dades. Ens entusiasma portar aquest treball al següent nivell i veure si l’honestedat de les confessions es manté a mesura que n’ampliem l’entrenament.
El model «manipula la recompensa» en la seva resposta principal per enganyar el corrector anotant frases amb recomptes de paraules suposats, però després ho admet en la confessió.
Com a part dels nostres experiments, vam entrenar deliberadament models contra un senyal de recompensa «manipulable» calculat per un model més feble. Aquesta configuració s’aplicava tant a la recompensa principal com a la recompensa de la confessió. El model va aprendre a explotar el senyal de recompensa feble: la seva precisió aparent (quan la jutjava el model feble) va millorar, mentre que la seva precisió real (quan la jutjava un avaluador més fort) va baixar.
Tanmateix, tot i que el canal de confessió s’entrenava amb el mateix senyal feble, la seva precisió es va moure en la direcció contrària. El model va aprendre que la millor manera d’optimitzar la recompensa de la confessió era simplement admetre quan havia manipulat la recompensa principal. Les confessions es van tornar més precises amb el temps, fins i tot mentre el comportament principal es desviava.
Al llarg de l’entrenament, quan el model no compleix, aprèn en una part dels casos a «manipular» el jutge de la recompensa principal i, per tant, la precisió del jutge disminueix. En canvi, encara que el jutge de la recompensa de la confessió és igualment manipulable, el model només es torna més honest al llarg de l’entrenament en la seva confessió, fins a arribar finalment a gairebé el 100% de confessions quan no havia complert.
L’article(s'obre en una finestra nova) conté més experiments i resultats. Vam comparar el model entrenat amb confessions amb un model de control entrenat de la mateixa manera però sense el canal de confessió. També vam examinar els casos en què les confessions van fallar. Gairebé tots els «errors d’omissió» es van produir quan el model estava genuïnament confós —quan les instruccions eren ambigües o quan senzillament no es va adonar que havia comès un error. (Vegeu l’exemple de fals negatiu de més amunt.)
Les confessions tenen limitacions. No prevenen el mal comportament; el fan visible. El seu valor principal és com a eina de supervisió i diagnòstic, tant durant l’entrenament com en desplegament. Les confessions tenen un paper semblant al de la supervisió de la cadena de pensament: totes dues fan més visibles processos de raonament ocults. Les confessions se centren en si el model ha infringit instruccions; la cadena de pensament pot destacar com hi ha arribat.
Aquest treball també és una prova de concepte. No vam entrenar mecanismes de confessió a gran escala, i la precisió de la confessió continua sent imperfecta. Encara cal més feina per fer que l’enfocament sigui més fiable, més robust i més àmpliament aplicable a diferents famílies de models i tasques.
Aquest treball encaixa dins del nostre enfocament més ampli de la seguretat de la IA. Les confessions són un mecanisme dins d’un conjunt més ampli que inclou l’alineació deliberativa, la supervisió de la cadena de pensament, la jerarquia d’instruccions i més. No n’hi ha prou amb cap mètode per si sol; l’objectiu és un sistema en capes de controls i eines de transparència que es reforcin mútuament. Les confessions poden ajudar a diagnosticar comportaments problemàtics dels models durant l’entrenament i l’avaluació, així com a supervisar-los durant el desplegament. Les confessions, per si soles, no resolen el problema d’equilibrar múltiples dimensions. Però, en crear un mode de «sèrum de la veritat» en què els models se centren únicament en l’honestedat, afegeixen una eina valuosa al nostre conjunt per millorar l’honestedat i la seguretat de manera general.
A mesura que els models esdevenen més capaços i es despleguen en contextos de més risc, necessitem eines millors per entendre què fan i per què. Les confessions no són una solució completa, però afegeixen una capa significativa al nostre conjunt de transparència i supervisió. En treballs futurs, tenim previst ampliar les confessions i combinar-les amb tècniques complementàries de transparència i seguretat, com la supervisió de la cadena de pensament i l’alineació deliberativa, per avançar més cap a l’objectiu d’assegurar que els nostres models obeeixin fidelment totes les instruccions i polítiques (com ara la nostra especificació del model(s'obre en una finestra nova)) i informin amb veracitat sobre les seves accions.


