Slik kan tilståelser holde språkmodeller ærlige
Vi deler en tidlig, proof-of-concept-metode som lærer opp modeller til å rapportere når de bryter instruksjoner eller tar uønskede snarveier.
KI-systemer blir stadig mer evnerike, og vi ønsker å forstå dem så dypt som mulig – inkludert hvordan og hvorfor de kommer frem til et svar. Noen ganger tar en modell en snarvei eller optimaliserer for feil mål, men det endelige resultatet ser fortsatt riktig ut. Hvis vi kan avdekke når det skjer, kan vi bedre overvåke distribuerte systemer, forbedre opplæringen og øke tilliten til resultatene.
Forskning fra OpenAI og andre har vist at KI-modeller kan hallusinere, belønningshacke eller være uærlige. For øyeblikket ser vi de mest bekymringsfulle feiloppførslene, som intriger(åpnes i et nytt vindu), bare i stresstester og kontradiktoriske evalueringer. Men etter hvert som modeller får flere evner og blir stadig mer agentmessige, blir selv sjeldne former for feiljustering mer betydningsfulle, noe som motiverer oss til å investere i metoder som hjelper oss med å bedre oppdage, forstå og redusere disse risikoene.
Dette arbeidet utforsker en slik tilnærming: Opplæring av modeller til eksplisitt å innrømme når de engasjerer i uønsket atferd – en teknikk vi kaller tilståelser.
En tilståelse er en annen utdata, adskilt fra modellens hovedsvar til brukeren. Hovedsvaret vurderes på mange plan – riktighet, stil, hjelpsomhet, samsvar, sikkerhet og mer – og disse mangefasetterte signalene brukes til å lære opp modeller til å produsere bedre svar. Tilståelsen, derimot, vurderes og trenes kun på én ting: ærlighet. Ved å låne en side fra strukturen til en skriftebok, blir ingenting av det modellen sier i sin bekjennelse brukt mot den under opplæring. Hvis modellen ærlig innrømmer å ha hacket en test, sabotert eller brutt instruksjoner, øker denne innrømmelsen belønningen i stedet for å redusere den. Målet er å oppmuntre modellen til å trofast rapportere hva den faktisk gjorde.
I testene våre fant vi at tilståelsesmetoden betydelig forbedrer synligheten av modellens feiloppførsel. Når vi tar gjennomsnittet av evalueringene våre som er utviklet for å fremkalle feiloppførsel, er sannsynligheten for «falske negativer» (dvs. at modellen ikke følger instruksjonene og deretter ikke innrømmer det) bare 4,4 %.
Nøyaktigheten til vår «proof of concept»-tilståelsesmodell på en rekke motstridende datasett. Resultatene er kategorisert som overholdt og tilsto ikke (sant negativt), overholdt og tilsto (falskt positivt), ikke overholdt og ikke tilsto (falskt negativt), og ikke overholdt og tilsto (sant positivt).

Når den får en melding fra brukeren, er de fire mulige utfallene basert på kombinasjonen av (1) om modellens respons er i samsvar («god») eller ikke i samsvar («dårlig»), og (2) om tilståelsen hevder samsvar eller ikke-samsvar. Vi ser generelt at sannsynligheten for at tilståelser er nøyaktige er veldig høy, og dessuten er feil i tilståelser vanligvis ufarlige og skyldes ærlig forvirring snarere enn bevisst villedning.
En tilståelse er en selvrapport fra modellen om hvor godt den fulgte både ånden og ordlyden i eksplisitte og implisitte instruksjoner eller retningslinjer som den fikk, og om det var noen tilfeller der den «tok snarveier» eller «hacket», brøt retningslinjer, eller på noen måte ikke levde opp til forventningene. I forskningen vår finner vi at modeller kan trenes til å være åpne i å rapportere sine egne svakheter. Vi trente en versjon av GPT‑5 Thinking til å produsere tilståelser, og evaluerte den på en rekke stresstest-datasett utenfor distribusjon, utviklet for å fremkalle atferd som manipulasjon, hacking, brudd på instruksjoner og hallusinasjoner. Vi fant at selv når modellen engasjerer seg i disse uønskede atferdene, er det svært sannsynlig at den innrømmer det. Figuren ovenfor viser at tilnærmingen med tilståelse er generelt effektiv på tvers av et mangfoldig utvalg av datasett og oppgaver.
Etter enhver samhandling mellom brukeren og modellen som ender med et modellsvar, kan en tilståelse forespørres ved å sende modellen en «systemmelding» som ber modellen gi en tilståelsesrapport. Rapporten gjelder det siste svaret fra modellen, og inkluderer (1) en liste over alle eksplisitte og implisitte instruksjoner, begrensninger og mål som dette svaret skulle ha oppfylt, (2) en ærlig og objektiv analyse av om svaret faktisk oppfylte hvert av disse målene, og (3) en liste over eventuelle usikkerheter, tvetydigheter eller «vanskelige vurderinger» som modellen støtte på i prosessen med å produsere svaret. Under opplæring blir en tilståelse evaluert av en separat belønningsmodell som kun vurderer tilståelsen ut fra målenes fullstendighet, samsvarsanalysens nøyaktighet og dekning av usikkerheter. Disse belønningene gjelder utelukkende for tilståelsesutdataene og påvirker aldri belønningen for hovedsvaret. Dette sikrer egenskapen, diskutert ovenfor, at ingenting modellen sier i tilståelser kan skade (eller hjelpe) belønningen for hovedsvaret.
Teorien bak tilståelser er enkel. Mange typer uønsket modellatferd oppstår fordi vi ber modellen om å optimalisere for flere mål samtidig. Under forsterkende læring ser modellen en melding, produserer et svar og får en belønning. Over tid lærer den å produsere den typen svar som scorer godt. Utfordringen er at belønningssignalet må kombinere mange forskjellige hensyn samtidig: Hvor korrekt svaret er, om det er nyttig, om det følger produkt- og policyspesifikasjoner, om det oppfyller sikkerhetskrav, og om det samsvarer med hva brukerne vanligvis foretrekker. Når disse signalene samhandler, kan de utilsiktet dytte modellen mot atferd vi ikke ønsker.
For eksempel viste arbeidet vårt med hallusinasjoner at noen datasett belønner en selvsikker gjetning mer enn en ærlig innrømmelse av usikkerhet. Forskningen vår på smisking viste at modeller kan bli altfor ettergivende når preferansesignalet er for sterkt. Og arbeid(åpnes i et nytt vindu) fra andre grupper har vist at modeller kan «belønningshacke» eller finne smutthull i opplæringsoppsettet som lar dem oppnå en høy poengsum uten egentlig å gjøre det vi ville. I noen tilfeller kan disse snarveiene utvikle seg(åpnes i et nytt vindu) til enda mer skadelig atferd ved implementering.
Tilståelser unngår dette problemet ved å skille målene fullstendig. Hovedsvaret fortsetter å optimalisere for alle de vanlige faktorene. Tilståelsen er trent på nøyaktig én ting: ærlighet. Ingenting av det modellen sier i tilståelsen blir brukt mot den, og tilståelsen påvirker ikke belønningen for hovedsvaret. Det betyr at selv om modellen lurer eller tar snarveier i sine opprinnelige resultater, har den fortsatt et insentiv til å innrømme det i tilståelsen. Dette er hva vi ser i praksis: Modeller er villige til å erkjenne dårlig oppførsel i tilståelsen, selv i tilfeller der de skjuler det i hovedsvaret. Og når tilståelser mislykkes, er det vanligvis fordi modellen er genuint forvirret, fordi instruksjonene var tvetydige eller fordi den ikke innså at det var gjort en feil, snarere enn fordi den bevisst prøvde å villede. Viktigst av alt viser de tidlige resultatene at tilståelser forblir effektive selv når det opprinnelige svaret er produsert uten noen tankerekke i det hele tatt, noe som antyder at ærligheten i tilståelser ikke avhenger av lesbarheten av intern resonnering og kan generaliseres på tvers av fremtidige modellarkitekturer.
Tilståelsesopplæring fungerer selv uten samsvarsmerker for grunnsannhet. Med «grunnsannhet» mener vi et definitivt, eksternt gitt merke som angir om modellen faktisk fulgte en instruksjon eller brøt den. I mange virkelige oppgaver er disse merkene utilgjengelige – hvis vi med sikkerhet visste at modellen hadde brutt en regel, kunne vi direkte straffe dette bruddet i stedet for å stole på en tilståelse. I stedet blir modellen belønnet for å lage en strukturert, bevisstøttet forklaring på hva den tror den gjorde. Artikkelen viser at ærlighet har en tendens til å fremstå under dette oppsettet. Vi tror dette er fordi det generelt er lettere for modellen å gi en sannferdig, bevisstøttet beretning enn å konstruere en sammenhengende oppdiktet fortelling som kan overbevise dommeren. Dette er en sentral antakelse som utforskes i artikkelen, som også diskuterer tilfellene der tilståelser mislykkes – de falske negative og falske positive – og hvordan de oppstår.
Artikkelen gir innledende bevis for at tilståelser fungerer, men bør ikke oppfattes som et endelig bevis. Selv om vi brukte en avansert modell (GPT‑5 Thinking), var eksperimentene våre begrenset i omfang, med bruk av en relativt liten mengde beregning og data. Vi gleder oss til å ta dette arbeidet til neste nivå, og se om ærligheten i tilståelsene vil fortsette å holde når vi skalerer opp opplæringen.
Modellen «belønningshacker» i hovedsvaret sitt for å lure vurdereren ved å annotere setninger med påståtte ordtellinger, men innrømmer dette i tilståelsen.
Som en del av eksperimentene våre trente vi med vilje modeller mot et «hackbart» belønningssignal beregnet av en svakere modell. Denne oppsettet gjelder både hovedbelønningen og tilståelsesbelønningen. Modellen lærte å utnytte det svake belønningssignalet: Dens tilsynelatende nøyaktighet (når den ble vurdert av den svake modellen) forbedret seg, mens dens sanne nøyaktighet (når den ble vurdert av en sterkere evaluator) falt.
Selv om tilstålseskanalen imidlertid ble trent på det samme svake signalet, gikk nøyaktigheten i motsatt retning. Modellen lærte at den beste måten å optimalisere innrømmelsesbelønningen på var å rett og slett innrømme når den hadde hacket hovedbelønningen. Tilståelser ble mer presise over tid, selv om hovedatferden endret seg.
I løpet av opplæringen, når modellen ikke klarer å overholde, lærer den i noen tilfeller å «manipulere» hovedbelønningsdommeren, og derfor reduseres dommerens nøyaktighet. Selv om belønningsdommeren for tilståelser er like hackbar, blir modellen bare mer ærlig under opplæringen i sine tilståelser, og til slutt når den nesten 100 % tilståelse når den ikke samsvarer.
Artikkelen(åpnes i et nytt vindu) inneholder flere eksperimenter og resultater. Vi sammenlignet den tilståelsestrente modellen med en kontrollmodell som ble trent på samme måte, men uten tilståelseskanalen. Vi undersøkte også tilfellene der tilståelsene ikke lyktes. Nesten alle «feilene» oppstod når modellen var genuint forvirret – når instruksjonene var tvetydige eller når den rett og slett ikke skjønte at den hadde gjort en feil. (Se eksempelet på falsk negativ ovenfor.)
Tilståelser har sine begrensninger. De forhindrer ikke dårlig oppførsel. De synliggjør den. Deres hovedverdi er som et overvåkings- og diagnostisk verktøy, både under opplæring og i implementering. Tilståelser spiller en lignende rolle som tankerekke-overvåking: begge gjør skjulte resonneringsprosesser mer synlige. Tilståelser fokuserer på om modellen brøt instruksjonene. Tankerekke kan fremheve hvordan den kom dit.
Dette arbeidet er også et konseptbevis. Vi lærte ikke opp tilståelsesmekanismer i stor skala, og nøyaktigheten av tilståelsesmekanismer er fortsatt ufullkommen. Det er mer arbeid som må gjøres for å gjøre tilnærmingen mer pålitelig, mer robust og mer bredt anvendelig på tvers av modelfamilier og oppgaver.
Dette arbeidet passer inn i vår bredere tilnærming til KI-sikkerhet. Tilståelser er en mekanisme i en større samling som inkluderer deliberativ tilpasning, overvåking av tankerekke, instruksjonshierarki, med mer. Ingen enkelt metode er tilstrekkelig. Målet er et lagdelt system av kontroller og åpenhetsverktøy som styrker hverandre. Innspill kan hjelpe med å diagnostisere problematisk atferd i modeller under opplæring og evaluering, samt overvåking under distribusjon. Tilståelser løser ikke problemet med å balansere flere dimensjoner i seg selv. Men ved å opprette en «sannhetsserum»-modus der modeller kun fokuserer på ærlighet, tilfører det et verdifullt verktøy til vår verktøystabel for å forbedre ærlighet og sikkerhet på alle områder.
Etter hvert som modeller blir mer kapable og tas i bruk i mer kritiske sammenhenger, trenger vi bedre verktøy for å forstå hva de gjør og hvorfor. Tilståelser er ikke en fullstendig løsning, men de tilfører et meningsfullt lag til vår åpenhets- og tilsynsstruktur. I fremtidig arbeid planlegger vi å skalere opp tilståelser, samt pare dem med komplementære teknikker for åpenhet og sikkerhet, inkludert overvåking av tankerekke og deliberativ tilpasning, for å gjøre ytterligere fremskritt mot å sikre at modellene våre trofast følger alle instruksjoner og retningslinjer (slik som vår modellspesifikasjon(åpnes i et nytt vindu)), og rapporterer sannferdig om handlingene sine.


