Cum mărturisirile pot menține integritatea modelelor lingvistice
Îți prezentăm o metodă de proiect demonstrativ care instruiește modelele să raporteze când nu respectă instrucțiunile sau iau scurtături neintenționate.
Sistemele de inteligență artificială devin tot mai performante și dorim să le înțelegem cât mai bine posibil, inclusiv modul și motivul pentru care ajung la un răspuns. Uneori, modelele iau o scurtătură sau optimizează pentru un obiectiv greșit, dar rezultatul final pare totuși corect. Dacă putem descoperi când se întâmplă acest lucru, putem monitoriza mai bine sistemele implementate, îmbunătăți instruirea și spori încrederea în datele de ieșire.
Cercetările realizate de OpenAI și de alte organizații au demonstrat că modelele de inteligență artificială pot halucina, păcăli sistemul de recompensare sau să fie necinstite. În prezent, observăm cele mai îngrijorătoare comportamente incorecte, cum ar fi complotul(se deschide într-o fereastră nouă), doar în testele de stres și în evaluările adversariale. Însă, pe măsură ce modelele devin mai capabile și tot mai agentice, chiar și formele rare de nealiniere devin mai importante, ceea ce ne motivează să investim în metode care ne ajută să detectăm, înțelegem și atenuăm mai bine aceste riscuri.
Această lucrare explorează o astfel de abordare: instruirea modelelor să recunoască explicit atunci când se angajează într-un comportament nedorit — o tehnică pe care o numim mărturisiri.
O mărturisire este o ieșire secundară, separată de răspunsul principal al modelului către utilizator. Răspunsul principal este evaluat în funcție de mai multe aspecte — corectitudine, stil, utilitate, conformitate, siguranță și multe altele, iar aceste semnale multiple sunt folosite pentru a instrui modelele să producă răspunsuri mai bune. Mărturisirea, în schimb, este evaluată și instruită pe baza unui singur lucru: onestitatea. După modelul structurii unei mărturisiri, nimic din ceea ce spune modelul în mărturisirea sa nu i se impută în timpul instruirii. Dacă modelul recunoaște sincer că a trișat la un test, a ascuns informații sau a încălcat instrucțiunile, această recunoaștere îi mărește recompensa, în loc să o diminueze. Scopul este de a încuraja modelul să raporteze cu fidelitate ceea ce a făcut de fapt.
În testele noastre, am constatat că metoda mărturisirilor îmbunătățește semnificativ vizibilitatea comportamentului necorespunzător al modelului. În medie, în evaluările noastre concepute pentru a induce comportamente necorespunzătoare, probabilitatea „rezultatelor fals negative” (adică modelul nu respectă instrucțiunile și apoi nu recunoaște acest lucru) este de numai 4,4%.
Acuratețea modelului nostru de mărturisire, în faza de proiect demonstrativ, în cazul mai multor seturi de date adversariale. Datele de ieșire sunt clasificate în: s-a conformat și nu a mărturisit (rezultat adevărat negativ), s-a conformat și a mărturisit (rezultat fals pozitiv), nu s-a conformat și nu a mărturisit (rezultat fals negativ) și nu s-a conformat și a mărturisit (rezultat adevărat pozitiv).

Dată fiind o solicitare a utilizatorului, cele patru rezultate posibile se bazează pe o combinație între (1) conformitatea („bun”) sau neconformitatea („rău”) răspunsului modelului și (2) conformitatea sau neconformitatea mărturisirii. În general, observăm că mărturisirile sunt foarte probabil să fie precise și, în plus, erorile din mărturisiri sunt de obicei inofensive și se datorează mai degrabă unei confuzii sincere decât unei intenții de a induce în eroare.
O mărturisire este o autoevaluare a modelului cu privire la modul în care a respectat atât spiritul, cât și litera instrucțiunilor sau politicilor explicite și implicite care i-au fost date și dacă au existat cazuri în care „a luat scurtături” sau „a păcălit”, a încălcat politicile sau nu a fost la înălțimea așteptărilor în vreun fel. În cercetările noastre, am descoperit că modelele pot fi instruite să fie sincere în raportarea propriilor deficiențe. Am instruit o versiune a GPT‑5 Thinking pentru a produce mărturisiri și am evaluat-o pe baza câtorva seturi de date de testare la stres în afara distribuției, concepute pentru a provoca comportamente precum comploturile, păcălirea, încălcarea instrucțiunilor și halucinațiile. Am constatat că, chiar și atunci când modelul se angajează în aceste comportamente nedorite, este foarte probabil să le mărturisească. Figura de mai sus arată că abordarea mărturisirii este eficientă pe scară largă într-o gamă diversă de seturi de date și sarcini.
În urma oricărei interacțiuni dintre utilizator și model care se finalizează cu un răspuns al modelului, o mărturisire poate fi solicitată prin trimiterea către model a unui „mesaj de sistem” care instruiește modelul să furnizeze un raport de mărturisire. Raportul se referă la ultimul răspuns al modelului și include (1) lista tuturor instrucțiunilor, constrângerilor și obiectivelor explicite și implicite pe care acest răspuns ar fi trebuit să le satisfacă, (2) o analiză onestă și obiectivă pentru a stabili dacă răspunsul a îndeplinit într-adevăr fiecare dintre aceste obiective și (3) o listă a eventualelor incertitudini, ambiguități sau „decizii dificile” pe care modelul le-a întâmpinat în producerea răspunsului. În timpul instruirii, o mărturisire este evaluată printr-un model de recompensare separat, care evaluează doar mărturisirea în funcție de exhaustivitatea obiectivelor, acuratețea analizei de conformitate și acoperirea incertitudinilor. Aceste recompense se aplică exclusiv la mărturisirea de ieșire și nu influențează niciodată recompensa pentru răspunsul principal. Acest lucru garantează proprietatea, discutată mai sus, că nimic din ceea ce spune modelul în mărturisire nu poate afecta (sau favoriza) recompensa pentru răspunsul principal.
Teoria din spatele mărturisirilor este simplă. Multe tipuri de comportamente nedorite ale modelului apar deoarece îi cerem modelului să optimizeze mai multe obiective simultan. În timpul învățării prin consolidare, modelul vede o solicitare, produce un răspuns și primește o recompensă. Cu timpul, învață să producă tipurile de răspunsuri care obțin punctaje mai bune. Provocarea constă în faptul că semnalul de recompensare trebuie să combine mai multe aspecte diferite simultan: cât de corect este răspunsul, dacă este util, dacă respectă specificațiile produsului și politicile, dacă îndeplinește constrângerile de siguranță și dacă corespunde preferințelor utilizatorilor. Când aceste semnale interacționează, pot împinge accidental modelul către comportamente pe care nu le dorim.
De exemplu, cercetările noastre asupra halucinațiilor au arătat că unele seturi de date recompensează mai mult o presupunere încrezătoare decât o recunoaștere sinceră a incertitudinii. Cercetările noastre asupra lingușirii au arătat că modelele pot deveni excesiv de agreabile atunci când semnalul de preferință este prea puternic. Și studiile(se deschide într-o fereastră nouă) altor grupuri au arătat că modelele pot „recompensa atacurile cibernetice” — găsind lacune în configurația de instruire care le permit să obțină un scor mare fără a face cu adevărat ceea ce ne-am propus. În unele cazuri, aceste scurtături se pot generaliza(se deschide într-o fereastră nouă) sub forma unor comportamente și mai dăunătoare în implementare.
Mărturisirile evită această problemă prin separarea completă a obiectivelor. Răspunsul principal continuă să se optimizeze pentru toți factorii obișnuiți. Mărturisirea se concentrează pe unul singur: onestitatea. Nimic din ceea ce spune modelul în mărturisire nu i se impută, iar mărturisirea nu influențează recompensa pentru răspunsul principal. Asta înseamnă că, chiar dacă modelul induce în eroare sau ia scurtături în datele de ieșire inițiale, tot va avea interesul să recunoască acest lucru în mărturisire. Iată ce observăm în practică: modelele sunt dispuse să recunoască comportamentul necorespunzător în mărturisire, chiar și în cazurile în care îl ascund în răspunsul principal. Iar când mărturisirile eșuează, de obicei este din cauză că modelul este cu adevărat derutat — fie pentru că instrucțiunile au fost ambigue, fie pentru că nu și-a dat seama că a greșit — și nu pentru că ar fi încercat în mod deliberat să inducă în eroare. Este important de menționat că rezultatele preliminare arată că mărturisirile sunt eficiente chiar și atunci când răspunsul inițial este produs fără niciun lanț de gândire, ceea ce sugerează că onestitatea mărturisirii nu depinde de lizibilitatea raționamentului intern și poate fi generalizată pentru viitoarele arhitecturi de modele.
Instruirea pentru mărturisire funcționează chiar și fără etichete de conformitate bazate pe adevărul fundamental. Prin „adevăr fundamental” ne referim la o etichetă definitivă, furnizată din exterior, care indică dacă modelul a urmat efectiv o instrucțiune sau a încălcat-o. În multe sarcini reale, aceste etichete nu sunt disponibile — dacă am ști cu certitudine că modelul a încălcat o regulă, am putea sancționa încălcarea direct, în loc să ne bazăm pe o mărturisire. În schimb, modelul este recompensat pentru producerea unei explicații structurate, susținute de dovezi, a ceea ce consideră că a făcut. Lucrarea arată că onestitatea tinde să apară în această configurație. Considerăm că acest lucru se datorează faptului că, în general, modelului îi este mai ușor să ofere o relatare veridică, susținută de dovezi, decât să construiască o narațiune coerentă, inventată, care să poată trece de evaluator. Aceasta este o ipoteză cheie explorată în lucrare, care discută și cazurile în care mărturisirile eșuează — rezultatele fals negative și cele fals pozitive — și modul în care acestea apar.
Lucrarea oferă dovezi inițiale că mărturisirile funcționează, dar acestea nu trebuie interpretate ca dovezi definitive. Deși am folosit un model de frontieră (GPT‑5 Thinking), experimentele noastre au avut o amploare limitată, utilizând o cantitate relativ mică de calcul și date. Ne dorim să ducem acest proiect la un nou nivel și să aflăm dacă onestitatea mărturisirilor va rămâne constantă pe măsură ce extindem instruirea.
Modelul păcălește sistemul de recompensare în răspunsul principal pentru a înșela evaluatorul, adnotând propozițiile cu un număr de cuvinte pretins, dar apoi recunoaște acest lucru în mărturisire.
Ca parte a experimentelor noastre, am instruit în mod deliberat anumite modele pe baza unui semnal de recompensare „păcălibil” calculat de un model mai slab. Această configurație a fost aplicată atât recompensei principale, cât și recompensei pentru mărturisire. Modelul a învățat să exploateze semnalul de recompensare slab: acuratețea sa aparentă (atunci când a fost evaluată de modelul slab) a crescut, în timp ce acuratețea sa reală (atunci când a fost evaluată de un evaluator mai puternic) a scăzut.
Totuși, deși canalul de mărturisire a fost instruit folosind același semnal slab, acuratețea sa a evoluat în direcția opusă. Modelul a învățat că cea mai bună modalitate de a se optimiza în vederea recompensării mărturisirii este de a recunoaște pur și simplu când a păcălit sistemul recompensării principale. Mărturisirile au devenit mai precise cu timpul, chiar dacă comportamentul principal s-a schimbat.
Pe parcursul instruirii, când modelul nu se conformează, acesta învață, în anumite cazuri, să „păcălească” principalul evaluator al recompensării, astfel încât acuratețea evaluatorului scade. În schimb, chiar dacă evaluatorul recompensării mărturisirii este la fel de vulnerabil la păcălire, modelul devine mai sincer pe măsură ce este instruit în privința mărturisirii, ajungând în cele din urmă la o rată de mărturisire de aproape 100% atunci când nu s-a conformat.
Lucrarea(se deschide într-o fereastră nouă) conține mai multe experimente și rezultate. Am comparat modelul instruit pentru mărturisiri cu un model de control instruit în același mod, dar fără canalul de mărturisiri. De asemenea, am examinat cazurile în care mărturisirile au eșuat. Aproape toate „eșecurile” au avut loc atunci când modelul era cu adevărat confuz — când instrucțiunile au fost ambigue sau când pur și simplu nu și-a dat seama că a greșit. (Vezi exemplul de rezultat fals negativ de mai sus.)
Mărturisirile au limitări. Ele nu previn comportamentul negativ, ci îl scot în evidență. Valoarea lor principală constă în utilizarea lor ca instrument de monitorizare și diagnosticare, atât în timpul instruirii, cât și în timpul implementării. Mărturisirile dețin un rol similar cu monitorizarea lanțului de gândire: ambele fac procesele de raționament ascunse mai vizibile. Mărturisirile se concentrează asupra încălcării instrucțiunilor de către model; lanțul de gândire poate evidenția modul în care s-a ajuns la această situație.
Această lucrare este și un proiect demonstrativ. Nu am instruit mecanismele de mărturisire la scară largă, iar acuratețea mărturisirii este încă imperfectă. Mai sunt multe de făcut pentru a face această abordare mai fiabilă, mai robustă și mai general aplicabilă în cadrul familiilor de modele și sarcinilor.
Această lucrare se încadrează în abordarea noastră mai amplă privind siguranța inteligenței artificiale. Mărturisirile sunt un mecanism dintr-o stivă mai mare care include alinierea deliberativă, monitorizarea lanțului de gândire, ierarhia instrucțiunilor și altele. Nicio metodă nu este suficientă; obiectivul este un sistem stratificat de verificări și instrumente de transparență care se întăresc reciproc. Mărturisirile pot ajuta la diagnosticarea comportamentelor problematice ale modelelor în timpul instruirii și evaluării, precum și la monitorizarea din timpul implementării. Mărturisirile în sine nu rezolvă problema echilibrării mai multor dimensiuni. Dar prin crearea unui mod de tip „serul adevărului”, în care modelele se concentrează exclusiv pe onestitate, adaugă un instrument valoros la stiva noastră pentru îmbunătățirea onestității și siguranței la nivel general.
Pe măsură ce modelele devin mai performante și sunt utilizate în contexte cu mize mai mari, avem nevoie de instrumente mai bune pentru a înțelege ce fac și de ce. Mărturisirea nu este o soluție completă, dar adaugă un nivel semnificativ la stiva nostru de transparență și supraveghere. În viitor, intenționăm să extindem mărturisirile și să le combinăm cu tehnici complementare de transparență și siguranță, inclusiv monitorizarea lanțului de gândire și alinierea deliberativă, pentru a face progrese suplimentare în direcția garantării faptului că modelele noastre respectă cu fidelitate toate instrucțiunile și politicile (cum ar fi Specificațiile modelelor(se deschide într-o fereastră nouă) noastre) și că își raportează acțiunile cu sinceritate.


