Sari la conținutul principal
OpenAI

13 noiembrie 2025

CercetarePublicare

Înțelegerea rețelelor neuronale prin circuite rare

Am instruit modele să gândească în pași mai simpli, mai ușor de urmărit — astfel încât să putem înțelege mai bine cum funcționează.

Se încarcă…

​​Rețelele neuronale susțin cele mai performante sisteme de inteligență artificială din prezent, dar rămân dificil de înțeles. Nu scriem aceste modele cu instrucțiuni explicite, pas cu pas. În schimb, acestea învață ajustând miliarde de conexiuni interne sau „ponderi”, până când stăpânesc o sarcină. Noi concepem regulile de instruire, dar nu și comportamentele specifice care apar, iar rezultatul este o rețea densă de conexiuni pe care niciun om nu o poate descifra cu ușurință. 

Cum privim interpretabilitatea

Pe măsură ce sistemele de inteligență artificială devin mai capabile și au un impact real asupra deciziilor din știință, educație și asistență medicală, înțelegerea modului în care acestea funcționează este esențială. Interpretabilitatea se referă la metodele care ne ajută să înțelegem de ce un model a produs un anumit rezultat. Există multe modalități prin care am putea atinge acest obiectiv. 

De exemplu, modelele de raționament sunt stimulate să explice modul în care ajung la răspunsul final. Interpretabilitatea lanțului de gândire folosește aceste explicații pentru a monitoriza comportamentul modelului. Acest lucru este util imediat: lanțurile de gândire ale modelelor de raționament actuale par a fi informative în ceea ce privește comportamente precum înșelăciunea. Cu toate acestea, a te baza complet pe această proprietate este o strategie fragilă și poate eșua în timp.

Pe de altă parte, interpretabilitatea mecanistică, punctul central al acestei lucrări, urmărește să definească complet calculele unui model prin inginerie inversă. Până acum a fost mai puțin utilă imediat, dar, în principiu, ar putea oferi o explicație mai completă a comportamentului modelului. Prin încercarea de a explica comportamentul modelului la cel mai detaliat nivel, interpretabilitatea mecanistică poate face mai puține presupuneri și ne poate oferi mai multă încredere. Însă drumul de la detalii de nivel scăzut la explicații ale comportamentelor complexe este mult mai lung și mai dificil.

Interpretabilitatea favorizează atingerea mai multor obiective cheie, cum ar fi îmbunătățirea supravegherii și furnizarea de semnale de avertizare timpurii în cazul comportamentelor nesigure sau nealiniate strategic. De asemenea, vine în completarea celorlalte eforturi pe care le depunem în privința siguranței, precum supravegherea scalabilă, instruirea adversarială și red-teamingul. 

În această lucrare, demonstrăm că, adesea, putem instrui modelele în moduri care le fac mai ușor de interpretat. Considerăm că lucrarea noastră este o completare promițătoare a analizei post-hoc a rețelelor dense. 

Este un obiectiv foarte ambițios; drumul de la cercetarea noastră la o înțelegere completă a comportamentelor complexe ale celor mai puternice modele ale noastre este lung. Totuși, pentru comportamente simple, constatăm că modelele rare instruite prin metoda noastră conțin circuite mici, neînțelese, care sunt atât inteligibile, cât și suficiente pentru a realiza comportamentul. Acest lucru sugerează că ar putea exista o cale accesibilă către instruirea unor sisteme mai mari ale căror mecanisme să le putem înțelege.

O nouă abordare: învățarea modelelor rare

Cercetarea anterioară în domeniul interpretabilității mecanistice a pornit de la rețele dense și încâlcite și a încercat să le descâlcească. În aceste rețele, fiecare neuron este conectat la mii de alți neuroni. Majoritatea neuronilor par să îndeplinească multe funcții distincte, ceea ce-i face să pară imposibil de înțeles. 

Dar ce s-ar întâmpla dacă am instrui rețele neuronale neîncâlcite, cu mult mai mulți neuroni, unde fiecare neuron ar avea doar câteva zeci de conexiuni? Atunci poate că rețeaua rezultată ar fi mai simplă și mai ușor de înțeles. Aceasta este miza principală a cercetării noastre.

Având în vedere acest principiu, am instruit modele lingvistice cu o arhitectură foarte similară cu modelele lingvistice existente, precum GPT‑2, cu o mică modificare: forțăm marea majoritate a ponderilor modelului să fie zero. Acest lucru a obligat modelul să utilizeze un număr foarte redus dintre conexiunile posibile dintre neuronii săi. Aceasta este o modificare simplă care, în opinia noastră, simplifică substanțial calculele interne ale modelului.

Diagramă care compară circuite dense și circuite rare. Versiunea densă prezintă două rânduri de noduri cu multe linii interconectate, în timp ce versiunea rară prezintă aceeași dispunere, dar cu conexiuni mai puține și mai selective.

În rețelele neuronale dense normale, fiecare neuron este conectat la fiecare neuron din stratul următor. În modelele noastre rare, fiecare neuron se conectează doar la câțiva neuroni din stratul următor. Sperăm că acest lucru face ca neuronii și rețeaua în ansamblu să fie mai ușor de înțeles.

Evaluarea interpretabilității

Dorim să determinăm în ce măsură calculele modelelor noastre rare sunt separate. Am luat în considerare diverse comportamente simple ale modelului și am verificat dacă putem izola părțile modelului responsabile pentru fiecare comportament — pe care le denumim circuite.

Am selectat manual o suită de sarcini algoritmice simple. Pentru fiecare, am redus modelul la cel mai mic circuit care încă poate îndeplini sarcina și am examinat cât de simplu este acel circuit. (Pentru detalii, consultă lucrarea(se deschide într-o fereastră nouă) noastră.) Am descoperit că prin instruirea unor modele mai mari și mai rare, am putea produce modele din ce în ce mai capabile cu circuite din ce în ce mai simple.

Diagramă de dispersie care arată capacitatea modelului (pierderea din pre-înstruire) pe axa x în raport cu interpretabilitatea (dimensiunea circuitului restrâns) pe axa y. Punctele reprezintă modele de diferite dimensiuni și niveluri de raritate, culoarea indicând parametrii totali, iar dimensiunea markerului indicând numărul de parametri diferiți de zero. Săgețile etichetează direcția din dreapta sus ca fiind „mai bună”.

Reprezentăm grafic interpretabilitatea în raport cu capacitatea pentru diferite modele (partea din stânga jos este mai bună). Pentru o dimensiune fixă a modelului rar, creșterea rarității — setarea mai multor ponderi la zero — reduce capacitatea, dar crește interpretabilitatea. Creșterea dimensiunii modelului împinge această frontieră spre exterior, indicând că putem construi modele mai mari, care să fie atât capabile, cât și interpretabile.

Pentru a concretiza acest lucru, să luăm în considerare o sarcină în care un model instruit pe cod Python trebuie să completeze un șir de caractere cu tipul corect de ghilimele. În Python, „hello” trebuie să se termine cu o singură pereche de ghilimele, iar „hello” trebuie să se termine cu o pereche dublă de ghilimele. Modelul poate rezolva această problemă memorând tipul de ghilimele care a deschis șirul și reproducându-l la sfârșit.

Modelele noastre cel mai ușor de interpretat par să conțină circuite separate care implementează exact acel algoritm.

Diagramă care ilustrează un exemplu de circuit într-un transformator rar. Arată cum se activează neuroni și capete de atenție specifice ca răspuns la tokenuri de intrare precum „(” și „circuite”, cu căi etichetate pentru ponderi pozitive și negative, multiplicări, neliniarități și conexiuni între MLP și straturile de atenție, culminând cu probabilitățile tokenurilor de ieșire.

Exemplu de circuit într-un transformator rar care prezice dacă un șir trebuie încheiat cu ghilimele simple sau duble. Acest circuit folosește doar cinci canale reziduale (linii verticale gri), doi neuroni MLP în stratul 0, un canal de cheie de interogare a atenției și un canal de valoare în stratul 10. Modelul (1) codifică ghilimelele simple într-un canal rezidual și ghilimelele duble în altul; (2) folosește un strat MLP pentru a converti acest lucru într-un canal care detectează orice ghilimele și un altul care face distincția dintre ghilimele simple și duble; (3) folosește o operațiune de atenție pentru a ignora tokenurile intermediare, a găsi ghilimelele anterioare și a copia tipul acestora în tokenul final; și (4) prezice ghilimelele de închidere corespunzătoare.

În definiția noastră, conexiunile exacte prezentate mai sus sunt suficiente pentru a îndeplini sarcina—dacă eliminăm restul modelului, acest mic circuit funcționează în continuare. De asemenea, sunt necesare – ștergerea acestor câteva margini va face ca modelul să eșueze.

Am analizat și unele comportamente mai complicate. Circuitele noastre pentru aceste comportamente (de exemplu legarea variabilă prezentată mai jos) sunt mai greu de explicat pe deplin. Chiar și atunci, putem obține explicații parțiale relativ simple care să prezică comportamentul modelului.

Diagramă care evidențiază un exemplu de circuit transformator rar în cadrul funcției Python get_neighbors. Două atribuiri către current = set() sunt delimitate, cu săgeți colorate care indică ce capete de atenție (etichetate cu indici Q/K/V) se activează pentru a conecta fiecare apariție a variabilei current la utilizarea sa în buclă.

Un alt exemplu de circuit, mai puțin detaliat. Pentru a determina tipul unei variabile numite current, o operație de atenție copiază numele variabilei în tokenul set() atunci când aceasta este definită, iar o altă operație ulterioară copiază tipul din tokenul set() într-o utilizare ulterioară a variabilei, permițându-i modelului să deducă următorul token corect.

Ce urmează

Această lucrare reprezintă un prim pas către un obiectiv mai amplu: facilitarea înțelegerii calculelor modelului. Dar mai sunt încă multe de făcut. Modelele noastre rare sunt mult mai mici decât modelele de frontieră, iar o mare parte din calculul lor rămâne neinterpretată. 

În continuare, sperăm să ne scalăm tehnicile la modele mai mari și să explicăm mai mult din comportamentul modelelor. Prin enumerarea motivelor de circuit care stau la baza raționamentelor mai complexe în modelele rare capabile, am putea dezvolta o înțelegere care să ne ajute să vizăm mai bine investigațiile modelelor de frontieră.

Pentru a depăși ineficiența instruirii modelelor rare, distingem două căi de urmat. Una costă în extragerea circuitelor rare din modelele dense existente, în loc să instruim modelele rare de la zero. Modelele dense sunt în mod fundamental mai eficient de implementat decât cele rare. Cealaltă cale este dezvoltarea de tehnici mai eficiente pentru instruirea modelelor în vederea interpretabilității, care ar putea fi mai ușor de produs.

Rețineți că aceste constatări nu sunt o garanție că această abordare se va extinde asupra unor sisteme mai capabile, dar aceste rezultate timpurii sunt promițătoare. Scopul nostru este să extindem treptat capacitatea de interpretare fiabilă a modelelor și să creăm instrumente care să faciliteze analiza, depanarea și evaluarea sistemelor viitoare.

Autori

Leo Gao, Achyuta Rajaram, Jacob Coxon, Soham V. Govande, Bowen Baker, Dan Mossing