Gå til hovedindhold
OpenAI

13. november 2025

ResearchPublikation

Forståelse af neurale netværk gennem sparsomme kredsløb

Vi har trænet modeller til at tænke i enklere og med mere sporbare trin, så vi bedre kan forstå, hvordan de fungerer.

Indlæser ...

​​Neurale netværk driver nutidens mest avancerede AI-systemer, men de er stadig svære at forstå. Vi udvikler ikke disse modeller med udtrykkelige, trinvise instruktioner. I stedet lærer de ved at justere milliarder af interne forbindelser eller "vægte", indtil de mestrer en opgave. Vi designer reglerne for træning, men ikke de specifikke adfærdsmønstre, der opstår, og resultatet er et tæt netværk af forbindelser, som det ikke er lette for mennesker at forstå. 

Sådan opfatter vi fortolkningsevne

Efterhånden som AI-systemer bliver mere avancerede og har reel indflydelse på beslutninger inden for videnskab, uddannelse og sundhedsvæsenet, er det afgørende at forstå, hvordan de fungerer. Fortolkningsevne refererer til metoder, der hjælper os med at forstå, hvorfor en model producerede et givet output. Der er mange måder, vi kan opnå dette på. 

For eksempel er ræsonneringsmodeller motiveret til at forklare deres arbejde på vej til et endeligt svar. Fortolkningsevnen i tankekæden udnytter disse forklaringer til at overvåge modellens adfærd. Dette er straks nyttigt: De nuværende ræsonneringsmodellers tankekæder ser ud til at være informative med hensyn til bekymrende adfærd, som f.eks. bedrag. At stole fuldt ud på denne egenskab er dog en skrøbelig strategi, og kan bryde sammen over tid.

På den anden side søger mekanistisk fortolkningsevne, som er fokus for dette arbejde, at fuldstændigt reverse engineere en models beregninger. Det har indtil videre været mindre umiddelbart nyttigt, men kan i princippet give en mere fuldstændig forklaring på modellens adfærd. Ved at forsøge at forklare modeladfærd på det mest detaljerede niveau kan mekanistisk fortolkningsevne lave færre antagelser og give større tillid. Men vejen fra detaljer på lavt niveau til forklaringer på komplekse adfærdsmønstre er meget længere og mere udfordrende.

Fortolkningsevne er en understøttelse af flere vigtige mål, f.eks. at muliggøre bedre overvågning og give tidlige advarselssignaler om usikker eller strategisk forkert adfærd. Det supplerer også vores andre sikkerhedsindsatser, såsom skalerbart tilsyn, modstandertræning og red-teaming. 

I dette arbejde viser vi, at vi ofte kan træne modeller på måder, der gør dem lettere at fortolke. Vi ser vores arbejde som et lovende supplement til post-hoc-analyse af tætte netværk. 

Dette er en meget ambitiøs satsning. Der er en lang vej fra vores arbejde til fuldt ud at kunne forstå de komplekse adfærdsmønstre i vores mest kraftfulde modeller. Alligevel finder vi, at for simpel adfærd indeholder sparsomme modeller, der er trænet med vores metode, små, adskilte kredsløb, som både er forståelige og tilstrækkelige til at udføre adfærden. Dette tyder på, at der kan være en farbar vej til træning af større systemer, hvis mekanismer vi kan forstå.

En ny tilgang: læring af sparsomme modeller

Tidligere mekanistisk fortolkningsarbejde har taget udgangspunkt i tætte, sammenfiltrede netværk og forsøgt at udrede dem. I disse netværk er hver enkelt neuron forbundet med tusindvis af andre neuroner. De fleste neuroner ser ud til at udføre mange forskellige funktioner, hvilket gør det tilsyneladende umuligt at forstå. 

Men hvad nu hvis vi trænede ufiltrede neurale netværk med mange flere neuroner, men hvor hver neuron kun har et par dusin forbindelser? Så vil det resulterende netværk måske være enklere og lettere at forstå. Dette er det centrale punkt i vores forskningsarbejde.

Med dette princip i tankerne trænede vi sprogmodeller med en arkitektur, der minder meget om eksisterende sprogmodeller såsom GPT‑2, med en lille ændring: vi tvinger langt størstedelen af modellens vægte til at være nuller. Dette begrænsede modellen til kun at bruge meget få af de mulige forbindelser mellem dens neuroner. Dette er en enkel ændring, som vi hævder i væsentlig grad adskiller modellens interne beregninger.

Diagram, der sammenligner tætte kredsløb og spredte kredsløb. Den tætte version viser to rækker af knudepunkter med mange sammenkoblede linjer, mens den sparsomme version viser det samme layout, men med færre og mere selektive forbindelser.

I normale tætte neurale netværk er hver neuron forbundet med hver neuron i det næste lag. I vores sparsomme modeller opretter hver neuron kun forbindelse til nogle få neuroner i det næste lag. Vi håber, at dette gør neuronerne, og netværket som helhed, lettere at forstå.

Evaluering af fortolkningsevne

Vi ønsker at måle, i hvor stor grad vores sparsomme modellers beregninger er adskilte. Vi overvejede forskellige simple modeladfærdsmønstre og undersøgte, om vi kunne isolere de dele af modellen, der var ansvarlige for hver adfærd, hvilket vi kalder for kredsløb.

Vi håndplukkede en række simple algoritmiske opgaver. For hver af dem har vi skåret modellen ned til det mindste kredsløb, der stadig kan udføre opgaven, og undersøgt, hvor enkelt det kredsløb er. (Se vores artikel(åbner i et nyt vindue) for nærmere oplysninger.) Vi fandt ud af, at ved at træne større og mere sparsomme modeller kunne vi producere stadig bedre modeller med stadigt mere simple kredsløb.

Punktdiagram, der viser modellens kapacitet (tab før træning) på x-aksen mod fortolkningsevne (beskåret kredsløbsstørrelse) på y-aksen. Punkterne repræsenterer modeller af forskellig størrelse og sparsomhed, hvor farven angiver det samlede antal parametre, og markørstørrelsen angiver antallet af parametre, der ikke er nul. Pile angiver den øverste højre retning som “bedre”.

Vi plotter fortolkningsevne versus kapacitet på tværs af modeller (nederst til venstre er bedre). For en fast sparsom modelstørrelse reducerer øget sparsomhed (hvor flere vægte sættes til nul) kapaciteten, men øger fortolkeligheden. Opskalering af modelstørrelsen flytter denne grænse udad, hvilket tyder på, at vi kan bygge større modeller, der både er effektive og lette at fortolke.

Forestil dig f.eks. en opgave, hvor en model, der er trænet på Python-kode, skal fuldføre en streng med den korrekte type anførselstegn. I Python skal 'hej' slutte med en enkelt anførselstegn, og "hej" skal slutte med dobbelt anførselstegn. Modellen kan løse dette ved at huske, hvilken citattype der åbnede strengen, og gengive den i slutningen.

Vores modeller med den bedste fortolkningsevne ser ud til at indeholde adskilte kredsløb, som implementerer præcis denne algoritme.

Diagram, der viser et eksempel på et kredsløb i en sparsom transformer. Den viser, hvordan specifikke neuroner og opmærksomhedshoveder aktiveres som reaktion på input-token såsom “(” og “kredsløb”, med mærkede veje for positive og negative vægte, multiplikationer, ikke-lineariteter og forbindelser mellem MLP- og opmærksomhedslag, hvilket kulminerer i output-token sandsynligheder.

Eksempel på et kredsløb i en sparsom transformer, der forudsiger, om en streng skal afsluttes med et enkelt eller dobbelt anførselstegn. Dette kredsløb bruger kun fem restkanaler (lodrette grå linjer), to MLP-neuroner i lag 0 og en attention query-key-kanal og en værdikanal i lag 10. Modellen (1) koder enkeltanførselstegn i en restkanal og dobbeltanførselstegn i en anden; (2) bruger et MLP-lag til at konvertere dette til en kanal, der registrerer ethvert anførselstegn, og en anden, der klassificerer mellem enkelt- og dobbeltanførselstegn; (3) bruger en opmærksomhedsoperation til at ignorere mellemliggende tokens, finde det forrige anførselstegn og kopiere dets type til det sidste token; og (4) forudsiger det matchende afsluttende anførselstegn.

I vores definition er netop de forbindelser, der er vist ovenfor, tilstrækkelige til at udføre opgaven. Hvis vi fjerner resten af modellen, fungerer dette lille kredsløb stadig. De er også nødvendige. Sletning af disse få ændringer får modellen til at fejle.

Vi har også set på nogle mere komplicerede adfærdsmønstre. Vores kredsløb for disse adfærdsmønstre (f.eks. variabel binding vist nedenfor) er sværere at forklare fuldstændigt. Selv da kan vi stadig opnå relativt enkle delvise forklaringer, der kan forudsige modellens adfærd.

Diagram, der viser et eksempel på et sparsomt transformer-kredsløb i Python-funktionen get_neighbors. To tildelinger til current = set() er indrammet med farvede pile, der viser, hvilke opmærksomhedshoveder (mærket med Q/K/V-indekser), der aktiveres for at oprette forbindelse hver forekomst af variablen current med dens anvendelse i løkken.

Et andet eksempel på kredsløb, men mindre detaljeret. For at bestemme typen af en variabel, der kaldes current, kopierer en opmærksomhedshandling variabelnavnet til tokenet set(), når det er defineret, og en anden senere handling kopierer typen fra tokenet set() til en efterfølgende brug af variablen, så modellen kan udlede det korrekte næste token.

Vejen frem

Dette arbejde er et tidligt skridt mod et større mål: at gøre modelberegninger lettere at forstå. Men der er stadig lang vej endnu. Vores sparsomme modeller er meget mindre end frontier-modeller, og store dele af deres beregninger forbliver ufortolkede. 

Fremover håber vi at kunne skalere vores teknikker til større modeller og forklare mere af modellernes adfærd. Ved at opregne de kredsløbsmotiver, der ligger til grund for mere avanceret tænkning i dygtige sparse modeller, kunne vi udvikle en forståelse, der hjælper os med bedre at målrette undersøgelser af frontiermodeller.

For at overvinde ineffektiviteten ved træning af sparsomme modeller ser vi to muligheder fremad. En mulighed er at lave udsnit af sparsomme kredsløb fra eksisterende tætte modeller i stedet for at træne sparsomme modeller fra bunden. Tætte modeller er fundamentalt mere effektive at implementere end sparse modeller. Den anden mulighed er at udvikle mere effektive teknikker til at træne modeller for fortolkning, hvilket kan være lettere at sætte i produktion.

Bemærk, at vores resultater her ikke er nogen garanti for, at denne tilgang vil kunne anvendes på mere avancerede systemer, men disse tidlige resultater er lovende. Vores mål er gradvist at udvide, hvor meget af en model vi pålideligt kan fortolke, og at udvikle værktøjer, der gør fremtidige systemer lettere at analysere, fejlsøge og evaluere.

Forfattere

Leo Gao, Achyuta Rajaram, Jacob Coxon, Soham V. Govande, Bowen Baker og Dan Mossing