Forstå nevrale nettverk gjennom sparsomme kretsløp
Vi trente modeller til å tenke i enklere, mer sporbare trinn – slik at vi bedre kan forstå hvordan de fungerer.
Nevrale nettverk driver dagens mest kapable KI-systemer, men de er fortsatt vanskelige å forstå. Vi skriver ikke disse modellene med uttrykkelige, trinnvise instruksjoner. De lærer i stedet ved å justere milliarder av interne forbindelser, eller «vekter», til de mestrer en oppgave. Vi designer reglene for opplæring, men ikke de spesifikke atferdene som oppstår. Resultatet er et tett nett av forbindelser som ingen enkelt kan tyde.
Etter hvert som KI-systemer får større kapasitet og reell innvirkning på beslutninger innen vitenskap, utdanning og helsevesen, er det essensielt å forstå hvordan de fungerer. Tolkbarhet refererer til metoder som hjelper oss å forstå hvorfor en modell har produsert en gitt utdata. Det er mange måter vi kan oppnå dette på.
Resonneringsmodeller blir for eksempel knyttet til insentiver for å forklare arbeidet sitt på vei til et endelig svar. Tolkning av tankerekker utnytter disse forklaringene til å overvåke modellens atferd. Dette er umiddelbart nyttig: dagens resonneringsmodellers tankerekker ser ut til å være informative med hensyn til bekymringsfulle atferder som bedrag. Det er imidlertid en skjør strategi å stole fullt og helt på denne egenskapen, og den kan brytes ned over tid.
På den annen side tar mekanistisk tolkbarhet, som er hovedfokuset i dette arbeidet, sikte på å fullstendig reversere beregningene for en modell. Det har hittil vært mindre umiddelbart nyttig, men kan i prinsippet tilby en mer fullstendig forklaring på modellens oppførsel. Ved å forsøke å forklare modellens oppførsel på det mest detaljerte nivået, kan mekanistisk tolkning gjøre færre antakelser og gjøre oss mer tillitsfulle. Veien fra detaljer på lavt nivå til forklaringer av kompleks atferd er imidlertid mye lengre og vanskeligere.
Tolkbarhet støtter flere viktige mål, som å muliggjøre bedre overvåking og gi tidlige varselsignaler om utrygg eller strategisk feilrettet atferd. Det utfyller også våre andre sikkerhetstiltak, som skalerbart tilsyn, motstridende opplæring og Red Team-øvelser.
I dette arbeidet viser vi at vi ofte kan lære opp modeller på måter som gjør dem lettere å tolke. Vi ser arbeidet vårt som et lovende supplement til post-hoc-analyse av tette nettverk.
Dette er et svært ambisiøst prosjekt; det er en lang vei fra vårt arbeid til å forstå den komplekse oppførselen til våre mest kraftfulle modeller fullt ut. For enkel atferd finner vi likevel at sparsomme modeller trent med vår metode inneholder små, løsrevne kretser som både er forståelige og tilstrekkelige til å utføre atferden. Dette tyder på at det kan finnes en håndterbar vei mot opplæring av større systemer hvis mekanismer vi kan forstå.
Tidligere arbeid med mekanistisk tolkbarhet startet fra tette, sammenfiltrede nettverk og forsøkte å løse dem opp. I disse nettverkene er hvert enkelt nevron koblet til tusenvis av andre nevroner. De fleste nevroner ser ut til å utføre mange forskjellige funksjoner, noe som gjør det tilsynelatende umulig å forstå.
Men hva om vi trente opp uavhengige nevrale nettverk, med mange flere nevroner, men der hver nevron bare har noen få dusin forbindelser? Da blir kanskje det resulterende nettverket enklere og lettere å forstå. Dette er den sentrale forskningssatsingen i arbeidet vårt.
Med dette prinsippet i tankene trente vi språkmodeller med en arkitektur som ligner veldig på eksisterende språkmodeller som GPT‑2, med én liten endring: vi tvinger de aller fleste av modellens vekter til å være null. Dette begrenset modellen til å bruke bare svært få av de mulige forbindelsene mellom nevronene. Dette er en enkel endring som vi hevder i vesentlig grad forenkler modellens interne beregninger.
I normale tette nevrale nettverk er hvert nevron koblet til hvert nevron i neste lag. I våre sparsomme modeller kobler hvert nevron seg bare til noen få nevroner i det neste laget. Vi håper at dette gjør nevronene, og nettverket som helhet, lettere å forstå.
Vi ønsker å måle i hvilken grad beregningene til de sparsomme modellene våre er adskilt. Vi vurderte forskjellige enkle modellatferder og undersøkte om vi kunne isolere de delene av modellen som var ansvarlige for hver atferd – som vi kaller kretser.
Vi håndplukket en samling av enkle algoritmiske oppgaver. Vi beskar den enkelte modellen ned til den minste kretsen som fortsatt kan utføre oppgaven, og undersøkte hvor enkel den kretsen er. (For detaljer, se vår artikkel(åpnes i et nytt vindu).) Vi fant ut at ved å bruke større og mer sparsomme modeller, kunne vi produsere stadig mer kapable modeller med stadig enklere kretser gjennom opplæring.
Vi plotter tolkbarhet mot evne på tvers av modeller (nederst til venstre er bedre). For en fast størrelse på en sparsom modell, vil økt sparsomhet—ved å sette flere vekter til null—redusere kapasiteten, men øke tolkbarheten. Denne grensen flyttes utover ved å øke modellstørrelsen, noe som antyder at vi kan bygge større modeller som både har kapasitet og er forståelige.
For å gjøre dette konkret, tenk på en oppgave der en modell trent på Python-kode må fullføre en streng med riktig type anførselstegn. I Python må 'hello' slutte med enkelt anførselstegn, og "hello" må slutte med en dobbel anførselstegn. Modellen kan løse dette ved å huske hvilken sitattype som åpnet strengen og gjengi den på slutten.
Våre mest tolkbare modeller ser ut til å inneholde frakoblede kretser som implementerer akkurat den algoritmen.

Eksempel på en krets i en sparsom omformer som forutsier om en streng skal avsluttes med enkelt- eller dobbeltanførselstegn. Denne kretsen bruker bare fem restkanaler (vertikale grå linjer), to MLP-nevroner i lag 0, og én oppmerksomhetsspørringsnøkkelkanal og én verdikanal i lag 10. Modellen (1) koder enkeltanførselstegn i en restkanal og dobbeltanførselstegn i en annen; (2) bruker et MLP-lag for å konvertere dette til en kanal som oppdager ethvert anførselstegn og en annen som klassifiserer mellom enkelt- og dobbeltanførselstegn; (3) bruker en oppmerksomhetsoperasjon for å ignorere mellomliggende tokens, finne forrige anførselstegn og kopiere typen til det siste tokenet; og (4) forutsier det matchende avsluttende anførselstegnet.
I vår definisjon er de nøyaktige tilkoblingene vist ovenfor, tilstrekkelige til å utføre oppgaven – hvis vi fjerner resten av modellen, fungerer denne lille kretsen fortsatt. De er også nødvendige – vis disse slettes, kan modellen mislykkes.
Vi så også på noen mer kompliserte atferder. Våre kretser for disse oppførslene (for eksempel variabelbinding vist nedenfor) er vanskeligere å forklare fullstendig. Selv da kan vi fortsatt oppnå relativt enkle delforklaringer som forutsier modellens atferd.
Et annet eksempel på en krets, med færre detaljer. For å bestemme typen til en variabel kalt current, kopierer en oppmerksomhetsoperasjon variabelnavnet inn i sett() -tokenet når det er definert, og en annen senere operasjon kopierer typen fra sett()-tokenet til en senere bruk av variabelen, slik at modellen kan utlede riktig neste token.
Dette arbeidet er et tidlig skritt mot et større mål: å gjøre modellberegninger enklere å forstå. Men det er fortsatt en lang vei å gå. Våre sparsomme modeller er mye mindre enn de banebrytende modellene, og store deler av beregningene deres forblir ufortolket.
Det neste er at vi håper å skalere teknikkene våre til større modeller, og forklare mer av modellenes oppførsel. Ved å identifisere kretsmotiver som ligger til grunn for mer komplekse resonnementer i sparsomme modeller med høy kapasitet, kan vi utvikle en forståelse som hjelper oss med å bedre målrette undersøkelser av avanserte modeller.
For å overvinne ineffektiviteten ved opplæring av sparsomme modeller, ser vi to mulige veier videre. Én metode er å hente ut sparsomme kretser fra eksisterende tette modeller, i stedet for å bruke opplæring av sparsomme modeller fra bunnen av. Tette modeller er grunnleggende mer effektive å rulle ut enn sparsomme modeller. Den andre måten er å utvikle mer effektive teknikker for å lære opp modeller for tolkbarhet, som kan være lettere å sette i produksjon.
Merk at funnene våre her er ingen garanti for at denne tilnærmingen vil kunne anvendes på mer avanserte systemer, men disse tidlige resultatene er lovende. Målet vårt er å gradvis utvide hvor mye av en modell vi kan tolke på en pålitelig måte, og å bygge verktøy som gjør fremtidige systemer enklere å analysere, feilsøke og evaluere.
Forfattere
Leo Gao, Achyuta Rajaram, Jacob Coxon, Soham V. Govande, Bowen Baker og Dan Mossing


