Razumevanje nevronskih mrež skozi redka vezja
Modele smo usposabljali, da razmišljajo v bolj enostavnih in sledljivejših korakih – da lahko bolje razumemo, kako delujejo.
Nevronske mreže poganjajo današnje najsposobnejše sisteme umetne inteligence, vendar jih je še vedno težko razumeti. Teh modelov ne pišemo z izrecnimi navodili, korak za korakom. Namesto tega se učijo s prilagajanjem milijard notranjih povezav ali "ponderjev", dokler naloge ne obvladajo. Oblikujemo pravila usposabljanja, vendar ne specifičnih vedenj, ki se pojavijo, rezultat pa je gosta mreža povezav, ki je noben človek ne more zlahka razvozlati.
Ker sistemi umetne inteligence postajajo vse zmogljivejši in v resničnem svetu vplivajo na odločitve v znanosti, izobraževanju in zdravstvu, je razumevanje njihovega delovanja bistvenega pomena. Interpretabilnost se nanaša na metode, ki nam pomagajo razumeti, zakaj je model določen rezultat ustvaril. To lahko dosežemo na več načinov.
Na primer, modeli sklepanja so motivirani, da pojasnijo svoje delo na poti do končnega odgovora. Veriga interpretabilnosti misli izkorišča te razlage za nadzor vedenja modela. To je takoj uporabno: zdi se, da so miselne verige trenutnih modelov razmišljanja informativne glede zaskrbljujočih vedenj, kot je zavajanje. Vendar je popolno zanašanje na to lastnost krhka strategija, ki se lahko sčasoma izkaže za neuspešno.
Po drugi strani pa mehanistična interpretabilnost, ki je v ospredju tega dela, stremi k popolni povratni inženirski analizi izračunov modela. Doslej je bila manj neposredno uporabna, vendar bi načeloma lahko ponudila bolj popolno razlago vedenja modela. Z iskanjem razlage vedenja modela na najbolj podrobni ravni lahko mehanistična interpretabilnost vsebuje manj predpostavk in nam vliva več zaupanja. Vendar je pot od podrobnosti na nizki ravni do razlag zapletenih vedenj veliko daljša in težja.
Razumljivost podpira več ključnih ciljev, na primer omogočanje boljšega nadzora in zagotavljanje zgodnjih opozorilnih znakov za nevarno ali strateško neusklajeno ravnanje. Dopolnjuje tudi naša druga varnostna prizadevanja, kot so razširljiv nadzor, nasprotno usposabljanje in ekipno mreženje.
V tem delu pokažemo, da lahko modele pogosto usposobimo na načine, ki olajšajo njihovo interpretacijo. Naše delo vidimo kot obetavno dopolnitev post-hoc analize gostih omrežij.
To je zelo ambiciozna stava; od našega dela do popolnega razumevanja zapletenega vedenja naših najmočnejših modelov je še dolga pot. Kljub temu smo pri preprostih vedenjih ugotovili, da redki modeli, usposobljeni z našo metodo, vsebujejo majhna, razčlenjena vezja, ki so razumljiva in zadostna za izvedbo vedenja. To nakazuje, da bi lahko obstajala obvladljiva pot do usposabljanja večjih sistemov, katerih mehanizme lahko razumemo.
Prejšnje delo na področju mehanistične interpretabilnosti se je začelo z gostimi, zapletenimi omrežji in jih poskušalo razvozlati. V teh omrežjih je vsak posamezen nevron povezan s tisoči drugih nevronov. Zdi se, da večina nevronov opravlja številne različne funkcije, kar je na videz nemogoče razumeti.
Kaj pa, če bi trenirali razvezane nevronske mreže z veliko več nevroni, vendar bi imel vsak nevron le nekaj deset povezav? Morda bo nastalo omrežje preprostejše in lažje razumljivo. To je osrednja raziskovalna hipoteza našega dela.
S tem načelom v mislih smo usposabljali jezikovne modele z zelo podobno arhitekturo obstoječih jezikovnih modelov, kot je GPT‑2, a z eno majhno spremembo: veliko večino prisilimo, da je velika večina uteži modela nič. To je omejilo model, da uporablja le zelo malo možnih povezav med svojimi nevroni. To je preprosta sprememba, za katero trdimo, da bistveno razplete notranje izračune modela.
V običajnih gostih nevronskih mrežah je vsak nevron povezan z vsakim nevronom iz naslednje plasti. V naših redkih modelih se vsak nevron poveže le z nekaj nevroni v naslednji plasti. Upamo, da bo to omogočilo lažje razumevanje nevronov in omrežja kot celote.
Želimo izmeriti, v kolikšni meri so izračuni naših redkih modelov razpleteni. Razmislili smo o različnih preprostih vedenjih modela in preverili, ali lahko izoliramo dele modela, odgovorne za vsako vedenje, ki jih imenujemo vezja.
Ročno smo pripravili zbirko enostavnih algoritmičnih nalog. Za vsakega smo model skrčili na najmanjše vezje, ki lahko še vedno opravlja nalogo, in preverili, kako preprosto je to vezje. (Za podrobnosti si oglejte naš dokument(odpre se v novem oknu).) Ugotovili smo, da lahko z usposabljanjem večjih in redkejših modelov ustvarimo vedno zmogljivejše modele z vedno preprostejšimi vezji.
Prikazujemo interpretabilnost glede na zmogljivost med modeli (spodnji levi je boljši). Pri fiksni velikosti redkega modela povečanje redkosti—nastavitev več ponderjev na nič—zmanjša zmogljivost, vendar poveča interpretabilnost. Povečanje velikosti modela premakne to mejo navzven, kar nakazuje, da lahko zgradimo večje modele, ki so tako sposobni kot interpretabilni.
Da bi to ponazorili, razmislite o nalogi, pri kateri mora model, usposobljen za kodo Python, dokončati niz s pravilno vrsto narekovajev. V Pythonu se mora 'hello' končati z enojnim narekovajem, "hello" pa z dvojnim narekovajem. Model lahko to reši tako, da si zapomni, katera vrsta narekovajev je odprla niz in jih na koncu reproducira.
Zdi se, da naši najbolj razumljivi modeli vsebujejo razvezana vezja, ki izvajajo točno ta algoritem.

Primer vezja v redkem transformatorju, ki napoveduje, ali naj se niz konča z enojnim ali dvojnim narekovajem. To vezje uporablja le pet preostalih kanalov (navpične sive črte), dva MLP nevrona v plasti 0 in en kanal za poizvedbo ključev pozornosti in en vrednostni kanal v plasti 10. Model (1) kodira enojne narekovaje v enem preostalem kanalu in dvojne narekovaje v drugem; (2) uporablja plast MLP, da to pretvori v en kanal, ki zazna kateri koli narekovaj, in drugi, ki razvršča med enojnimi in dvojnimi narekovaji; (3) uporablja operacijo pozornosti, da prezre vmesne tokene, poišče prejšnji narekovaj in kopira njegovo vrsto v končni token; in (4) napoveduje ujemajoči se zaključni narekovaj.
V naši definiciji so natančno prikazane povezave dovolj za izvedbo naloge—če odstranimo preostali del modela, to majhno vezje še vedno deluje. Prav tako so potrebni, saj izbris teh nekaj robov povzroči, da model odpove.
Ravno tako smo si ogledali nekaj bolj zapletenih vedenj. Naša vezja za ta vedenja (na primer spodaj prikazana vezava spremenljivk) je v celoti težje razložiti. Tudi takrat lahko še vedno dosežemo razmeroma preproste delne razlage, ki so napovedovalne za vedenje modela.
Še en primer vezja, z manj podrobnostmi. Za določitev vrste spremenljivke, imenovane current, ena operacija pozornosti kopira ime spremenljivke v token set(), ko je definirana, druga poznejša operacija pa kopira vrsto iz token seta() v kasnejšo uporabo spremenljivke, kar modelu omogoča sklepanje o pravilnem naslednjem tokenu.
To delo je zgodnji korak k večjemu cilju: olajšati razumevanje izračunov modelov. Vendar je pred nami še dolga pot. Naši redki modeli so veliko manjši od frontier modelov, veliki deli njihovega izračunavanja pa ostajajo nerazloženi.
Naprej upamo, da bomo svoje tehnike razširili na večje modele in pojasnili več o vedenju modelov. Z naštevanjem motivov vezij, ki so osnova za bolj zapleteno sklepanje v sposobnih redkih modelih, bi lahko razvili razumevanje, ki nam pomaga bolje usmerjati preiskave mejnih modelov.
Da bi premagali neučinkovitost usposabljanja redkih modelov, vidimo dve poti naprej. Ena možnost je izvleči redka vezja iz obstoječih gostih modelov, namesto da redke modele treniramo od začetka. Gosti modeli so v osnovi učinkovitejši za uvajanje kot redki modeli. Druga možnost je razvoj učinkovitejših tehnik za usposabljanje modelov za razlaganje, ker bi jih bilo morda lažje uvesti v proizvodnjo.
Upoštevajte, da naše ugotovitve tukaj ne zagotavljajo, da se bo ta pristop razširil na bolj sposobne sisteme, vendar so ti zgodnji rezultati obetavni. Naš cilj je, da bi jih postopoma razširili, toliko, koliko modela lahko zanesljivo interpretiramo, in ustvarimo orodja, ki bodo olajšala analizo, poiskali in odpravili napake ter ocenili prihodnje sisteme.
Avtorji
Leo Gao, Achyuta Rajaram, Jacob Coxon, Soham V. Govande, Bowen Baker in Dan Mossing


