Fara beint í aðalefni
OpenAI

13. nóvember 2025

RannsóknirÚtgáfa

Að skilja tauganet með hjálp dreifðra rása

Við þjálfuðum líkön til að hugsa í einfaldari og rekjanlegri skrefum—svo við getum betur skilið hvernig þau virka.

Hleður inn...

​​Tauganet knýja öflugustu gervigreindarkerfi dagsins í dag, en enn er erfitt að skilja þau. Við skrifum ekki þessi líkön með skýrum, ítarlegum leiðbeiningum. Í staðinn læra þau með því að stilla milljarða innri tenginga, eða „vægi,“ þar til þau ná tökum á verkefni. Við hönnum reglurnar fyrir þjálfunina, en ekki þær sértæku hegðanir sem koma fram, og niðurstaðan er þétt net tenginga sem enginn maður getur auðveldlega ráðið. 

Hvernig við sjáum skýranleika

Eftir því sem gervigreindarkerfi verða öflugri og hafa raunveruleg áhrif á ákvarðanir í vísindum, menntun og heilbrigðisþjónustu, er mikilvægt að skilja hvernig þau virka. Skýranleiuki vísar til aðferða sem hjálpa okkur að skilja hvers vegna líkan gaf tiltekið frálag. Margar leiðir eru færar til að ná þessu fram. 

Til dæmis eru röksemdafærslulíkön hvött til að útskýra vinnu sína á leiðinni að endanlegu svari. Skýranleiki hugsanaþráðar nýtir þessar skýringar til að fylgjast með hegðun líkansins. Þetta er strax gagnlegt: Hugsunaþræðir núverandi röksemdafærslulíkana virðast vera upplýsandi varðandi hegðun eins og blekkingu. Hins vegar getur það verið varasamt að treysta alfarið á þessa eiginleika, og það getur brugðist með tímanum.

Á hinn bóginn leitast vélrænn skýranleiki, sem er megináherslan í þessari vinnu, við að endurhanna útreikninga líkansins frá grunni. Hingað til hefur það verið minna gagnlegt strax, en í meginatriðum gæti það boðið upp á fullkomnari skýringu á hegðun líkansins. Með því að leitast við að útskýra hegðun líkans á sem smæsta stigi getur vélrænn skýranleiki gert færri forsendur og veitt okkur meira sjálfstraust. En leiðin frá smáatriðum á lágu stigi til skýringa á flóknum hegðunum er miklu lengri og erfiðari.

Skýranleiki styður nokkur lykilmarkmið, til dæmis að gera betra eftirlit kleift og veita snemmbúin viðvörunarmerki um ótrygga eða stefnumarkandi misstillta hegðun. Hann er einnig til viðbótar við aðrar öryggisaðgerðir okkar, svo sem stigstært eftirlit, andstæðingaþjálfun og rauða teymisvinnu. 

Í þessari vinnu sýnum við að við getum oft þjálfað líkön á þann hátt sem gerir þau auðveldari í túlkun. Við lítum á vinnu okkar sem vænlega viðbót við eftirágreiningu á þéttum netkerfum. 

Þetta er mjög metnaðarfullt veðmál; það er löng leið frá vinnu okkar til að skilja að fullu flókna hegðun öflugustu líkananna okkar. Samt, fyrir einfalda hegðun, komumst við að því að dreifð líkön sem eru þjálfuð með aðferð okkar innihalda litlar, sundurgreindar rásir sem eru bæði skiljanlegar og nægilegar til að framkvæma hegðunina. Þetta bendir til að það gæti verið framkvæmanleg leið til þjálfunar stærri kerfa sem við getum skilið aðferðirnar á.

Ný nálgun: að læra á dreifð líkön

Fyrri vélræn vinna á sviði skýranleika hefur byrjað á þéttum, flæktum netum og reynt að leysa þau upp. Í þessum netum er hver einstök taugafruma tengd þúsundum annarra taugafrumna. Flestar taugafrumur virðast framkvæma margar aðgreindar aðgerðir, sem gerir það að verkum að það virðist ómögulegt að skilja þær. 

En hvað ef við þjálfuðum óflækt tauganet, með miklu fleiri taugafrumum, en þar sem hver taugafruma hefur aðeins nokkra tugi tenginga? Þá verður kannski netið sem myndast einfaldara og auðveldara að skilja. Þetta er meginrannsóknarverkefni okkar.

Með þessa meginreglu í huga þjálfuðum við tungumálalíkön með mjög svipaðan arkitektúr og núverandi tungumálalíkön eins og GPT‑2, með einni lítilli breytingu: við þvingum langflest vægi líkansins til að vera núll. Þetta takmarkaði líkanið við að nota aðeins mjög fáar af mögulegum tengingum milli taugafrumna þess. Þetta er einföld breyting sem við teljum að losi verulega um innri útreikninga líkansins.

Skýringarmynd sem ber saman þéttar rásir og dreifðar rásir. Þétta útgáfan sýnir tvær raðir af hnútum með mörgum samtengingarlínum, á meðan dreifða útgáfan sýnir sama skipulag en með færri, sértækari tengingum.

Í venjulegum þéttum tauganetum er hver taugafruma tengd við hverja taugafrumu í næsta lagi. Í dreifðum líkönum okkar tengir hver taugafruma aðeins nokkrum taugafrumum í næsta lagi. Við vonum að þetta geri taugafrumurnar og netið í heild auðveldara að skilja.

Mat á skýranleika

Við viljum mæla að hve miklu leyti útreikningar dreifðra líkana okkar eru aðskildir. Við íhuguðum ýmsa einfalda hegðun líkana og könnuðum hvort við gætum einangrað þá hluta líkansins sem bera ábyrgð á hverri hegðun — sem við köllum rásir.

Við völdum handvirkt safn af einföldum reikniritsverkefnum. Fyrir hvert tilvik klipptum við líkanið til niður í minnstu rásina sem enn getur sinnt verkefninu, og skoðuðum hversu einföld sú rás er. (Frekari upplýsingar, sjá greinina(opnast í nýjum glugga) okkar.) Við komumst að því að með því að nota stærri og dreifðari líkön í þjálfun gætum við framleitt sífellt hæfari líkön með sífellt einfaldari rásum.

Punktarit sem sýnir getu líkansins (forþjálfunartap) á x-ásnum á móti skýranleika (klippt stærð rásar) á y-ásnum. Punktar tákna líkön af mismunandi stærðum og þéttleikastigum, þar sem litur gefur til kynna heildarfjölda breyta og stærð merkis gefur til kynna fjölda breyta sem eru ekki núll. Örvar merkja efri hægra hornið sem „betra“.

Við teiknum skýranleika á móti getu yfir líkön (neðst til vinstri er betra). Fyrir fasta dreifða líkanastærð dregur úr getunni en eykur túlkunarhæfni að auka dreifð - að stilla fleiri þyngd í núll. Að stækka líkanastærðina færir þessi mörk út á við, sem bendir til þess að við getum byggt stærri líkön sem eru bæði öflug og auðskilin.

Til að gera þetta áþreifanlegt, íhugaðu verkefni þar sem líkan þjálfað á Python-kóða þarf að ljúka streng með réttri tegund af gæsalöppum. Í Python verður ‘hello’ að enda með einni gæsalöpp og “hello” verður að enda með tvöföldum gæsalöppum. Líkanið getur leyst þetta með því að muna hvaða tilvitnunartegund opnaði strenginn og endurskapa hana í lokin.

Skýranlegustu líkönin okkar virðast innihalda sundurgreindar rásir sem framkvæma nákvæmlega það reiknirit.

Skýringarmynd sem sýnir dæmi um rás í dreifðum spenni. Hún sýnir hvernig sérstakar taugafrumur og athyglishausar virkjast til að bregðast við inntaksmerkjum eins og “(” og “rásir,” með merktum leiðum fyrir jákvætt og neikvætt vægi, margföldun, ólínuleika og tengsl milli MLP og athyglislaga, sem leiða til líkindadreifingar úttaksmerkja.

Dæmi um rás í dreifðum spenni sem spáir fyrir um hvort eigi að enda streng á einni eða tvöfaldri gæsalöpp. Þessi rás notar aðeins fimm leifarásir (lóðréttar gráar línur), tvær MLP taugafrumur í lagi 0 og eina athyglis fyrirspurnarlyklarás og eina gildisrás í lagi 10. Líkanið (1) kóðar stakar gæsalappir í einni leifarrás og tvöfaldar gæsalappir í annarri; (2) notar MLP-lag til að umbreyta þessu í eina rás sem greinir hvaða gæsalappir sem er og aðra sem flokkar á milli einnar og tvöfaldra gæsalappa; (3) notar athyglisaðgerð til að hunsa inngriptákn, finna fyrri gæsalappir og afrita gerð þeirra í endanlegt tákn; og (4) spáir fyrir um samsvarandi lokunargæsalappir.

Samkvæmt skilgreiningu okkar eru nákvæmar tengingar sem sýndar eru hér að ofan nægilegar til að framkvæma verkefnið—ef við fjarlægjum restina af líkaninu, virkar þessi litla rás ennþá. Þær eru einnig nauðsynlegar–að eyða þessum fáu brúnum veldur því að líkanið bregst.

Við skoðuðum einnig flóknari hegðun. Erfiðara er að útskýra rásir okkar fyrir þessa hegðun (til dæmis breytileg binding sem sýnd er hér að neðan). Jafnvel þá getum við samt náð tiltölulega einföldum hlutaskýringum sem spá fyrir um hegðun líkansins.

Skýringarmynd sem sýnir dæmi um dreifða spennirás innan Python-fallsins get_neighbors. Tvær úthlutanir til current = set() eru í kassa, með lituðum örvum sem sýna hvaða athyglishausar (merktir með Q/K/V vísitölum) virkjast til að tengja hvert tilvik af breytunni current við notkun hennar í lykkjunni.

Annað dæmi um rás, með færri smáatriðum. Til að ákvarða gerð breytu sem kallast current afritar ein athyglisaðgerð heiti breytunnar inn í tákn tákn set() þegar það er skilgreint og önnur síðari aðgerð afritar tegundina úr tákn set() í síðari notkun breytunnar, sem gerir líkaninu kleift að álykta um rétt næsta tákn.

Vegferðin framundan

Þessi vinna er fyrsta skref í átt að stærra markmiði: að gera útreikninga líkana auðveldari í skilningi. En enn er langt ferðalag fyrir höndum. Dreifðu líkönin okkar eru mun minni en fremstu líkönin, og stórir hlutar útreikninga þeirra eru enn óskýrðir. 

Næst vonumst við til að stækka tækni okkar fyrir stærri líkön og útskýra betur hegðun líkananna. Með því að telja upp rásarmynstur sem liggja að baki flóknari röksemdafærslu í hæfum dreifðum líkönum, gætum við þróað skilning sem hjálpar okkur að miða betur rannsóknir á fremstu líkönum.

Til að yfirstíga óhagkvæmni í þjálfun dreifðra líkana sjáum við tvær leiðir fram á við. Eitt er að draga út dreifðar rásir úr núverandi þéttum líkönum, frekar en að nota þjálfun dreifðra líkanna frá grunni. Þétt líkön eru í grundvallaratriðum skilvirkari til að dreifa en dreifð líkön. Önnur leiðin er að þróa skilvirkari aðferðir til að þjálfa líkön fyrir skýranleika, sem gæti verið auðveldara að setja í framleiðslu.

Athugaðu að niðurstöður okkar hér eru engin trygging fyrir því að þessi nálgun muni ná til hæfari kerfa, en þessar fyrstu niðurstöður eru lofandi. Markmið okkar er að smám saman auka hversu mikið af líkani við getum áreiðanlega skýrt og að þróa verkfæri sem gera framtíðarkerfi auðveldari til greiningar, villuleitar og mats.

Höfundar

Leo Gao, Achyuta Rajaram, Jacob Coxon, Soham V. Govande, Bowen Baker, Dan Mossing