Jäta vahele ja mine põhisisu juurde
OpenAI

13. november 2025

TeadustööVäljaanne

Neurovõrgustike mõistmine hõredate vooluringide kaudu

Treenisime mudelid mõtlema lihtsamate ja paremini jälgitavate sammude haaval,— et saaksime nende tööd paremini mõista.

Laadimine…

​​Neurovõrgustikud on tänapäeva võimekaimate tehisintellektisüsteemide aluseks, kuid neid on endiselt raske mõista. Me ei anna neile mudelitele ette selgesõnalisi, samm-sammulisi juhiseid. Selle asemel õpivad need, kohandades miljardeid sisemisi ühendusi (ehk „kaalusid“), kuni on ülesande selgeks saanud. Me määrame küll koolituse reeglid, kuid mitte need konkreetsed käitumisviisid, mis selle käigus esile kerkivad. Tulemuseks on tihe ühenduste sasipundar, mida ühelgi inimesel pole lihtne lahti mõtestada. 

Kuidas me näeme tõlgendatavust

Kuna tehisintellektisüsteemid muutuvad üha võimekamaks ja mõjutavad reaalseid otsuseid teaduses, hariduses ja tervishoius, on nende tööpõhimõtte mõistmine ülioluline. Tõlgendatavus tähistab meetodeid, mis aitavad meil mõista, miks mudel andis just sellise väljundi. Selle saavutamiseks on mitmeid viise. 

Näiteks suunatakse arutlusmudeleid selgitama oma mõttekäiku teel lõpliku vastuseni. Mõttelõnga tõlgendatavus kasutab neid selgitusi ära mudeli käitumise jälgimiseks. Sellest on kohe kasu: praeguste arutlevate mudelite mõttekäigud näivad andvat väärtuslikku infot selliste murettekitavate ilmingute kohta nagu petmine. Siiski on sellele omadusele täielikult lootma jäämine ebakindel strateegia, mis võib aja jooksul lakata toimimast.

Teisalt, mehaaniline tõlgendatavus, millele käesolev töö keskendub, püüab mudeli arvutuskäiku täielikult lahti mõtestada. Seni pole sellest nii otsest kasu olnud, kuid põhimõtteliselt võiks see pakkuda mudeli käitumise kohta täielikuma selgituse. Kuna mehaaniline tõlgendatavus püüab selgitada mudeli käitumist kõige peenemal tasandil, saab see tugineda vähematele oletustele ja pakkuda meile suuremat kindlust. Kuid tee madala taseme detailidest keerukate käitumisviiside selgitusteni on palju pikem ja keerulisem.

Tõlgendatavus toetab mitut põhieesmärki: näiteks võimaldab see paremat järelevalvet ja annab varajasi hoiatusi ebaturvalise või strateegiliste eesmärkidega vastuolus oleva käitumise kohta. Samuti täiendab see meie muid ohutusmeetmeid, nagu skaleeritav järelevalve, vastastikune koolitus ja punaste meeskondade loomine. 

Käesolevas töös näitame, et mudeleid on sageli võimalik koolitada viisil, mis teeb nende tõlgendamise lihtsamaks. Näeme oma tööd paljulubava täiendusena tihedate võrkude järelanalüüsile. 

See on väga ambitsioonikas ettevõtmine; meie praegusest tööst on veel pikk tee meie kõige võimsamate mudelite keeruka käitumise täieliku mõistmiseni. Sellegipoolest, lihtsamate käitumisviiside puhul leidsime, et meie meetodiga koolitatud hõredad mudelid sisaldavad väikeseid, eraldiseisvaid ahelaid, mis on nii arusaadavad kui ka piisavad selle käitumisviisi sooritamiseks. See viitab, et võib leiduda jõukohane tee suuremate süsteemide koolitamiseks, mille mehhanisme me suudame mõista.

Uus lähenemine: hõredate mudelite õppimine

Varasem mehaanilise tõlgendatavuse alane töö on lähtunud tihedatest, läbipõimunud võrkudest ja püüdnud neid lahti harutada. Neis võrkudes on iga üksik neuron ühendatud tuhandete teiste neuronitega. Enamik neuroneid näib täitvat mitmeid erinevaid funktsioone, mis muudab nende mõistmise näiliselt võimatuks. 

Aga mis siis, kui me koolitaksime lahtiharutatud neurovõrgustikke, mis sisaldavad küll palju rohkem neuroneid, kuid kus igal neuronil on vaid mõnikümmend ühendust? Võib-olla on siis tulemuseks saadav võrgustik lihtsam ja kergemini mõistetav. See ongi meie töö keskne oletus.

Seda põhimõtet silmas pidades koolitasime me keelemudeleid, mis on arhitektuurilt väga sarnased olemasolevatele mudelitele, nagu GPT‑2, kuid ühe väikese muudatusega: me sunnime valdavalt enamikku mudeli kaaludest võtma väärtuseks nulli. See piiras mudelit, sundides seda kasutama vaid väga väheseid oma neuronitevahelistest võimalikest ühendustest. Tegemist on lihtsa muudatusega, mis meie väitel harutab oluliselt lahti mudeli sisemised arvutuskäigud.

Diagramm, mis võrdleb tihedaid ja hõredaid ahelaid. Tihe versioon näitab kahte rida sõlmpunkte paljude omavahel ühenduvate joontega, samas kui hõre versioon näitab sama paigutust, kuid vähemate ja selektiivsemate ühendustega.

Tavalistes tihedates neurovõrgustikes on iga neuron ühendatud kõigi neuronitega järgmises kihis. Meie hõredates mudelites ühendub iga neuron aga vaid mõne üksiku neuroniga järgmises kihis. Loodame, et see muudab nii neuronid kui ka võrgustiku tervikuna kergemini mõistetavaks.

Tõlgendatavuse hindamine

Soovime mõõta, mil määral on meie hõredate mudelite arvutuskäigud lahti harutatud. Vaatlesime mudeli erinevaid lihtsaid käitumisviise ja kontrollisime, kas suudame eraldada need mudeli osad, mis iga käitumisviisi eest vastutavad.

Valisime käsitsi välja rea lihtsaid algoritmilisi ülesandeid. Iga ülesande puhul kärpisime mudeli väikseima võimaliku ahelani, mis suutis endiselt seda ülesannet täita, ja uurisime, kui lihtne see ahel oli. (Täpsema teabe saamiseks vaadake meie uurimistööd(avaneb uues aknas).) Avastasime, et koolitades suuremaid ja hõredamaid mudeleid, suutsime luua üha võimekamaid mudeleid, millel olid üha lihtsamad ahelad.

Hajuvusdiagramm, mis näitab x-teljel mudeli võimekust (eelkoolituse kulu) ja y-teljel tõlgendatavust (kärbitud ahela suurus). Punktid tähistavad erineva suuruse ja hõreduse tasemega mudeleid, kusjuures värv näitab parameetrite koguarvu ja markeri suurus nullist erinevate parameetrite arvu. Nooled tähistavad paremale üles suunda kui „parem”.

Kujutame diagrammil mudelite tõlgendatavuse ja võimekuse suhet (allpool ja vasakul on parem). Kindla suurusega hõreda mudeli puhul vähendab hõreduse suurendamine—ehk rohkemate kaalude nulliks seadmine—mudeli võimekust, kuid suurendab selle tõlgendatavust. Mudeli suuruse kasvatamine nihutab seda piiri väljapoole, andes mõista, et saame luua suuremaid mudeleid, mis on korraga nii võimekad kui ka tõlgendatavad.

Et seda konkreetsemaks muuta, mõelge ülesandele, kus Pythoni koodiga koolitatud mudel peab täitma stringi õige tüüpi jutumärkidega. Pythonis peab 'hello' lõppema ühekordse jutumärgiga ja "hello" peab lõppema kahekordse jutumärgiga. Mudel suudab selle lahendada, meelde jättes, milline jutumärkide tüüp stringi avas, ja taastades selle lõpus.

Meie kõige paremini tõlgendatavad mudelid näivad sisaldavat lahtiharutatud ahelaid, mis rakendavad täpselt seda algoritmi.

Diagramm, mis illustreerib näidisahelat hõredas transformeris. See näitab, kuidas konkreetsed neuronid ja tähelepanupead aktiveeruvad vastusena sisendmärkidele (tokenitele), nagu „(“ ja „ahelad“. Joonisel on tähistatud positiivsete ja negatiivsete kaaludega rajad, korrutamised, mittelineaarsused ning ühendused MLP- (mitmekihilise pertseptroni) ja tähelepanukihtide vahel, mis kulmineeruvad väljundmärgi tõenäosustega.

Näidisahel hõredas transformeris, mis ennustab, kas lõpetada sõne ülakoma või topeltjutumärkidega. See ahel kasutab vaid viit jääkkanalit (vertikaalsed hallid jooned), kahte MLP-neuronit 0. kihis ning ühte tähelepanu päringu-võtme kanalit ja ühte väärtuse kanalit 10. kihis. Mudel (1) kodeerib ülakomad ühte jääkkanalisse ja topeltjutumärgid teise; (2) kasutab MLP-kihti, et muuta see üheks kanaliks, mis tuvastab mis tahes jutumärgi, ja teiseks kanaliks, mis eristab ülakomasid topeltjutumärkidest; (3) kasutab tähelepanuoperatsiooni, et ignoreerida vahepealseid märke (tokeneid), leida üles eelnev jutumärk ja kopeerida selle tüüp viimasele märgile; ning (4) ennustab sobiva lõpetava jutumärgi.

Meie definitsiooni kohaselt on ülaltoodud täpsed ühendused ülesande sooritamiseks piisavad – kui me eemaldame ülejäänud mudeli, töötab see väike ahel endiselt. Need on ka vältimatult vajalikud – nende väheste ühenduste kustutamine paneb mudeli ebaõnnestuma.

Vaatlesime ka mõningaid keerukamaid käitumisviise. Nende käitumisviiside jaoks mõeldud ahelaid (näiteks allpool näidatud muutujate sidumist) on raskem täielikult selgitada. Kuid isegi sel juhul suudame siiski jõuda suhteliselt lihtsate osaliste selgitusteni, mis ennustavad mudeli käitumist.

Diagramm, mis toob esile näidisena hõreda transformeriga ahela Pythoni funktsioonis get_neighbors. Kaks omistust current = set() on raamitud värviliste nooltega, mis näitavad, millised tähelepanupead (tähistatud Q/K/V indeksitega) aktiveeruvad, et ühendada iga muutuja <em>current</em> esinemine selle kasutamisega tsüklis.

Veel üks näidisahel, vähemate üksikasjadega. Et määrata muutuja nimega current tüüpi, kopeerib üks tähelepanuoperatsioon selle defineerimisel muutuja nime märgi (tokeni) set() sisse. Teine, hilisem operatsioon kopeerib seejärel tüübi märgist (tokenist) set() muutuja järgmisse kasutuskohta, võimaldades mudelil tuletada õige järgmise märgi (tokeni).

Ees ootav tee

See töö on varajane samm suurema eesmärgi suunas: muuta mudelite arvutuskäigud lihtsamini mõistetavaks. Kuid veel on pikk tee minna. Meie hõredad mudelid on tipptasemel mudelitest palju väiksemad ja suur osa nende arvutuskäigust jääb veel tõlgendamata. 

Järgmisena loodame oma tehnikaid suurematele mudelitele laiendada ja selgitada suuremat osa nende käitumisest. Kaardistades võimekates hõredates mudelites keerukama arutluskäigu aluseks olevaid ahelamotiive, suudaksime luua arusaama, mis aitab meil täpsemalt sihtida tipptasemel mudelite uurimist.

Hõredate mudelite koolitamise ebatõhususest ülesaamiseks näeme kahte edasist teed. Üks neist on hõredate ahelate eraldamine olemasolevatest tihedatest mudelitest, selle asemel et koolitada hõredaid mudeleid nullist peale. Tihedaid mudeleid on fundamentaalselt tõhusam rakendada kui hõredaid. Teine tee on arendada tõlgendatavuse eesmärgil mudelite koolitamiseks tõhusamaid tehnikaid, mida võiks olla lihtsam tootmisse anda.

Tuleb märkida, et meie siinsed leiud ei taga, et see lähenemine laieneb ka võimekamatele süsteemidele, kuid need varased tulemused on paljulubavad. Meie eesmärk on järk-järgult laiendada seda osa mudelist, mida suudame usaldusväärselt tõlgendada, ja luua tööriistu, mis muudavad tulevasi süsteeme lihtsamaks analüüsida, siluda ja hinnata.

Autorid

Leo Gao, Achyuta Rajaram, Jacob Coxon, Soham V. Govande, Bowen Baker, Dan Mossing