Të kuptuarit e rrjeteve nervore përmes qarqeve të rralla
Ne trajnuam modelet që të mendojnë në hapa më të thjeshtë dhe më të gjurmueshëm në mënyrë që ne të mund të kuptojmë më mirë se si funksionojnë.
Rrjetet nervore fuqizojnë sistemet e sotme më të afta të AI, por ato mbeten të vështira për t'u kuptuar. Ne nuk i shkruajmë këto modele me udhëzime të detajuara, hap pas hapi. Përkundrazi, ata mësojnë duke rregulluar miliarda lidhje të brendshme, ose “pesha”, derisa ta perfeksionojnë një detyrë. Ne krijojmë rregullat e trajnimit, por jo sjelljet specifike që shfaqen, dhe rezultati është një rrjet i dendur lidhjesh që asnjë njeri nuk mund ta deshifrojë lehtësisht.
Ndërsa sistemet e AI bëhen më të afta dhe kanë ndikim të vërtetë në vendimet në shkencë, arsim dhe kujdes shëndetësor, të kuptuarit se si funksionojnë është thelbësore. Interpretueshmëria i referohet metodave që na ndihmojnë të kuptojmë pse një model ka prodhuar një dalje të caktuar. Ka shumë mënyra se si mund ta arrijmë këtë.
Për shembull, modelet e arsyetimit stimulohen të shpjegojnë punën e tyre gjatë rrugës drejt një përgjigjeje përfundimtare. Interpretueshmëria e zinxhirit të mendimit përdor këto shpjegime për të monitoruar sjelljen e modelit. Kjo është e dobishme menjëherë: zinxhirët e mendimit të modeleve aktuale të arsyetimit duket se janë informues për sjelljet shqetësuese si mashtrimi. Megjithatë, mbështetja e plotë në këtë pronë është një strategji e brishtë dhe mund të dështojë me kalimin e kohës.
Nga ana tjetër, interpretueshmëria mekanistike, e cila është fokusi i kësaj pune, synon të zbërthejë plotësisht llogaritjet e një modeli. Deri tani ka qenë më pak e dobishme menjëherë, por në parim, mund të ofrojë një shpjegim më të plotë të sjelljes së modelit. Duke kërkuar të shpjegojë sjelljen e modelit në nivel më të detajuar, interpretueshmëria mekanike mund të bëjë më pak supozime dhe të na japë më shumë besim. Por rruga nga detajet e nivelit të ulët deri te shpjegimet e sjelljeve komplekse është shumë më e gjatë dhe më e vështirë.
Interpretueshmëria mbështet disa qëllime kryesore, për shembull mundësimi i mbikëqyrjes më të mirë dhe sigurimi i shenjave paralajmëruese të hershme të sjelljes së pasigurt ose të keqorientuar strategjikisht. Ai gjithashtu plotëson përpjekjet tona të tjera të sigurisë, të tilla si mbikëqyrja e shkallëzueshme, trajnimi kundër-adversar dhe red-teaming.
Në këtë punë, tregojmë se shpesh mund të trajnojmë modelet në mënyra që i bëjnë më të lehta për t'u interpretuar. Ne e konsiderojmë punën tonë si një plotësim premtues për analizën post-hoc të rrjeteve të dendura.
Ky është një bast shumë ambicioz; është një rrugë e gjatë nga puna jonë në të kuptuarit plotësisht të sjelljeve komplekse të modeleve tona më të fuqishme. Megjithatë, për sjelljet e thjeshta, zbulojmë se modelet e rralla të trajnuara me metodën tonë përmbajnë qarqe të vogla dhe të shkëputura që janë të kuptueshme dhe të mjaftueshme për të kryer sjelljen. Kjo sugjeron se mund të ketë një rrugë të lehtë për t'u ndjekur drejt trajnimit të sistemeve më të mëdha, mekanizmat e të cilave mund t'i kuptojmë.
Puna e mëparshme për interpretueshmërinë mekanike ka nisur nga rrjetet e dendura dhe të ngatërruara dhe është përpjekur t'i zgjidhë ato. Në këto rrjete, çdo neuron individual është i lidhur me mijëra neurone të tjera. Shumica e neuroneve duket se kryejnë shumë funksione të ndryshme, duke e bërë të duket e pamundur për t'u kuptuar.
Por, po sikur të trajnonim rrjete nervore të pazbërthyera, me shumë më tepër neurone, por ku secili neuron ka vetëm disa dhjetëra lidhje? Pastaj ndoshta rrjeti që del si rezultat i saj do të jetë më i thjeshtë dhe më i lehtë për t'u kuptuar. Ky është fokusi qendror i kërkimit në punën tonë.
Duke pasur këtë parim në mendje, ne trajnuam modele gjuhe me një arkitekturë shumë të ngjashme me modelet ekzistuese si GPT‑2, me një modifikim të vogël: ne detyruam që shumica dërrmuese e peshave të modelit të jenë zero. Kjo e kufizoi modelin që të përdorte vetëm disa nga lidhjet e mundshme midis neuroneve të tij. Ky është një ndryshim i thjeshtë për të cilin ne argumentojmë se shkëput në mënyrë të konsiderueshme llogaritjet e brendshme të modelit.
Në rrjetet nervore normale të dendura, çdo neuron lidhet me çdo neuron në shtresën para. Në modelet tona të rralla, çdo neuron lidhet vetëm me disa neurone në shtresën para. Shpresojmë që kjo t'i bëjë neuronet dhe rrjetin në tërësi më të lehtë për t'u kuptuar.
Ne dëshirojmë të matim shkallën në të cilën llogaritjet e modeleve tona të rralla janë të ndara. Ne shqyrtuam sjellje të ndryshme të modeleve të thjeshta dhe kontrolluam nëse mund të izolonim pjesët e modelit përgjegjëse për secilën sjellje të cilat i quajmë qarqe.
Ne kemi përzgjedhur në mënyrë të kujdesshme një grup detyrash të thjeshta algoritmike. Për secilin, ne e zvogëluam modelin deri në qarkun më të vogël që ende mund të kryejë detyrën dhe shqyrtuam sa i thjeshtë është ai qark. (Për detaje, shiko punimin(hapet në një dritare të re) tonë.) Zbuluam se duke trajnuar modele më të mëdha dhe më të rralla, mund të prodhonim modele gjithnjë e më të afta me qarqe gjithnjë e më të thjeshta.
Ne paraqesim interpretueshmërinë kundrejt aftësisë në të gjithë modelet (sa më poshtë dhe majtas, aq më mirë). Për një madhësi fikse të modelit të rrallë, rritja e rrallësisë, vendosja e më shumë peshave në zero, zvogëlon aftësinë, por rrit interpretueshmërinë. Rritja e madhësisë së modelit e zhvendos këtë kufi më tej, duke sugjeruar se mund të ndërtojmë modele më të mëdha që janë si të afta ashtu edhe të interpretueshme.
Për ta bërë këtë konkrete, mendo për një detyrë ku një model i trajnuar në kodin Python duhet të plotësojë një varg me llojin e saktë të thonjëzave. Në Python, 'hello' duhet të përfundojë me një thonjëz të vetëm dhe “hello” duhet të përfundojë me një thonjëz të dyfishtë. Modeli mund ta zgjidhë këtë duke kujtuar se cili lloj thonjëzash hapi vargun dhe duke e riprodhuar atë në fund.
Modelet tona më të interpretueshme duket se përmbajnë qarqe të ndara që zbatojnë saktësisht atë algoritëm.

Shembull qarku në një transformator të rrallë që parashikon nëse vargu do të përfundojë me thonjëza të vetme ose të dyfishta. Ky qark përdor vetëm pesë kanale reziduale (linja gri vertikale), dy neurone MLP në shtresën 0 dhe një kanal kërkesë-kyç të vëmendjes dhe një kanal vlerash në shtresën 10. Modeli (1) kodon thonjëzat e vetme në një kanal të mbetur dhe thonjëzat e dyfishta në një tjetër; (2) përdor një shtresë MLP për ta konvertuar këtë në një kanal që zbulon çdo thonjëz dhe një tjetër që klasifikon midis thonjëzave të vetme dhe të dyfishta; (3) përdor një operacion vëmendjeje për të injoruar tokenët ndërhyrës, për të gjetur thonjëzën e mëparshme dhe për të kopjuar llojin e saj në tokenin përfundimtar; dhe (4) parashikon thonjëzën mbyllëse të përputhshme.
Në përkufizimin tonë, lidhjet e sakta të treguara më sipër janë të mjaftueshme për të kryer detyrën. Nëse heqim pjesën tjetër të modelit, ky qark i vogël ende funksionon. Ato janë gjithashtu të domosdoshme. Fshirja e këtyre pak skajeve bën që modeli të dështojë.
Ne gjithashtu shikuam disa sjellje më të ndërlikuara. Qarqet tona për këto sjellje (për shembull lidhja e ndryshueshme e treguar më poshtë) janë më të vështira për t'u shpjeguar plotësisht. Edhe atëherë, ne ende mund të arrijmë shpjegime relativisht të thjeshta të pjesshme që parashikojnë sjelljen e modelit.
Një shembull tjetër qarku, me më pak detaje. Për të përcaktuar llojin e një variabli të quajtur current, një operacion vëmendjeje kopjon emrin e variablit në tokenin set() kur ai përcaktohet, dhe një operacion tjetër i mëvonshëm kopjon llojin nga tokeni set() në një përdorim të mëvonshëm të variablit, duke i lejuar modelit të nxjerrë tokenin e saktë para.
Kjo punë është një hap i hershëm drejt një qëllimi më të madh: të bëhen më të lehta për t'u kuptuar llogaritjet e modelit. Por, ende duhet shumë punë. Modelet tona të rralla janë shumë më të vogla se modelet kufitare, dhe pjesë të mëdha të llogaritjeve të tyre mbeten të painterpretuara.
Gjithashtu, shpresojmë të shkallëzojmë teknikat tona në modele më të mëdha dhe të shpjegojmë më shumë nga sjellja e modeleve. Duke numëruar motivet e qarkut që qëndrojnë në bazë të arsyetimit më kompleks në modelet e afta të rralla, ne mund të zhvillojmë një kuptim që na ndihmon të shënjestrojmë më mirë hetimet e modeleve më të avancuara.
Për të anashkaluar joefikasitetin e trajnimit të modeleve të rralla ka dy mënyra. Njëra mënyrë është të nxirren qarqet e rralla nga modelet ekzistuese të dendura, në vend që të bëhet trajnim i modeleve të rralla nga e para. Modelet e dendura janë në thelb më efikase për t'u përdorur sesa modelet e rralla. Rruga tjetër është të zhvillohen teknika më efikase për të trajnuar modele për interpretueshmëri, të cilat mund të jenë më të lehta për t'u vënë në prodhim.
Vini re se gjetjet tona këtu nuk janë garanci që kjo qasje do të shtrihet në sisteme më të afta, por këto rezultate të hershme janë premtuese. Qëllimi ynë është të zgjerojmë gradualisht se sa pjesë të një modeli mund të interpretojmë në mënyrë të besueshme dhe të ndërtojmë mjete që i bëjnë sistemet e ardhshme më të lehta për t'u analizuar, spastruar dhe vlerësuar.
Autorët
Leo Gao, Achyuta Rajaram, Jacob Coxon, Soham V. Govande, Bowen Baker dhe Dan Mossing


