13 ta’ Novembru 2025

Nifhmu n-netwerks newrali permezz ta’ ċirkwiti sparse

Ħarriġna mudelli biex jaħsbu fi passi aktar sempliċi u aktar traċċabbli—biex nifhmu aħjar kif jaħdmu.

Qed jillowdja…

In-netwerks newrali jħaddmu s-sistemi tal-IA l-aktar kapaċi tal-lum, iżda għadhom diffiċli biex nifhmuhom. Aħna ma niktbux dawn il-mudelli b’istruzzjonijiet espliċiti, pass pass. Minflok, huma jitgħallmu billi jaġġustaw biljuni ta’ konnessjonijiet interni, jew “weights,” sakemm jikkontrollaw kompitu. Aħna nfasslu r-regoli tat-taħriġ, iżda mhux l-imġibiet speċifiċi li joħorġu minnu, u r-riżultat huwa xibka densa ta’ konnessjonijiet li ebda bniedem ma jista’ jifhimha faċilment.

Kif inqisu l-interpretabbiltà

Hekk kif is-sistemi tal-IA jsiru aktar kapaċi u jkollhom impatt fid-dinja reali fuq deċiżjonijiet fix-xjenza, fl-edukazzjoni u fil-kura tas-saħħa, huwa essenzjali li nifhmu kif jaħdmu. Interpretabbiltà tirreferi għal metodi li jgħinuna nifhmu għaliex mudell ipproduċa output partikolari. Hemm ħafna modi kif nistgħu niksbu dan.

Pereżempju, mudelli tar-raġunament huma mħeġġa jispjegaw ix-xogħol tagħhom tul it-triq lejn tweġiba finali. Interpretabbiltà tal-chain of thought tuża dawn l-ispjegazzjonijiet biex tissorvelja l-imġiba tal-mudell. Dan huwa immedjatament utli: il-chain of thought tal-mudelli tar-raġunament attwali jidher li huwa informattiv fir-rigward ta’ mġibiet ta’ tħassib bħall-qerq. Madankollu, li niddependu kompletament fuq din il-proprjetà hija strateġija fraġli, u dan jista’ jfalli maż-żmien.

Min-naħa l-oħra, interpretabbiltà mekkanistika, li hija l-fokus ta’ dan ix-xogħol, tfittex li tagħmel reverse engineering komplet tal-komputazzjonijiet ta’ mudell. S’issa kienet inqas utli b’mod immedjat, iżda fil-prinċipju, tista’ toffri spjegazzjoni aktar kompluta tal-imġiba tal-mudell. Billi tipprova tispjega l-imġiba tal-mudell fl-aktar livell granulari, l-interpretabbiltà mekkanistika tista’ tagħmel inqas suppożizzjonijiet u tagħtina aktar kunfidenza. Iżda t-triq minn dettalji ta’ livell baxx għal spjegazzjonijiet ta’ mġibiet kumplessi hija ħafna itwal u aktar diffiċli.

L-interpretabbiltà tappoġġa diversi għanijiet ewlenin, pereżempju billi tippermetti superviżjoni aħjar u tipprovdi sinjali bikrin ta’ twissija dwar imġiba mhux sigura jew strateġikament mhux allinjata. Tikkumplimenta wkoll l-isforzi l-oħra tagħna għas-sigurtà, bħal scalable oversight, adversarial training, u red-teaming.

F’dan ix-xogħol, nuru li ħafna drabi nistgħu nħarrġu mudelli b’modi li jagħmluhom aktar faċli biex jiġu interpretati. Aħna naraw ix-xogħol tagħna bħala kumpliment promettenti għall-analiżi post-hoc ta’ netwerks densi.

Dan huwa mħatra ambizzjuża ħafna; hemm triq twila mix-xogħol tagħna sa fehim sħiħ tal-imġibiet kumplessi tal-mudelli l-aktar qawwija tagħna. Xorta waħda, għal imġibiet sempliċi, insibu li mudelli sparse mħarrġa bil-metodu tagħna fihom ċirkwiti żgħar u disentangled li huma kemm jinftiehmu kif ukoll suffiċjenti biex iwettqu l-imġiba. Dan jissuġġerixxi li jista’ jkun hemm triq prattikabbli lejn it-taħriġ ta’ sistemi akbar li l-mekkaniżmi tagħhom nistgħu nifhmuhom.

Approċċ ġdid: nitgħallmu mudelli sparse

Xogħol preċedenti fuq l-interpretabbiltà mekkanistika beda minn netwerks densi u mħabblin, u pprova jifredhom. F’dawn in-netwerks, kull newron individwali huwa mqabbad ma’ eluf ta’ newroni oħra. Il-biċċa l-kbira tan-newroni jidhru li jwettqu ħafna funzjonijiet distinti, u dan jagħmilha tidher impossibbli li nifhmuhom.

Imma x’jiġri kieku nħarrġu netwerks newrali mhux imħabblin, b’ħafna aktar newroni, iżda fejn kull newron ikollu biss ftit tużżani ta’ konnessjonijiet? F’dak il-każ forsi n-netwerk li jirriżulta jkun aktar sempliċi, u aktar faċli biex jinftiehem. Din hija l-imħatra ewlenija tar-riċerka tagħna.

B’dan il-prinċipju f’moħħna, ħarriġna mudelli tal-lingwa b’arkitettura simili ħafna għal mudelli tal-lingwa eżistenti bħal GPT‑2, b’modifika żgħira waħda: inġiegħlu lill-maġġoranza kbira tal-weights tal-mudell ikunu żerijiet. Dan illimita lill-mudell biex juża biss ftit ħafna mill-konnessjonijiet possibbli bejn in-newroni tiegħu. Din hija bidla sempliċi li, skont l-argument tagħna, tifred b’mod sostanzjali l-komputazzjonijiet interni tal-mudell.

Dijagramma li tqabbel ċirkwiti densi u ċirkwiti sparse. Il-verżjoni densa turi żewġ ringieli ta’ nodi b’ħafna linji ta’ konnessjoni bejniethom, filwaqt li l-verżjoni sparse turi l-istess tqassim iżda b’inqas konnessjonijiet, aktar selettivi.

F’netwerks newrali densi normali, kull newron huwa mqabbad ma’ kull newron fis-saff ta’ wara. Fil-mudelli sparse tagħna, kull newron jingħaqad biss ma’ ftit newroni fis-saff ta’ wara. Nittamaw li dan jagħmel in-newroni, u n-netwerk kollu kemm hu, aktar faċli biex jinftiehmu.

Nivvalutaw l-interpretabbiltà

Irridu nkejlu sa liema punt il-komputazzjonijiet tal-mudelli sparse tagħna huma disentangled. Ikkunsidrajna diversi mġibiet sempliċi tal-mudell, u ċċekkjajna jekk stajniex niżolaw il-partijiet tal-mudell responsabbli għal kull imġiba—li nsejħulhom ċirkwiti.

Ħloqna bl-idejn sett ta’ kompiti algoritmiċi sempliċi. Għal kull wieħed, naqqasna l-mudell saċ-ċirkwit l-iżgħar li xorta jista’ jwettaq il-kompitu, u eżaminajna kemm hu sempliċi dak iċ-ċirkwit. (Għad-dettalji, ara l-paper⁠(jinfetaħ f’tieqa ġdida) tagħna.) Sibna li billi nħarrġu mudelli akbar u aktar sparse, stajna nipproduċu mudelli dejjem aktar kapaċi b’ċirkwiti dejjem aktar sempliċi.

Scatter plot li juri l-kapaċità tal-mudell (pretraining loss) fuq l-assi x kontra l-interpretabbiltà (daqs taċ-ċirkwit imnaqqas) fuq l-assi y. Il-punti jirrappreżentaw mudelli ta’ daqsijiet u livelli ta’ sparsità differenti, bil-kulur jindika l-parametri totali u d-daqs tal-markatur jindika n-numru ta’ parametri mhux żero. Vleġeġ jittikkettaw id-direzzjoni ta’ fuq-lemin bħala “aħjar”.

Aħna nippinġu l-interpretabbiltà kontra l-kapaċità bejn il-mudelli (isfel-xellug huwa aħjar). Għal daqs fiss ta’ mudell sparse, iż-żieda fis-sparsità—jiġifieri li aktar piżijiet jiġu stabbiliti għal żero—tnaqqas il-kapaċità iżda żżid l-interpretabbiltà. Meta nżidu d-daqs tal-mudell, din il-fruntiera timxi ’l barra, u tissuġġerixxi li nistgħu nibnu mudelli akbar li huma kemm kapaċi kif ukoll interpretabbli.

Biex nagħmlu dan konkret, ikkunsidra kompitu fejn mudell imħarreġ fuq kodiċi Python irid itemm string bit-tip korrett ta’ virgoletta. Fil-Python, ‘hello’ trid tispiċċa b’virgoletta singola, u “hello” trid tispiċċa b’virgoletta doppja. Il-mudell jista’ jsolvi dan billi jiftakar liema tip ta’ virgoletta fetaħ is-string u jirriproduċiha fl-aħħar.

Il-mudelli tagħna l-aktar interpretabbli jidhru li fihom ċirkwiti disentangled li jimplimentaw eżattament dak l-algoritmu.

Dijagramma li turi eżempju ta’ ċirkwit f’transformer sparse. Turi kif newroni speċifiċi u attention heads jattivaw b’reazzjoni għal tokens ta’ input bħal “(” u “circuits,”, b’mogħdijiet ittikkettati għal piżijiet pożittivi u negattivi, multiplikazzjonijiet, nonlinearities, u konnessjonijiet bejn is-saffi MLP u attention, li jwasslu għal probabbiltajiet tat-tokens tal-output.

Eżempju ta’ ċirkwit f’transformer sparse li jbassar jekk string għandhiex tintemm b’virgoletta singola jew doppja. Dan iċ-ċirkwit juża biss ħames residual channels (linji griżi vertikali), żewġ newroni MLP fis-saff 0, u kanal wieħed ta’ attention query-key u kanal wieħed ta’ value fis-saff 10. Il-mudell (1) jikkodifika l-virgoletti singoli f’kanal residual wieħed u l-virgoletti doppji f’ieħor; (2) juża saff MLP biex jikkonverti dan f’kanal wieħed li jidentifika kwalunkwe virgoletta u ieħor li jikklassifika bejn virgoletti singoli u doppji; (3) juża operazzjoni ta’ attention biex jinjora tokens bejniethom, isib il-virgoletta preċedenti, u jikkopja t-tip tagħha fit-token finali; u (4) ibassar il-virgoletta tal-għeluq li taqbel.

Fid-definizzjoni tagħna, il-konnessjonijiet eżatti murija hawn fuq huma suffiċjenti biex iwettqu l-kompitu—jekk inneħħu l-bqija tal-mudell, dan iċ-ċirkwit żgħir xorta jaħdem. Huma wkoll neċessarji—jekk inħassru dawn il-ftit truf, il-mudell ifalli.

Ħarisna wkoll lejn xi mġibiet aktar ikkumplikati. Iċ-ċirkwiti tagħna għal dawn l-imġibiet (pereżempju l-variable binding muri hawn taħt) huma aktar diffiċli biex jiġu spjegati kompletament. Anke hekk, xorta nistgħu niksbu spjegazzjonijiet parzjali relattivament sempliċi li huma predittivi tal-imġiba tal-mudell.

Dijagramma li tenfasizza eżempju ta’ ċirkwit sparse-transformer fil-funzjoni Python get_neighbors. Żewġ assenjazzjonijiet lil current = set() huma mqiegħda f’kaxxa, b’vleġeġ ikkuluriti li juru liema attention heads (ittikkettati b’indiċijiet Q/K/V) jattivaw biex jgħaqqdu kull okkorrenza tal-varjabbli current mal-użu tagħha fil-loop.

Eżempju ieħor ta’ ċirkwit, b’inqas dettall. Biex jiġi ddeterminat it-tip ta’ varjabbli bl-isem current, operazzjoni waħda ta’ attention tikkopja l-isem tal-varjabbli fit-token set() meta jiġi definit, u operazzjoni oħra aktar tard tikkopja t-tip mit-token set() għal użu sussegwenti tal-varjabbli, u b’hekk tippermetti lill-mudell jiddeduċi t-token korrett li jmiss.

It-triq ’il quddiem

Dan ix-xogħol huwa pass bikri lejn għan akbar: li nagħmlu l-komputazzjonijiet tal-mudell aktar faċli biex jinftiehmu. Iżda għad hemm triq twila x’nagħmlu. Il-mudelli sparse tagħna huma ħafna iżgħar mill-mudelli tal-fruntiera, u partijiet kbar mill-komputazzjoni tagħhom għadhom mhux interpretati.

Il-pass li jmiss, nittamaw li nżidu l-iskala tat-tekniki tagħna għal mudelli akbar, u li nispjegaw aktar mill-imġiba tal-mudelli. Billi nelenkaw motifs taċ-ċirkwiti li jsostnu raġunament aktar kumpless f’mudelli sparse kapaċi, nistgħu niżviluppaw fehim li jgħinna nimmiraw aħjar l-investigazzjonijiet ta’ mudelli tal-fruntiera.

Biex negħlbu l-ineffiċjenza tat-taħriġ ta’ mudelli sparse, naraw żewġ toroq ’il quddiem. Waħda hija li noħorġu ċirkwiti sparse minn mudelli densi eżistenti, aktar milli nħarrġu mudelli sparse mill-bidu nett. Il-mudelli densi huma fundamentalment aktar effiċjenti biex jitħaddmu minn mudelli sparse. It-triq l-oħra hija li niżviluppaw tekniki aktar effiċjenti biex nħarrġu mudelli għall-interpretabbiltà, li jista’ jkun aktar faċli li jitqiegħdu fil-produzzjoni.

Innota li s-sejbiet tagħna hawnhekk mhumiex garanzija li dan l-approċċ se jestendi għal sistemi aktar kapaċi, iżda dawn ir-riżultati bikrin huma promettenti. L-għan tagħna huwa li nespandu gradwalment kemm minn mudell nistgħu ninterpretaw b’mod affidabbli, u li nibnu għodod li jagħmlu s-sistemi futuri aktar faċli biex jiġu analizzati, debugged, u evalwati.

Awturi

Leo Gao, Achyuta Rajaram, Jacob Coxon, Soham V. Govande, Bowen Baker, u Dan Mossing

Kompli aqra

Ara kollox

$math-breakthroughs art-card 1x1$

Ten advances in mathematics and theoretical computer science

Pubblikazzjoni1 ta’ Aww, 2026

How enabling two settings tripled our scores on the ARC-AGI-3 benchmark

Riċerka29 ta’ Lul, 2026

oai Science Academic Research Academic Research 1x1

Accelerating scientific discovery with ChatGPT for Academic Researchers

Kumpanija29 ta’ Lul, 2026