U bood nuxurka ugu muhiimsan
OpenAI

Noofeembar 13, 2025

Cilmi-baarisDaabacaadda

Fahamka shabakadaha neerfaha iyadoo loo marayo wareegyo sparse ah

Waxaan tababarnay noocyo si ay ugu fikiraan tallaabooyin ka sahlan oo si fudud loo raaci karo—si aan si ka fiican ugu fahanno sida ay u shaqeeyaan.

Soo kacaya…

​​Shabakadaha neerfuhu waxay awood siiyaan nidaamyada AI ee maanta ugu awoodda badan, laakiin weli way adag tahay in la fahmo. Kuma qorno noocyadan tilmaamo cadcad oo tallaabo-tallaabo ah. Halkii, waxay wax ku bartaan iyagoo hagaajinaya balaayiin xidhiidh gudaha ah, ama “weights,” ilaa ay hawl si fiican u bartaan. Annagu waxaan dejinnaa xeerarka tababarka, balse ma dejinno dabeecadaha gaarka ah ee ka soo baxa, natiijaduna waa shabakad cufan oo xidhiidho ah oo aan qofna si fudud u kala fahmi karin.

Sida aan u aragno interpretability

Maaddaama nidaamyada AI ay sii awood badanayaan oo ay saameyn dhab ah ku yeelanayaan go'aannada sayniska, waxbarashada, iyo daryeelka caafimaadka, fahamka sida ay u shaqeeyaan waa lama huraan. Interpretability waxay tilmaamaysaa habab naga caawiya inaan fahanno sababta nooc u soo saaray natiijo gaar ah. Waxaa jira siyaabo badan oo tan lagu gaari karo.

Tusaale ahaan, noocyada caqliyeynta waxaa lagu dhiirrigeliyaa inay sharxaan shaqadooda inta ay ku sii socdaan jawaabta kama dambaysta ah. Chain of thought interpretability waxay ka faa'iidaysataa sharraxaadahan si loola socdo hab-dhaqanka nooca. Tani si degdeg ah ayay faa'iido u leedahay: silsiladaha fikirka ee noocyada caqliyeynta ee hadda jira waxay u muuqdaan kuwo xog bixin leh marka la eego dabeecado walaac leh sida khiyaano. Hase yeeshee, in gebi ahaanba lagu tiirsanaado sifo tan oo kale ah waa xeelad jilicsan, waxaana dhici karta inay waqti ka dib daciifto.

Dhinaca kale, mechanistic interpretability, oo ah diiradda shaqadan, waxay doonaysaa inay si buuxda dib ugu rogto injineernimada xisaabinta nooc. Ilaa hadda si toos ah uguma aysan noqon mid faa'iido badan, laakiin mabda' ahaan, waxay bixin kartaa sharaxaad ka dhammaystiran hab-dhaqanka nooca. Iyadoo la isku dayayo in la sharaxo hab-dhaqanka nooca heerka ugu faahfaahsan, mechanistic interpretability waxay samayn kartaa mala-awaallo yar waxayna na siin kartaa kalsooni badan. Laakiin jidka ka imanaya faahfaahinta heerka hoose ilaa sharaxaadaha dabeecadaha adag waa mid aad uga dheer oo uga dhib badan.

Interpretability waxay taageertaa dhowr yool oo muhiim ah, tusaale ahaan awoodsiinta kormeer ka wanaagsan iyo bixinta calaamado digniin hore ah oo ku saabsan hab-dhaqan aan ammaan ahayn ama si istiraatiiji ah u khaldan. Waxa kale oo ay kabtaa dadaalladayada kale ee amniga, sida scalable oversight, adversarial training, iyo red-teaming.

Shaqadan, waxaan ku muujinaynaa inaan inta badan u tababari karno noocyo siyaabo ka dhigaya kuwo sahlan in la fasiro. Waxaan u aragnaa shaqadeenna inay tahay kabis rajo leh oo lagu darayo falanqaynta post-hoc ee shabakadaha cufan.

Tani waa sharad aad u hammi badan; waxaa naga xiga jid dheer oo u dhexeeya shaqadeenna iyo in si buuxda loo fahmo dabeecadaha adag ee noocyadeenna ugu awoodda badan. Hase yeeshee, dabeecadaha fudud marka la eego, waxaan ogaanay in noocyada sparse ee lagu tababaray habkeenna ay ka kooban yihiin wareegyo yaryar oo kala soocan oo la fahmi karo isla markaana ku filan fulinta dabeecaddaas. Tani waxay soo jeedinaysaa inay jiri karto waddo macquul ah oo loogu socdo tababarka nidaamyo waaweyn oo aan fahmi karno hababka ay u shaqeeyaan.

Hab cusub: barashada noocyo sparse ah

Shaqooyinkii hore ee mechanistic interpretability waxay ka bilaabmeen shabakado cufan oo isku dhex yaacsan, waxayna isku dayeen inay kala furfuraan. Shabakadahaan, neuron kasta wuxuu ku xiran yahay kumannaan neuron oo kale. Inta badan neuron-nadu waxay u muuqdaan inay qabtaan hawlo badan oo kala duwan, taasoo ka dhigaysa inay u ekaato wax aan macquul ahayn in la fahmo.

Laakiin maxaa dhacaya haddii aan tababbarno shabakado neerfaha oo aan isku dhex qasneyn, leh neuronno aad uga badan, balse neuron kastaa leeyahay oo keliya dhowr iyo toban xidhiidh? Markaas waxaa laga yaabaa in shabakadda soo baxda ay noqoto mid ka sahlan oo si fudud loo fahmi karo. Tani waa sharadka cilmi-baariseed ee udub-dhexaadka u ah shaqadeenna.

Anagoo mabda'aan maskaxda ku hayna, waxaan tababarnay noocyo luqadeed leh qaab dhismeed aad ugu eg noocyada luqadeed ee jira sida GPT‑2, iyadoo hal wax-ka-beddel yar la sameeyay: waxaan ku khasabnay inta ugu badan ee weights-ka nooca inay noqdaan eber. Tani waxay ku qasabtay nooca inuu adeegsado oo keliya tiro aad u yar oo ka mid ah xidhiidhada suurtagalka ah ee u dhexeeya neuron-nadiisa. Tani waa isbeddel fudud oo aan ku doodno inuu si weyn u kala furo xisaabinta gudaha ee nooca.

Jaantus isbarbar dhigaya wareegyo cufan iyo wareegyo sparse ah. Nooca cufan wuxuu muujinayaa laba saf oo barta isku xidhka ah oo leh xarriiqyo badan oo is dhexgal ah, halka nooca sparse uu muujinayo isla qaabkaas laakiin leh xidhiidho yar oo si xulasho leh loo doortay.

Shabakadaha neerfaha ee cufan ee caadiga ah, neuron kasta wuxuu ku xiran yahay neuron kasta oo ku jira lakabka xiga. Noocyadeenna sparse, neuron kasta wuxuu ku xiran yahay oo keliya dhowr neuron oo ku jira lakabka xiga. Waxaan rajaynaynaa in tani ay ka dhigto neuron-nada, iyo shabakadda guud ahaanba, kuwo si fudud loo fahmi karo.

Qiimaynta interpretability

Waxaan dooneynaa inaan cabbirno heerka ay xisaabinta noocyadeenna sparse u kala soocan yihiin. Waxaan tixgelinnay dabeecado nooc oo fudud oo kala duwan, waxaana hubinnay in aan go'doomin karno qaybaha nooca ee mas'uulka ka ah dabeecad kasta—kuwaas oo aan ugu yeerno wareegyo.

Waxaan gacanta ku diyaarinay ururin hawlo algorithmic fudud ah. Mid kasta, waxaan u jaraynay nooca wareegga ugu yar ee weli qaban kara hawsha, ka dibna waxaan eegnay sida uu wareeggaasi u fudud yahay. (Faahfaahin, eeg warqaddeenna(ku furmaa daaqad cusub).) Waxaan ogaanay in anagoo tababarrayna noocyo waaweyn oo sparse badan leh, aan soo saari karno noocyo sii kordhaya awooddooda oo leh wareegyo sii kordhaya fudayd ahaan.

Sawir scatter plot ah oo muujinaya awoodda nooca (pretraining loss) ee dhidibka x iyo fasiraad-fudaydka (cabirka wareegga la jaray) ee dhidibka y. Dhibcuhu waxay matalaan noocyo cabbirro iyo heerar sparse kala duwan leh, halka midabku muujinayo tirada guud ee parameters-ka, cabbirka calaamaduna muujinayo tirada parameters-ka aan eberka ahayn. Fallaadhuhu waxay ku calaamadeeyaan jihada kore-midig inay tahay “ka fiican.”

Waxaan sawirnaa fasiraad-fudaydka iyo awoodda guud ahaan noocyada (hoose-bidix ayaa ka fiican). Marka cabbirka nooca sparse uu go'an yahay, kordhinta sparsity-ga—iyadoo miisaano badan eber laga dhigayo—waxay yaraysaa awoodda laakiin waxay kordhisaa fasiraad-fudaydka. Kordhinta cabbirka nooca waxay xuduuddan ugu riixdaa bannaanka, taas oo soo jeedinaysa inaan dhisi karno noocyo waaweyn oo leh awood iyo fasiraad-fudayd labadaba.

Si tan loo taaban karo, tixgeli hawl uu nooc ku tababaran koodhka Python ku dhammaystirayo xaraf-taxane isagoo adeegsanaya nooca saxda ah ee quote-ka. Python gudaheeda, ‘hello’ waa inuu ku dhammaadaa hal quote, “hello”na waa inuu ku dhammaadaa laba quote. Noocu wuxuu tan ku xallin karaa isagoo xasuusanaya nooca quote-ka furay xaraf-taxanaha oo isla kaas ku soo saaraya dhammaadka.

Noocyadeenna ugu fudud in la fasiro waxay u muuqdaan inay ka kooban yihiin wareegyo kala soocan oo hirgeliya si sax ah algorithm-kaas.

Jaantus muujinaya tusaale wareeg ku jira transformer sparse ah. Wuxuu tusayaa sida neuronno gaar ah iyo madaxyo attention ahi u firfircoonaadaan marka ay ka jawaabayaan token-yo gelin ah sida “(” iyo “circuits,”, iyadoo ay jiraan waddooyin la calaamadeeyay oo loogu talagalay miisaan togan iyo taban, isku-dhufasho, nonlinearities, iyo xidhiidhada u dhexeeya lakabyada MLP iyo attention-ka, kuna dhammaanaya itimaalka token-ka soo baxa.

Tusaale wareeg ku jira transformer sparse ah oo saadaaliya in xaraf-taxane lagu dhammeeyo hal quote mise laba quote. Wareeggani wuxuu adeegsadaa shan residual channel oo keliya (xarriiqyada cawl ee taagan), laba neuron oo MLP ah oo ku jira lakabka 0, iyo hal attention query-key channel iyo hal value channel oo ku jira lakabka 10. Noocu wuxuu (1) ku koodiyaa hal quote hal residual channel iyo laba quote residual channel kale; (2) wuxuu adeegsadaa lakabka MLP si uu tan ugu beddelo hal channel oo ogaada quote kasta iyo channel kale oo kala saara hal iyo laba quote; (3) wuxuu adeegsadaa hawlgal attention ah si uu isaga indho tiro token-yada u dhexeeya, u helo quote-kii hore, ugana koobiyeeyo noociisa token-ka ugu dambeeya; iyo (4) wuxuu saadaaliyaa quote-ka xidhitaanka ee u dhigma.

Qeexitaankeenna, xidhiidhada saxda ah ee kor lagu muujiyey ayaa ku filan fulinta hawsha—haddii aan ka saarno inta kale ee nooca, wareeggan yar weli wuu shaqaynayaa. Sidoo kale waa lama huraan—tirista geesahan yar waxay sababtaa in noocu fashilmo.

Waxaan sidoo kale eegnay qaar ka mid ah dabeecado ka sii adag. Wareegyadeenna dabeecadahaan (tusaale ahaan variable binding-ka hoos lagu muujiyey) way adag tahay in si buuxda loo sharaxo. Xitaa markaas, weli waxaan gaari karnaa sharaxaad qayb ahaan fudud oo saadaalin karta hab-dhaqanka nooca.

Jaantus muujinaya tusaale wareeg sparse-transformer ah oo ku jira hawsha Python ee get_neighbors. Laba meelood oo current = set() lagu qoondeeyay ayaa sanduuq lagu xardhay, fallaadho midab lehna waxay muujinayaan madaxyada attention-ka (ee lagu calaamadeeyay tusmooyinka Q/K/V) ee firfircoon si ay ugu xiraan dhacdo kasta oo doorsoomaha current ah isticmaalka uu ku leeyahay loop-ka.

Tusaale kale oo wareeg ah, oo faahfaahin yar leh. Si loo go'aamiyo nooca doorsoome la yiraahdo current, hal hawlgal attention ah ayaa magacii doorsoomaha ku koobiyeeya token-ka set() marka la qeexayo, hawlgal kale oo dambena wuxuu nooca ka soo koobiyeeyaa token-ka set() una gudbiyaa isticmaalka xiga ee doorsoomaha, taas oo u oggolaanaysa nooca inuu garto token-ka xiga ee saxda ah.

Jidka hore

Shaqadani waa tallaabo hore oo loo qaaday yool weyn: in xisaabinta nooca laga dhigo mid sahlan in la fahmo. Laakiin weli jid dheer baa harsan. Noocyadeenna sparse aad bay uga yar yihiin noocyada ugu casriyeysan, qaybo waaweyn oo ka mid ah xisaabintoodana weli lama fasirin.

Marka xigta, waxaan rajaynaynaa inaan farsamooyinkeenna gaarsiinno noocyo waaweyn, isla markaana aan sharaxno qayb badan oo ka mid ah hab-dhaqanka noocyada. Anagoo taxayna qaababka wareegga ee salka u ah caqliyeyn ka sii adag ee noocyada sparse ee awoodda leh, waxaan horumarin karnaa faham naga caawinaya inaan si fiican u beegsanno baaritaannada noocyada ugu casriyeysan.

Si looga gudbo waxtar-darrada tababarka noocyo sparse ah, waxaan aragnaa laba jid oo hore. Mid waa in wareegyo sparse laga soo saaro noocyada cufan ee jira, halkii noocyo sparse laga tababari lahaa meel eber ah. Noocyada cufan ayaa aasaas ahaan ka waxtar badan noocyada sparse marka la hawlgelinayo. Jidka kale waa in la sameeyo farsamooyin ka waxtar badan oo lagu tababaro noocyo loogu talagalay interpretability, kuwaas oo laga yaabo inay sahlanaato in wax-soo-saarka lagu geeyo.

Ogow in natiijooyinkayagu halkan aanay dammaanad ka bixinayn in habkani gaadhi doono nidaamyo ka awood badan, laakiin natiijooyinkan hore waa kuwo rajo leh. Ujeeddadeennu waa inaan si tartiib tartiib ah u ballaarinno inta nooc ka mid ah ee aan si lagu kalsoonaan karo u fasiri karno, iyo inaan dhisno qalab ka dhigaya nidaamyada mustaqbalka kuwo sahlan in la falanqeeyo, la saxo, lana qiimeeyo.

Qorayaal

Leo Gao, Achyuta Rajaram, Jacob Coxon, Soham V. Govande, Bowen Baker, Dan Mossing