Ngerteni jaringan saraf liwat sirkuit sparse
Kita nglatih model supaya mikir nganggo langkah sing luwih prasaja lan luwih gampang dilacak—supaya kita bisa luwih ngerti carane cara kerjane.
Jaringan saraf nguwatake sistem AI paling mumpuni saiki, nanging isih angel dingerteni. Kita ora nulis model-model iki nganggo instruksi eksplisit langkah demi langkah. Nanging, model kasebut sinau kanthi nyetel milyaran sambungan internal, utawa “bobot,” nganti bisa nguwasani sawijining tugas. Kita ngrancang aturan latihane, nanging ora prilaku spesifik sing muncul, lan asilé yaiku jalinan sambungan padhet sing ora gampang diudhari manungsa.
Nalika sistem AI dadi luwih mumpuni lan nduweni dampak nyata marang keputusan ing ilmu pengetahuan, pendhidhikan, lan layanan kesehatan, mangerteni cara kerjane iku penting banget. Interpretabilitas nuduhake metode sing mbantu kita mangerteni kenapa sawijining model ngasilake output tartamtu. Ana akeh cara kanggo nggayuh iki.
Contone, model nalar diwenehi insentif supaya nerangake proses kerjane nalika nuju jawaban pungkasan. Interpretabilitas chain of thought migunakake penjelasan iki kanggo ngawasi prilaku model. Iki migunani kanthi langsung: chain of thought saka model nalar saiki katon informatif ngenani prilaku sing nguwatirake kaya penipuan. Nanging, yen gumantung sakabehe marang sipat iki, strategine rapuh, lan iki bisa waé ora lestari suwe-suwe.
Ing sisih liya, interpretabilitas mekanistik, sing dadi fokus karya iki, ngupaya mbalikke rekayasa komputasi model kanthi lengkap. Nganti saiki iki durung langsung migunani kaya pendekatan liyane, nanging kanthi prinsip bisa menehi panjelasan sing luwih jangkep babagan prilaku model. Kanthi ngupaya nerangake prilaku model ing tingkat sing paling rinci, interpretabilitas mekanistik bisa nggawe asumsi luwih sithik lan menehi kita kapercayan luwih gedhe. Nanging dalan saka rincian tingkat rendah menyang panjelasan prilaku kompleks iku luwih dawa lan luwih angel.
Interpretabilitas ndhukung sawetara tujuan utama, contone ngidini pengawasan sing luwih apik lan menehi tandha peringatan dini marang prilaku sing ora aman utawa ora selaras sacara strategis. Iki uga nglengkapi upaya keamanan liyane, kayata scalable oversight, adversarial training, lan red-teaming.
Ing karya iki, kita nuduhake yen kita kerep bisa nglatih model kanthi cara sing ndadekake model luwih gampang diinterpretasi. Kita ndeleng karya iki minangka pelengkap sing njanjeni kanggo analisis post-hoc jaringan padhet.
Iki taruhan sing ambisius banget; isih dawa dalane saka karya iki nganti bener-bener mangerteni prilaku kompleks saka model kita sing paling kuat. Nanging, kanggo prilaku sing prasaja, kita nemokake yen model sparse sing dilatih nganggo metode kita ngemot sirkuit cilik sing kapisah kanthi rapi, sing bisa dingerteni lan cukup kanggo nindakake prilaku kasebut. Iki nuduhake bisa uga ana dalan sing cukup terjangkau kanggo nglatih sistem luwih gedhe sing mekanismene bisa kita pahami.
Karya interpretabilitas mekanistik sadurunge diwiwiti saka jaringan padhet sing semrawut, banjur nyoba ngresiki. Ing jaringan iki, saben neuron individu nyambung karo ewu neuron liyane. Akèh neuron katon nindakake akeh fungsi sing béda, saéngga kaya-kaya mokal kanggo dimangerteni.
Nanging, piye yen kita nglatih jaringan saraf sing ora semrawut, kanthi neuron luwih akeh, nanging saben neuron mung nduweni sawetara lusin sambungan? Yen mangkono, bisa waé jaringan asilé luwih prasaja lan luwih gampang dingerteni. Iki taruhan riset utama saka karya kita.
Kanthi prinsip iki, kita nglatih model basa nganggo arsitektur sing meh padha karo model basa sing wis ana kaya GPT‑2, kanthi siji modifikasi cilik: kita meksa mayoritas gedhe bobot model dadi nol. Iki mbatesi model supaya mung nggunakake sethithik sambungan sing bisa ana antarane neuron-neurone. Iki owah-owahan sing prasaja sing miturut kita sacara substansial misahake komputasi internal model.
Ing jaringan saraf padhet normal, saben neuron nyambung karo saben neuron ing lapisan sabanjure. Ing model sparse kita, saben neuron mung nyambung karo sawetara neuron ing lapisan sabanjure. Kita ngarepake iki nggawe neuron-neuron kasebut, lan jaringan sacara sakabehe, luwih gampang dingerteni.
Kita kepengin ngukur sepira adoh komputasi model sparse kita iku kapisah kanthi rapi. Kita nimbang macem-macem prilaku model prasaja, banjur mriksa apa kita bisa ngisolasi bagean model sing tanggung jawab kanggo saben prilaku—sing kita sebut sirkuit.
Kita milih kanthi manual sakumpulan tugas algoritmis prasaja. Kanggo saben tugas, kita pruning model nganti dadi sirkuit paling cilik sing isih bisa nindakake tugas kasebut, banjur mriksa sepira prasajane sirkuit iku. (Kanggo rinciyané, delengen makalah(mbukak ing jendhela anyar) kita.) Kita nemokake yen kanthi nglatih model sing luwih gedhe lan luwih sparse, kita bisa ngasilake model sing saya mumpuni kanthi sirkuit sing saya prasaja.
Kita nggambar interpretabilitas lawan kapabilitas ing macem-macem model (kiwa-ngisor luwih apik). Kanggo ukuran model sparse sing tetep, nambah sparsitas—nggawe luwih akeh bobot dadi nol—ngurangi kapabilitas nanging nambah interpretabilitas. Nggedhekake ukuran model nggeser frontier iki metu, nuduhake yen kita bisa mbangun model luwih gedhe sing sekaligus mumpuni lan bisa diinterpretasi.
Supaya luwih cetha, delengen tugas nalika model sing dilatih nganggo kode Python kudu ngrampungake string nganggo jinis tanda petik sing bener. Ing Python, ‘hello’ kudu dipungkasi nganggo tanda petik tunggal, lan “hello” kudu dipungkasi nganggo tanda petik dobel. Model bisa ngrampungake iki kanthi ngelingi jinis tanda petik sing mbukak string lan ngasilake maneh ing pungkasan.
Model kita sing paling bisa diinterpretasi katon ngemot sirkuit sing kapisah kanthi rapi lan ngetrapake algoritma kasebut kanthi pas.

Conto sirkuit ing transformer sparse sing prédhiksi apa string kudu dipungkasi nganggo tanda petik tunggal utawa dobel. Sirkuit iki mung nggunakake lima kanal residual (garis abu-abu vertikal), loro neuron MLP ing lapisan 0, lan siji kanal query-key atensi lan siji kanal value ing lapisan 10. Model iki (1) ngodeke tanda petik tunggal ing siji kanal residual lan tanda petik dobel ing kanal liyane; (2) nggunakake lapisan MLP kanggo ngowahi iki dadi siji kanal sing ndeteksi tandha petik apa wae lan kanal liyane sing nggolongake antarane tanda petik tunggal lan dobel; (3) nggunakake operasi atensi kanggo nglirwakake token sing nyela, nemokake tanda petik sadurunge, lan nyalin jinisé menyang token pungkasan; lan (4) prédhiksi tanda petik panutup sing cocog.
Miturut definisi kita, sambungan persis sing dituduhake ing ndhuwur wis cukup kanggo nindakake tugas—yen bagean liyane saka model dibusak, sirkuit cilik iki isih bisa mlaku. Sambungan iki uga perlu—mbusak sawetara edge iki nyebabake model gagal.
Kita uga nliti sawetara prilaku sing luwih rumit. Sirkuit kita kanggo prilaku-prilaku iki (contone variable binding sing dituduhake ing ngisor) luwih angel diterangake kanthi lengkap. Sanadyan mangkono, kita isih bisa nggayuh panjelasan parsial sing cukup prasaja lan prediktif marang prilaku model.
Conto sirkuit liyane, kanthi rincian sing luwih sithik. Kanggo nemtokake tipe saka variabel jenenge current, siji operasi atensi nyalin jeneng variabel menyang token set() nalika didefinisikake, lan operasi liyane mengko nyalin tipe saka token set() menyang panggunaan variabel sabanjure, supaya model bisa nyimpulake token sabanjure sing bener.
Karya iki minangka langkah awal menyang tujuan sing luwih gedhe: nggawe komputasi model luwih gampang dingerteni. Nanging, isih adoh dalane. Model sparse kita luwih cilik tinimbang model tercanggih, lan bagean gedhe saka komputasine isih durung diinterpretasi.
Sabanjure, kita ngarepake bisa nggedhekake teknik kita menyang model sing luwih gedhe, lan nerangake luwih akeh prilaku model kasebut. Kanthi ndaftar motif sirkuit sing ndasari nalar sing luwih kompleks ing model sparse sing mumpuni, kita bisa ngembangake pemahaman sing mbantu kita luwih pas nargetake investigasi model tercanggih.
Kanggo ngatasi inefisiensi nglatih model sparse, kita ndeleng ana rong dalan maju. Sing siji yaiku ngekstrak sirkuit sparse saka model padhet sing wis ana, tinimbang nglatih model sparse saka nol. Model padhet sakjane luwih efisien kanggo dipasang tinimbang model sparse. Dalan liyane yaiku ngembangake teknik sing luwih efisien kanggo nglatih model demi interpretabilitas, sing bisa uga luwih gampang ditrapake ing produksi.
Elinga yen panemuan kita ing kene dudu jaminan yen pendekatan iki bakal bisa ditrapake menyang sistem sing luwih mumpuni, nanging asil awal iki njanjeni. Tujuan kita yaiku alon-alon nggedhekake sepira akeh bagean model sing bisa kita interpretasi kanthi andal, lan mbangun piranti sing ndadekake sistem mangsa ngarep luwih gampang dianalisis, di-debug, lan dievaluasi.
Panulis
Leo Gao, Achyuta Rajaram, Jacob Coxon, Soham V. Govande, Bowen Baker, Dan Mossing


