Nobyembre 13, 2025

Pag-unawa sa mga neural network sa pamamagitan ng maluluwag na circuit

Sinanay namin ang mga modelo na mag-isip sa mas simple at mas masusubaybayang mga hakbang—para mas maintindihan namin kung paano gumagana ang mga ito.

Basahin mo ang dokumento

Naglo-load…

Pinatatakbo ng mga neural network pinakamahuhusay na mga sistema ng AI ngayon, pero nananatili pa ring mahirap unawain ang mga ito. Hindi namin isinusulat ang mga modelong ito nang may tahasan at sunud-sunod na mga tagubilin. Sa halip, natututo ang mga ito sa pamamagitan ng pag-aayos ng bilyun-bilyong panloob na koneksyon, o "timbang," hanggang sa makabisado ng mga ito ang isang gawain. Dinidisenyo namin ang mga patakaran ng pagsasanay, pero hindi ang mga partikular na gawi na lumilitaw, at ang resulta ay siksik na serye ng mga koneksyon na hindi madaling maunawaan ng sinumang tao.

Paano namin tinitingnan ang kakayahan sa pagbibigay-kahulugan

Habang nadaragdagan ang kakayahan ng mga sistema ng AI at habang nagkakaroon ito ng epekto sa totoong mundo sa mga desisyon sa siyensiya, edukasyon, at pangangalagang pangkalusugan, napakahalagang maunawaan kung paano gumagana ang mga ito. Ang Kakayahan sa Pagbibigay-kahulugan ay tumutukoy sa mga pamamaraan na tumutulong sa atin na maunawaan kung bakit nakagawa ng partikular na output ang isang modelo. Maraming paraan para makamit natin ito.

Halimbawa, ang mga modelo ng pangangatuwiran ay binibigyan ng insentibo para ipaliwanag ang kanilang paggawa tungo sa pangwakas na sagot. Ginagamit ng Kakayahan sa pagbibigay-kahulugan ng daloy ng pag-iisip ang mga paliwanag na ito para masubaybayan ang kilos ng modelo. Agad itong nagiging kapaki-pakinabang: ang kasalukuyang modelo sa pangangatuwiran ng daloy ng pag-iisip ay tila nagbibigay ng malinaw na indikasyon tungkol sa mga nakakabahalang gawi, tulad ng panlilinlang. Gayunpaman, ang lubos na pagdepende sa katangiang ito ay marupok na estratehiya, at pwede itong gumuho sa paglipas ng panahon.

Sa kabilang banda, ang mekanistikong kakayahan sa pagbibigay-kahulugan, na siyang pokus ng pag-aaral na ito, ay naglalayong lubusang i-reverse engineer ang mga kalkulasyon ng isang modelo. Sa ngayon, hindi pa ito gaanong kapaki-pakinabang, ngunit sa prinsipyo, maaari itong magbigay ng mas kumpletong paliwanag ng gawi ng modelo. Dahil sa pagsisikap na ipaliwanag ang gawi ng modelo sa pinaka-detalyadong antas, ang mekanistikong kakayahan sa pagbibigay-kahulugan ay maaaring gumawa ng mas kaunting mga pagpapalagay at bigyan tayo ng dagdag na kumpiyansa. Pero ang daan mula sa mababang antas ng mga detalye patungo sa mga paliwanag ng masalimuot na gawi ay mas mahaba at mas mahirap.

Sinusuportahan ng kakayahan sa pagbibigay-kahulugan ang ilang pangunahing layunin, halimbawa, ang pagbibigay-daan sa mas mahusay na pangangasiwa at pagbibigay ng mga maagang babala ng hindi ligtas o estratehikong maling gawi. Umaakma rin ito sa iba pa naming mga pagsisikap sa kaligtasan, tulad ng nasusukat na pangangasiwa, pagsasanay sa kalaban, at red-teaming.

Sa gawaing ito, ipinapakita namin na pwede kaming madalas na magsanay ng mga modelo sa mga paraang nagpapadali na bigyang-kahulugan ang mga ito. Nakikita namin ang aming trabaho bilang kapana-panabik na karagdagan sa post-hoc na pagsusuri ng siksik na mga network.

Ito ay napakaambisyosong taya; mahaba pa ang landas mula sa aming trabaho upang ganap na maunawaan ang mga kumplikadong gawi ng aming mga pinakamakapangyarihang modelo. Gayunpaman, para sa mga simpleng pag-uugali, nalaman namin na ang mga kakaunting modelo na sinanay gamit ang aming pamamaraan ay naglalaman ng maliliit at hiwalay na mga circuit na parehong nauunawaan at sapat upang maisagawa ang pag-uugali. Ipinapahiwatig nito na maaaring mayroong isang madaling landas patungo sa pagsasanay ng mas malalaking sistema na ang mga mekanismo ay maiintindihan natin.

Isang bagong pamamaraan: pag-aaral ng mga sparse na modelo

Ang nakaraang gawain sa mekanistikong kakayahan sa pagbibigay-kahulugan ay nagsimula sa siksik at masalimuot na mga network, at sinubukang kalasin ang pagkakabuhol ng mga ito. Sa mga network na ito, ang bawat indibidwal na neuron ay konektado sa libu-libong iba pang neuron. Karamihan sa mga neuron ay tila gumaganap ng maraming magkakaibang kakayahan, na nagiging tila imposibleng maunawaan.

Pero paano kung magsanay tayo ng mga buhol-buhol na neural network, na may mas maraming neuron, pero bawat neuron ay may ilang dosenang koneksyon lang? Baka ang mas simple at mas madaling maintindihan ang magreresultang network. Ito ang pangunahing pokus ng pananaliksik ng aming gawain.

Sa pagsasaalang-alang sa prinsipyong ito, sinanay namin ang mga modelo ng wika na may katulad na katulad na arkitektura sa mga umiiral na modelo ng wika tulad ng GPT‑2, na may maliit na pagbabago: pinuwersa namin ang karamihan sa mga timbang ng modelo na maging zero. Pinipigilan nito ang modelo na gumamit ng napakakaunting posibleng koneksyon sa pagitan ng mga neuron nito. Ito ay isang simpleng pagbabago na sa paniniwala namin ay malawakang magtatanggal ng pagkabuhol-buhol ng panloob na kalkulasyon ng modelo.

Diagram na naghahambing ng mga siksik na circuit at maluluwag na circuit. Ang siksik na bersyon ay nagpapakita ng dalawang hilera ng mga node na may maraming magkakaugnay na linya, habang ang maluwag na bersyon ay nagpapakita ng parehong layout ngunit may mas kaunti, mas piniling koneksyon.

Sa normal na siksik na neural network, ang bawat neuron ay konektado sa bawat neuron sa susunod na layer. Sa aming mga sparse na modelo, ang bawat neuron ay kumokonekta lamang sa ilang mga neuron sa susunod na layer. Umaasa kami na mas mapapadali nito ang pag-unawa sa mga neuron at sa network sa kabuuan.

Pagsusuri sa kakayahan sa pagbibigay-kahulugan

Gusto naming sukatin kung hanggang saan matatanggal ang pagkabuhol-buhol ng mga kalkulasyon ng aming mga sparse na modelo. Isinasaalang-alang namin ang iba't ibang simpleng gawi ng modelo, at sinuri kung maaari naming ihiwalay ang mga bahagi ng modelo na responsable para sa bawat gawi—na tinatawag naming mga circuit.

Maingat naming pinili ang isang hanay ng mga simpleng gawain na algoritmiko. Para sa bawat isa, tinabas namin ang modelo hanggang sa pinakamaliit na circuit na maaari pa ring magsagawa ng gawain, at sinuri kung gaano kasimple ang circuit na iyon. (Para sa mga detalye, tingnan ang aming dokumento⁠(magbubukas sa bagong window).) Natuklasan namin na sa pamamagitan ng pagsasanay ng mas malalaki at mas kakaunting mga modelo, maaari kaming makabuo ng mas may kakayahang mga modelo na may mas simpleng mga circuit.

Scatter plot na nagpapakita ng kakayahan ng modelo (kawalan bago ang pagsasanay) sa x-axis laban sa kakayahan sa pagbibigay-kahulugan (tinabas ang laki ng circuit) sa y-axis. Ang mga puntos ay kumakatawan sa mga modelo ng iba't ibang laki at antas ng sparsity, kung saan ang kulay ay nagpapahiwatig ng kabuuang bilang ng mga parameter at ang laki ng marker ay nagpapahiwatig ng bilang ng mga di-zero na parameter. Ang mga arrow ay naglalagay ng label sa itaas na kanang direksyon bilang "mas mahusay."

Ipinapakita namin ang kakayahan sa pagbibigay-kahulugan kumpara sa kakayahan ng lahat ng modelo (mas mahusay ang nasa kaliwang ibaba). Para sa hindi nababagong laki ng sparse na modelo, ang pagdaragdag ng sparsity—pagtatakda ng mas maraming timbang sa zero—ay nagpapababa ng kakayahan ngunit nagpapataas ng kakayahan sa pagbibigay-kahulugan. Ang pagpapalawak sa laki ng modelo ay naglilipat ng frontier na ito palabas, na nagpapahiwatig na maaari tayong bumuo ng mas malalaking modelo na kapwa mahusay at may kakayahan sa pagbibigay-kahulugan.

Para gawing mas malinaw ito, mag-isip ka ng gawain kung saan ang isang modelong sinanay sa Python code ay kailangang tapusin ang isang string gamit ang tamang uri ng panipi. Sa Python, ang 'hello' ay dapat magtapos sa iisang panipi, at ang "hello" ay dapat magtapos sa dalawang panipi. Malulutas ito ng modelo sa pamamagitan ng pag-alala kung aling uri ng panipi ang nagbukas ng string at muling kopyahin ito sa dulo.

Ang aming pinakamadaling maunawaan na mga modelo ay tila naglalaman ng hiwa-hiwalay na circuit na nagpapatupad ng eksaktong algoritmo na iyon.

Diagram na naglalarawan ng isang halimbawa ng circuit sa isang sparse na transformer. Ipinapakita nito kung paano i-activate ang mga partikular na neuron at attention head bilang tugon sa mga input token tulad ng "(" at "circuits," na may label na mga landas para sa positibo at negatibong timbang, multiplikasyon, nonlinearities, at koneksyon sa pagitan ng MLP at mga layer ng pansin, na nagtatapos sa mga posibilidad ng output token.

Halimbawa ng circuit sa isang sparse na transformer na humuhula kung tatapusin ang isang string sa iisa o dalawang panipi. Ang circuit na ito ay gumagamit lamang ng limang natitirang channel (vertical na kulay-abo na mga linya), dalawang neuron ng MLP sa layer 0, at isang attention query-key channel at isang value channel sa layer 10. Ang modelo (1) ay nag-e-encode ng mga iisang panipi sa isang natitirang channel at dalawang panipi sa isa pa; (2) gumagamit ng MLP layer upang i-convert ito sa isang channel na nakakakita ng anumang panipi at isa pa na nag-uuri sa pagitan ng iisa at dalawang panipi; (3) gumagamit ng operasyon ng atensyon upang huwag pansinin ang mga namamagitan na token, hinahanap ang naunang panipi, at kinokopya ang uri nito sa huling token; at (4) hinuhulaan ang pagtutugma ng pangwakas na panipi.

Sa aming kahulugan, ang eksaktong mga koneksyon na ipinapakita sa itaas ay sapat na upang maisagawa ang gawain—kung aalisin namin ang natitirang bahagi ng modelo, gagana pa rin ang maliit na circuit na ito. Kinakailangan din ang mga ito–ang pag-delete sa ilang gilid na ito ay nagiging sanhi ng pagpalya ng modelo.

Tiningnan din namin ang ilang mas kumplikadong gawi. Ang aming mga circuit para sa mga gawing ito (halimbawa, ang variable binding na ipinapakita sa ibaba) ay mas mahirap ipaliwanag nang lubusan. Kahit ganoon, pwede pa rin tayong makakuha ng medyo simpleng bahagyang paliwanag na mahuhulaan ang gawi ng modelo.

Diagram na nagbibigay-diin sa isang halimbawa ng sparse-transformer na circuit sa loob ng Python function na get_neighbors. Dalawang assignment sa current = set() ay nakakahon, na may makukulay na arrow na nagpapakita kung aling mga ulo ng pansin (na may label na may mga indeks ng Q/K/V) ang i-activate upang ikonekta ang bawat paglitaw ng variable na current sa paggamit nito sa loop.

Isa pang halimbawa ng circuit, na may mas kaunting detalye. Para matukoy ang uri ng isang variable na tinatawag na current, isang operasyon ng pansin ang kumokopya ng pangalan ng variable sa set() token kapag ito ay tinukoy, at isa pang operasyon sa ibang pagkakataon ang kumokopya ng uri mula sa set() token sa isang kasunod na paggamit ng variable, na nagpapahintulot sa modelo na mahinuha ang tamang susunod na token.

Ang hinaharap

Ang gawaing ito ay maagang hakbang patungo sa isang mas malaking layunin: gawing mas madaling maintindihan ang mga kalkulasyon ng modelo. Pero, mahaba pa ang lalakbayin. Ang aming mga sparse na modelo ay mas maliit kaysa sa mga frontier na modelo, at malaking bahagi ng kanilang kalkulasyon ay hindi pa nabibigyang-kahulugan.

Susunod, umaasa kaming palawakin ang aming mga pamamaraan sa mas malalaking modelo, at ipaliwanag pa ang gawi ng mga ito. Sa pag-iisa-isa ng mga motif ng circuit na nasa ilalim ng mas kumplikadong pangangatuwiran sa mahuhusay na sparse na modelo, maaari tayong bumuo ng pag-unawa na makakatulong sa atin na mas mahusay na puntiryahin ang mga pagsisiyasat sa mga frontier na modelo.

Para madaig ang hindi mahusay na sa pagsasanay ng mga sparse na modelo, nakakakita kami ng dalawang landas upang sumulong. Isa ay ang i-extract ng mga kaunting circuit mula sa mga umiiral na siksik na mga modelo, sa halip na sanayin ang mga sparse na modelo mula sa simula. Ang mga siksik na modelo ay mas mahusay i-deploy kaysa sa mga sparse na modelo. Ang isa pang landas ay ang pagbuo ng mas mahusay na mga pamamaraan para sanayin ang mga modelo sa kakayahan sa pagbibigay-kahulugan, na maaaring mas madaling isagawa.

Tandaan na ang aming mga natuklasan dito ay hindi garantiya na ang diskarte na ito ay magpapalawak sa mas may kakayahang mga sistema, ngunit ang mga maagang resulta na ito ay kapana-panabik. Ang layunin namin ay unti-unting palawakin kung gaano karaming bahagi ng isang modelo ang maaari naming mapagkakatiwalaang bigyang-kahulugan, at bumuo ng mga tool na magpapadali sa pagsusuri, pag-debug, at pag-evaluate ng mga sistema sa hinaharap.

Mga May-akda

Leo Gao, Achyuta Rajaram, Jacob Coxon, Soham V. Govande, Bowen Baker, Dan Mossing

Magpatuloy sa pagbabasa

Tingnan lahat

$math-breakthroughs art-card 1x1$

Ten advances in mathematics and theoretical computer science

PaglalathalaAgo 1, 2026

Paano pinatris ng dalawang setting ang aming mga marka sa ARC-AGI-3 benchmark

PananaliksikHul 29, 2026

oai Science Academic Research Academic Research 1x1

Accelerating scientific discovery with ChatGPT for Academic Researchers

KumpanyaHul 29, 2026