Kuelewa mitandao ya neva kupitia mizunguko michache.
Tulifundisha miundo ku-waza kwa hatua rahisi zaidi, zinazoweza kufuatiliwa - ili tuweze kuelewa vyema jinsi zinavyofanya kazi.
Mitandao ya neva inaendesha mifumo ya AI yenye uwezo mkubwa zaidi wa leo, lakini bado ni ngumu kuelewa. Hatuandiki miundo hii kwa maagizo ya wazi, ya hatua kwa hatua. Badala yake, wanajifunza kwa kurekebisha mabilioni ya viunganisho vya ndani, au “uzito,” hadi watakapobobea katika shughuli fulani. Tunabuni sheria za mafunzo, lakini si tabia maalum zinazojitokeza, na matokeo ni mtandao mnene wa uhusiano ambao hakuna mwanadamu anayeweza kufasiri kwa urahisi.
Kadiri mifumo ya AI inavyoweza zaidi na ina athari halisi kwenye maamuzi katika sayansi, elimu na huduma za afya, kuelewa jinsi zinavyofanya kazi ni muhimu. Ufafanuzi unahusu mbinu zinazotusaidia kuelewa kwa nini muundo ulitoa utoaji fulani. Kuna njia nyingi ambazo tunaweza kufikia hili.
Kwa mfano, miundo ya uwazaji inahimizwa kuelezea kazi yake katika safari ya kufikia jibu la mwisho. Mlolongo wa mawazo unatumia maelezo haya kufuatilia tabia ya muundo. Hii ni muhimu mara moja: minyororo ya mawazo ya miundo ya sasa ya hoja inaonekana kuwa na taarifa kuhusu tabia zinazohusu kama udanganyifu. Hata hivyo, kutegemea kikamilifu mali hii ni mkakati dhaifu na hii inaweza kuvunjika baada ya muda.
Kwa upande mwingine, ufafanuzi wa kimitambo, ambao ndio lengo la kazi hii, unalenga kubadilisha kabisa uhandisi wa nyuma wa hesabu za muundo. Hadi sasa haijawa na manufaa ya haraka, lakini kimsingi, inaweza kutoa maelezo kamili zaidi ya tabia ya muundo. Kwa kutafuta kuelezea tabia ya muundo kwa kiwango cha kina zaidi, ufafanuzi wa kimitambo unaweza kufanya dhana chache na kutupa ujasiri zaidi. Lakini njia kutoka kwa maelezo ya kiwango cha chini hadi ufafanuzi wa tabia changamano ni ndefu zaidi na ngumu zaidi.
Ufafanuzi ni usaidizi wa malengo kadhaa muhimu, kwa mfano kuwezesha usimamizi bora na kutoa ishara za mapema za tabia zisizo salama au zisizo na mwelekeo wa kimkakati. Pia inakamilisha juhudi zetu zingine za usalama, kama vile usimamizi unaoweza kupanuka, mafunzo ya upinzani na timu nyekundu.
Katika kazi hii, tunaonyesha kuwa mara nyingi tunaweza kujifunza miundo kwa njia ambazo zinafanya iwe rahisi kufasiri. Tunaona kazi yetu kama nyongeza inayoahidi kwa uchambuzi wa post-hoc wa mitandao yenye msongamano.
Hii ni dau la kijasiri sana; kuna njia ndefu kutoka kwa kazi yetu kuelekea kuelewa kikamilifu tabia changamano za miundo yetu yenye nguvu zaidi. Hata hivyo, kwa tabia rahisi, tunagundua kuwa miundo adimu iliyofundishwa kwa njia yetu ina mizunguko midogo, iliyotenganishwa ambayo inaeleweka na inatosha kutekeleza tabia hiyo. Hii inaonyesha kunaweza kuwa na njia inayoweza kufuatwa kuelekea mafunzo ya mifumo mikubwa ambayo taratibu zake tunaweza kuelewa.
Kazi ya awali ya ufafanuzi wa mitambo ilianza kutoka kwa mitandao yenye msongamano na iliyochanganyika na kujaribu kuzifungua. Katika mitandao hii, kila neuroni ya mtu binafsi imeunganishwa na maelfu ya neuroni nyingine. Neuroni nyingi zinaonekana kufanya kazi nyingi tofauti na kuifanya ionekane kuwa haiwezekani kuelewa.
Lakini vipi ikiwa tungefanya mafunzo ya mitandao ya neva isiyochanganywa, yenye neuroni nyingi zaidi, lakini ambapo kila neuroni ina uhusiano wa kadhaa tu? Kisha labda mtandao utakaotokana utakuwa rahisi zaidi, na rahisi kuelewa. Hili ndilo dau kuu la utafiti wa kazi yetu.
Kwa kuzingatia kanuni hii, tulifundisha miundo ya lugha yenye usanifu unaofanana sana na miundo ya lugha iliyopo kama GPT‑2 na marekebisho madogo moja: tunalazimisha sehemu kubwa ya uzito wa muundo kuwa sifuri. Hii ilizuia muundo kutumia viunganisho vichache sana vinavyowezekana kati ya neuroni zake. Hii ni mabadiliko rahisi ambayo tunasema yanatatua kwa kiasi kikubwa hesabu za ndani za muundo.
Katika mitandao ya neva yenye msongamano wa kawaida, kila neuroni imeunganishwa na kila neuroni katika safu inayofuata. Katika miundo yetu adimu, kila neuroni inaunganisha tu na neuroni chache katika safu inayofuata. Tunatumai kwamba hii inafanya neurons, na mtandao kwa ujumla, kuwa rahisi kuelewa.
Tunataka kupima kiwango ambacho hesabu za miundo yetu adimu zinatenganishwa. Tulizingatia tabia mbalimbali rahisi za muundo, na tukakagua ikiwa tunaweza kutenganisha sehemu za muundo zinazowajibika kwa kila tabia - ambazo tunaziita mizunguko.
Tuliandaa kwa mikono seti ya shughuli rahisi za kialgorithm. Kwa kila mmoja, tulipunguza muundo hadi mzunguko mdogo zaidi ambao bado unaweza kutekeleza shughuli hiyo na tukachunguza jinsi mzunguko huo ulivyo rahisi. (Kwa maelezo zaidi, angalia karatasi yetu(fungua katika dirisha jipya).) Tuligundua kuwa kwa mafunzo ya miundo mikubwa na yenye nafasi nyingi, tunaweza kuzalisha miundo yenye uwezo zaidi na mizunguko rahisi zaidi.
Tunachora ufafanuzi dhidi ya uwezo katika miundo (chini-kushoto ni bora). Kwa ukubwa wa muundo wa sparse uliowekwa, kuongeza sparsity—kuweka uzito zaidi kuwa sifuri—hupunguza uwezo lakini huongeza ufafanuzi. Kuongeza ukubwa wa muundo kunasogeza mpaka huu nje, ikionyesha kwamba tunaweza kujenga miundo mikubwa ambayo ni yenye uwezo na inayoweza kufasiriwa.
Ili kufanya hili kuwa halisi, fikiria shughuli ambapo muundo uliopata mafunzo kwenye msimbo wa Python lazima ukamilishe kamba kwa aina sahihi ya nukuu. Katika Python, 'hello' lazima imalizike na nukuu moja na "hello" lazima iishie na nukuu mbili. Muundo unaweza kutatua hili kwa kukumbuka ni aina gani ya nukuu iliyofungua kamba na kuirudia mwishoni.
Miundo yetu inayoeleweka zaidi inaonekana kuwa na mizunguko iliyotengwa ambayo hutekeleza algorithimu hiyo haswa.

Mzunguko wa mfano katika transfoma adimu ambao unatabiri kama utaishia kamba kwa nukuu moja au mbili. Mzunguko huu hutumia njia tano tu za mabaki (mistari ya kijivu ya wima), neuroni mbili za MLP katika safu 0, na kituo kimoja cha swali-ufunguo cha umakini na kituo kimoja cha thamani katika safu 10. Muundo (1) unachakata nukuu moja katika njia moja ya mabaki na nukuu mbili katika nyingine; (2) hutumia safu ya MLP kubadilisha hii kuwa njia moja inayotambua nukuu yoyote na nyingine inayotofautisha kati ya nukuu moja na mbili; (3) hutumia operesheni ya umakini kupuuza tokeni za kati, kupata nukuu ya awali, na kunakili aina yake hadi tokeni ya mwisho; na (4) inatabiri nukuu ya kufunga inayolingana.
Katika ufafanuzi wetu, uhusiano halisi ulioonyeshwa hapo juu unatosha kutekeleza shughuli hiyo—ikiwa tutaondoa sehemu nyingine za muundo, mzunguko huu mdogo bado unafanya kazi. Pia ni muhimu–kufuta kingo hizi chache husababisha muundo kushindwa.
Pia tulichunguza tabia nyingine ngumu zaidi. Mizunguko yetu kwa tabia hizi (kwa mfano, ufungaji wa vigezo unaoonyeshwa hapa chini) ni vigumu zaidi kuelezea kikamilifu. Hata hivyo, bado tunaweza kupata maelezo rahisi ya sehemu ambayo yanatabiri tabia ya muundo.
Mfano mwingine wa mzunguko, kwa undani kidogo. Ili kuamua aina ya kigezo kinachoitwa current, operesheni moja ya umakini inakili jina la kigezo kwenye tokeni ya set() wakati inafafanuliwa, na operesheni nyingine ya baadaye inakili aina kutoka kwa tokeni ya set() katika matumizi ya baadaye ya kigezo, ikiruhusu muundo kufasiri tokeni inayofuata sahihi.
Kazi hii ni hatua ya awali kuelekea lengo kubwa zaidi: kufanya mahesabu ya miundo yawe rahisi kueleweka. Lakini, bado kuna njia ndefu ya kwenda. Miundo yetu ya sparse ni ndogo sana kuliko miundo ya kisasa, na sehemu kubwa za hesabu zao bado hazijafasiriwa.
Inayofuata, tunatarajia kupanua mbinu zetu kwa miundo mikubwa zaidi na kuelezea zaidi tabia za miundo. Kwa kuorodhesha motifu za mzunguko zinazounga mkono hoja ngumu zaidi katika miundo midogo yenye uwezo, tunaweza kukuza uelewa unaotusaidia kulenga vyema uchunguzi wa miundo ya kisasa.
Ili kushinda kutokufaa kwa mafunzo ya miundo adimu, tunaona njia mbili mbele. Moja ni kutoa mizunguko isiyo na msongamano kutoka kwa miundo yenye msongamano iliyopo, badala ya mafunzo ya miundo isiyo na msongamano kutoka mwanzo. Miundo yenye msongamano mkubwa kimsingi ni bora zaidi kupeleka kuliko miundo yenye nafasi. Njia nyingine ni kuendeleza mbinu bora zaidi za jifunze miundo kwa ufafanuzi, ambayo inaweza kuwa rahisi kuweka katika uzalishaji.
Kumbuka kwamba matokeo yetu hapa si dhamana kwamba njia hii itaenea kwa mifumo yenye uwezo zaidi, lakini matokeo haya ya awali yanaahidi. Lengo letu ni kupanua hatua kwa hatua ni kiasi gani cha muundo tunaweza kufasiri kwa uaminifu, na kujenga zana zinazofanya mifumo ya baadaye iwe rahisi kuchanganua, tatua hitilafu, na kutathmini.
Waandishi
Leo Gao, Achyuta Rajaram, Jacob Coxon, Soham V. Govande, Bowen Baker na Dan Mossing


