sparse circuits များမှတစ်ဆင့် neural networks ကို နားလည်ခြင်း
မော်ဒယ်များကို ပိုရိုးရှင်းပြီး ခြေရာခံလွယ်သော အဆင့်များဖြင့် စဉ်းစားနိုင်အောင် ကျွန်ုပ်တို့ လေ့ကျင့်ပေးခဲ့သည်—ထို့ကြောင့် ၎င်းတို့ မည်သို့ အလုပ်လုပ်သည်ကို ပိုမိုနားလည်နိုင်စေရန်ဖြစ်သည်။
Neural networks များသည် ယနေ့ခေတ်၏ စွမ်းဆောင်ရည်အမြင့်ဆုံး AI စနစ်များကို စွမ်းအားပေးနေသော်လည်း ၎င်းတို့ကို နားလည်ရန်မှာ ခက်ခဲနေဆဲဖြစ်သည်။ ကျွန်ုပ်တို့သည် ဤမော်ဒယ်များကို ရှင်းလင်းသော အဆင့်လိုက် ညွှန်ကြားချက်များဖြင့် မရေးသားပါ။ ထိုအစား ၎င်းတို့သည် တာဝန်တစ်ခုကို ကျွမ်းကျင်သွားသည်အထိ အတွင်းပိုင်း ချိတ်ဆက်မှုများ သို့မဟုတ် “weights” ဘီလျံနှင့်ချီကို ချိန်ညှိရင်း သင်ယူကြသည်။ ကျွန်ုပ်တို့က training ၏ စည်းမျဉ်းများကို ဒီဇိုင်းဆွဲပေးသော်လည်း ပေါ်ထွက်လာမည့် သီးခြားအပြုအမူများကို မဒီဇိုင်းဆွဲထားသဖြင့် ရလဒ်အဖြစ် လူသားတစ်ဦးအနေနှင့် လွယ်လင့်တကူ မဖော်ထုတ်နိုင်သော ချိတ်ဆက်မှုထူထပ်သည့် ကွန်ရက်တစ်ခု ဖြစ်ပေါ်လာသည်။
AI စနစ်များသည် ပိုမိုစွမ်းဆောင်နိုင်လာပြီး သိပ္ပံ၊ ပညာရေး၊ ကျန်းမာရေးစောင့်ရှောက်မှု စသည့် နယ်ပယ်များရှိ ဆုံးဖြတ်ချက်များအပေါ် လက်တွေ့သက်ရောက်မှု ရှိလာသည့်အခါ ၎င်းတို့ မည်သို့ အလုပ်လုပ်သည်ကို နားလည်ခြင်းသည် အရေးကြီးသည်။ Interpretability ဆိုသည်မှာ မော်ဒယ်တစ်ခုက အဘယ်ကြောင့် သတ်မှတ် output တစ်ခုကို ထုတ်ပေးခဲ့သည်ကို နားလည်ရန် ကူညီပေးသော နည်းလမ်းများကို ဆိုလိုသည်။ ၎င်းကို အောင်မြင်စေရန် နည်းလမ်းများစွာ ရှိနိုင်သည်။
ဥပမာအားဖြင့် ကျိုးကြောင်းသင့်လျော်စွာ စဉ်းစားပေးသော မော်ဒယ်များကို နောက်ဆုံးအဖြေသို့ ရောက်သည့် လမ်းစဉ်တစ်လျှောက် ၎င်းတို့၏ အလုပ်လုပ်ပုံကို ရှင်းပြရန် အားပေးထားသည်။ Chain of thought interpretability သည် ဤရှင်းလင်းချက်များကို အသုံးချပြီး မော်ဒယ်၏ အပြုအမူကို စောင့်ကြည့်သည်။ ၎င်းသည် ချက်ချင်းအသုံးဝင်သည်။ လက်ရှိ ကျိုးကြောင်းသင့်လျော်စွာ စဉ်းစားပေးသော မော်ဒယ်များ၏ chains of thought များသည် လှည့်ဖြားမှုကဲ့သို့ စိုးရိမ်ဖွယ် အပြုအမူများနှင့် ပတ်သက်၍ သတင်းအချက်အလက်ပေးနိုင်ပုံ ရသည်။ သို့သော် ဤဂုဏ်သတ္တိတစ်ခုတည်းအပေါ် အပြည့်အဝ မှီခိုခြင်းသည် မခိုင်မာသော မဟာဗျူဟာဖြစ်ပြီး အချိန်ကြာလာသည်နှင့်အမျှ ပျက်ယွင်းသွားနိုင်သည်။
အခြားတစ်ဖက်တွင် ဤလုပ်ငန်း၏ အဓိကအာရုံစိုက်ရာဖြစ်သော mechanistic interpretability သည် မော်ဒယ်၏ တွက်ချက်ပုံများကို လုံးဝ reverse engineer လုပ်ရန် ရည်ရွယ်သည်။ ယခုအချိန်ထိ ၎င်းသည် ချက်ချင်းအသုံးဝင်မှု နည်းသော်လည်း သဘောတရားအရ မော်ဒယ်၏ အပြုအမူကို ပိုမိုပြည့်စုံစွာ ရှင်းပြပေးနိုင်သည်။ မော်ဒယ်အပြုအမူကို အနုစိတ်ဆုံးအဆင့်တွင် ရှင်းပြရန် ကြိုးစားခြင်းအားဖြင့် mechanistic interpretability သည် ယူဆချက် နည်းနည်းသာ လိုအပ်ပြီး ကျွန်ုပ်တို့အား ယုံကြည်မှု ပိုပေးနိုင်သည်။ သို့သော် low-level အသေးစိတ်များမှ ရှုပ်ထွေးသော အပြုအမူများအတွက် ရှင်းလင်းချက်များထံ သွားရသည့် လမ်းကြောင်းမှာ ပိုရှည်လျားပြီး ပိုခက်ခဲသည်။
Interpretability သည် အရေးကြီးသော ရည်မှန်းချက် အများအပြားကို ပံ့ပိုးပေးသည်။ ဥပမာအားဖြင့် ပိုမိုကောင်းမွန်သော oversight ကို ဖြစ်နိုင်စေခြင်းနှင့် မလုံခြုံသော သို့မဟုတ် မဟာဗျူဟာအရ မကိုက်ညီသော အပြုအမူများအတွက် စောစီးစွာ သတိပေးလက္ခဏာများ ပေးခြင်းတို့ဖြစ်သည်။ ၎င်းသည် scalable oversight, adversarial training, red-teaming ကဲ့သို့ ကျွန်ုပ်တို့၏ အခြား safety ကြိုးပမ်းမှုများကိုလည်း ဖြည့်စွက်ပေးသည်။
ဤလုပ်ငန်းတွင် မော်ဒယ်များကို interpret လုပ်ရ လွယ်ကူစေသော နည်းလမ်းများဖြင့် လေ့ကျင့်ပေးနိုင်သည်ကို ကျွန်ုပ်တို့ ပြသထားသည်။ ကျွန်ုပ်တို့၏ လုပ်ငန်းကို dense networks များအပေါ် post-hoc analysis လုပ်ခြင်းအား ဖြည့်စွက်ပေးသော မျှော်လင့်ဖွယ်ချဉ်းကပ်မှုတစ်ခုဟု မြင်သည်။
ဤသည်မှာ အလွန် ရည်မှန်းချက်ကြီးမားသော စမ်းသပ်မှုတစ်ခုဖြစ်ပြီး ကျွန်ုပ်တို့၏ အစွမ်းထက်ဆုံး မော်ဒယ်များ၏ ရှုပ်ထွေးသော အပြုအမူများကို အပြည့်အဝ နားလည်ခြင်းသို့ ရောက်ရန် လမ်းရှည်ကြီး ကျန်ရှိသေးသည်။ သို့သော် ရိုးရှင်းသော အပြုအမူများအတွက်တော့ ကျွန်ုပ်တို့၏ နည်းလမ်းဖြင့် လေ့ကျင့်ထားသော sparse မော်ဒယ်များတွင် နားလည်နိုင်ပြီး ထိုအပြုအမူကို ဆောင်ရွက်ရန် လုံလောက်သည့် အသေးစား disentangled circuits များ ပါဝင်သည်ကို တွေ့ရသည်။ ၎င်းက ကျွန်ုပ်တို့ နားလည်နိုင်သော mechanisms များပါရှိသည့် ပိုကြီးသော စနစ်များကို လေ့ကျင့်ရန် လက်တွေ့ကျသော လမ်းကြောင်းတစ်ခု ရှိနိုင်ကြောင်း ညွှန်ပြသည်။
ယခင် mechanistic interpretability လုပ်ငန်းများသည် dense ဖြစ်ပြီး ရှုပ်ထွေးလိမ်ယှက်နေသော networks များမှ စတင်ကာ ၎င်းတို့ကို ဖြည်ထုတ်ရန် ကြိုးစားခဲ့သည်။ ဤ networks များတွင် neuron တစ်ခုချင်းစီသည် အခြား neuron ထောင်ပေါင်းများစွာနှင့် ချိတ်ဆက်ထားသည်။ neuron အများစုသည် ကွဲပြားသော လုပ်ဆောင်ချက်များစွာကို တစ်ပြိုင်နက် လုပ်ဆောင်နေသကဲ့သို့ တွေ့ရပြီး ထိုကြောင့် နားလည်ရန် မဖြစ်နိုင်သလောက် ဖြစ်စေသည်။
သို့သော် neuron ပိုများစွာ ပါရှိပေမယ့် neuron တစ်ခုစီတွင် ချိတ်ဆက်မှု အနည်းငယ် ဒါဇင်သာ ရှိသော untangled neural networks များကို လေ့ကျင့်ပေးမည်ဆိုလျှင် ဘယ်လိုဖြစ်မလဲ။ ထိုအခါ ရလာဒ်ကွန်ရက်သည် ပိုရိုးရှင်းပြီး နားလည်ရ ပိုလွယ်ကူလာနိုင်သည်။ ဤသည်မှာ ကျွန်ုပ်တို့၏ လုပ်ငန်း၏ အဓိက သုတေသန အယူအဆဖြစ်သည်။
ဤအခြေခံသဘောတရားကို စိတ်ထဲထား၍ ကျွန်ုပ်တို့သည် GPT‑2 ကဲ့သို့ ရှိပြီးသား language models များနှင့် အလွန်ဆင်တူသော architecture ပါသည့် language models များကို လေ့ကျင့်ပေးခဲ့သည်။ ပြောင်းလဲချက်အသေးတစ်ခုသာ ရှိသည်။ မော်ဒယ်၏ weights အများစုကို သုည ဖြစ်စေရန် အတင်းအကျပ် သတ်မှတ်ထားသည်။ ယင်းကြောင့် မော်ဒယ်သည် ၎င်း၏ neurons များအကြား ဖြစ်နိုင်သည့် ချိတ်ဆက်မှုများထဲမှ အလွန်နည်းပါးသော ချိတ်ဆက်မှုများကိုသာ အသုံးပြုနိုင်ခဲ့သည်။ ဤသည်မှာ ရိုးရှင်းသော အပြောင်းအလဲတစ်ခုဖြစ်သော်လည်း မော်ဒယ်၏ အတွင်းပိုင်း တွက်ချက်မှုများကို သိသိသာသာ disentangle လုပ်ပေးသည်ဟု ကျွန်ုပ်တို့ ယူဆသည်။
စာရေးသူများ
Leo Gao - Achyuta Rajaram - Jacob Coxon - Soham V. Govande - Bowen Bakerနှင့် Dan Mossing


