၂၀၂၅ နိုဝင်ဘာ ၁၃

sparse circuits များမှတစ်ဆင့် neural networks ကို နားလည်ခြင်း

မော်ဒယ်များကို ပိုရိုးရှင်းပြီး ခြေရာခံလွယ်သော အဆင့်များဖြင့် စဉ်းစားနိုင်အောင် ကျွန်ုပ်တို့ လေ့ကျင့်ပေးခဲ့သည်—ထို့ကြောင့် ၎င်းတို့ မည်သို့ အလုပ်လုပ်သည်ကို ပိုမိုနားလည်နိုင်စေရန်ဖြစ်သည်။

စာတမ်းကို ဖတ်ရန်

ဖွင့်နေသည်…

Neural networks များသည် ယနေ့ခေတ်၏ စွမ်းဆောင်ရည်အမြင့်ဆုံး AI စနစ်များကို စွမ်းအားပေးနေသော်လည်း ၎င်းတို့ကို နားလည်ရန်မှာ ခက်ခဲနေဆဲဖြစ်သည်။ ကျွန်ုပ်တို့သည် ဤမော်ဒယ်များကို ရှင်းလင်းသော အဆင့်လိုက် ညွှန်ကြားချက်များဖြင့် မရေးသားပါ။ ထိုအစား ၎င်းတို့သည် တာဝန်တစ်ခုကို ကျွမ်းကျင်သွားသည်အထိ အတွင်းပိုင်း ချိတ်ဆက်မှုများ သို့မဟုတ် “weights” ဘီလျံနှင့်ချီကို ချိန်ညှိရင်း သင်ယူကြသည်။ ကျွန်ုပ်တို့က training ၏ စည်းမျဉ်းများကို ဒီဇိုင်းဆွဲပေးသော်လည်း ပေါ်ထွက်လာမည့် သီးခြားအပြုအမူများကို မဒီဇိုင်းဆွဲထားသဖြင့် ရလဒ်အဖြစ် လူသားတစ်ဦးအနေနှင့် လွယ်လင့်တကူ မဖော်ထုတ်နိုင်သော ချိတ်ဆက်မှုထူထပ်သည့် ကွန်ရက်တစ်ခု ဖြစ်ပေါ်လာသည်။

Interpretability ကို ကျွန်ုပ်တို့ မြင်ပုံ

AI စနစ်များသည် ပိုမိုစွမ်းဆောင်နိုင်လာပြီး သိပ္ပံ၊ ပညာရေး၊ ကျန်းမာရေးစောင့်ရှောက်မှု စသည့် နယ်ပယ်များရှိ ဆုံးဖြတ်ချက်များအပေါ် လက်တွေ့သက်ရောက်မှု ရှိလာသည့်အခါ ၎င်းတို့ မည်သို့ အလုပ်လုပ်သည်ကို နားလည်ခြင်းသည် အရေးကြီးသည်။ Interpretability ဆိုသည်မှာ မော်ဒယ်တစ်ခုက အဘယ်ကြောင့် သတ်မှတ် output တစ်ခုကို ထုတ်ပေးခဲ့သည်ကို နားလည်ရန် ကူညီပေးသော နည်းလမ်းများကို ဆိုလိုသည်။ ၎င်းကို အောင်မြင်စေရန် နည်းလမ်းများစွာ ရှိနိုင်သည်။

ဥပမာအားဖြင့် ကျိုးကြောင်းသင့်လျော်စွာ စဉ်းစားပေးသော မော်ဒယ်များကို နောက်ဆုံးအဖြေသို့ ရောက်သည့် လမ်းစဉ်တစ်လျှောက် ၎င်းတို့၏ အလုပ်လုပ်ပုံကို ရှင်းပြရန် အားပေးထားသည်။ Chain of thought interpretability သည် ဤရှင်းလင်းချက်များကို အသုံးချပြီး မော်ဒယ်၏ အပြုအမူကို စောင့်ကြည့်သည်။ ၎င်းသည် ချက်ချင်းအသုံးဝင်သည်။ လက်ရှိ ကျိုးကြောင်းသင့်လျော်စွာ စဉ်းစားပေးသော မော်ဒယ်များ၏ chains of thought များသည် လှည့်ဖြားမှုကဲ့သို့ စိုးရိမ်ဖွယ် အပြုအမူများနှင့် ပတ်သက်၍ သတင်းအချက်အလက်ပေးနိုင်ပုံ ရသည်။ သို့သော် ဤဂုဏ်သတ္တိတစ်ခုတည်းအပေါ် အပြည့်အဝ မှီခိုခြင်းသည် မခိုင်မာသော မဟာဗျူဟာဖြစ်ပြီး အချိန်ကြာလာသည်နှင့်အမျှ ပျက်ယွင်းသွားနိုင်သည်။

အခြားတစ်ဖက်တွင် ဤလုပ်ငန်း၏ အဓိကအာရုံစိုက်ရာဖြစ်သော mechanistic interpretability သည် မော်ဒယ်၏ တွက်ချက်ပုံများကို လုံးဝ reverse engineer လုပ်ရန် ရည်ရွယ်သည်။ ယခုအချိန်ထိ ၎င်းသည် ချက်ချင်းအသုံးဝင်မှု နည်းသော်လည်း သဘောတရားအရ မော်ဒယ်၏ အပြုအမူကို ပိုမိုပြည့်စုံစွာ ရှင်းပြပေးနိုင်သည်။ မော်ဒယ်အပြုအမူကို အနုစိတ်ဆုံးအဆင့်တွင် ရှင်းပြရန် ကြိုးစားခြင်းအားဖြင့် mechanistic interpretability သည် ယူဆချက် နည်းနည်းသာ လိုအပ်ပြီး ကျွန်ုပ်တို့အား ယုံကြည်မှု ပိုပေးနိုင်သည်။ သို့သော် low-level အသေးစိတ်များမှ ရှုပ်ထွေးသော အပြုအမူများအတွက် ရှင်းလင်းချက်များထံ သွားရသည့် လမ်းကြောင်းမှာ ပိုရှည်လျားပြီး ပိုခက်ခဲသည်။

Interpretability သည် အရေးကြီးသော ရည်မှန်းချက် အများအပြားကို ပံ့ပိုးပေးသည်။ ဥပမာအားဖြင့် ပိုမိုကောင်းမွန်သော oversight ကို ဖြစ်နိုင်စေခြင်းနှင့် မလုံခြုံသော သို့မဟုတ် မဟာဗျူဟာအရ မကိုက်ညီသော အပြုအမူများအတွက် စောစီးစွာ သတိပေးလက္ခဏာများ ပေးခြင်းတို့ဖြစ်သည်။ ၎င်းသည် scalable oversight, adversarial training, red-teaming ကဲ့သို့ ကျွန်ုပ်တို့၏ အခြား safety ကြိုးပမ်းမှုများကိုလည်း ဖြည့်စွက်ပေးသည်။

ဤလုပ်ငန်းတွင် မော်ဒယ်များကို interpret လုပ်ရ လွယ်ကူစေသော နည်းလမ်းများဖြင့် လေ့ကျင့်ပေးနိုင်သည်ကို ကျွန်ုပ်တို့ ပြသထားသည်။ ကျွန်ုပ်တို့၏ လုပ်ငန်းကို dense networks များအပေါ် post-hoc analysis လုပ်ခြင်းအား ဖြည့်စွက်ပေးသော မျှော်လင့်ဖွယ်ချဉ်းကပ်မှုတစ်ခုဟု မြင်သည်။

ဤသည်မှာ အလွန် ရည်မှန်းချက်ကြီးမားသော စမ်းသပ်မှုတစ်ခုဖြစ်ပြီး ကျွန်ုပ်တို့၏ အစွမ်းထက်ဆုံး မော်ဒယ်များ၏ ရှုပ်ထွေးသော အပြုအမူများကို အပြည့်အဝ နားလည်ခြင်းသို့ ရောက်ရန် လမ်းရှည်ကြီး ကျန်ရှိသေးသည်။ သို့သော် ရိုးရှင်းသော အပြုအမူများအတွက်တော့ ကျွန်ုပ်တို့၏ နည်းလမ်းဖြင့် လေ့ကျင့်ထားသော sparse မော်ဒယ်များတွင် နားလည်နိုင်ပြီး ထိုအပြုအမူကို ဆောင်ရွက်ရန် လုံလောက်သည့် အသေးစား disentangled circuits များ ပါဝင်သည်ကို တွေ့ရသည်။ ၎င်းက ကျွန်ုပ်တို့ နားလည်နိုင်သော mechanisms များပါရှိသည့် ပိုကြီးသော စနစ်များကို လေ့ကျင့်ရန် လက်တွေ့ကျသော လမ်းကြောင်းတစ်ခု ရှိနိုင်ကြောင်း ညွှန်ပြသည်။

နည်းလမ်းသစ်တစ်ခု - sparse models ကို သင်ယူခြင်း

ယခင် mechanistic interpretability လုပ်ငန်းများသည် dense ဖြစ်ပြီး ရှုပ်ထွေးလိမ်ယှက်နေသော networks များမှ စတင်ကာ ၎င်းတို့ကို ဖြည်ထုတ်ရန် ကြိုးစားခဲ့သည်။ ဤ networks များတွင် neuron တစ်ခုချင်းစီသည် အခြား neuron ထောင်ပေါင်းများစွာနှင့် ချိတ်ဆက်ထားသည်။ neuron အများစုသည် ကွဲပြားသော လုပ်ဆောင်ချက်များစွာကို တစ်ပြိုင်နက် လုပ်ဆောင်နေသကဲ့သို့ တွေ့ရပြီး ထိုကြောင့် နားလည်ရန် မဖြစ်နိုင်သလောက် ဖြစ်စေသည်။

သို့သော် neuron ပိုများစွာ ပါရှိပေမယ့် neuron တစ်ခုစီတွင် ချိတ်ဆက်မှု အနည်းငယ် ဒါဇင်သာ ရှိသော untangled neural networks များကို လေ့ကျင့်ပေးမည်ဆိုလျှင် ဘယ်လိုဖြစ်မလဲ။ ထိုအခါ ရလာဒ်ကွန်ရက်သည် ပိုရိုးရှင်းပြီး နားလည်ရ ပိုလွယ်ကူလာနိုင်သည်။ ဤသည်မှာ ကျွန်ုပ်တို့၏ လုပ်ငန်း၏ အဓိက သုတေသန အယူအဆဖြစ်သည်။

ဤအခြေခံသဘောတရားကို စိတ်ထဲထား၍ ကျွန်ုပ်တို့သည် GPT‑2 ကဲ့သို့ ရှိပြီးသား language models များနှင့် အလွန်ဆင်တူသော architecture ပါသည့် language models များကို လေ့ကျင့်ပေးခဲ့သည်။ ပြောင်းလဲချက်အသေးတစ်ခုသာ ရှိသည်။ မော်ဒယ်၏ weights အများစုကို သုည ဖြစ်စေရန် အတင်းအကျပ် သတ်မှတ်ထားသည်။ ယင်းကြောင့် မော်ဒယ်သည် ၎င်း၏ neurons များအကြား ဖြစ်နိုင်သည့် ချိတ်ဆက်မှုများထဲမှ အလွန်နည်းပါးသော ချိတ်ဆက်မှုများကိုသာ အသုံးပြုနိုင်ခဲ့သည်။ ဤသည်မှာ ရိုးရှင်းသော အပြောင်းအလဲတစ်ခုဖြစ်သော်လည်း မော်ဒယ်၏ အတွင်းပိုင်း တွက်ချက်မှုများကို သိသိသာသာ disentangle လုပ်ပေးသည်ဟု ကျွန်ုပ်တို့ ယူဆသည်။

စာရေးသူများ

Leo Gao - Achyuta Rajaram - Jacob Coxon - Soham V. Govande - Bowen Bakerနှင့် Dan Mossing

ဆက်ဖတ်ရှုပါ

အားလုံးကို ကြည့်ရန်

$math-breakthroughs art-card 1x1$

Ten advances in mathematics and theoretical computer science

ထုတ်ဝေမှု၂၀၂၆ ဩ ၁

ဆက်တင်နှစ်ခုဖွင့်၍ ARC-AGI-3 အမှတ် သုံးဆတိုးခဲ့ပုံ

သုတေသန၂၀၂၆ ဇူ ၂၉

oai Science Academic Research Academic Research 1x1

ပညာရပ်ဆိုင်ရာ သုတေသီများအတွက် ChatGPT ဖြင့် သိပ္ပံရှာဖွေတွေ့ရှိမှုကို အရှိန်မြှင့်ခြင်း

ကုမ္ပဏီ၂၀၂၆ ဇူ ၂၉