၂၀၂၁ အောက်တိုဘာ ၂၉

Solving math word problems

ဖွင့်နေသည်…

ကျွန်ုပ်တို့သည် fine-tuned GPT‑3 မော်ဒယ်တစ်ခုထက် တိကျမှု နှစ်ဆနီးပါးဖြင့် မူလတန်းအဆင့် သင်္ချာပြဿနာများကို ဖြေရှင်းနိုင်သော စနစ်တစ်ခုကို လေ့ကျင့်ထားပါသည်။ ၎င်းသည် တကယ့်ကလေးများ ဖြေရှင်းနိုင်သည့် ပြဿနာအရေအတွက်၏ 90% ခန့်ကို ဖြေရှင်းနိုင်သည်။ ကျွန်ုပ်တို့၏ ဒေတာစုမှ စမ်းသပ်မှုတစ်ခုတွင် အသက် 9-12 နှစ်ရှိ ကလေးအနည်းငယ်သည် 60% ရခဲ့ပြီး ကျွန်ုပ်တို့၏ စနစ်သည် ထိုပြဿနာများတွင် 55% ရခဲ့သည်။

အရေးပါပုံ

ယနေ့ခေတ် AI သည် မူလတန်းကျောင်းကလေးများအတွက်ပင် လွယ်ကူသော သာမန်အသိပညာအခြေပြု အဆင့်များစွာပါ ကျိုးကြောင်းစဉ်းစားမှုတွင် အတော်လေး အားနည်းနေသေးသောကြောင့် ဤအရာသည် အရေးကြီးပါသည်။ ကျွန်ုပ်တို့၏ မော်ဒယ်ကို ၎င်း၏ အမှားများကို မှတ်မိသိရှိစေရန် လေ့ကျင့်ပေးခြင်းဖြင့် ဤရလဒ်များကို ရရှိခဲ့ပြီး ထိုကြောင့် ၎င်းသည် အလုပ်ဖြစ်သော ဖြေရှင်းနည်းတစ်ခုကို မတွေ့မချင်း ထပ်တလဲလဲ ကြိုးစားနိုင်သည်။

နိဒါန်း

GPT‑3 ကဲ့သို့သော ကြီးမားသော ဘာသာစကား မော်ဒယ်များတွင် စာရေးဟန်မျိုးစုံကို အတုယူနိုင်စွမ်းနှင့် အချက်အလက်ဆိုင်ရာ အသိပညာ ကျယ်ပြန့်မှုအပါအဝင် အထင်ကြီးဖွယ် ကျွမ်းကျင်မှုများစွာ ရှိပါသည်။ သို့သော် မူလတန်းအဆင့် သင်္ချာ စာသားပြဿနာများကို ဖြေရှင်းခြင်းကဲ့သို့ တိကျသော အဆင့်များစွာပါ ကျိုးကြောင်းသင့်လျော်စွာ စဉ််းစားပေးသော လုပ်ငန်းများတွင် ၎င်းတို့ အခက်အခဲရှိနေဆဲဖြစ်သည်။ မော်ဒယ်သည် မှန်ကန်သော ဖြေရှင်းနည်းများ၏ ဟန်ပန်ကို အတုယူနိုင်သော်လည်း ယုတ္တိပိုင်းတွင် အရေးကြီးသော အမှားများကို ပုံမှန်ထုတ်ပေးတတ်သည်။

ရှုပ်ထွေးသော ယုတ္တိနယ်ပယ်များတွင် လူသားစွမ်းဆောင်ရည်နှင့် ကိုက်ညီစေရန် ကျွန်ုပ်တို့၏ မော်ဒယ်များသည် ၎င်းတို့၏ အမှားများကို မှတ်မိသိရှိပြီး အဆင့်များကို သေချာစွာ ရွေးချယ်တတ်ရန် လိုအပ်သည်။ ထို့ကြောင့် တင်ပြထားသော ဖြေရှင်းနည်းတစ်ခု မှန်ကန်ခြင်း ရှိမရှိကို အကဲဖြတ်ရန် verifier များကို ကျွန်ုပ်တို့ လေ့ကျင့်ပေးပါသည်။ ပြဿနာအသစ်တစ်ခုကို ဖြေရှင်းရန် တင်ပြထားသော ဖြေရှင်းနည်းများစွာအနက် အကောင်းဆုံးကို ရွေးချယ်ရန် verifier များကို အသုံးပြုပါသည်။ ကျွန်ုပ်တို့၏ နည်းလမ်းများကို အကဲဖြတ်ရန် GSM8K ဒေတာစုအသစ်ကို စုဆောင်းခဲ့ပြီး သုတေသနကို အထောက်အကူဖြစ်စေရန် ဤဒေတာစုကို ထုတ်ပြန်လျက်ရှိပါသည်။

အောက်ပါ ဥပမာ ၁၀ ခုတွင် ကျွန်ုပ်တို့၏ နည်းလမ်းအသစ်ဖြစ်သော verification နှင့် အခြေခံနည်းလမ်းဖြစ်သော fine-tuning တို့က ထုတ်ပေးထားသော ဖြေရှင်းနည်းများကို ပြသထားပါသည်။

ဖွင့်နေသည်...

GSM8K ဒေတာစု

GSM8K သည် အရည်အသွေးမြင့် မူလတန်းအဆင့် သင်္ချာ စာသားပြဿနာ 8.5K ခုဖြင့် ဖွဲ့စည်းထားသည်။ ပြဿနာတစ်ခုစီကို ဖြေရှင်းရန် အဆင့် 2 မှ 8 အထိ လိုအပ်ပြီး ဖြေရှင်းနည်းများတွင် အဓိကအားဖြင့် အခြေခံ သင်္ချာလုပ်ဆောင်ချက်များ (+ − × ÷) ကို အသုံးပြုသော အခြေခံတွက်ချက်မှုများကို အစဉ်လိုက် ပြုလုပ်ကာ နောက်ဆုံးအဖြေသို့ ရောက်ရှိရသည်။ Fine-tuned state-of-the-art ဘာသာစကား မော်ဒယ်များသည် ပြဿနာများ၏ မျိုးစုံကွဲပြားမှု မြင့်မားခြင်းကြောင့် ဤဒေတာစုတွင် စွမ်းဆောင်ရည် နိမ့်ပါးသည်။ တစ်ချိန်တည်းမှာပင် GSM8K ဖြေရှင်းနည်းများသည် အခြေခံအယူအဆများပေါ်သာ မူတည်သောကြောင့် စမ်းသပ်မှုတွင် မြင့်မားသော စွမ်းဆောင်ရည်ကို ရရှိရန်သည် အကောင်အထည်ဖော်နိုင်သော ရည်မှန်းချက်တစ်ရပ်ဖြစ်သည်။

GSM8K ရှိ ဖြေရှင်းနည်းများကို သင်္ချာဖော်ပြချက်သက်သက်အဖြစ် မဟုတ်ဘဲ သဘာဝဘာသာစကားဖြင့် ရေးသားထားသည်။ သဘာဝဘာသာစကားကို အသုံးပြုထားခြင်းကြောင့် မော်ဒယ်မှ ထုတ်ပေးသော ဖြေရှင်းနည်းများကို လူသားများက ပိုမိုလွယ်ကူစွာ နားလည်နိုင်ပြီး ကျွန်ုပ်တို့၏ နည်းလမ်းများသည်လည်း နယ်ပယ်တစ်ခုတည်းအပေါ် မူမတည်ဘဲ ဆက်လက် အသုံးချနိုင်သည်။

Verifier များကို လေ့ကျင့်ခြင်း - မိမိအမှားများမှ သင်ယူသော မော်ဒယ်များ

သင်္ချာဆိုင်ရာ ကျိုးကြောင်းစဉ်းစားမှုတွင် အရေးကြီးသော စိန်ခေါ်မှုတစ်ရပ်မှာ တစ်ဦးချင်းအမှားများအပေါ် အလွန်အမင်း အာရုံခံလွယ်ခြင်းဖြစ်သည်။ ဖြေရှင်းနည်းတစ်ခုချင်းကို တိုကင် အလိုက် ထုတ်လုပ်သော autoregressive မော်ဒယ်များတွင် မိမိတို့၏ အမှားများကို ပြင်ဆင်နိုင်သည့် ယန္တရားမရှိပါ။ လမ်းကြောင်းမှ ချော်ထွက်သွားသော ဖြေရှင်းနည်းများသည် မြန်မြန်ဆန်ဆန် ပြန်မကယ်နိုင်တော့ဘဲ၊ ပေးထားသော ဥပမာများတွင် မြင်နိုင်သကဲ့သို့ ဖြစ်လာသည်။

ဤပြဿနာကို မော်ဒယ်က ထုတ်ပေးသော ဖြေရှင်းနည်းများ၏ မှန်ကန်မှုကို အကဲဖြတ်ရန် verifier များကို လေ့ကျင့်ခြင်းဖြင့် ကျွန်ုပ်တို့ ကိုင်တွယ်ဖြေရှင်းပါသည်။ verifier များအား မော်ဒယ်ကိုယ်တိုင် ရေးသားထားသော ဖြစ်နိုင်ခြေရှိသော ဖြေရှင်းနည်းများစွာကို ပေးထားပြီး ၎င်းတို့အနက် မည်သည့်အရာများ မှန်ကန်သည်၊ သို့မဟုတ် တစ်ခုမျှ မှန်ကန်မှု မရှိသည်ကို ဆုံးဖြတ်ရန် လေ့ကျင့်ပေးထားပါသည်။

စမ်းသပ်ချိန်တွင် ပြဿနာအသစ်တစ်ခုကို ဖြေရှင်းရန် ကိုယ်စားလှယ် ဖြေရှင်းနည်း 100 ခုကို ထုတ်လုပ်ပြီး verifier မှ အဆင့်အမြင့်ဆုံး သတ်မှတ်ထားသော ဖြေရှင်းနည်းကို ရွေးချယ်ပါသည်။ ဤသဘာဝပါရှိသော ရွေးချယ်နိုင်မှုကြောင့်လည်းကောင်း၊ verification သည် generation ထက် ပိုမိုရိုးရှင်းသော လုပ်ငန်းတစ်ခု ဖြစ်တတ်ခြင်းကြောင့်လည်းကောင်း verifier များသည် အကျိုးကျေးဇူး ရရှိကြသည်။

ဖွင့်နေသည်...

ဒေတာစု အရွယ်အစား လုံလောက်စွာ ကြီးမားနေသရွေ့ verification မှ စွမ်းဆောင်ရည် မြင့်တက်မှု အားကောင်းသော အကျိုးကျေးဇူးကို ရရှိကြောင်း ကျွန်ုပ်တို့ တွေ့ရှိခဲ့သည်။ ဒေတာစုများ အလွန်သေးငယ်နေပါက verifier များသည် သင်္ချာဆိုင်ရာ ကျိုးကြောင်းစဉ်းစားမှု၏ ပိုမိုအသုံးဝင်သော ဂုဏ်သတ္တိများကို သင်ယူမည့်အစား လေ့ကျင့်မှုအစုအဝေးထဲမှ နောက်ဆုံးအဖြေများကို မှတ်မိထားခြင်းဖြင့် overfit ဖြစ်သွားကြသည်ဟု ကျွန်ုပ်တို့ ယုံကြည်ပါသည်။

လေ့ကျင့်မှုအစုအဝေး အပြည့်အစုံတွင် 6B parameter verification သည် fine-tuned 175B parameter မော်ဒယ်တစ်ခုထက် အနည်းငယ် ပိုမိုကောင်းမွန်ပြီး မော်ဒယ်အရွယ်အစား 30 ဆ တိုးလာခြင်းနှင့် ခန့်မှန်းအားဖြင့် တူညီသော စွမ်းဆောင်ရည်မြင့်တက်မှုကို ပေးသည်။ ထို့အပြင် လက်ရှိရလဒ်များအပေါ် အခြေခံကာ extrapolate လုပ်ပါက verification သည် ဒေတာထပ်မံတိုးလာခြင်းနှင့်အတူ ပိုမိုထိရောက်စွာ scale လုပ်နိုင်သည်ဟု ထင်ရှားသည်။

နိဂုံးချုပ်

မှန်ကန်သော အကြောင်းပြချက်များကို ထုတ်လုပ်ခြင်းနှင့် မမှန်ကန်သော အကြောင်းပြချက်များကို ခွဲခြားသိရှိခြင်းသည် ပိုမိုအထွေထွေသုံး AI ကို ဖွံ့ဖြိုးတိုးတက်စေရန်အတွက် အဓိက စိန်ခေါ်မှုများဖြစ်သည်။ မူလတန်းအဆင့် သင်္ချာသည် ဤစွမ်းရည်များအတွက် အကောင်းဆုံး စမ်းသပ်နယ်ပယ်တစ်ခုဖြစ်သည်။ GSM8K ထဲရှိ ပြဿနာများသည် အယူအဆပိုင်းအရ ရိုးရှင်းသော်လည်း သေးငယ်သော အမှားတစ်ခုသာ ဖြစ်ပွားလျှင်ပင် ဖြေရှင်းနည်းတစ်ခုလုံးကို လမ်းချော်သွားစေနိုင်သည်။ ထိုကဲ့သို့သော အမှားများကို ခွဲခြားသိရှိပြီး ရှောင်ရှားနိုင်ခြင်းသည် ကျွန်ုပ်တို့၏ မော်ဒယ်များ ဖွံ့ဖြိုးရမည့် အရေးကြီးသော ကျွမ်းကျင်မှုတစ်ရပ်ဖြစ်သည်။ verifier များကို လေ့ကျင့်ပေးခြင်းအားဖြင့် အလုပ်ဖြစ်သော ဖြေရှင်းနည်းကောင်းများနှင့် အဆင်မပြေသေးသော ဖြေရှင်းနည်းများကို ကျွန်ုပ်တို့၏ မော်ဒယ်များက ခွဲခြားတတ်စေရန် သင်ကြားပေးနေပါသည်။ ကျွန်ုပ်တို့၏ မော်ဒယ်များကို ယုတ္တိပိုင်းအရ ပိုမိုရှုပ်ထွေးသော နယ်ပယ်များတွင် အသုံးချရန် ကြိုးပမ်းလာသည်နှင့်အမျှ ဤစွမ်းရည်များသည် ပို၍ ပို၍ ဆက်နွယ်အရေးပါလာမည်ဟု ကျွန်ုပ်တို့ မျှော်လင့်ပါသည်။

စာရေးသူများ

Karl Cobbe - Vineet Kosarajuနှင့် John Schulman

ကျေးဇူးတင်လွှာ

GSM8K ဒေတာစုဆောင်းမှုကို ဆောင်ရွက်ပေးခဲ့သော Surge AI အဖွဲ့အား ကျေးဇူးတင်ရှိပါသည်။

ကျွန်ုပ်တို့၏ စာတမ်းပူးတွဲရေးသားသူများဖြစ်သော Mohammad Bavarian, Mark Chen, Heewoo Jun, Lukasz Kaiser, Matthias Plappert, Jerry Tworek, Jacob Hilton, Reiichiro Nakano နှင့် Christopher Hesse တို့အား ကျေးဇူးတင်ရှိပါသည်။

ဤထုတ်ပြန်ချက်အပေါ် အကြံပြုချက်များ ပေးခဲ့ကြသူများဖြစ်သော Dan Hendrycks, Leo Gao, Alec Radford, Giambattista Parascandolo, Harri Edwards, Yura Burda, Nick Ryder, Ilya Sutskever, Mira Murati, Sam Altman, Aris Konstantinidis, Andrew Mayne, Hannah Wong နှင့် Steve Dowling တို့အား ကျေးဇူးတင်ရှိပါသည်။

ကျွန်ုပ်တို့၏ စမ်းသပ်မှုတွင် စေတနာ့ဝန်ထမ်းအဖြစ် ပါဝင်ခဲ့သော ကျောင်းသားများအားလည်း ကျေးဇူးတင်ပါသည်!

ဆက်စပ်ဆောင်းပါးများ

အားလုံးကို ကြည့်ရန်

Three farmers using a mobile app outside

တောင်သူများအတွက် လယ်ယာဒေတာဘေ့စ် တည်ဆောက်ခြင်း

၂၀၂၄ ဇန် ၁၂

AI Website Builder ဖြင့် မိနစ်ပိုင်းအတွင်း ဝဘ်ဆိုက်များ ဖန်တီးခြင်း

၂၀၂၅ မေ ၂၉

LLM ဖြင့် မောင်းနှင်သော ကျန်းမာရေးဖြေရှင်းချက်များကို ပေးအပ်ခြင်း

၂၀၂၄ ဇန် ၄