ညွှန်ကြားချက်များကို လိုက်နာရန် ဘာသာစကား မော်ဒယ်များကို ကိုက်ညီအောင်ပြုလုပ်ခြင်း
ကျွန်ုပ်တို့သည် GPT‑3 ထက် အသုံးပြုသူရည်ရွယ်ချက်များကို ပိုမိုကောင်းမွန်စွာ လိုက်နာနိုင်ပြီး ပိုမိုမှန်ကန်ကာ အဆိပ်သင့်မှုနည်းသော ဘာသာစကား မော်ဒယ်များကို ကျွန်ုပ်တို့၏ ကိုက်ညီမှုဆိုင်ရာ သုတေသနမှ ဖွံ့ဖြိုးလာသော နည်းပညာများဖြင့် လေ့ကျင့်ထားပါသည်။ လူသားများ ပါဝင်လျက် လေ့ကျင့်ထားသော ဤ InstructGPT မော်ဒယ်များကို ယခု ကျွန်ုပ်တို့၏ API ပေါ်ရှိ မူလ ဘာသာစကား မော်ဒယ်များအဖြစ် ဖြန့်ချိထားပါသည်။
OpenAI API ကို GPT‑3 ဘာသာစကား မော်ဒယ်များက စွမ်းဆောင်ပေးထားသည်။ ၎င်းတို့ကို ဂရုတစိုက် တည်ဆောက်ထားသော စာသား တုံ့ပြန်ညွှန်ကြားချက်များဖြင့် သဘာဝ ဘာသာစကားဆိုင်ရာ အလုပ် များကို လုပ်ဆောင်စေနိုင်သည်။ သို့သော် ဤမော်ဒယ်များသည် မမှန်ကန်သော၊ အဆိပ်သင့်သော၊ သို့မဟုတ် အန္တရာယ်ဖြစ်စေသော သဘောထားများကို ထင်ဟပ်သော output များကိုလည်း ထုတ်လုပ်နိုင်သည်။ ၎င်းသည် တစ်စိတ်တစ်ပိုင်းအားဖြင့် GPT‑3 ကို အသုံးပြုသူ လိုချင်သော သဘာဝ ဘာသာစကားဆိုင်ရာ အလုပ် ကို ဘေးကင်းစွာ လုပ်ဆောင်ရန် မဟုတ်ဘဲ အင်တာနက်စာသား ဒေတာအစုကြီးတစ်ခုပေါ်တွင် နောက်ထပ်စကားလုံးကို ခန့်မှန်းရန် လေ့ကျင့်ထားခြင်းကြောင့် ဖြစ်သည်။ အခြားစကားဖြင့်ဆိုရသော် ဤမော်ဒယ်များသည် ၎င်းတို့၏ အသုံးပြုသူများနှင့် ကိုက်ညီ မနေပါ။
ကျွန်ုပ်တို့၏ မော်ဒယ်များကို ပိုမိုဘေးကင်းပြီး၊ ပိုမိုအကူအညီဖြစ်စေကာ၊ ပိုမိုကိုက်ညီစေရန် လူတုံ့ပြန်မှုမှ အားဖြည့် သင်ယူလေ့လာခြင်း (RLHF) ဟု ခေါ်သော ရှိပြီးသား နည်းပညာတစ်ခုကို အသုံးပြုပါသည်။ API သို့ ကျွန်ုပ်တို့၏ ဖောက်သည်များ တင်သွင်းသော တုံ့ပြန်ညွှန်ကြားချက်များပေါ်တွင်A ကျွန်ုပ်တို့၏ အမှတ်ပေးသူများသည် လိုချင်သော မော်ဒယ်အပြုအမူ၏ နမူနာများကို ပေးပြီး၊ ကျွန်ုပ်တို့၏ မော်ဒယ်များမှ output အများအပြားကို အဆင့်သတ်မှတ်ပေးပါသည်။ ထို့နောက် ဤဒေတာကို အသုံးပြု၍ GPT‑3 ကို fine-tune လုပ်ပါသည်။
ရလဒ်အနေဖြင့် InstructGPT မော်ဒယ်များသည် GPT‑3 ထက် ညွှန်ကြားချက်များကို လိုက်နာရာတွင် ပိုမိုကောင်းမွန်ပါသည်။ ၎င်းတို့သည် အချက်အလက်များကို လုပ်ကြံဖန်တီးခြင်း နည်းလာပြီး၊ အဆိပ်သင့်သော output ထုတ်လုပ်မှုတွင်လည်း အနည်းငယ် လျော့နည်းသွားသည်။ parameter အရေအတွက် 100 ဆကျော် နည်းပါးသော်လည်း ကျွန်ုပ်တို့၏ 1.3B InstructGPT မော်ဒယ်၏ output များကို 175B GPT‑3 မော်ဒယ်၏ output များထက် ကျွန်ုပ်တို့၏ အမှတ်ပေးသူများက ပိုမိုနှစ်သက်ကြသည်။ တစ်ချိန်တည်းမှာပင် GPT‑3 ၏ စွမ်းရည်များအပေါ် အလျော့အတင်း လုပ်စရာမလိုကြောင်းကိုလည်း ပြသခဲ့ပြီး၊ ၎င်းကို ပညာရပ်ဆိုင်ရာ NLP အကဲဖြတ်မှုများအပေါ် ကျွန်ုပ်တို့၏ မော်ဒယ်၏ စွမ်းဆောင်ရည်ဖြင့် တိုင်းတာထားပါသည်။
API ပေါ်တွင် တစ်နှစ်ကျော် beta အဖြစ် ရှိနေခဲ့သော ဤ InstructGPT မော်ဒယ်များသည် ယခု ကျွန်ုပ်တို့၏ API ပေါ်တွင် အသုံးပြုနိုင်သော မူလ ဘာသာစကား မော်ဒယ်များ ဖြစ်လာပါပြီ။B လူသားများ ပါဝင်လျက် ဘာသာစကား မော်ဒယ်များကို fine-tune လုပ်ခြင်းသည် ၎င်းတို့၏ ဘေးကင်းရေးနှင့် ယုံကြည်စိတ်ချရမှုကို မြှင့်တင်ရန် အားကောင်းသော ကိရိယာတစ်ခုဖြစ်သည်ဟု ကျွန်ုပ်တို့ ယုံကြည်ပြီး၊ ဤဦးတည်ချက်တွင် ဆက်လက် တိုးတက်သွားမည်ဖြစ်သည်။
ဤသည်မှာ လိုက်လံဆောင်ရွက်လာခဲ့သော နှစ် အတော်ကြာ ကျွန်ုပ်တို့၏ ကိုက်ညီမှုဆိုင်ရာ သုတေသနကို ပထမဆုံးအကြိမ် ထုတ်ကုန်တွင် အသုံးချခြင်းဖြစ်သည်။1 - 2နှင့် 3 ကျွန်ုပ်တို့၏ အလုပ်သည် ပညာရပ်ဆိုင်ရာ NLP ဒေတာအစုများကို အသုံးပြု၍ ညွှန်ကြားချက်များကို လိုက်နာစေရန် ဘာသာစကား မော်ဒယ်များကို fine-tune လုပ်သော မကြာသေးမီ သုတေသနများနှင့်လည်း ဆက်စပ်နေပြီး၊ အထူးသဖြင့် FLAN4 နှင့် T05 တို့ဖြစ်သည်။ ကျွန်ုပ်တို့၏ အလုပ်အတွက် အဓိက လှုံ့ဆော်မှုတစ်ခုမှာ အကူအညီဖြစ်စေမှုနှင့် မှန်ကန်မှုကို တိုးမြှင့်ကာ ဘာသာစကား မော်ဒယ်များ၏ ထိခိုက်မှုများနှင့် ဘက်လိုက်မှုများကို လျှော့ချရန်ဖြစ်သည်။6 - 7 - 8 - 9နှင့် 10 ဤဦးတည်ချက်ရှိ ကျွန်ုပ်တို့၏ ယခင်သုတေသနအချို့ တွင် လူသားနမူနာများပါဝင်သည့် စိစစ်ရွေးချယ်ထားသော ဒေတာအစုငယ်တစ်ခုပေါ်တွင် fine-tune လုပ်ခြင်းဖြင့် အန္တရာယ်ဖြစ်စေသော output များကို လျှော့ချနိုင်ကြောင်း တွေ့ရှိခဲ့သည်။11 အခြားသုတေသနများက အကြိုလေ့ကျင့်သင်ကြားခြင်း ဒေတာအစုကို စစ်ထုတ်ခြင်း၊12 ဘေးကင်းရေးဆိုင်ရာ သီးသန့် control token များ၊13နှင့် 14 သို့မဟုတ် မော်ဒယ်ထုတ်လုပ်မှုများကို လမ်းကြောင်းပြောင်းညွှန်ကြားခြင်းအပေါ် အာရုံစိုက်ခဲ့ကြသည်။15နှင့် 16 ကျွန်ုပ်တို့သည် ဆက်လက်လုပ်ဆောင်နေသော ကိုက်ညီမှုဆိုင်ရာ သုတေသနတွင် ဤအယူအဆများနှင့် အခြားအရာများကို လေ့လာနေပါသည်။
InstructGPT မှ output များသည် အသုံးပြုသူညွှန်ကြားချက်များကို မည်မျှကောင်းစွာ လိုက်နာသနည်းကို ကျွန်ုပ်တို့ ပထမဦးစွာ အကဲဖြတ်ခဲ့ပြီး၊ ၎င်း၏ output များကို GPT‑3 မှ output များနှင့် အမှတ်ပေးသူများအား နှိုင်းယှဉ်စေခဲ့ပါသည်။ API ပေါ်ရှိ InstructGPT နှင့် GPT‑3 မော်ဒယ်နှစ်မျိုးစလုံးသို့ တင်သွင်းသော တုံ့ပြန်ညွှန်ကြားချက်များတွင် InstructGPT မော်ဒယ်များကို သိသိသာသာ ပိုမိုနှစ်သက်ကြောင်း တွေ့ရှိရသည်။ GPT‑3 တုံ့ပြန်ညွှန်ကြားချက်တွင် prefix တစ်ခုထည့်ပြီး ၎င်းကို “ညွှန်ကြားချက်လိုက်နာမှု mode” သို့ ဝင်စေသည့်အခါတွင်လည်း ဤရလဒ်သည် မှန်ကန်နေသည်။
ကျွန်ုပ်တို့၏ မော်ဒယ်များ၏ ဘေးကင်းရေးကို တိုင်းတာရန် အများပြည်သူအသုံးပြုနိုင်သော ဒေတာအစုများအပေါ် ရှိပြီးသား မက်ထရစ်အစုတစ်ခုကို အဓိက အသုံးပြုပါသည်။ GPT‑3 နှင့် နှိုင်းယှဉ်လျှင် InstructGPT သည် အတုယူသော မှားယွင်းချက်များကို ပိုနည်းစွာ ထုတ်လုပ်ပြီး (TruthfulQA17 အရ) အဆိပ်သင့်မှုလည်း နည်းပါးသည် (RealToxicityPrompts18 အရ)။ API တုံ့ပြန်ညွှန်ကြားချက် ဖြန့်ဝေမှုအပေါ် လူသားအကဲဖြတ်မှုများကိုလည်း ပြုလုပ်ခဲ့ပြီး၊ InstructGPT သည် အချက်အလက်များကို လုပ်ကြံဖန်တီးခြင်း (“hallucinates”) နည်းပါးကာ ပိုမိုသင့်လျော်သော output များကို ထုတ်လုပ်ကြောင်း တွေ့ရှိခဲ့သည်။C
နောက်ဆုံးအနေဖြင့် ကျွန်ုပ်တို့၏ ဖောက်သည်ဖြန့်ဝေမှုအပေါ် InstructGPT output များကို FLAN4 နှင့် T05 တို့မှ output များထက် ပိုမိုနှစ်သက်ကြောင်း တွေ့ရှိရသည်။ ဤအချက်က FLAN နှင့် T0 ကို လေ့ကျင့်ရန် အသုံးပြုသော ဒေတာများသည် အများအားဖြင့် ပညာရပ်ဆိုင်ရာ NLP အလုပ်များဖြစ်သောကြောင့် လက်တွေ့တွင် ဖြန့်ချိအသုံးပြုထားသော ဘာသာစကား မော်ဒယ်များကို မည်သို့ အသုံးပြုနေကြသည်ကို အပြည့်အဝ ကိုယ်စားမပြုကြောင်း ဖော်ပြသည်။

InstructGPT မော်ဒယ်များကို လေ့ကျင့်ရန် ကျွန်ုပ်တို့၏ အဓိကနည်းပညာမှာ လူတုံ့ပြန်မှုမှ အားဖြည့် သင်ယူလေ့လာခြင်း (RLHF) ဖြစ်ပြီး၊ ၎င်းသည် ကျွန်ုပ်တို့၏ ယခင် ကိုက်ညီမှုဆိုင်ရာ သုတေသနတွင် ရှေ့ဆောင်ကူညီခဲ့သော နည်းလမ်းတစ်ခုဖြစ်သည်။ ဤနည်းပညာသည် ကျွန်ုပ်တို့၏ မော်ဒယ်များကို fine-tune လုပ်ရန် လူသားနှစ်သက်မှုများကို ဆုရရှိမှု အချက်ပြ အဖြစ် အသုံးပြုသည်။ ၎င်းသည် ကျွန်ုပ်တို့ ဖြေရှင်းလိုသော ဘေးကင်းရေးနှင့် ကိုက်ညီမှု ပြဿနာများမှာ ရှုပ်ထွေးပြီး ကိုယ်ပိုင်အမြင်ဆန်သောအရာများဖြစ်သကဲ့သို့ ရိုးရှင်းသော အလိုအလျောက် မက်ထရစ်များဖြင့် အပြည့်အဝ ဖမ်းမမိသောကြောင့် အရေးကြီးပါသည်။
ကျွန်ုပ်တို့သည် ပထမဦးစွာ API သို့ တင်သွင်းသော တုံ့ပြန်ညွှန်ကြားချက်များအပေါ် လူသားရေးသားထားသော နမူနာဒေတာအစုတစ်ခုကို စုဆောင်းပြီး၊ ၎င်းကို အသုံးပြု၍ supervised learning baseline များကို လေ့ကျင့်ပါသည်။ ထို့နောက် API တုံ့ပြန်ညွှန်ကြားချက်များ၏ ပိုမိုကြီးမားသော အစုတစ်ခုပေါ်တွင် မော်ဒယ် output နှစ်ခုအကြား လူသားအမှတ်အသားပြု နှိုင်းယှဉ်ဒေတာအစုတစ်ခုကို စုဆောင်းပါသည်။ ထို့နောက် ဤဒေတာအစုအပေါ် reward model (RM) တစ်ခုကို လေ့ကျင့်ပြီး ကျွန်ုပ်တို့၏ အမှတ်ပေးသူများ မည်သည့် output ကို ပိုမိုနှစ်သက်မည်ကို ခန့်မှန်းစေပါသည်။ နောက်ဆုံးတွင် ဤ RM ကို reward function အဖြစ် အသုံးပြုပြီး PPO algorithm ကို အသုံးပြုကာ ဤဆုကို အများဆုံးဖြစ်စေရန် ကျွန်ုပ်တို့၏ GPT‑3 policy ကို fine-tune လုပ်ပါသည်။
ဤလုပ်ငန်းစဉ်ကို စဉ်းစားနိုင်သည့် နည်းလမ်းတစ်ခုမှာ ၎င်းသည် GPT‑3 တွင် ရှိပြီးသားဖြစ်သော်လည်း prompt engineering တစ်ခုတည်းဖြင့် ထုတ်ဖော်ခက်ခဲသော စွမ်းရည်များကို “ဖွင့်ထုတ်” ပေးသည်ဟု ဆိုနိုင်သည်။ အကြောင်းမှာ ကျွန်ုပ်တို့၏ လေ့ကျင့်ရေးလုပ်ငန်းစဉ်သည် အကြိုလေ့ကျင့်သင်ကြားခြင်း အတွင်း သင်ယူထားသည်များနှင့် နှိုင်းယှဉ်လျှင် မော်ဒယ်ကို စွမ်းရည်အသစ်များ သင်ပေးနိုင်မှုမှာ အကန့်အသတ်ရှိသောကြောင့်ဖြစ်သည်။ ၎င်းသည် မော်ဒယ် အကြိုလေ့ကျင့်သင်ကြားခြင်းနှင့် နှိုင်းယှဉ်လျှင် compute နှင့် data ၏ 2% ထက်နည်းသည့် ပမာဏကိုသာ အသုံးပြုပါသည်။
ဤနည်းလမ်း၏ ကန့်သတ်ချက်တစ်ခုမှာ ၎င်းက “ကိုက်ညီစေမှု ကုန်ကျစရိတ်” ကို ဖြစ်စေခြင်းဖြစ်သည်။ ဖောက်သည်အလုပ်များပေါ်တွင်သာ မော်ဒယ်များကို ကိုက်ညီအောင်ပြုလုပ်ခြင်းက အခြားသော ပညာရပ်ဆိုင်ရာ NLP အလုပ်အချို့ပေါ်တွင် ၎င်းတို့၏ စွမ်းဆောင်ရည်ကို ဆိုးရွားစေနိုင်သည်။ ဤသည်မှာ မလိုလားအပ်သော အရာဖြစ်သည်။ အဘယ်ကြောင့်ဆိုသော် ကျွန်ုပ်တို့၏ ကိုက်ညီမှုနည်းပညာများက လူများအလေးထားသော အလုပ်များပေါ်တွင် မော်ဒယ်များကို ပိုမိုဆိုးရွားစေပါက လက်တွေ့အသုံးချရာတွင် ၎င်းတို့ကို လက်ခံသုံးစွဲဖွယ် နည်းသွားမည်ဖြစ်သောကြောင့် ဖြစ်သည်။ ကျွန်ုပ်တို့သည် ဤ ကိုက်ညီစေမှု ကုန်ကျစရိတ် ကို လျှော့ချပေးသော ရိုးရှင်းသည့် algorithm ပြောင်းလဲမှုတစ်ခုကို တွေ့ရှိခဲ့သည်။ RL fine-tuning အတွင်း GPT‑3 ကို လေ့ကျင့်ရာတွင် အသုံးပြုခဲ့သော မူလဒေတာ၏ အချိုးငယ်တစ်ခုကို ရောနှောထည့်သွင်းပြီး၊ ဤဒေတာအပေါ် ပုံမှန် log likelihood maximization ဖြင့် လေ့ကျင့်ပါသည်။D ၎င်းက ဘေးကင်းရေးနှင့် လူသားနှစ်သက်မှုများပေါ်ရှိ စွမ်းဆောင်ရည်ကို အနီးစပ်ဆုံး ထိန်းသိမ်းထားစဉ် ပညာရပ်ဆိုင်ရာ အလုပ်များပေါ်ရှိ စွမ်းဆောင်ရည်ကျဆင်းမှုများကို လျော့ပါးစေပြီး၊ အချို့ကိစ္စများတွင် GPT‑3 baseline ကိုတောင် ကျော်လွန်စေပါသည်။
ကျွန်ုပ်တို့၏ လုပ်ငန်းစဉ်သည် ကျွန်ုပ်တို့၏ အမှတ်ပေးသူများ၏ နှစ်သက်မှုများနှင့် ကျွန်ုပ်တို့၏ မော်ဒယ်များ၏ အပြုအမူကို ကိုက်ညီအောင် ပြုလုပ်ပေးပါသည်။ ၎င်းတို့သည် ကျွန်ုပ်တို့၏ မော်ဒယ်များကို လေ့ကျင့်ရန် အသုံးပြုသည့် ဒေတာကို တိုက်ရိုက်ထုတ်လုပ်ပေးသူများဖြစ်ပြီး၊ ကျွန်ုပ်တို့ သုတေသနရှင်များကလည်း ရေးသားထားသော ညွှန်ကြားချက်များ၊ သီးသန့်ဥပမာများအပေါ် တိုက်ရိုက်တုံ့ပြန်ချက်များနှင့် မတရားမဟုတ်သော ဆွေးနွေးပြောဆိုမှုများမှတစ်ဆင့် အမှတ်ပေးသူများကို လမ်းညွှန်ပေးပါသည်။ ၎င်းသည် ကျွန်ုပ်တို့၏ ဖောက်သည်များနှင့် ကျွန်ုပ်တို့၏ API မူဝါဒများအတွင်း ပါဝင်သည့် အရိပ်သဘော နှစ်သက်မှုများ၏ သက်ရောက်မှုကိုလည်း ခံရပါသည်။ အထိခိုက်မခံသော တုံ့ပြန်ညွှန်ကြားချက်များကို ခွဲခြားသိမြင်ပြီး တုံ့ပြန်နိုင်စွမ်းရှိမှုအတွက် စိစစ်စမ်းသပ်မှုတွင် ကောင်းမွန်စွာ လုပ်ဆောင်ခဲ့သော အမှတ်ပေးသူများကို ကျွန်ုပ်တို့ ရွေးချယ်ခဲ့သည်။ သို့သော် ဒေတာအပေါ် သက်ရောက်မှုရှိသည့် ဤအရင်းအမြစ်များက ကျွန်ုပ်တို့၏ မော်ဒယ်များသည် ပိုမိုကျယ်ပြန့်သော အုပ်စုတစ်ခု၏ နှစ်သက်မှုများနှင့် ကိုက်ညီမည်ဟု အာမမခံနိုင်ပါ။
ဤအရာကို စုံစမ်းရန် စမ်းသပ်မှုနှစ်ခု ပြုလုပ်ခဲ့သည်။ ပထမဦးစွာ လေ့ကျင့်ရေးဒေတာတစ်စုံတစ်ရာကို မထုတ်လုပ်ခဲ့သော သီးသန့်အမှတ်ပေးသူများE ဖြင့် GPT‑3 နှင့် InstructGPT ကို အကဲဖြတ်ခဲ့ပြီး၊ ဤအမှတ်ပေးသူများသည် ကျွန်ုပ်တို့၏ လေ့ကျင့်ရေး အမှတ်ပေးသူများကဲ့သို့ပင် InstructGPT မော်ဒယ်များ၏ output များကို အလားတူနှုန်းဖြင့် ပိုမိုနှစ်သက်ကြောင်း တွေ့ရှိခဲ့သည်။ ဒုတိယအနေဖြင့် ကျွန်ုပ်တို့၏ အမှတ်ပေးသူအုပ်စုတစ်စိတ်တစ်ပိုင်းမှ ဒေတာပေါ်တွင် reward model များကို လေ့ကျင့်ခဲ့ပြီး၊ ၎င်းတို့သည် အခြားအမှတ်ပေးသူ အုပ်စုတစ်စိတ်တစ်ပိုင်း၏ နှစ်သက်မှုများကို ခန့်မှန်းရာတွင် ကောင်းစွာ အထွေထွေပြုနိုင်ကြောင်း တွေ့ရှိခဲ့သည်။ ဤအချက်က ကျွန်ုပ်တို့၏ မော်ဒယ်များသည် ကျွန်ုပ်တို့၏ လေ့ကျင့်ရေး အမှတ်ပေးသူများ၏ နှစ်သက်မှုများအပေါ်သာ overfit ဖြစ်ထားခြင်း မဟုတ်ကြောင်း ညွှန်ပြပါသည်။ သို့သော် ဤမော်ဒယ်များသည် ပိုမိုကျယ်ပြန့်သော အသုံးပြုသူအုပ်စုများအပေါ် မည်သို့ လုပ်ဆောင်သနည်းနှင့် လူများက လိုချင်သော အပြုအမူအပေါ် သဘောမတူသည့် input များတွင် မည်သို့ လုပ်ဆောင်သနည်းကို လေ့လာရန် အလုပ်ပိုမိုလိုအပ်နေသေးသည်။
သိသာထင်ရှားသော တိုးတက်မှုများ ရရှိခဲ့သော်လည်း ကျွန်ုပ်တို့၏ InstructGPT မော်ဒယ်များသည် အပြည့်အဝ ကိုက်ညီနေသည် သို့မဟုတ် အပြည့်အဝ ဘေးကင်းနေသည် မဟုတ်သေးပါ။ ၎င်းတို့သည် အဆိပ်သင့်သော သို့မဟုတ် ဘက်လိုက်သော output များကို ထုတ်လုပ်နေဆဲဖြစ်ပြီး၊ အချက်အလက်များကို လုပ်ကြံဖန်တီးကာ၊ တိတိကျကျ တောင်းဆိုမှုမရှိဘဲ လိင်ပိုင်းဆိုင်ရာနှင့် အကြမ်းဖက်အကြောင်းအရာများကိုလည်း ထုတ်လုပ်နိုင်ပါသည်။ သို့သော် machine learning စနစ်တစ်ခု၏ ဘေးကင်းရေးသည် အခြေခံ မော်ဒယ်များ၏ အပြုအမူပေါ်တွင်သာ မူတည်ခြင်းမဟုတ်ဘဲ၊ ၎င်းမော်ဒယ်များကို မည်သို့ ဖြန့်ချိအသုံးချထားသနည်းဆိုသည့်အပေါ်တွင်လည်း မူတည်ပါသည်။ ကျွန်ုပ်တို့၏ API ၏ ဘေးကင်းရေးကို ပံ့ပိုးရန်၊ live မတင်မီ ဖြစ်နိုင်သော အသုံးချမှုများကို ဆန်းစစ်သုံးသပ်(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) မည်ဖြစ်ပြီး၊ မဘေးကင်းသော completions များကို ရှာဖွေရန် content filter များ ပံ့ပိုးပေးကာ၊ အလွဲသုံးစားလုပ်မှုကိုလည်း စောင့်ကြည့်သွားမည်ဖြစ်သည်။
ကျွန်ုပ်တို့၏ မော်ဒယ်များကို အသုံးပြုသူညွှန်ကြားချက်များကို လိုက်နာစေရန် လေ့ကျင့်ပေးခြင်း၏ ဘေးထွက်ရလဒ်တစ်ခုမှာ မဘေးကင်းသော output များထုတ်ရန် ညွှန်ကြားခံရပါက ၎င်းတို့သည် အလွဲသုံးစားလုပ်မှုအတွက် ပိုမိုခံနိုင်ရည်နည်းလာနိုင်ခြင်းဖြစ်သည်။ ဤပြဿနာကို ဖြေရှင်းရန် ကျွန်ုပ်တို့၏ မော်ဒယ်များသည် အချို့သော ညွှန်ကြားချက်များကို ငြင်းဆိုနိုင်ရမည်။ ယင်းကို ယုံကြည်စိတ်ချရစွာ လုပ်ဆောင်နိုင်ခြင်းသည် ကျွန်ုပ်တို့ စိတ်အားထက်သန်စွာ ကိုင်တွယ်လိုသော ဖွင့်လှစ်ထားဆဲ သုတေသနပြဿနာတစ်ခု ဖြစ်သည်။
ထို့အပြင် များစွာသော အခြေအနေများတွင် ပျမ်းမျှ အမှတ်ပေးသူ၏ နှစ်သက်မှုနှင့် ကိုက်ညီအောင်ပြုလုပ်ခြင်းသည် လိုချင်စရာမကောင်းနိုင်ပါ။ ဥပမာအားဖြင့် လူနည်းစုအုပ်စုတစ်စုကို အချိုးမညီစွာ သက်ရောက်စေသော စာသားကို ထုတ်လုပ်ရာတွင် ထိုအုပ်စု၏ နှစ်သက်မှုများကို ပိုမိုအလေးထားသင့်သည်။ ယခုအချိန်တွင် InstructGPT ကို အင်္ဂလိပ်ဘာသာဖြင့် ညွှန်ကြားချက်များကို လိုက်နာရန် လေ့ကျင့်ထားသဖြင့် အင်္ဂလိပ်ပြောသူများ၏ ယဉ်ကျေးမှုတန်ဖိုးများဘက်သို့ ဘက်လိုက်နေပါသည်။ ကျွန်ုပ်တို့သည် ပိုမိုသီးသန့်သော လူဦးရေအုပ်စုများ၏ တန်ဖိုးများအပေါ် မော်ဒယ်များကို အခြေအနေပေးနိုင်စေရန် အမှတ်ပေးသူများ၏ နှစ်သက်မှုများကြား ကွာခြားချက်များနှင့် သဘောမတူညီမှုများကို နားလည်ရန် သုတေသနပြုလုပ်နေပါသည်။ ပိုမိုယေဘုယျအားဖြင့် မော်ဒယ် output များကို သီးသန့် လူတစ်ဦးချင်း၏ တန်ဖိုးများနှင့် ကိုက်ညီအောင် ပြုလုပ်ခြင်းသည် လူမှုအကျိုးသက်ရောက်မှုများရှိသော ခက်ခဲသည့် ရွေးချယ်မှုများကို ဖြစ်စေပြီး၊ နောက်ဆုံးတွင် ဤဆုံးဖြတ်ချက်များအတွက် တာဝန်ယူမှုရှိပြီး အားလုံးပါဝင်နိုင်သော လုပ်ငန်းစဉ်များကို ကျွန်ုပ်တို့ တည်ထောင်ရမည်ဖြစ်သည်။
ဤသည်မှာ ကျွန်ုပ်တို့၏ ကိုက်ညီမှုဆိုင်ရာ သုတေသနကို ကျွန်ုပ်တို့၏ ထုတ်ကုန်တွင် ပထမဆုံး အသုံးချခြင်းဖြစ်သည်။ ကျွန်ုပ်တို့၏ ရလဒ်များအရ ဤနည်းပညာများသည် အထွေထွေသုံး AI စနစ်များကို လူသားရည်ရွယ်ချက်များနှင့် သိသိသာသာ ပိုမိုကိုက်ညီအောင် လုပ်ဆောင်ရာတွင် ထိရောက်ကြောင်း ပြသထားသည်။ သို့သော် ဤသည်မှာ အစပဲဖြစ်သည်။ ယခုရှိနှင့် အနာဂတ် မော်ဒယ်များကို လူသားများအတွက် ဘေးကင်းပြီး အကူအညီဖြစ်စေသော ဘာသာစကားကိရိယာများဆီသို့ ပိုမိုကိုက်ညီစေရန် ဤနည်းပညာများကို ဆက်လက် တိုးတက်အောင် လုပ်ဆောင်သွားမည်ဖြစ်သည်။
ဤသုတေသန ဦးတည်ချက်များကို သင်စိတ်ဝင်စားပါက၊ ကျွန်ုပ်တို့ အလုပ်ခန့်နေပါသည်(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်)!
မှတ်စုများ
- A
ကျွန်ုပ်တို့သည် 2021 ခုနှစ် ဇန်နဝါရီလတွင် ဖြန့်ချိခဲ့သော အစောပိုင်း InstructGPT မော်ဒယ်ဗားရှင်းတစ်ခုသို့ Playground မှတစ်ဆင့် တင်သွင်းသော တုံ့ပြန်ညွှန်ကြားချက်များကိုသာ အသုံးပြုပါသည်။ ကျွန်ုပ်တို့၏ လူသား မှတ်ချက်ရေးသားသူများသည် လေ့ကျင့်ရေးဒေတာအစုထဲသို့ မထည့်သွင်းမီ တုံ့ပြန်ညွှန်ကြားချက်အားလုံးမှ ပုဂ္ဂိုလ်ရေး ဖော်ထုတ်နိုင်သော အချက်အလက်များကို ဖယ်ရှားပါသည်။
- B
API တွင် ဖြန့်ချိထားသော InstructGPT မော်ဒယ်များသည် လူသားတုံ့ပြန်မှု ဒေတာတူညီမှုကို အသုံးပြု၍ လေ့ကျင့်ထားသော အပ်ဒိတ်လုပ်ပြီးဗားရှင်းများ ဖြစ်သည်။ ၎င်းတို့သည် ဆင်တူသော်လည်း အနည်းငယ်ကွာခြားသော လေ့ကျင့်ရေးနည်းလမ်းကို အသုံးပြုထားပြီး ၎င်းကို မကြာမီ ထုတ်ဝေမည့် စာတမ်းတစ်စောင်တွင် ဖော်ပြမည်ဖြစ်သည်။
- C
ကျွန်ုပ်တို့သည် API ဖြန့်ဝေမှုတွင် အန္တရာယ်ဖြစ်စေနိုင်သော output များ၏ အခြားအတိုင်းအတာများစွာကိုလည်း တိုင်းတာပါသည်။ output များတွင် လိင်ပိုင်းဆိုင်ရာ သို့မဟုတ် အကြမ်းဖက်အကြောင်းအရာ ပါဝင်ခြင်း၊ ကာကွယ်ထားသော အုပ်စုတစ်စုကို အောက်ချခြင်း၊ သို့မဟုတ် အလွဲသုံးစားလုပ်မှုကို အားပေးခြင်း ရှိမရှိ စစ်ဆေးပါသည်။ ဤမက်ထရစ်များအပေါ် InstructGPT သည် GPT-3 ထက် သိသာစွာ မတိုးတက်ကြောင်း တွေ့ရှိခဲ့ရသည်။ မော်ဒယ်နှစ်မျိုးစလုံးအတွက် ဖြစ်ပွားနှုန်းသည် တူညီစွာ နည်းပါးပါသည်။
- D
ဤနည်းလမ်းသည် KL coefficient ကို ရိုးရိုးတိုးမြှင့်ခြင်းထက် ပိုမိုထိရောက်ကြောင်း ကျွန်ုပ်တို့ တွေ့ရှိခဲ့သည်။
- E
ဤအမှတ်ပေးသူများကို ကျွန်ုပ်တို့၏ လေ့ကျင့်ရေး အမှတ်ပေးသူများနည်းတူ Scale AI နှင့် Upwork မှ ရွေးချယ်ထားသော်လည်း စိစစ်စမ်းသပ်မှုကို မဖြတ်သန်းရပါ။
ကိုးကားချက်များ
- 1
Christiano, P., Leike, J., Brown, T.B., Martic, M., Legg, S. and Amodei, D., 2017. လူသားနှစ်သက်မှုများမှ နက်နဲစွာ အားဖြည့် သင်ယူလေ့လာခြင်း။ arXiv preprint arXiv:1706.03741.
- 2
Stiennon, N., Ouyang, L., Wu, J., Ziegler, D.M., Lowe, R., Voss, C., Radford, A., Amodei, D. and Christiano, P., 2020.
- 3
Wu, J., Ouyang, L., Ziegler, D.M., Stiennon, N., Lowe, R., Leike, J. and Christiano, P., 2021. လူသားတုံ့ပြန်မှုဖြင့် စာအုပ်များကို အဆင့်ဆင့် အနှစ်ချုပ်ခြင်း။ arXiv preprint arXiv:2109.10862.
- 4
Wei, J., Bosma, M., Zhao, V.Y., Guu, K., Yu, A.W., Lester, B., Du, N., Dai, A.M. and Le, Q.V., 2021. Fine-tune လုပ်ထားသော ဘာသာစကား မော်ဒယ်များသည် zero-shot learner များဖြစ်သည်။ arXiv preprint arXiv:2109.01652.
- 5
Sanh, V., Webson, A., Raffel, C., Bach, S.H., Sutawika, L., Alyafeai, Z., Chaffin, A., Stiegler, A., Scao, T.L., Raja, A. and Dey, M., 2021. အလုပ်မျိုးစုံအတွက် တုံ့ပြန်ညွှန်ကြားချက်ဖြင့် လေ့ကျင့်ခြင်းက zero-shot အလုပ် အထွေထွေပြုနိုင်မှုကို ဖြစ်စေသည်။ arXiv preprint arXiv:2110.08207.
- 6
Bender, E.M., Gebru, T., McMillan-Major, A. and Shmitchell, S., 2021, March. Stochastic Parrots ၏ အန္တရာယ်များအကြောင်း - ဘာသာစကား မော်ဒယ်များသည် အလွန်ကြီးမားလွန်းနိုင်သလား?🦜. In Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency (pp. 610-623).
- 7
Bommasani, R., Hudson, D.A., Adeli, E., Altman, R., Arora, S., von Arx, S., Bernstein, M.S., Bohg, J., Bosselut, A., Brunskill, E. and Brynjolfsson, E., 2021. foundation model များ၏ အခွင့်အလမ်းများနှင့် အန္တရာယ်များအကြောင်း။ arXiv preprint arXiv:2108.07258.
- 8
Kenton, Z., Everitt, T., Weidinger, L., Gabriel, I., Mikulik, V. and Irving, G., 2021. ဘာသာစကား agent များ၏ ကိုက်ညီမှု။ arXiv preprint arXiv:2103.14659.
- 9
Weidinger, L., Mellor, J., Rauh, M., Griffin, C., Uesato, J., Huang, P.S., Cheng, M., Glaese, M., Balle, B., Kasirzadeh, A. and Kenton, Z., 2021. ဘာသာစကား မော်ဒယ်များမှ ထိခိုက်မှုဖြစ်စေနိုင်သော ကိုယ်ကျင့်တရားနှင့် လူမှုရေးဆိုင်ရာ အန္တရာယ်များ။ arXiv preprint arXiv:2112.04359.
- 10
Tamkin, A., Brundage, M., Clark, J. and Ganguli, D., 2021. ကြီးမားသော ဘာသာစကား မော်ဒယ်များ၏ စွမ်းရည်များ၊ ကန့်သတ်ချက်များနှင့် လူမှုသက်ရောက်မှုကို နားလည်ခြင်း။ arXiv preprint arXiv:2102.02503.
- 11
Solaiman, I. and Dennison, C., 2021. လူမှုအသိုင်းအဝိုင်းနှင့် ကိုက်ညီအောင် ဘာသာစကား မော်ဒယ်များကို ချိန်ညှိရန် လုပ်ငန်းစဉ် (PALMS) ကို တန်ဖိုးဦးတည် ဒေတာအစုများဖြင့်။ arXiv preprint arXiv:2106.10328.
- 12
Ngo, H., Raterink, C., Araújo, J.G., Zhang, I., Chen, C., Morisot, A. and Frosst, N., 2021. conditional-likelihood filtration ဖြင့် ဘာသာစကား မော်ဒယ်များအတွင်း ထိခိုက်မှု လျှော့ချခြင်း။ arXiv preprint arXiv:2108.07790.
- 13
Xu, J., Ju, D., Li, M., Boureau, Y.L., Weston, J. and Dinan, E., 2020. open-domain chatbot များတွင် ဘေးကင်းရေးအတွက် နည်းလမ်းများ။ arXiv preprint arXiv:2010.07079.
- 14
Keskar, N.S., McCann, B., Varshney, L.R., Xiong, C. and Socher, R., 2019. Ctrl: ထိန်းချုပ်နိုင်သော စာသားထုတ်လုပ်မှုအတွက် အခြေအနေလိုက် ထရန်(စ်)ဖော်မာ ဘာသာစကား မော်ဒယ်။ arXiv preprint arXiv:1909.05858.
- 15
Krause, B., Gotmare, A.D., McCann, B., Keskar, N.S., Joty, S., Socher, R. and Rajani, N.F., 2020. Gedi: ထုတ်လုပ်မှု discriminator လမ်းညွှန်ထားသော sequence generation။ arXiv preprint arXiv:2009.06367.
- 16
Dathathri, S., Madotto, A., Lan, J., Hung, J., Frank, E., Molino, P., Yosinski, J. and Liu, R., 2019. Plug and play ဘာသာစကား မော်ဒယ်များ: ထိန်းချုပ်ထားသော စာသားထုတ်လုပ်မှုအတွက် ရိုးရှင်းသော နည်းလမ်းတစ်ခု။ arXiv preprint arXiv:1912.02164.
- 17
Lin, S., Hilton, J. and Evans, O., 2021. TruthfulQA: မော်ဒယ်များသည် လူသားမှားယွင်းချက်များကို မည်သို့ အတုယူသနည်းကို တိုင်းတာခြင်း။ arXiv preprint arXiv:2109.07958.
- 18
Gehman, S., Gururangan, S., Sap, M., Choi, Y. and Smith, N.A., 2020. RealToxicityPrompts: ဘာသာစကား မော်ဒယ်များတွင် neural toxic degeneration ကို အကဲဖြတ်ခြင်း။ arXiv preprint arXiv:2009.11462.
- 19
Rudinger, R., Naradowsky, J., Leonard, B. and Van Durme, B., 2018. coreference resolution တွင် ကျား/မ ဘက်လိုက်မှု။ arXiv preprint arXiv:1804.09301.
- 20
Nangia, N., Vania, C., Bhalerao, R. and Bowman, S.R., 2020. CrowS-pairs: masked language model များတွင် လူမှုဘက်လိုက်မှုများကို တိုင်းတာရန် စိန်ခေါ်မှု ဒေတာအစုတစ်ခု။ arXiv preprint arXiv:2010.00133.
စာရေးသူများ
ကျေးဇူးတင်လွှာ
ကျွန်ုပ်တို့၏ စာတမ်း ပူးတွဲရေးသားသူများဖြစ်သော Long Ouyang, Jeff Wu, Roger Jiang, Diogo Almeida, Carroll Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller, Maddie Simens, Amanda Askell, Peter Welinder နှင့် Paul Christiano တို့အပြင် စာတမ်းနှင့် ဘလော့ဂ်ပို့စ်အပေါ် အကြံပြုချက်ပေးခဲ့သူအားလုံးကို ကျေးဇူးတင်ရှိပါသည်။ ထို့အပြင် Steve Dowling, Hannah Wong, Elie Georges, Alper Ercetin, Jared Salzano, Allan Diego နှင့် Justin Jay Wang တို့အပါအဝင် လမ်းညွှန်မှုနှင့် ကူညီပံ့ပိုးမှု ပေးခဲ့သည့် Comms အဖွဲ့ကိုလည်း ကျေးဇူးတင်ရှိပါသည်။ နောက်ဆုံးအနေဖြင့် ဤပရောဂျက် ဖြစ်မြောက်လာရန် မဖြစ်မနေလိုအပ်ခဲ့သော ကျွန်ုပ်တို့၏ အမှတ်ပေးသူများကိုလည်း ကျေးဇူးတင်ရှိပါသည်။


