GPT‑4 ဖြင့် GPT‑4 ၏ အမှားများကို ရှာဖွေခြင်း
GPT‑4 အပေါ် အခြေခံထားသော မော်ဒယ် CriticGPT သည် RLHF အတွင်း လူ့လေ့ကျင့်ပေးသူများ အမှားများကို သတိပြုမိစေရန် ChatGPT ၏ တုံ့ပြန်ချက်များကို ဝေဖန်ရေးသားပေးသည်
ကျွန်ုပ်တို့သည် GPT‑4 ကို အခြေခံထားသော CriticGPT ဟုခေါ်သည့် မော်ဒယ်တစ်ခုကို ChatGPT ၏ code output ထဲက အမှားများကို ဖမ်းမိရန် လေ့ကျင့်ပေးထားပါသည်။ လူများသည် CriticGPT ၏ အကူအညီဖြင့် ChatGPT code ကို ပြန်လည်သုံးသပ်သည့်အခါ အကူအညီမရှိသူများထက် 60% သော အချိန်တွင် ပိုကောင်းစွာ ဆောင်ရွက်နိုင်ကြောင်း ကျွန်ုပ်တို့ တွေ့ရှိခဲ့သည်။ ကျွန်ုပ်တို့သည် CriticGPT ဆန်သည့် မော်ဒယ်များကို ကျွန်ုပ်တို့၏ RLHF labeling pipeline ထဲသို့ ပေါင်းစည်းရန် အလုပ်ကို စတင်နေပြီဖြစ်ပြီး၊ လေ့ကျင့်ပေးသူများအား ရှင်းလင်းသော AI အကူအညီ ပေးသွားမည်ဖြစ်သည်။ ၎င်းသည် ပိုကောင်းသော tools များမရှိဘဲ လူများအတွက် အကဲဖြတ်ရခက်ခဲနိုင်သည့် အဆင့်မြင့် AI စနစ်များ၏ output များကို အကဲဖြတ်နိုင်ရန် ဦးတည်သည့် ခြေလှမ်းတစ်ခုဖြစ်သည်။
ChatGPT ကို စွမ်းဆောင်ပေးသော GPT‑4 စီးရီး မော်ဒယ်များသည် “လူတုံ့ပြန်မှုမှ အားဖြည့် သင်ယူလေ့လာခြင်း” (RLHF) မှတစ်ဆင့် အကူအညီပေးနိုင်ပြီး အပြန်အလှန်ဆက်သွယ်နိုင်အောင် ကိုက်ညီညှိနှိုင်းထားပါသည်။ RLHF ၏ အဓိကအစိတ်အပိုင်းတစ်ခုမှာ AI trainers ဟုခေါ်သော လူများက မတူညီသော ChatGPT တုံ့ပြန်ချက်များကို တစ်ခုနှင့်တစ်ခု နှိုင်းယှဉ်အကဲဖြတ်သည့် comparison များကို စုဆောင်းခြင်းဖြစ်သည်။
ကျွန်ုပ်တို့သည် ကျိုးကြောင်းသင့်လျော်စွာ စဉ််းစားပေးသောစွမ်းရည်နှင့် မော်ဒယ်၏ အပြုအမူပိုင်းတွင် တိုးတက်မှုများ ရရှိလာသလို ChatGPT သည် ပိုမိုတိကျလာပြီး ၎င်း၏ အမှားများသည် ပိုမိုသိမ်မွေ့လာသည်။ ထို့ကြောင့် အမှားများ ဖြစ်ပေါ်လာသည့်အခါ AI trainers များအတွက် မမှန်ကန်မှုများကို သတိပြုမိရန် ခက်ခဲစေနိုင်ပြီး RLHF ကို မောင်းနှင်ပေးသည့် comparison task ကို ပိုမိုခက်ခဲစေသည်။ ၎င်းသည် RLHF ၏ အခြေခံကန့်သတ်ချက်တစ်ခုဖြစ်ပြီး၊ feedback ပေးနိုင်မည့် မည်သည့်လူတစ်ဦးထက်မဆို မော်ဒယ်များသည် တဖြည်းဖြည်း ပိုမိုဗဟုသုတကြွယ်ဝလာသည့်အခါ ၎င်းတို့ကို ကိုက်ညီညှိနှိုင်းရန် ပို၍ခက်ခဲလာစေနိုင်သည်။
ဤစိန်ခေါ်မှုကို ကူညီဖြေရှင်းရန် ကျွန်ုပ်တို့သည် ChatGPT အဖြေများထဲက မမှန်ကန်မှုများကို မီးမောင်းထိုးပြသော ဝေဖန်ချက်များ ရေးရန် CriticGPT ကို လေ့ကျင့်ပေးခဲ့ပါသည်။
Task
Solution
import os def get_file_object(path): # Define the safe directory safe_dir = "/safedir" # Get the absolute path of the file and the safe directory absolute_file_path = os.path.abspath(path) absolute_safe_dir = os.path.abspath(safe_dir) # Check if the file is within the safe directory Highlighted:if not absolute_file_path.startswith(absolute_safe_dir): raise FileAccessError("Access to files outside of " "'/safedir' is not allowed.")...CriticGPT
CriticGPT ၏ အကြံပြုချက်များသည် အမြဲတမ်း မှန်ကန်နေသည်မဟုတ်ပေမယ့်၊ AI အကူအညီမရှိဘဲ ဖြစ်မည့်အနေအထားထက် မော်ဒယ်ရေးသားသော အဖြေများထဲက ပြဿနာများကို ပိုမိုများပြားစွာ ဖမ်းမိနိုင်ရန် trainers များကို ကူညီပေးနိုင်ကြောင်း ကျွန်ုပ်တို့ တွေ့ရှိခဲ့သည်။ ထို့ပြင် လူများသည် CriticGPT ကို အသုံးပြုသောအခါ AI က ၎င်းတို့၏ စွမ်းရည်ကို မြှင့်တင်ပေးပြီး၊ လူတစ်ဦးတည်း လုပ်ဆောင်သည့်အခါထက် ပိုမိုပြည့်စုံသော ဝေဖန်ချက်များ ရလာစေသလို၊ မော်ဒယ်တစ်ခုတည်း လုပ်ဆောင်သည့်အခါထက် စိတ်ကူးယဉ် bug များလည်း ပိုနည်းစေသည်။ ကျွန်ုပ်တို့၏ စမ်းသပ်မှုများတွင် ဒုတိယ ကျပန်းရွေးချယ်ထားသော trainer တစ်ဦးက Human+CriticGPT အဖွဲ့၏ ဝေဖန်ချက်များကို အကူအညီမရှိသော လူတစ်ဦး၏ ဝေဖန်ချက်များထက် 60% ကျော်သော အချိန်တွင် ပိုနှစ်သက်ခဲ့သည်။
CriticGPT သည် လေ့ကျင့်ရေးပေးသူများကို အကူအညီမရှိဘဲ ရေးသည့်ဝေဖန်ချက်များထက် ပိုမိုပြည့်စုံသော ဝေဖန်ချက်များ ရေးနိုင်စေပြီး၊ မော်ဒယ်တစ်ခုတည်းမှ ထွက်လာသော ဝေဖန်ချက်များထက် စိတ်ကူးယဉ်ချက်များ ပိုနည်းစေပါသည်။
CriticGPT ကိုလည်း ChatGPT နှင့် ဆင်တူစွာ RLHF ဖြင့် လေ့ကျင့်ပေးထားပါသည်။ သို့သော် ChatGPT နှင့် မတူသည်မှာ ၎င်းသည် အမှားများ ပါဝင်သော input အများအပြားကို တွေ့ခဲ့ရပြီး ထို့နောက် ၎င်းတို့ကို ဝေဖန်ရပါသည်။ ChatGPT ရေးထားသော code ထဲသို့ ထိုအမှားများကို AI trainers များက ကိုယ်တိုင်ထည့်သွင်းပြီး၊ ထို့နောက် သူတို့ကိုယ်တိုင် ထည့်ခဲ့သည့် bug ကို ဖမ်းမိခဲ့သကဲ့သို့ ဟန်ဆောင်၍ နမူနာ feedback များ ရေးရန် ကျွန်ုပ်တို့ တောင်းဆိုခဲ့သည်။ ထို့နောက် ထိုလူတစ်ယောက်ကပင် ပြုပြင်ထားသော code အပေါ် ဝေဖန်ချက်များ အများအပြားကို နှိုင်းယှဉ်ခဲ့သဖြင့် မည်သည့်ဝေဖန်ချက်က သူတို့ ထည့်သွင်းထားသော bug ကို ဖမ်းမိသည်ကို အလွယ်တကူ သိနိုင်ခဲ့သည်။ ကျွန်ုပ်တို့၏ စမ်းသပ်မှုများတွင် CriticGPT သည် ထည့်သွင်းထားသော bug များကို ဖမ်းမိနိုင်မလား၊ အပြင် “သဘာဝအလျောက် ဖြစ်ပေါ်လာသော” ယခင် trainer တစ်ဦးက ဖမ်းမိခဲ့သော ChatGPT bug များကိုပါ ဖမ်းမိနိုင်မလား ဆိုသည်ကို လေ့လာခဲ့ပါသည်။ သဘာဝအလျောက် ဖြစ်ပေါ်သော bug များအပေါ်တွင် CriticGPT ၏ ဝေဖန်ချက်များကို ChatGPT ၏ ဝေဖန်ချက်များထက် trainers များက 63% အထိ ပိုနှစ်သက်ကြသည်ကို တွေ့ရှိခဲ့ပြီး၊ အကြောင်းရင်းတစ်စိတ်တစ်ပိုင်းမှာ critic အသစ်သည် “nitpicks” (အသုံးမဝင်သော သေးငယ်သည့် အပြစ်ရှာချက်များ) ကို ပိုနည်းစွာ ထုတ်လုပ်ပြီး၊ ပြဿနာများကို စိတ်ကူးယဉ်ဖန်တီးမှုလည်း ပိုနည်းသောကြောင့် ဖြစ်သည်။
ထို့အပြင် critique reward model ကို test-time search ထပ်မံအသုံးပြုခြင်းဖြင့် ပိုရှည်ပြီး ပိုမိုပြည့်စုံသော ဝေဖန်ချက်များကို ထုတ်လုပ်နိုင်ကြောင်းလည်း တွေ့ရှိခဲ့ပါသည်။ ဤ search လုပ်ငန်းစဉ်က code ထဲရှိ ပြဿနာများကို မည်မျှတက်ကြွစွာ ရှာဖွေမည်ကို ချိန်ညှိနိုင်စေပြီး၊ စိတ်ကူးယဉ်ချက်များနှင့် တွေ့ရှိသည့် bug အရေအတွက်အကြား precision-recall trade-off ကို သတ်မှတ်နိုင်စေပါသည်။ ဆိုလိုသည်မှာ RLHF အတွက် အတတ်နိုင်ဆုံး အထောက်အကူဖြစ်သော ဝေဖန်ချက်များကို ကျွန်ုပ်တို့ ထုတ်လုပ်နိုင်သည်ဟု ဆိုလိုပါသည်။ အသေးစိတ်ပိုမိုသိရှိလိုပါက ကျွန်ုပ်တို့၏ သုတေသနစာတမ်းကို ကြည့်ပါ။
- ကျွန်ုပ်တို့သည် CriticGPT ကို တိုတောင်းသော ChatGPT အဖြေများအပေါ် လေ့ကျင့်ပေးထားပါသည်။ အနာဂတ်၏ အေးဂျင့်များကို ကြီးကြပ်နိုင်ရန် လေ့ကျင့်ပေးသူများက ရှည်လျားပြီး ရှုပ်ထွေးသော လုပ်ငန်းတာဝန်များကို နားလည်စေရန် ကူညီပေးနိုင်သော နည်းလမ်းများကို ဖွံ့ဖြိုးတိုးတက်စေရန် လိုအပ်ပါမည်။
- မော်ဒယ်များသည် ယခုထိ စိတ်ကူးယဉ်ချက်များ ထုတ်လုပ်နေဆဲဖြစ်ပြီး၊ တစ်ခါတစ်ရံ trainers များကလည်း ထိုစိတ်ကူးယဉ်ချက်များကို မြင်ပြီးနောက် labeling အမှားများ ပြုလုပ်တတ်ကြသည်။
- တစ်ခါတစ်ရံ လက်တွေ့ကမ္ဘာရှိ အမှားများသည် အဖြေတစ်ခု၏ အစိတ်အပိုင်းများစွာအနှံ့ ပျံ့နှံ့နေတတ်သည်။ ကျွန်ုပ်တို့၏ အလုပ်သည် တစ်နေရာတည်းတွင် ထောက်ပြနိုင်သော အမှားများကို အဓိကထားသော်လည်း အနာဂတ်တွင် ပြန့်ကျဲနေသော အမှားများကိုလည်း ကိုင်တွယ်ရန် လိုအပ်ပါမည်။
- CriticGPT က ကူညီနိုင်သည့် အတိုင်းအတာမှာ ကန့်သတ်ချက်ရှိပါသည် - အလုပ်တစ်ခု သို့မဟုတ် တုံ့ပြန်ချက်တစ်ခုသည် အလွန်ရှုပ်ထွေးလွန်းပါက မော်ဒယ်အကူအညီ ရရှိထားသော ကျွမ်းကျင်သူတစ်ဦးပင်လျှင် ၎င်းကို မှန်ကန်စွာ အကဲဖြတ်နိုင်မည် မဟုတ်နိုင်ပါ။
ပိုမိုရှုပ်ထွေးလာနေသော AI စနစ်များကို ကိုက်ညီညှိနှိုင်းနိုင်ရန် ပိုမိုကောင်းမွန်သော tools များ လိုအပ်မည်ဖြစ်သည်။ CriticGPT ဆိုင်ရာ ကျွန်ုပ်တို့၏ သုတေသနတွင် GPT‑4 အပေါ် RLHF ကို အသုံးချခြင်းသည် GPT‑4 အတွက် ပိုကောင်းသော RLHF data များကို လူများက ထုတ်လုပ်နိုင်ရန် ကူညီပေးမည့် အလားအလာရှိကြောင်း တွေ့ရှိခဲ့သည်။ ကျွန်ုပ်တို့သည် ဤအလုပ်ကို ပိုမိုချဲ့ထွင်ပြီး လက်တွေ့ အသုံးချရန် စီစဉ်နေပါသည်။
စာရေးသူများ
ကျေးဇူးတင်လွှာ
Greg Brockman, Juan Felipe Ceron Uribe, Elie Georges, Wes McCabe, Evgenia Nitishinskaya, Rai (Michael Pokorny), Freddie Sulit