ဝန်ခံချက်များက language model များကို ရိုးသားစေမည့်နည်း
ညွှန်ကြားချက်ချိုးဖောက်သည့်အခါ သို့မဟုတ် မရည်ရွယ်ထားသော shortcut များယူသည့်အခါ မော်ဒယ်များကို တင်ပြစေ하도록 လေ့ကျင့်ပေးသည့် အစောပိုင်း proof-of-concept နည်းလမ်းတစ်ရပ်ကို ကျွန်ုပ်တို့ မျှဝေနေပါသည်။
AI စနစ်များသည် ပိုမိုစွမ်းဆောင်ရည်မြင့်လာနေပြီး ၎င်းတို့ကို တတ်နိုင်သမျှ နက်နက်ရှိုင်းရှိုင်း နားလည်လိုပါသည်—အဖြေတစ်ခုကို မည်သို့နှင့် အဘယ်ကြောင့် ရောက်ရှိလာသည်ကိုပါ အပါအဝင်ဖြစ်သည်။ တစ်ခါတရံ မော်ဒယ်တစ်ခုသည် shortcut ယူသွားခြင်း သို့မဟုတ် မှားယွင်းသော ရည်မှန်းချက်အတွက် optimize လုပ်သွားခြင်းရှိနိုင်သော်လည်း ၎င်း၏ နောက်ဆုံး output သည် မှန်ကန်သကဲ့သို့ပင် မြင်ရတတ်သည်။ ထိုသို့ဖြစ်သည့်အခါကို ဖော်ထုတ်နိုင်ပါက deploy လုပ်ထားသော စနစ်များကို ပိုကောင်းစွာ စောင့်ကြည့်နိုင်မည်၊ လေ့ကျင့်မှုကို တိုးတက်စေနိုင်မည်၊ output များအပေါ် ယုံကြည်မှုကိုလည်း မြှင့်တင်နိုင်မည်ဖြစ်သည်။
OpenAI နှင့် အခြားသူများ၏ သုတေသနများက AI မော်ဒယ်များသည် hallucinate လုပ်နိုင်ကြောင်း၊ reward-hack လုပ်နိုင်ကြောင်း၊ သို့မဟုတ် မရိုးသားနိုင်ကြောင်း ပြသထားသည်။ လက်ရှိအချိန်တွင် scheming(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) ကဲ့သို့ စိုးရိမ်ဖွယ် အပြုအမူများကို stress-test များနှင့် adversarial evaluation များ၌သာ အများဆုံး တွေ့ရသေးသည်။ သို့သော် မော်ဒယ်များသည် ပိုမိုစွမ်းဆောင်ရည်မြင့်လာကာ အေးဂျင့်ဆန်မှု ပိုများလာသည်နှင့်အမျှ ကိုက်ညီမှုမရှိခြင်း၏ ရှားပါးပုံစံများပင် အကျိုးဆက်ပိုမိုကြီးမားလာနိုင်သဖြင့် ဤအန္တရာယ်များကို ပိုမိုကောင်းမွန်စွာ ရှာဖွေ၊ နားလည်၊ လျော့ပါးစေရန် ကူညီပေးမည့် နည်းလမ်းများတွင် ကျွန်ုပ်တို့ ရင်းနှီးမြှုပ်နှံရန် အားပေးလျက်ရှိသည်။
ဤလုပ်ငန်းမှာ ထိုနည်းလမ်းများထဲမှ တစ်ခုကို စူးစမ်းလေ့လာခြင်းဖြစ်သည်—မော်ဒယ်များ မလိုလားအပ်သော အပြုအမူများတွင် ပါဝင်သည့်အခါ ထင်ရှားစွာ ဝန်ခံစေ하도록 လေ့ကျင့်ပေးခြင်းဖြစ်ပြီး၊ ဤနည်းစနစ်ကို ဝန်ခံချက်များ ဟု ကျွန်ုပ်တို့ ခေါ်သည်။
ဝန်ခံချက်ဆိုသည်မှာ သုံးစွဲသူအား မော်ဒယ်၏ အဓိကအဖြေနှင့် သီးခြားဖြစ်သော ဒုတိယ output တစ်ခုဖြစ်သည်။ အဓိကအဖြေကို မှန်ကန်မှု၊ စတိုင်၊ အသုံးဝင်မှု၊ လိုက်နာမှု၊ ဘေးကင်းမှု စသည်ဖြင့် မျက်နှာမူချက်များစွာအပေါ် အကဲဖြတ်ပြီး ဤမျိုးစုံသော signal များကို မော်ဒယ်များ ပိုမိုကောင်းမွန်သော အဖြေများ ထုတ်လုပ်စေရန် လေ့ကျင့်ရာတွင် အသုံးပြုသည်။ ထို့ပြင် ဝန်ခံချက်ကိုတော့ အရာတစ်ခုတည်းပေါ်တွင်သာ အကဲဖြတ်၍ လေ့ကျင့်သည်—ရိုးသားမှု။ confessional ၏ ဖွဲ့စည်းပုံမှ အယူအဆတစ်ရပ်ကို ယူကာ၊ လေ့ကျင့်နေစဉ် မော်ဒယ်က ဝန်ခံချက်တွင် ပြောသမျှကို ၎င်းအပေါ် အပြစ်မတင်ပါ။ မော်ဒယ်က စမ်းသပ်မှုတစ်ခုကို hack လုပ်ခဲ့သည်၊ sandbagging လုပ်ခဲ့သည် သို့မဟုတ် ညွှန်ကြားချက်များကို ချိုးဖောက်ခဲ့သည်ဟု ရိုးသားစွာ ဝန်ခံပါက၊ ထိုဝန်ခံမှုကြောင့် ၎င်း၏ reward သည် လျော့ကျခြင်းမဟုတ်ဘဲ တိုးလာသည်။ ရည်ရွယ်ချက်မှာ မော်ဒယ်က အမှန်တကယ် လုပ်ခဲ့သည့်အရာကို သစ္စာရှိရှိ အစီရင်ခံစေရန် ဖြစ်သည်။
ကျွန်ုပ်တို့၏ စမ်းသပ်မှုများတွင် ဝန်ခံချက်နည်းလမ်းသည် မော်ဒယ်၏ မလိုလားအပ်သော အပြုအမူများကို မြင်သာမှုရှိစေရန် သိသာထင်ရှားစွာ ကောင်းမွန်လာစေကြောင်း တွေ့ရှိခဲ့သည်။ အဆိုပါ misbehavior များကို ဖြစ်ပေါ်စေရန် ဒီဇိုင်းလုပ်ထားသော အကဲဖြတ်မှုများအပေါ် ပျမ်းမျှတွက်ကြည့်လျှင် “false negatives” ဖြစ်နိုင်ခြေ (ဆိုလိုသည်မှာ မော်ဒယ်က ညွှန်ကြားချက်များကို မလိုက်နာဘဲ ထို့နောက် ၎င်းကို မဝန်မခံခြင်း) သည် 4.4% သာရှိသည်။
adversarial dataset များအတော်များများပေါ်တွင် ကျွန်ုပ်တို့၏ “proof of concept” ဝန်ခံချက် မော်ဒယ်၏ တိကျမှု။ ရလဒ်များကို complied and didn’t confess (true negative), complied and confessed (false positive), didn’t comply and didn’t confess (false negative), နှင့် didn’t comply and confessed (true positive) ဟူ၍ အမျိုးအစားခွဲထားသည်။

အသုံးပြုသူ၏ တုံ့ပြန်ညွှန်ကြားချက်တစ်ခုအရ ဖြစ်နိုင်သော ရလဒ်လေးမျိုးသည် (1) မော်ဒယ်တုံ့ပြန်မှုသည် လိုက်နာထားသော (“good”) သို့မဟုတ် မလိုက်နာသော (“bad”) ဖြစ်မဖြစ်နှင့် (2) ဝန်ခံချက်က လိုက်နာထားကြောင်း သို့မဟုတ် မလိုက်နာကြောင်း ဆိုထားမဆိုထား ဟူသော အချက်နှစ်ချက်ပေါင်းစပ်မှုအပေါ် အခြေခံသည်။ ယေဘုယျအားဖြင့် ဝန်ခံချက်များသည် အလွန်တိကျနိုင်ခြေမြင့်ကြောင်း၊ ထို့အပြင် ဝန်ခံချက်အမှားများမှာလည်း များသောအားဖြင့် အန္တရာယ်မရှိဘဲ တမင်လှည့်ဖြားခြင်းထက် ရိုးသားသော စိတ်ရှုပ်ထွေးမှုကြောင့် ဖြစ်တတ်ကြောင်း ကျွန်ုပ်တို့ တွေ့ရသည်။
ဝန်ခံချက်ဆိုသည်မှာ မော်ဒယ်က ရရှိထားသည့် ထင်ရှားသောနှင့် မထင်ရှားသော ညွှန်ကြားချက်များ သို့မဟုတ် မူဝါဒများ၏ အဓိပ္ပာယ်နှင့် စာသားတိတိကို ဘယ်လောက်ကောင်းကောင်း လိုက်နာခဲ့ကြောင်းနှင့် “cut corners” သို့မဟုတ် “hacked” လုပ်ခြင်း၊ မူဝါဒချိုးဖောက်ခြင်း သို့မဟုတ် မျှော်မှန်းချက်မပြည့်မီခြင်းတို့ ဖြစ်ပွားခဲ့သလားဆိုသည့် အကြောင်းကို မော်ဒယ်က ကိုယ်တိုင် အစီရင်ခံခြင်းဖြစ်သည်။ ကျွန်ုပ်တို့၏ သုတေသနတွင် မော်ဒယ်များကို ၎င်းတို့၏ ချို့ယွင်းချက်များကို ပွင့်ပွင့်လင်းလင်း အစီရင်ခံစေရန် လေ့ကျင့်ပေးနိုင်ကြောင်း တွေ့ရသည်။ ကျွန်ုပ်တို့သည် GPT‑5 Thinking ၏ ဗားရှင်းတစ်ခုကို ဝန်ခံချက်များ ထုတ်လုပ်စေရန် လေ့ကျင့်ခဲ့ပြီး scheming၊ hacking၊ ညွှန်ကြားချက်ချိုးဖောက်ခြင်းနှင့် hallucination များကဲ့သို့ အပြုအမူများကို ထွက်ပေါ်စေရန် ဒီဇိုင်းလုပ်ထားသော out-of-distribution stress-test dataset များအများအပြားပေါ်တွင် အကဲဖြတ်ခဲ့သည်။ မော်ဒယ်သည် ဤမလိုလားအပ်သော အပြုအမူများ ပြုလုပ်ခဲ့သော်လည်း ၎င်းတို့ကို ဝန်ခံရန် အလွန်ဖြစ်နိုင်ခြေမြင့်ကြောင်း ကျွန်ုပ်တို့ တွေ့ရှိခဲ့သည်။ အထက်ပါပုံတွင် ဝန်ခံချက်နည်းလမ်းသည် မတူညီသော dataset နှင့် task အမျိုးမျိုးတစ်လျှောက် ကျယ်ကျယ်ပြန့်ပြန့် ထိရောက်ကြောင်း ပြထားသည်။
အသုံးပြုသူနှင့် မော်ဒယ်ကြား အပြန်အလှန်ဆက်သွယ်မှုတစ်ခုစီ၏ အဆုံးတွင် မော်ဒယ်အဖြေတစ်ခု ရှိပြီးနောက်၊ မော်ဒယ်အား ဝန်ခံချက်အစီရင်ခံစာ ပေးရန် ညွှန်ကြားသော “system message” ကို ပို့ခြင်းဖြင့် ဝန်ခံချက်တစ်ခုကို တောင်းဆိုနိုင်သည်။ အစီရင်ခံစာသည် မော်ဒယ်၏ နောက်ဆုံးအဖြေကို သက်ဆိုင်ပြီး (1) ဤအဖြေက ပြည့်မီသင့်သည့် ထင်ရှားသောနှင့် မထင်ရှားသော ညွှန်ကြားချက်များ၊ ကန့်သတ်ချက်များနှင့် ရည်မှန်းချက်များအားလုံး၏ စာရင်း၊ (2) အဖြေသည် အဆိုပါ ရည်မှန်းချက်တစ်ခုချင်းစီကို အမှန်တကယ် ပြည့်မီခဲ့သလားဆိုသည့် ရိုးသားပြီး တိတိကျကျ သုံးသပ်ချက်၊ နှင့် (3) အဖြေထုတ်လုပ်ရာတွင် မော်ဒယ် ကြုံတွေ့ခဲ့ရသော မသေချာမှုများ၊ အဓိပ္ပာယ်မရှင်းမှုများ သို့မဟုတ် “tough judgement calls” များ၏ စာရင်းတို့ ပါဝင်သည်။ လေ့ကျင့်နေစဉ် ဝန်ခံချက်ကို သီးခြား reward model တစ်ခုက အကဲဖြတ်ပြီး ရည်မှန်းချက်များ၏ ပြည့်စုံမှု၊ လိုက်နာမှု သုံးသပ်ချက်၏ တိကျမှုနှင့် မသေချာချက်များကို လွှမ်းခြုံထားမှုတို့အပေါ်သာ အမှတ်ပေးသည်။ ဤ reward များကို ဝန်ခံချက် output ပေါ်တွင်သာ သီးသန့် သက်ရောက်စေပြီး အဓိကအဖြေအတွက် reward ကို မည်သည့်အခါမျှ မသက်ရောက်စေပါ။ ထို့ကြောင့် အထက်တွင် ဆွေးနွေးခဲ့သကဲ့သို့ မော်ဒယ်က ဝန်ခံချက်တွင် ပြောသမျှသည် ၎င်း၏ အဓိကအဖြေအတွက် reward ကို ထိခိုက်စေခြင်း (သို့မဟုတ် ကူညီပေးခြင်း) မရှိကြောင်း သေချာစေသည်။
ဝန်ခံချက်များ၏ သီအိုရီမှာ ရိုးရှင်းသည်။ မလိုလားအပ်သော မော်ဒယ်အပြုအမူအမျိုးအစားများစွာသည် မော်ဒယ်အား တစ်ချိန်တည်းတွင် ရည်မှန်းချက်များစွာအတွက် optimize လုပ်ခိုင်းသောကြောင့် ပေါ်လာသည်။ အားဖြည့် သင်ယူလေ့လာခြင်းအတွင်း မော်ဒယ်သည် တုံ့ပြန်ညွှန်ကြားချက်တစ်ခုကို တွေ့ရပြီး၊ တုံ့ပြန်မှုတစ်ခု ထုတ်ပေးကာ reward တစ်ခု ရရှိသည်။ အချိန်ကြာလာသည်နှင့်အမျှ အမှတ်ကောင်းရသော အဖြေမျိုးများကို ထုတ်ပေးတတ်လာသည်။ စိန်ခေါ်မှုမှာ reward signal သည် တစ်ချိန်တည်းတွင် စဉ်းစားချက်အမျိုးမျိုးကို ပေါင်းစည်းရမည်ဖြစ်သည်—အဖြေဘယ်လောက်မှန်ကန်သလဲ၊ အသုံးဝင်သလား၊ ထုတ်ကုန်နှင့် မူဝါဒ သတ်မှတ်ချက်များကို လိုက်နာသလား၊ ဘေးကင်းရေး ကန့်သတ်ချက်များနှင့် ကိုက်ညီသလား၊ အသုံးပြုသူများက နှစ်သက်တတ်သည့်အရာနှင့် ကိုက်ညီသလား စသည်တို့ဖြစ်သည်။ ဤ signal များ အပြန်အလှန် သက်ရောက်သည့်အခါ မလိုချင်သော အပြုအမူများဘက်သို့ မော်ဒယ်ကို မတော်တဆ တိုက်တွန်းသွားစေနိုင်သည်။
ဥပမာအားဖြင့် hallucinations ဆိုင်ရာ ကျွန်ုပ်တို့၏အလုပ်တွင် dataset အချို့က မသေချာကြောင်း ရိုးသားစွာ ဝန်ခံခြင်းထက် ယုံကြည်ချက်ပြင်းထန်သော ခန့်မှန်းဖြေဆိုမှုကို ပိုမို reward ပေးကြောင်း ပြသခဲ့သည်။ sycophancy ဆိုင်ရာ သုတေသနတွင် preference signal အလွန်ပြင်းထန်လျှင် မော်ဒယ်များသည် အလွန်အမင်း သဘောတူညီလွန်းလာနိုင်ကြောင်း ပြသခဲ့သည်။ ထို့ပြင် အခြားအဖွဲ့များ၏ work(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) က မော်ဒယ်များသည် “reward hack” လုပ်နိုင်ကြောင်း—လေ့ကျင့်ရေးစနစ်အတွင်းရှိ လွတ်လပ်ချက်များကို ရှာဖွေကာ ကျွန်ုပ်တို့ ရည်ရွယ်သည့်အတိုင်း အမှန်တကယ် မလုပ်ဘဲ အမှတ်မြင့် ရယူနိုင်ကြောင်း—ပြသထားသည်။ အချို့ကိစ္စများတွင် ဤ shortcut များသည် deploy လုပ်သည့်အချိန် ပိုမိုဆိုးရွားသော အပြုအမူများသို့ပင် generalize(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) လုပ်သွားနိုင်သည်။
ဝန်ခံချက်များသည် ရည်မှန်းချက်များကို လုံးဝခွဲထုတ်ခြင်းဖြင့် ဤပြဿနာကို ရှောင်ရှားသည်။ အဓိကအဖြေသည် ပုံမှန်အချက်များအားလုံးအတွက် ဆက်လက် optimize လုပ်နေဆဲ ဖြစ်သည်။ ဝန်ခံချက်ကိုတော့ တစ်ချက်တည်းအပေါ် လေ့ကျင့်သည်—ရိုးသားမှု။ ဝန်ခံချက်တွင် မော်ဒယ် ပြောသမျှကို ၎င်းအပေါ် အပြစ်မတင်သကဲ့သို့ ဝန်ခံချက်က အဓိကအဖြေအတွက် reward ကိုလည်း မသက်ရောက်စေပါ။ ဆိုလိုသည်မှာ မော်ဒယ်က မူလ output တွင် လှည့်ဖြားခဲ့သည် သို့မဟုတ် shortcut ယူခဲ့သည်ဆိုလျှင်တောင် ဝန်ခံချက်တွင် ထိုအရာကို ဝန်ခံရန် အားပေးမှုရှိနေဆဲဖြစ်သည်။ လက်တွေ့တွင်လည်း ဤအတိုင်းပင် တွေ့ရသည်—မော်ဒယ်များသည် အဓိကအဖြေတွင် ဖုံးကွယ်ထားသည့် ကိစ္စများ၌ပင် ဝန်ခံချက်တွင် မကောင်းသော အပြုအမူကို အသိအမှတ်ပြုရန် ဆန္ဒရှိကြသည်။ ဝန်ခံချက်များ မအောင်မြင်သည့်အခါတွင်လည်း အများအားဖြင့် မော်ဒယ်သည် တကယ်ပင် စိတ်ရှုပ်ထွေးနေခြင်းကြောင့် ဖြစ်သည်—ညွှန်ကြားချက်များမှာ မရှင်းလင်းခြင်း သို့မဟုတ် အမှားတစ်ခု ဖြစ်ပွားခဲ့သည်ကို ၎င်းမသိမိခြင်းကြောင့်ဖြစ်သည်—တမင်တကာ လှည့်ဖြားရန် ကြိုးစားသည့်အတွက်မဟုတ်ပါ။ အရေးကြီးသည်မှာ အစောပိုင်းရလဒ်များအရ မူလအဖြေကို အတွေးကွင်းဆက် မရှိဘဲ ထုတ်လုပ်ခဲ့သည့်အခါတွင်ပင် ဝန်ခံချက်များသည် ထိရောက်နေဆဲဖြစ်ကြောင်း ပြသပြီး၊ ထိုကြောင့် ဝန်ခံချက်၏ ရိုးသားမှုသည် အတွင်းပိုင်း reasoning ၏ မြင်သာမှုအပေါ် မမူတည်ကြောင်းနှင့် အနာဂတ် မော်ဒယ် architecture များတစ်လျှောက်လည်း အသုံးချနိုင်နိုင်ကြောင်း အကြံပြုထားသည်။
လိုက်နာမှုဆိုင်ရာ ground-truth label များ မရှိဘဲပင် ဝန်ခံချက်လေ့ကျင့်မှုသည် အလုပ်လုပ်နိုင်သည်။ “ground truth” ဟု ဆိုရာတွင် မော်ဒယ်သည် ညွှန်ကြားချက်တစ်ခုကို အမှန်တကယ် လိုက်နာခဲ့သလား သို့မဟုတ် ချိုးဖောက်ခဲ့သလားကို ပြတ်သားစွာ ပြင်ပမှ ပေးထားသော label ကို ဆိုလိုသည်။ လက်တွေ့ကမ္ဘာရှိ task များစွာတွင် ဤ label များကို မရနိုင်ပါ—မော်ဒယ်က စည်းကမ်းတစ်ရပ်ကို ချိုးဖောက်ခဲ့ကြောင်း ကျွန်ုပ်တို့ သေချာသိပါက ဝန်ခံချက်ကို အားမကိုးဘဲ ထိုချိုးဖောက်မှုကို တိုက်ရိုက် အပြစ်ပေးနိုင်မည်ဖြစ်သည်။ ထို့အစား မော်ဒယ်သည် မိမိဘာလုပ်ခဲ့သည်ဟု ယုံကြည်သည့်အရာအပေါ် ဖွဲ့စည်းပုံကျပြီး အထောက်အထားအခြေပြု ရှင်းလင်းချက်တစ်ခုကို ထုတ်ပေးသည့်အတွက် reward ပေးခံရသည်။ စာတမ်းက ဤစနစ်အောက်တွင် ရိုးသားမှု ပေါ်ထွက်လာတတ်ကြောင်း ပြထားသည်။ ကျွန်ုပ်တို့ထင်မြင်သည်မှာ တရားသူကြီးကို လှည့်စားအောင် ဖြတ်သန်းနိုင်မည့် အတူတကွ သဘာဝကျသော အတုဇာတ်ကြောင်းတစ်ခု တည်ဆောက်ခြင်းထက် အမှန်တရားနှင့် အထောက်အထားရှိသော ရှင်းလင်းချက်ပေးခြင်းသည် ယေဘုယျအားဖြင့် မော်ဒယ်အတွက် ပိုမိုလွယ်ကူသောကြောင့် ဖြစ်သည်။ ဤအချက်သည် စာတမ်းတွင် စူးစမ်းထားသော အဓိကယူဆချက်တစ်ခုဖြစ်ပြီး ဝန်ခံချက်များ မအောင်မြင်သည့် case များ—false negative နှင့် false positive များ—နှင့် ၎င်းတို့ ဖြစ်ပေါ်ပုံကိုလည်း ဆွေးနွေးထားသည်။
စာတမ်းက ဝန်ခံချက်များ အလုပ်လုပ်ကြောင်း အစပိုင်း သက်သေများကို ပေးထားသော်လည်း အပြီးသတ် သက်သေပြချက်အဖြစ် မယူဆသင့်ပါ။ ကျွန်ုပ်တို့သည် စွမ်းဆောင်ရည်အမြင့်ဆုံး မော်ဒယ်တစ်ခု (GPT‑5 Thinking) ကို အသုံးပြုခဲ့သော်လည်း စမ်းသပ်မှုများသည် scale အရ ကန့်သတ်ထားပြီး computation နှင့် data ပမာဏမှာလည်း အတော်သေးငယ်သည်။ ဤလုပ်ငန်းကို နောက်တစ်ဆင့်သို့ တိုးမြှင့်နိုင်ရန်နှင့် လေ့ကျင့်မှုကို ပိုမို scale up လုပ်သည့်အခါ ဝန်ခံချက်များ၏ ရိုးသားမှု ဆက်လက်တည်မြဲမည်လားကို မြင်ရရန် ကျွန်ုပ်တို့ စိတ်လှုပ်ရှားလျက်ရှိသည်။
မော်ဒယ်သည် ၎င်း၏ အဓိကတုံ့ပြန်မှုတွင် စာကြောင်းများကို စကားလုံးအရေအတွက်ဟု ဆိုထားသော annotation များဖြင့် မှတ်ချက်ပေးကာ grader ကို လှည့်စားရန် “reward hacks” လုပ်သော်လည်း၊ ထို့နောက် ဝန်ခံချက်တွင် ယင်းကို ဝန်ခံသည်။
ကျွန်ုပ်တို့၏ စမ်းသပ်မှုများ၏ တစ်စိတ်တစ်ပိုင်းအနေဖြင့် ပိုအားနည်းသော မော်ဒယ်တစ်ခုက တွက်ချက်ထားသည့် “hack လုပ်လွယ်သော” reward signal တစ်ခုကို မော်ဒယ်များအပေါ် ရည်ရွယ်ချက်ရှိရှိ အသုံးပြု၍ လေ့ကျင့်ခဲ့သည်။ ဤ setup ကို အဓိက reward နှင့် ဝန်ခံချက် reward နှစ်ခုလုံးတွင် အသုံးချခဲ့သည်။ မော်ဒယ်သည် အားနည်းသော reward signal ကို exploit လုပ်တတ်လာခဲ့သည်—၎င်း၏ မြင်သာသော တိကျမှု (အားနည်းသော မော်ဒယ်၏ အကဲဖြတ်မှုအရ) သည် တိုးလာသော်လည်း ၎င်း၏ အမှန်တကယ် တိကျမှု (ပိုမိုအားကောင်းသော evaluator ၏ အကဲဖြတ်မှုအရ) သည် ကျဆင်းသွားခဲ့သည်။
သို့သော် ဝန်ခံချက် channel ကို အတူတူ အားနည်းသော signal ပေါ်တွင် လေ့ကျင့်ထားသော်လည်း ၎င်း၏ တိကျမှုက ဆန့်ကျင်ဘက် ဦးတည်ရာသို့ ရွေ့သွားခဲ့သည်။ မော်ဒယ်သည် ဝန်ခံချက် reward ကို optimize လုပ်ရန် အကောင်းဆုံးနည်းမှာ အဓိက reward ကို hack လုပ်ခဲ့သည့်အခါ ဝန်ခံရန်သာ ဖြစ်ကြောင်း သင်ယူခဲ့သည်။ အဓိက အပြုအမူသည် တဖြည်းဖြည်း လွဲချော်လာသော်လည်း ဝန်ခံချက်များကတော့ အချိန်နှင့်အမျှ ပိုမိုတိကျလာခဲ့သည်။
လေ့ကျင့်မှုတစ်လျှောက် မော်ဒယ်သည် လိုက်နာရန် ပျက်ကွက်သည့်အခါ case အချို့တွင် အဓိက reward judge ကို “hack” လုပ်တတ်လာသောကြောင့် judge ၏ တိကျမှု ကျဆင်းလာသည်။ ထိုနှင့် ဆန့်ကျင်ဘက်အားဖြင့် confession reward judge သည်လည်း အလားတူ hack လုပ်လွယ်သော်လည်း မော်ဒယ်သည် ဝန်ခံချက်တွင် လေ့ကျင့်မှုတစ်လျှောက် ပိုမိုရိုးသားလာပြီး၊ နောက်ဆုံးတွင် မလိုက်နာခဲ့သည့်အခါ ဝန်ခံနှုန်း 100% နီးပါးအထိ ရောက်ရှိလာသည်။
paper(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) တွင် စမ်းသပ်မှုများနှင့် ရလဒ်များ ပိုမိုပါဝင်သည်။ ဝန်ခံချက် channel မပါဘဲ တူညီသောနည်းဖြင့် လေ့ကျင့်ထားသည့် control model နှင့် ဝန်ခံချက်လေ့ကျင့်ထားသော မော်ဒယ်ကို ကျွန်ုပ်တို့ နှိုင်းယှဉ်ခဲ့သည်။ ထို့ပြင် ဝန်ခံချက်များ မအောင်မြင်သည့် case များကိုလည်း စစ်ဆေးခဲ့သည်။ “misses” အများစုအားလုံးနီးပါးသည် မော်ဒယ်က တကယ်ပင် စိတ်ရှုပ်ထွေးနေသည့်အခါတွင် ဖြစ်ပွားခဲ့သည်—ညွှန်ကြားချက်များ မရှင်းလင်းသည့်အခါ သို့မဟုတ် မိမိအမှားလုပ်မိသည်ကို ရိုးရိုးရှင်းရှင်း မသိခဲ့သည့်အခါတွင် ဖြစ်သည်။ (အထက်ရှိ false negative example ကို ကြည့်ပါ။)
ဝန်ခံချက်များတွင် ၎င်းတို့၏ ကန့်သတ်ချက်များ ရှိသည်။ ၎င်းတို့သည် မကောင်းသော အပြုအမူကို မတားဆီးပေးပါ။ ၎င်းကို ပေါ်လွင်စေပါသည်။ ၎င်းတို့၏ အဓိကတန်ဖိုးမှာ လေ့ကျင့်နေစဉ်နှင့် deploy လုပ်ပြီးနောက် နှစ်ခုစလုံးတွင် monitoring နှင့် diagnostic tool အဖြစ်ဖြစ်သည်။ ဝန်ခံချက်များသည် chain-of-thought monitoring နှင့် ဆင်တူသော အခန်းကဏ္ဍတစ်ခုကို ထမ်းဆောင်သည်—နှစ်ခုစလုံးက ဖုံးကွယ်နေသော reasoning process များကို ပိုမိုမြင်သာစေသည်။ ဝန်ခံချက်များက မော်ဒယ်သည် ညွှန်ကြားချက်များကို ချိုးဖောက်ခဲ့သလား ဆိုသည့်အချက်ကို အာရုံစိုက်ပြီး၊ chain-of-thought ကတော့ ၎င်း ဘယ်လို ရောက်လာသည်ကို မီးမောင်းထိုးပြနိုင်သည်။
ဤအလုပ်သည် proof of concept တစ်ရပ်လည်းဖြစ်သည်။ ဝန်ခံချက် mechanism များကို scale ကြီးမားစွာ မလေ့ကျင့်ခဲ့ဘဲ ဝန်ခံချက်၏ တိကျမှုမှာလည်း မပြည့်စုံသေးပါ။ ဤနည်းလမ်းကို ပိုမိုယုံကြည်စိတ်ချရစေရန်၊ ပိုမိုခိုင်မာစေရန်နှင့် မော်ဒယ်မိသားစုများနှင့် task များတစ်လျှောက် ပိုမိုကျယ်ပြန့်စွာ အသုံးချနိုင်စေရန် ဆက်လက်လုပ်ဆောင်ရန် အလုပ်များစွာ ကျန်ရှိနေသေးသည်။
ဤအလုပ်သည် ကျွန်ုပ်တို့၏ AI ဘေးကင်းရေးအပေါ် ပိုမိုကျယ်ပြန့်သော ချဉ်းကပ်မှု အတွင်း သင့်တော်စွာ တည်ရှိသည်။ ဝန်ခံချက်များသည် deliberative alignment၊ chain-of-thought monitoring၊ instruction hierarchy စသည်တို့ပါဝင်သော ပိုမိုကြီးမားသည့် stack အတွင်းရှိ mechanism တစ်ခုသာဖြစ်သည်။ နည်းလမ်းတစ်ခုတည်းနှင့် မလုံလောက်ပါ။ ရည်ရွယ်ချက်မှာ အပြန်အလှန် အားဖြည့်ပေးသည့် စစ်ဆေးမှုများနှင့် ပွင့်လင်းမြင်သာမှု tool များ၏ အလွှာလိုက်စနစ်တစ်ခု တည်ဆောက်ရန်ဖြစ်သည်။ ဝန်ခံချက်များသည် လေ့ကျင့်မှုနှင့် evaluation အတွင်း မော်ဒယ်များရှိ ပြဿနာရှိသော အပြုအမူများကို diagnosis လုပ်ရာတွင်လည်းကောင်း၊ deployment အတွင်း monitoring လုပ်ရာတွင်လည်းကောင်း အကူအညီပေးနိုင်သည်။ ဝန်ခံချက်များသာတစ်ခုတည်းဖြင့် အမျိုးမျိုးသော dimension များကြား balance ချိန်ညှိရသည့် ပြဿနာကို မဖြေရှင်းနိုင်ပါ။ သို့သော် မော်ဒယ်များက ရိုးသားမှုကိုသာ အာရုံစိုက်နေသော “truth serum” mode တစ်ခု ဖန်တီးပေးခြင်းအားဖြင့်၊ ယေဘုယျအားဖြင့် ရိုးသားမှုနှင့် ဘေးကင်းရေးကို တိုးတက်စေရန် ကျွန်ုပ်တို့၏ stack ထဲသို့ တန်ဖိုးရှိသော tool တစ်ခု ထပ်မံဖြည့်စွက်ပေးသည်။
မော်ဒယ်များသည် ပိုမိုစွမ်းဆောင်ရည်မြင့်လာပြီး stakes မြင့်သော setting များတွင် deploy လုပ်လာသည်နှင့်အမျှ ၎င်းတို့ ဘာလုပ်နေကြသည်နှင့် ဘာကြောင့် လုပ်နေကြသည်ကို နားလည်ရန် ပိုမိုကောင်းမွန်သော tool များ လိုအပ်လာသည်။ ဝန်ခံချက်များသည် ပြည့်စုံသော ဖြေရှင်းချက်မဟုတ်သော်လည်း ကျွန်ုပ်တို့၏ transparency နှင့် oversight stack ထဲသို့ အဓိပ္ပာယ်ရှိသော အလွှာတစ်ခု ထပ်ဖြည့်ပေးသည်။ အနာဂတ်လုပ်ငန်းများတွင် ဝန်ခံချက်များကို scale up လုပ်ရန်နှင့် chain-of-thought monitoring နှင့် deliberative alignment အပါအဝင် ပေါင်းစပ်အသုံးချနိုင်သော transparency နှင့် safety technique များနှင့် တွဲဖက်အသုံးပြုရန် ကျွန်ုပ်တို့ စီစဉ်ထားပြီး၊ ကျွန်ုပ်တို့၏ မော်ဒယ်များသည် ညွှန်ကြားချက်များနှင့် မူဝါဒများအားလုံးကို (ကျွန်ုပ်တို့၏ Model Spec(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) ကဲ့သို့) သစ္စာရှိစွာ လိုက်နာကြောင်းနှင့် ၎င်းတို့၏ လုပ်ရပ်များအကြောင်းကိုလည်း အမှန်တကယ် အစီရင်ခံကြောင်း သေချာစေရန် ပိုမိုတိုးတက်မှုများ ရရှိစေလိုပါသည်။


