OpenAI ၏ နက်နဲစွာ သင်ယူလေ့လာခြင်းကို ချဲ့ထွင်ရာတွင် နောက်ဆုံးမှတ်တိုင်ဖြစ်သော GPT‑4 ကို ကျွန်ုပ်တို့ ဖန်တီးခဲ့သည်။ GPT‑4 သည် ကြီးမားသော multimodal မော်ဒယ်တစ်ခုဖြစ်ပြီး (ရုပ်ပုံနှင့် စာသား ထည့်သွင်းမှုများကို လက်ခံကာ စာသားအထွက်များ ထုတ်ပေးသည်) လက်တွေ့ကမ္ဘာ အခြေအနေများစွာတွင် လူသားများထက် စွမ်းဆောင်ရည်နည်းသော်လည်း ပညာရပ်ဆိုင်ရာနှင့် အသက်မွေးဝမ်းကျောင်းဆိုင်ရာ စံနှုန်းအမျိုးမျိုးတွင် လူသားအဆင့် စွမ်းဆောင်ရည်ကို ပြသသည်။ ဥပမာအားဖြင့် ၎င်းသည် စာဖြေသူများထဲမှ ထိပ်ဆုံး 10% ဝန်းကျင်ရမှတ်ဖြင့် simulated bar exam ကို အောင်မြင်ပြီး၊ ဆန့်ကျင်ဘက်အားဖြင့် GPT‑3.5 ၏ ရမှတ်မှာ အောက်ဆုံး 10% ဝန်းကျင်သာ ရှိခဲ့သည်။ ကျွန်ုပ်တို့သည် factuality၊ steerability နှင့် guardrail များပြင်ပသို့ မသွားရန် ငြင်းဆန်နိုင်စွမ်းတို့တွင် ယခင်ကထက် အကောင်းဆုံးရလဒ်များ (ပြီးပြည့်စုံမှုနှင့်တော့ ဝေးကွာနေသေးသည်) ရရှိစေရန်၊ ကျွန်ုပ်တို့၏ adversarial testing program နှင့် ChatGPT မှ သင်ခန်းစာများကို အသုံးပြု၍ GPT‑4 ကို ၆ လကြာ ထပ်ခါတလဲလဲ alignment ပြုလုပ် ခဲ့သည်။
ပြီးခဲ့သည့် နှစ်နှစ်အတွင်း ကျွန်ုပ်တို့သည် နက်နဲစွာ သင်ယူလေ့လာခြင်း stack တစ်ခုလုံးကို ပြန်လည်တည်ဆောက်ခဲ့ပြီး Azure နှင့် ပူးပေါင်းကာ ကျွန်ုပ်တို့၏ workload အတွက် အခြေခံမှစ၍ supercomputer တစ်ခုကို အတူဒီဇိုင်းဆွဲခဲ့သည်။ တစ်နှစ်ခန့်မတိုင်မီ GPT‑3.5 ကို ထိုစနစ်၏ ပထမဆုံး “test run” အဖြစ် လေ့ကျင့်ခဲ့သည်။ ကျွန်ုပ်တို့သည် bug အချို့ကို ရှာဖွေပြုပြင်ခဲ့ပြီး သီအိုရီအခြေခံများကိုလည်း တိုးတက်ကောင်းမွန်စေခဲ့သည်။ ထို့ကြောင့် GPT‑4 လေ့ကျင့်သင်ကြားမှု run သည် (အနည်းဆုံး ကျွန်ုပ်တို့အတွက်တော့) မတိုင်မီက မရှိဖူးအောင် တည်ငြိမ်ခဲ့ပြီး၊ လေ့ကျင့်မှုစွမ်းဆောင်ရည်ကို အချိန်မတိုင်မီ တိကျစွာ ခန့်မှန်းနိုင်ခဲ့သော ပထမဆုံး အကြီးစားမော်ဒယ် ဖြစ်လာခဲ့သည်။ ယုံကြည်စိတ်ချရသော scaling ကို ဆက်လက်အာရုံစိုက်နေသကဲ့သို့၊ အနာဂတ်စွမ်းရည်များကို ပိုမိုဝေးကွာသည့် အချိန်ကာလမှ ကြိုတင်ခန့်မှန်း၍ ပြင်ဆင်နိုင်စေရန် ကျွန်ုပ်တို့၏ နည်းလမ်းကို ပိုမိုချွန်ထက်စေလိုသည်—၎င်းကို လုံခြုံရေးအတွက် အရေးကြီးသည်ဟု ကျွန်ုပ်တို့ ယူဆပါသည်။
GPT‑4 ၏ စာသားထည့်သွင်းနိုင်စွမ်းကို ChatGPT နှင့် API မှတဆင့် ( waitlist နှင့်အတူ) ထုတ်ပြန်လျက်ရှိသည်။ ရုပ်ပုံထည့်သွင်းနိုင်စွမ်းကို ပိုမိုကျယ်ပြန့်စွာ ရရှိနိုင်စေရန် ပြင်ဆင်နေစဉ်၊ ကျွန်ုပ်တို့သည် စတင်ရန် မိတ်ဖက်တစ်ဦးတည်း(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) နှင့် နီးကပ်စွာ ပူးပေါင်းလုပ်ဆောင်နေပါသည်။ ထို့အပြင် AI မော်ဒယ် စွမ်းဆောင်ရည်ကို အလိုအလျောက် အကဲဖြတ်ရန် framework ဖြစ်သော OpenAI Evals(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) ကိုလည်း open-source အဖြစ် ထုတ်ပြန်နေပြီး၊ မော်ဒယ်များ၏ ချို့ယွင်းချက်များကို မည်သူမဆို တင်ပြနိုင်စေရန် ပြုလုပ်ခြင်းဖြင့် နောက်ထပ် တိုးတက်ကောင်းမွန်မှုများအတွက် လမ်းညွှန်ပေးနိုင်ရန် ဖြစ်သည်။
ပေါ့ပေါ့ပါးပါး စကားဝိုင်းတစ်ခုတွင် GPT‑3.5 နှင့် GPT‑4 အကြား ကွာခြားချက်မှာ သိသာထင်ရှားမှု နည်းနိုင်သည်။ လုပ်ငန်း၏ ရှုပ်ထွေးမှုသည် လုံလောက်သော အဆင့်သို့ ရောက်ရှိလာသောအခါ၌ ကွာခြားချက် ပိုမိုပေါ်လွင်လာသည်—GPT‑4 သည် GPT‑3.5 ထက် ပိုမိုယုံကြည်စိတ်ချရပြီး၊ ဖန်တီးမှုကောင်းကာ၊ ပိုမိုသိမ်မွေ့သော ညွှန်ကြားချက်များကို ကိုင်တွယ်နိုင်သည်။
မော်ဒယ်နှစ်ခုအကြား ကွာခြားချက်ကို နားလည်ရန်၊ ကျွန်ုပ်တို့သည် လူသားများအတွက် မူလက ဒီဇိုင်းရေးဆွဲထားသော စာမေးပွဲများကို အတုယူစမ်းသပ်ခြင်းအပါအဝင် စံနှုန်းအမျိုးမျိုးပေါ်တွင် စမ်းသပ်ခဲ့သည်။ Olympiad များနှင့် AP free response မေးခွန်းများအတွက် အများပြည်သူရရှိနိုင်သည့် နောက်ဆုံးပေါ် စမ်းသပ်မှုများကို သုံးခဲ့ပြီး၊ သို့မဟုတ် လေ့ကျင့်ရေးစာမေးပွဲ 2022–2023 ထုတ်ဝေမှုများကို ဝယ်ယူအသုံးပြုခဲ့သည်။ ဤစာမေးပွဲများအတွက် သီးသန့်လေ့ကျင့်သင်ကြားမှု မပြုလုပ်ခဲ့ပါ။ စာမေးပွဲပြဿနာအနည်းငယ်ကို မော်ဒယ်က လေ့ကျင့်မှုအတွင်း မြင်ဖူးနိုင်သော်လည်း၊ ရလဒ်များသည် ကိုယ်စားပြုနိုင်သည်ဟု ကျွန်ုပ်တို့ ယုံကြည်ပါသည်—အသေးစိတ်အတွက် ကျွန်ုပ်တို့၏ နည်းပညာအစီရင်ခံစာ(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) ကို ကြည့်ပါ။
အတွင်းပိုင်း ကိုးကားချက် 1
ကျွန်ုပ်တို့သည် GPT‑4 ကို စက်သင်ယူမှု မော်ဒယ်များအတွက် ဒီဇိုင်းရေးဆွဲထားသော ရိုးရာစံနှုန်းများပေါ်တွင်လည်း အကဲဖြတ်ခဲ့သည်။ GPT‑4 သည် benchmark-အထူးဖန်တီးညှိနှိုင်းမှု သို့မဟုတ် ထပ်ဆောင်းလေ့ကျင့်ရေး ပရိုတိုကောများ ပါဝင်နိုင်သည့် လက်ရှိ အကြီးစားဘာသာစကားမော်ဒယ်များနှင့် နောက်ဆုံးပေါ် (SOTA) မော်ဒယ်အများစုထက် အတော်လေး ပိုမိုကောင်းမွန်သည်။
ရှိပြီးသား ML စံနှုန်းများ အများအပြားကို အင်္ဂလိပ်ဘာသာဖြင့် ရေးသားထားသည်။ အခြားဘာသာစကားများတွင် စွမ်းရည်ကို စတင်သဘောပေါက်နိုင်ရန်၊ ကျွန်ုပ်တို့သည် ဘာသာရပ် 57 ခုကို လွှမ်းခြုံသော ရွေးချယ်စရာစုံမေးခွန်း 14,000 ပါဝင်သည့် MMLU စံနှုန်းကို Azure Translate အသုံးပြု၍ ဘာသာစကားမျိုးစုံသို့ ဘာသာပြန်ခဲ့သည် (နောက်ဆက်တွဲ ကို ကြည့်ပါ)။ စမ်းသပ်ခဲ့သော ဘာသာစကား 26 ခုအနက် 24 ခုတွင် GPT‑4 သည် GPT‑3.5 နှင့် အခြား LLM များ (Chinchilla, PaLM) ၏ အင်္ဂလိပ်ဘာသာဖြင့် ရရှိသည့် စွမ်းဆောင်ရည်ထက် ပိုမိုကောင်းမွန်ပြီး၊ Latvian, Welsh, Swahili ကဲ့သို့သော အရင်းအမြစ်နည်းပါးသော ဘာသာစကားများလည်း ပါဝင်သည်။
ကျွန်ုပ်တို့သည် GPT‑4 ကို support၊ sales၊ content moderation နှင့် programming ကဲ့သို့သော လုပ်ငန်းဆောင်တာများတွင် အလွန်ထိရောက်စွာ သုံးစွဲလျက်ရှိပါသည်။ ထို့အပြင် AI အထွက်များကို အကဲဖြတ်ရာတွင် လူသားများကို အထောက်အကူပြုရန်လည်း ၎င်းကို အသုံးပြုနေပြီး၊ ကျွန်ုပ်တို့၏ alignment မဟာဗျူဟာ ၏ ဒုတိယအဆင့်ကို စတင်လိုက်ပြီဖြစ်သည်။
GPT‑4 သည် စာသားနှင့် ရုပ်ပုံများပါသော တုံ့ပြန်ညွှန်ကြားချက်ကို လက်ခံနိုင်ပြီး၊ စာသားသာပါသော အခြေအနေနှင့် အပြိုင်၊ အသုံးပြုသူအား မည်သည့် အမြင် သို့မဟုတ် ဘာသာစကား လုပ်ငန်းတာဝန်ကိုမဆို သတ်မှတ်နိုင်စေသည်။ အတိအကျဆိုရလျှင် စာသားနှင့် ရုပ်ပုံများ ရောယှက်ပါဝင်သော ထည့်သွင်းမှုများကို ပေးထားသည့်အခါ စာသားအထွက်များ (သဘာဝဘာသာစကား၊ code စသည်) ကို ထုတ်ပေးသည်။ စာသားနှင့် ဓာတ်ပုံများ ပါဝင်သော စာရွက်စာတမ်းများ၊ ပုံကားချပ်များ သို့မဟုတ် screenshot များ အပါအဝင် နယ်ပယ်အမျိုးမျိုးတွင် GPT‑4 သည် စာသားသာထည့်သွင်းမှုများအပေါ် ပြသသည့် စွမ်းရည်နှင့် ဆင်တူသော စွမ်းရည်များကို ပြသသည်။ ထို့အပြင် few-shot နှင့် အတွေးကွင်းဆက်(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) prompting အပါအဝင် စာသားသာပါသော ဘာသာစကားမော်ဒယ်များအတွက် ဖန်တီးထားသော test-time techniques များဖြင့်လည်း အားဖြည့်နိုင်သည်။ ရုပ်ပုံထည့်သွင်းမှုများသည် သုတေသန preview အဆင့်တွင်သာ ရှိနေသေးပြီး အများပြည်သူအတွက် မရရှိသေးပါ။
ကျွန်ုပ်တို့သည် GPT‑4 ၏ စွမ်းဆောင်ရည်ကို ပညာရေးဆိုင်ရာ အမြင်စံနှုန်းများ၏ ကျဉ်းမြောင်းသော အစုတစ်ခုပေါ်တွင် အကဲဖြတ်ခြင်းဖြင့် အကြိုပြသထားပါသည်။ သို့သော် ဤကိန်းဂဏန်းများသည် မော်ဒယ်က ကိုင်တွယ်နိုင်သည့် စိတ်လှုပ်ရှားဖွယ် လုပ်ငန်းတာဝန်အသစ်များကို ကျွန်ုပ်တို့ အမြဲတစေ ရှာဖွေနေသောကြောင့် ၎င်း၏ စွမ်းရည်အတိုင်းအတာ အပြည့်အစုံကို မပြသနိုင်ပါ။ မကြာမီတွင် နောက်ထပ် ဆန်းစစ်ချက်များ၊ အကဲဖြတ်ကိန်းဂဏန်းများနှင့် test-time techniques များ၏ သက်ရောက်မှုအပေါ် ပြည့်စုံသော စုံစမ်းစစ်ဆေးမှုကို ထုတ်ပြန်ရန် စီစဉ်ထားပါသည်။
အတွင်းပိုင်း footnoteA
ကျွန်ုပ်တို့သည် AI များ၏ အပြုအမူကို သတ်မှတ်ခြင်း အကြောင်း ပို့စ်တွင် ဖော်ပြထားသော အစီအစဉ်၏ ကဏ္ဍတိုင်းကို steerability အပါအဝင် ဆောင်ရွက်လျက်ရှိပါသည်။ တည်ငြိမ်သော စကားများပြားမှု၊ အသံသွင်းပုံစံနှင့် စတိုင်ရှိသည့် ပုံမှန် ChatGPT ပင်ကိုယ်စရိုက်အစား၊ ယခုအခါ developer များ (မကြာမီ ChatGPT အသုံးပြုသူများလည်း) “system” message ထဲတွင် ညွှန်ကြားချက်များကို ဖော်ပြခြင်းဖြင့် ၎င်းတို့၏ AI ၏ စတိုင်နှင့် လုပ်ငန်းတာဝန်ကို သတ်မှတ်ပေးနိုင်ပြီဖြစ်သည်။ System message များသည် API အသုံးပြုသူများအား ၎င်းတို့၏ အသုံးပြုသူအတွေ့အကြုံကို ကန့်သတ်ဘောင်အတွင်း(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) အတော်လေး စိတ်ကြိုက်ပြင်ဆင်နိုင်စေသည်။ ဤနေရာတွင် ကျွန်ုပ်တို့ ဆက်လက်တိုးတက်အောင်လုပ်မည်ဖြစ်ပြီး (အထူးသဖြင့် system message များသည် လက်ရှိမော်ဒယ်ကို “jailbreak” လုပ်ရန် အလွယ်ကူဆုံးနည်းလမ်းဖြစ်ကြောင်း၊ ဆိုလိုသည်မှာ ကန့်သတ်ဘောင်လိုက်နာမှုမှာ ပြီးပြည့်စုံမဟုတ်သေးကြောင်း သိရှိပါသည်)၊ သို့သော် ၎င်းကို စမ်းသုံးကြည့်ပြီး သင့်အမြင်ကို ကျွန်ုပ်တို့အား ပြောပြရန် တိုက်တွန်းပါသည်။
၎င်း၏ စွမ်းရည်များရှိသော်လည်း GPT‑4 သည် အစောပိုင်း GPT မော်ဒယ်များနှင့် ဆင်တူသော ကန့်သတ်ချက်များ ရှိနေဆဲဖြစ်သည်။ အရေးကြီးဆုံးအချက်မှာ ၎င်းသည် လုံးဝ ယုံကြည်စိတ်ချရခြင်းမရှိသေးခြင်းဖြစ်သည် (အချက်အလက်များကို “hallucinate” လုပ်ပြီး ကျိုးကြောင်းဆင်ခြင်မှုအမှားများ ပြုလုပ်သည်)။ အထူးသဖြင့် အန္တရာယ်မြင့်သော အခြေအနေများတွင် ဘာသာစကားမော်ဒယ် အထွက်များကို အသုံးပြုရာတွင် အထူးဂရုပြုသင့်ပြီး၊ သီးခြားအသုံးပြုမှုအခြေအနေ၏ လိုအပ်ချက်များနှင့် ကိုက်ညီသော တိကျသည့် လုပ်ထုံးလုပ်နည်းများ (ဥပမာ လူသားပြန်လည်သုံးသပ်မှု၊ ထပ်ဆောင်း context ဖြင့် အခြေပြုခိုင်မာစေခြင်း၊ သို့မဟုတ် အန္တရာယ်မြင့်သုံးစွဲမှုများကို လုံးဝရှောင်ကြဉ်ခြင်း) ကို အသုံးပြုသင့်ပါသည်။
တကယ့်ပြဿနာတစ်ခု ဖြစ်နေသေးသော်လည်း GPT‑4 သည် ယခင်မော်ဒယ်များနှင့် နှိုင်းယှဉ်လျှင် hallucination များကို သိသိသာသာ လျှော့ချပေးသည် (ယခင်မော်ဒယ်များလည်း ထပ်ခါတလဲလဲ iteration တစ်ခုချင်းစီနှင့်အတူ တိုးတက်လာနေပါသည်)။ GPT‑4 သည် ကျွန်ုပ်တို့၏ internal adversarial factuality evaluation များတွင် နောက်ဆုံး GPT‑3.5 ထက် 40% ပိုမြင့်မားသော ရမှတ်ကို ရရှိသည်။
မော်ဒယ်၏ အချက်အလက်အမှန်နှင့် ပြိုင်ဘက်သဘောဖြင့် ရွေးချယ်ထားသော မှားယွင်းကြေညာချက်များအစုကို ခွဲခြားနိုင်စွမ်းကို စမ်းသပ်သည့် TruthfulQA ကဲ့သို့ ပြင်ပစံနှုန်းများတွင်လည်း ကျွန်ုပ်တို့ တိုးတက်မှုရရှိထားသည်။ ဤမေးခွန်းများကို စာရင်းအင်းအရ ဆွဲဆောင်မှုရှိသော်လည်း အချက်အလက်အရ မှားယွင်းသော အဖြေများနှင့် တွဲဖက်ထားသည်။
GPT‑4 အခြေခံမော်ဒယ်သည် ဤလုပ်ငန်းတွင် GPT‑3.5 ထက် အနည်းငယ်သာ ပိုကောင်းသည်။ သို့သော် RLHF post-training (ကျွန်ုပ်တို့ GPT‑3.5 နှင့် အသုံးပြုခဲ့သော လုပ်ငန်းစဉ်တူကို အသုံးပြုခြင်း) ပြီးနောက် ကွာဟချက် ကြီးမားလာသည်။ အောက်ပါ ဥပမာအချို့ကို ကြည့်ပါက GPT‑4 သည် အသုံးများသော ဆိုရိုးစကားများ (you can’t teach an old dog new tricks) ကို မရွေးချယ်ရန် တုံ့ပြန်နိုင်သော်လည်း၊ သိမ်မွေ့သော အသေးစိတ်အချက်များကို လွတ်ချော်နိုင်နေဆဲဖြစ်သည် (Elvis Presley was not the son of an actor)။
မော်ဒယ်၏ အထွက်များတွင် ဘက်လိုက်မှုအမျိုးမျိုး ရှိနိုင်သည်—ကျွန်ုပ်တို့သည် ဤကိစ္စများတွင် တိုးတက်မှုရရှိထားသော်လည်း လုပ်ဆောင်ရန် အရာများစွာ ကျန်ရှိသေးသည်။ ကျွန်ုပ်တို့၏ မကြာသေးမီ blog post အရ၊ ကျွန်ုပ်တို့ တည်ဆောက်သော AI စနစ်များတွင် အသုံးပြုသူများ၏ တန်ဖိုးအမြင် အကျယ်ပြန့်ကို ထင်ဟပ်စေသော မူလအပြုအမူများ ရှိစေရန်၊ ထိုစနစ်များကို ကျယ်ပြန့်သော ကန့်သတ်ဘောင်များအတွင်း စိတ်ကြိုက်ပြင်ဆင်နိုင်စေရန်နှင့် ထိုကန့်သတ်ဘောင်များ မည်သို့ဖြစ်သင့်သည်ကို အများပြည်သူထံမှ ထင်မြင်ချက် ရယူနိုင်ရန် ရည်ရွယ်ပါသည်။
GPT‑4 သည် ၎င်း၏ data အများစု ဖြတ်တောက်ထားသည့် အချိန် (September 2021) နောက်ပိုင်း ဖြစ်ရပ်များအပေါ် ယေဘုယျအားဖြင့် ဗဟုသုတ မရှိဘဲ၊ ၎င်း၏ အတွေ့အကြုံမှလည်း မသင်ယူပါ။ တခါတရံတွင် နယ်ပယ်များစွာအနှံ့ စွမ်းဆောင်ရည်နှင့် မကိုက်ညီသကဲ့သို့ ထင်ရသော ရိုးရှင်းသည့် ကျိုးကြောင်းဆင်ခြင်မှုအမှားများ ပြုလုပ်နိုင်ပြီး၊ အသုံးပြုသူထံမှ ထင်ရှားစွာ မှားယွင်းသော ကြေညာချက်များကိုလည်း အလွန်လွယ်ကူစွာ ယုံကြည်လက်ခံတတ်သည်။ ထို့အပြင် ၎င်းထုတ်ပေးသော code ထဲသို့ လုံခြုံရေးအားနည်းချက်များ ထည့်သွင်းမိခြင်းကဲ့သို့ လူသားများ အမှားလုပ်သည့် နည်းလမ်းအတိုင်း ခက်ခဲသော ပြဿနာများတွင်လည်း မအောင်မြင်နိုင်ပါ။
GPT‑4 သည် ၎င်း၏ ခန့်မှန်းချက်များတွင်လည်း ယုံကြည်မှုအပြည့်ဖြင့် မှားနိုင်ပြီး၊ အမှားလုပ်ဖွယ်ရှိသည့်အခါ အလုပ်ကို နှစ်ကြိမ်စစ်ဆေးရန် ဂရုမစိုက်နိုင်ပါ။ စိတ်ဝင်စားစရာကောင်းသည်မှာ အခြေခံ pre-trained မော်ဒယ်သည် calibration ကောင်းမွန်ပါသည် (အဖြေတစ်ခုအပေါ် ၎င်း၏ ခန့်မှန်းယုံကြည်မှုသည် ယေဘုယျအားဖြင့် မှန်ကန်နိုင်ခြေနှင့် ကိုက်ညီသည်)။ သို့သော် လက်ရှိ post-training လုပ်ငန်းစဉ်မှတဆင့် calibration သည် လျော့နည်းသွားပါသည်။
ကျွန်ုပ်တို့သည် GPT‑4 ကို လေ့ကျင့်သင်ကြားမှုအစပိုင်းမှစ၍ ပိုမိုလုံခြုံပြီး alignment ပိုကောင်းစေရန် ထပ်ခါတလဲလဲ တိုးတက်အောင်လုပ်ဆောင်ခဲ့သည်။ ထိုကြိုးပမ်းမှုများတွင် pretraining data ရွေးချယ်ခြင်းနှင့် စစ်ထုတ်ခြင်း၊ အကဲဖြတ်မှုများနှင့် ကျွမ်းကျင်သူများ ပါဝင်ဆောင်ရွက်ခြင်း၊ မော်ဒယ်လုံခြုံရေး တိုးတက်မှုများ၊ စောင့်ကြည့်ခြင်းနှင့် အကောင်အထည်ဖော်ခြင်းတို့ ပါဝင်သည်။
GPT‑4 သည် အန္တရာယ်ဖြစ်စေနိုင်သော အကြံဉာဏ်များ၊ bug ပါသော code သို့မဟုတ် မတိကျသော အချက်အလက်များ ထုတ်ပေးခြင်းကဲ့သို့ ယခင်မော်ဒယ်များနှင့် ဆင်တူသော အန္တရာယ်များကို ဖြစ်စေသည်။ သို့သော် GPT‑4 ၏ ထပ်ဆောင်းစွမ်းရည်များကြောင့် အန္တရာယ်မျက်နှာပြင်အသစ်များ ပေါ်ပေါက်လာသည်။ ဤအန္တရာယ်များ၏ အတိုင်းအတာကို နားလည်ရန် ကျွန်ုပ်တို့သည် AI alignment risks, cybersecurity, biorisk, trust and safety နှင့် international security စသည့် နယ်ပယ်များမှ ကျွမ်းကျင်သူ 50 ကျော်ကို မော်ဒယ်အား adversarially စမ်းသပ်ရန် ဖိတ်ခေါ်ခဲ့သည်။ ၎င်းတို့၏ တွေ့ရှိချက်များကြောင့် ကျွန်ုပ်တို့သည် ကျွမ်းကျင်မှုလိုအပ်သော high-risk နယ်ပယ်များတွင် မော်ဒယ်အပြုအမူကို စမ်းသပ်နိုင်ခဲ့သည်။ ထိုကျွမ်းကျင်သူများထံမှ တုံ့ပြန်ချက်နှင့် data များသည် ကျွန်ုပ်တို့၏ mitigation များနှင့် မော်ဒယ်တိုးတက်မှုများတွင် ပေါင်းစည်းဝင်ရောက်ခဲ့သည်။ ဥပမာအားဖြင့် အန္တရာယ်ရှိသော ဓာတုပစ္စည်းများ ပေါင်းစပ်ဖန်တီးနည်းဆိုင်ရာ တောင်းဆိုမှုများကို ငြင်းပယ်နိုင်စွမ်း တိုးတက်စေရန် GPT‑4 အတွက် ထပ်ဆောင်း data များ စုဆောင်းထားပါသည်။
GPT‑4 သည် RLHF လေ့ကျင့်သင်ကြားမှုအတွင်း အန္တရာယ်ဖြစ်စေသော အထွက်များကို လျှော့ချရန် (ကျွန်ုပ်တို့၏ အသုံးပြုမှုလမ်းညွှန်ချက်များ(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) အရ သတ်မှတ်ထားသည်) ထပ်ဆောင်း လုံခြုံရေး ဆုရရှိမှု အချက်ပြ တစ်ခုကို ထည့်သွင်းထားသည်။ ၎င်းသည် ထိုကဲ့သို့သော အကြောင်းအရာများအတွက် တောင်းဆိုချက်များကို ငြင်းပယ်ရန် မော်ဒယ်ကို လေ့ကျင့်ပေးခြင်းဖြင့် ဖြစ်သည်။ ထိုဆုကို GPT‑4 zero-shot classifier တစ်ခုက လုံခြုံရေးနယ်နိမိတ်များနှင့် completion style ကို safety-related prompt များပေါ်တွင် စစ်ဆေးအကဲဖြတ်ခြင်းဖြင့် ပေးအပ်သည်။ မော်ဒယ်က မှန်ကန်သော တောင်းဆိုမှုများကို မငြင်းပယ်စေရန်၊ ကျွန်ုပ်တို့သည် အရင်းအမြစ်အမျိုးမျိုးမှ (ဥပမာ label တပ်ထားသော production data, human red-teaming, model-generated prompts) ကွဲပြားသော dataset တစ်ခုကို စုဆောင်းပြီး၊ ခွင့်ပြုထားသောနှင့် မခွင့်ပြုထားသော အမျိုးအစား နှစ်မျိုးစလုံးတွင် လုံခြုံရေး ဆုရရှိမှု အချက်ပြ (အပေါင်း သို့မဟုတ် အနှုတ်တန်ဖိုးဖြင့်) ကို အသုံးပြုပါသည်။
ကျွန်ုပ်တို့၏ mitigation များသည် GPT‑3.5 နှင့် နှိုင်းယှဉ်လျှင် GPT‑4 ၏ လုံခြုံရေးဆိုင်ရာ ဂုဏ်သတ္တိများ အများအပြားကို သိသိသာသာ တိုးတက်ကောင်းမွန်စေခဲ့သည်။ GPT‑3.5 နှင့် နှိုင်းယှဉ်ပါက မခွင့်ပြုထားသော အကြောင်းအရာများအတွက် တောင်းဆိုမှုများကို တုံ့ပြန်လိုသည့် မော်ဒယ်၏ လှုပ်ရှားမှုကို 82% လျှော့ချနိုင်ခဲ့ပြီး၊ GPT‑4 သည် ထိခိုက်လွယ်သော တောင်းဆိုမှုများ (ဥပမာ ဆေးဘက်ဆိုင်ရာ အကြံဉာဏ်နှင့် ကိုယ့်ကိုယ်ကို အန္တရာယ်ပြုမှု) ကို ကျွန်ုပ်တို့၏ မူဝါဒများနှင့် ကိုက်ညီစွာ 29% ပိုမိုမကြာခဏ တုံ့ပြန်သည်။
ယေဘုယျအားဖြင့်၊ မော်ဒယ်အဆင့် ဝင်ရောက်စွက်ဖက်မှုများကြောင့် မကောင်းသောအပြုအမူများကို ဖော်ထုတ်ထုတ်ယူရန် ပိုမိုခက်ခဲလာသော်လည်း ထိုသို့လုပ်ဆောင်နိုင်ခြင်းမှာ ဆက်လက်ဖြစ်နိုင်နေဆဲဖြစ်သည်။ ထို့အပြင် ကျွန်ုပ်တို့၏ အသုံးပြုမှုလမ်းညွှန်ချက်များ ကို ချိုးဖောက်သော အကြောင်းအရာများ ထုတ်လုပ်ရန် “jailbreaks” များလည်း ရှိနေဆဲဖြစ်သည်။ AI စနစ်များ၏ “token တစ်ခုချင်းစီအလိုက် အန္တရာယ်” တိုးလာသည်နှင့်အမျှ၊ ဤဝင်ရောက်စွက်ဖက်မှုများတွင် အလွန်မြင့်မားသော ယုံကြည်စိတ်ချရမှုအဆင့်ကို ရရှိရန် အရေးကြီးလာမည်ဖြစ်သည်။ လက်ရှိအချိန်တွင်တော့ ဤကန့်သတ်ချက်များကို အလွဲသုံးစားမှု စောင့်ကြည့်ခြင်းကဲ့သို့သော ဖြန့်ချိအသုံးပြုချိန် လုံခြုံရေးနည်းလမ်းများဖြင့် ဖြည့်ဆည်းပေးရန် အရေးကြီးသည်။
GPT‑4 နှင့် ၎င်း၏နောက်ဆက်တွဲ မော်ဒယ်များသည် အကျိုးရှိသည့်နည်းလမ်းများနှင့် ထိခိုက်စေနိုင်သည့်နည်းလမ်းများ နှစ်မျိုးလုံးဖြင့် လူ့အဖွဲ့အစည်းအပေါ် အရေးကြီးစွာ သက်ရောက်နိုင်သည့် အလားအလာရှိသည်။ ကျွန်ုပ်တို့သည် ပြင်ပသုတေသီများနှင့် ပူးပေါင်းကာ ဖြစ်နိုင်ချေရှိသော သက်ရောက်မှုများကို မည်သို့နားလည်ပြီး အကဲဖြတ်ရမည်ကို တိုးတက်ကောင်းမွန်စေသလို၊ အနာဂတ်စနစ်များတွင် ပေါ်ပေါက်လာနိုင်သော အန္တရာယ်ရှိစွမ်းရည်များအတွက် အကဲဖြတ်မှုများ တည်ဆောက်နေပါသည်။ GPT‑4 နှင့် အခြား AI စနစ်များ၏ လူမှုရေးနှင့် စီးပွားရေးဆိုင်ရာ သက်ရောက်မှုများအပေါ် ကျွန်ုပ်တို့၏ အမြင်အယူများကို မကြာမီ ပိုမိုမျှဝေပေးပါမည်။
ယခင် GPT မော်ဒယ်များကဲ့သို့ပင် GPT‑4 အခြေခံ မော်ဒယ်ကို စာရွက်စာတမ်းတစ်ခုအတွင်း နောက်စကားလုံးကို ခန့်မှန်းရန် လေ့ကျင့်သင်ကြားခဲ့ပြီး၊ အများပြည်သူရရှိနိုင်သော data (ဥပမာ အင်တာနက် data) နှင့် ကျွန်ုပ်တို့ လိုင်စင်ရယူထားသော data များကို အသုံးပြု၍ လေ့ကျင့်ခဲ့သည်။ ထို data သည် web-scale corpus တစ်ခုဖြစ်ပြီး သင်္ချာပြဿနာများအတွက် မှန်ကန်သောနှင့် မှားယွင်းသော ဖြေရှင်းချက်များ၊ အားနည်းနှင့် အားကောင်းသော ကျိုးကြောင်းဆင်ခြင်မှုများ၊ ကိုယ့်ကိုယ်ကို ဆန့်ကျင်သောနှင့် တသမတ်တည်းရှိသော ကြေညာချက်များ၊ ideology နှင့် အတွေးအမြင်အမျိုးမျိုးကို ကိုယ်စားပြုပါသည်။
ထို့ကြောင့် မေးခွန်းတစ်ခုဖြင့် တုံ့ပြန်ညွှန်ကြားသည့်အခါ အခြေခံမော်ဒယ်သည် အသုံးပြုသူ၏ ရည်ရွယ်ချက်နှင့် အလွန်ကွာဝေးနိုင်သော နည်းလမ်းမျိုးစုံဖြင့် တုံ့ပြန်နိုင်သည်။ ၎င်းကို အသုံးပြုသူ၏ ရည်ရွယ်ချက်နှင့် guardrail များအတွင်း ကိုက်ညီစေရန်၊ ကျွန်ုပ်တို့သည် လူသားတုံ့ပြန်ချက်မှ အားဖြည့် သင်ယူလေ့လာခြင်း (RLHF) ကို အသုံးပြု၍ မော်ဒယ်၏ အပြုအမူကို fine-tune လုပ်ပါသည်။
မော်ဒယ်၏ စွမ်းရည်များသည် အဓိကအားဖြင့် အကြိုလေ့ကျင့်သင်ကြားခြင်း လုပ်ငန်းစဉ်မှ လာသည်ဟု ထင်ရကြောင်း သတိပြုပါ—RLHF သည် စာမေးပွဲစွမ်းဆောင်ရည်ကို မတိုးတက်စေပါ (တက်ကြွစွာ ကြိုးစားမှုမရှိလျှင် အမှန်တကယ် လျော့ကျစေသည်)။ သို့သော် မော်ဒယ်ကို steer လုပ်နိုင်ခြင်းသည် post-training လုပ်ငန်းစဉ်မှ လာသည်—အခြေခံမော်ဒယ်သည် မေးခွန်းများကို ဖြေသင့်ကြောင်းပင် သိရှိရန် prompt engineering ကို လိုအပ်သည်။
GPT‑4 စီမံကိန်း၏ အဓိကအာရုံစိုက်ချက်တစ်ခုမှာ ကြိုတင်ခန့်မှန်းနိုင်စွာ ချဲ့ထွင်နိုင်သော နက်နဲစွာ သင်ယူလေ့လာခြင်း stack ကို တည်ဆောက်ခြင်းဖြစ်သည်။ အဓိကအကြောင်းရင်းမှာ GPT‑4 ကဲ့သို့ အလွန်ကြီးမားသော လေ့ကျင့်သင်ကြားမှု run များအတွက် မော်ဒယ်အလိုက် အထူးပြု tuning ကို ကျယ်ပြန့်စွာ ပြုလုပ်ရန် မဖြစ်နိုင်သောကြောင့်ဖြစ်သည်။ ကျွန်ုပ်တို့သည် scale အမျိုးမျိုးအတွင်း အလွန်ကြိုတင်ခန့်မှန်းနိုင်သော အပြုအမူရှိသည့် infrastructure နှင့် optimization ကို ဖွံ့ဖြိုးတိုးတက်စေခဲ့သည်။ ဤ scalability ကို အတည်ပြုရန်၊ တူညီသော နည်းလမ်းဖြင့် လေ့ကျင့်ထားသော်လည်း compute 10,000x နည်းသည့် မော်ဒယ်များမှ extrapolate လုပ်ကာ ကျွန်ုပ်တို့၏ internal codebase (training set မပါဝင်သော) ပေါ်ရှိ GPT‑4 ၏ နောက်ဆုံး loss ကို ကြိုတင်တိကျစွာ ခန့်မှန်းနိုင်ခဲ့ပါသည်။
ယခုအခါ လေ့ကျင့်သင်ကြားစဉ် ကျွန်ုပ်တို့ အကောင်းဆုံးဖြစ်အောင်လုပ်ထားသော metric (loss) ကို တိကျစွာ ခန့်မှန်းနိုင်ပြီဖြစ်သောကြောင့်၊ ပိုမိုနားလည်လွယ်သော metric များကို ခန့်မှန်းနိုင်မည့် နည်းလမ်းများကို စတင်ဖွံ့ဖြိုးတိုးတက်နေပါသည်။ ဥပမာအားဖြင့်၊ HumanEval(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) dataset ၏ subset တစ်ခုတွင် pass rate ကို 1,000x compute နည်းသည့် မော်ဒယ်များမှ extrapolate လုပ်ကာ အောင်မြင်စွာ ကြိုတင်ခန့်မှန်းနိုင်ခဲ့ပါသည်။
အချို့စွမ်းရည်များကို ခန့်မှန်းရန် ခက်ခဲနေဆဲဖြစ်သည်။ ဥပမာအားဖြင့် Inverse Scaling Prize သည် model compute တိုးလာသည်နှင့်အမျှ ပိုဆိုးလာသော မက်ထရစ်ကို ရှာဖွေသည့် ပြိုင်ပွဲတစ်ခုဖြစ်ပြီး၊ hindsight neglect(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) သည် အနိုင်ရသူများထဲမှ တစ်ခုဖြစ်ခဲ့သည်။ မကြာသေးမီက ရလဒ်(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) တစ်ခုနှင့် တူသကဲ့သို့ GPT‑4 သည် ဤလမ်းကြောင်းကို ပြောင်းပြန်လှန်ထားသည်။
အနာဂတ် စက်သင်ယူမှု စွမ်းရည်များကို တိကျစွာ ခန့်မှန်းနိုင်ခြင်းသည် ၎င်း၏ ဖြစ်နိုင်ချေရှိသော သက်ရောက်မှုနှင့် နှိုင်းယှဉ်ပါက လုံခြုံရေးတွင် လုံလောက်စွာ အာရုံမစိုက်ခံရသေးသော အရေးကြီးအစိတ်အပိုင်းတစ်ခုဖြစ်သည်ဟု ကျွန်ုပ်တို့ ယုံကြည်ပါသည် (သို့သော် အဖွဲ့အစည်းအများအပြား၏ ကြိုးပမ်းမှုများကြောင့် အားတက်ရပါသည်)။ ကျွန်ုပ်တို့သည် လူ့အဖွဲ့အစည်းအား အနာဂတ်စနစ်များအပေါ် ဘာကို မျှော်လင့်ရမည်ဆိုသည့် ပိုမိုကောင်းမွန်သော လမ်းညွှန်မှု ပေးနိုင်မည့် နည်းလမ်းများ ဖွံ့ဖြိုးတိုးတက်စေရန် ကြိုးပမ်းမှုများကို ချဲ့ထွင်နေပြီး၊ ဤရည်မှန်းချက်သည် နယ်ပယ်တစ်လျှောက် ဘုံရည်မှန်းချက်တစ်ခု ဖြစ်လာမည်ဟု မျှော်လင့်ပါသည်။
ကျွန်ုပ်တို့သည် GPT‑4 ကဲ့သို့ မော်ဒယ်များကို အကဲဖြတ်ရန် benchmark များ ဖန်တီးပြီး လည်ပတ်နိုင်စေသည့် software framework ဖြစ်သော OpenAI Evals(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) ကို open-source အဖြစ် ထုတ်ပြန်နေပါသည်။ ထိုပြင် နမူနာတစ်ခုချင်းစီအလိုက် စွမ်းဆောင်ရည်ကို စစ်ဆေးနိုင်ပါသည်။ ကျွန်ုပ်တို့သည် Evals ကို မော်ဒယ်ဖွံ့ဖြိုးတိုးတက်ရေး လမ်းညွှန်ရန် (ချို့ယွင်းချက်များ ရှာဖွေခြင်းနှင့် regression မဖြစ်စေရန်) အသုံးပြုသကဲ့သို့၊ ကျွန်ုပ်တို့၏ အသုံးပြုသူများလည်း မော်ဒယ်ဗားရှင်းများအလိုက် စွမ်းဆောင်ရည်ကို ခြေရာခံရန်နှင့် ဖွံ့ဖြိုးပြောင်းလဲနေသော ထုတ်ကုန်ပေါင်းစည်းမှုများအတွက် အသုံးချနိုင်သည်။ ဥပမာအားဖြင့် Stripe သည် ၎င်းတို့၏ GPT‑powered documentation tool ၏ တိကျမှုကို တိုင်းတာရန် လူသားအကဲဖြတ်မှုများကို ဖြည့်စွက်ရန် Evals ကို အသုံးပြုခဲ့သည်။
ကုဒ်အားလုံး open-source ဖြစ်သောကြောင့် Evals သည် စိတ်ကြိုက် အကဲဖြတ် logic(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) ကို အကောင်အထည်ဖော်ရန် class အသစ်များ ရေးသားနိုင်စေသည်။ သို့သော် ကျွန်ုပ်တို့၏ အတွေ့အကြုံအရ benchmark အများအပြားသည် “template” အနည်းငယ်ထဲမှ တစ်ခုကို လိုက်နာကြသောကြောင့်၊ အတွင်းပိုင်းတွင် အထူးအသုံးဝင်ခဲ့သည့် template များကိုလည်း ထည့်သွင်းထား(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) ပါသည် (“model-graded evals” အတွက် template တစ်ခုအပါအဝင်—GPT‑4 သည် ကိုယ်ပိုင်အလုပ်ကို ကိုယ်တိုင်စစ်ဆေးရာတွင် မမျှော်လင့်ဘဲ အတော်လေး စွမ်းဆောင်နိုင်ကြောင်း ကျွန်ုပ်တို့ တွေ့ရှိခဲ့သည်)။ ယေဘုယျအားဖြင့် eval အသစ်တစ်ခု တည်ဆောက်ရန်(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) အထိရောက်ဆုံးနည်းလမ်းမှာ data ပေးအပ်ခြင်းနှင့်အတူ ထို template များထဲမှ တစ်ခုကို instantiate လုပ်ခြင်း ဖြစ်မည်။ အခြားသူများက ဤ template များနှင့် ယေဘုယျအားဖြင့် Evals ကို အသုံးပြုပြီး ဘာများ တည်ဆောက်နိုင်မည်ကို မြင်ရရန် ကျွန်ုပ်တို့ စိတ်လှုပ်ရှားနေပါသည်။
ကျွန်ုပ်တို့သည် Evals ကို benchmark များ မျှဝေရန်နှင့် လူထုအင်အားဖြင့် စုဆောင်းရန် အသုံးချနိုင်သော နည်းလမ်းတစ်ခုဖြစ်လာစေရန် မျှော်လင့်နေပါသည်။ ၎င်းက အကျယ်ပြန့်ဆုံးသော ချို့ယွင်းမှုပုံစံများနှင့် ခက်ခဲသော လုပ်ငန်းတာဝန်များကို ကိုယ်စားပြုသင့်ပါသည်။ လိုက်နာစံအဖြစ်၊ GPT‑4 မအောင်မြင်သော prompt ဆယ်ခု ပါဝင်သည့် logic puzzles(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) eval တစ်ခုကို ဖန်တီးထားပါသည်။ Evals သည် ရှိပြီးသား benchmark များ အကောင်အထည်ဖော်ရာတွင်လည်း ကိုက်ညီမှုရှိပြီး၊ ပညာရပ်ဆိုင်ရာ benchmark များကို အကောင်အထည်ဖော်ထားသည့် notebook(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) အချို့နှင့် ဥပမာအနေနှင့် CoQA(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) ကို ပေါင်းစည်းထားသော (subset အနည်းငယ်) variation များလည်း ထည့်သွင်းထားပါသည်။
ကျွန်ုပ်တို့၏ မော်ဒယ်များကို စမ်းသပ်ရန်နှင့် စိတ်ဝင်စားဖွယ်အကောင်းဆုံး ဥပမာများကို တင်သွင်းရန် လူတိုင်းအား Evals ကို အသုံးပြုရန် ဖိတ်ခေါ်ပါသည်။ Evals သည် ကျွန်ုပ်တို့၏ မော်ဒယ်များကို အသုံးပြုခြင်းနှင့် ၎င်းတို့အပေါ် အခြေခံ၍ တည်ဆောက်ခြင်း လုပ်ငန်းစဉ်၏ အရေးပါသော အစိတ်အပိုင်းတစ်ခု ဖြစ်လာမည်ဟု ကျွန်ုပ်တို့ ယုံကြည်ပြီး၊ တိုက်ရိုက် ပါဝင်ကူညီမှုများ၊ မေးခွန်းများနှင့် အကြံပြုချက်များ(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) ကို ကြိုဆိုပါသည်။
ChatGPT Plus စာရင်းသွင်းသူများသည် chatgpt.com(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) တွင် GPT‑4 ကို အသုံးပြုမှုကန့်သတ်ချက်နှင့်အတူ ရရှိမည်ဖြစ်သည်။ လက်တွေ့ရှိ တောင်းဆိုမှုနှင့် စနစ်စွမ်းဆောင်ရည်အပေါ် မူတည်၍ တိကျသည့် အသုံးပြုမှုကန့်သတ်ချက်ကို ညှိနှိုင်းမည်ဖြစ်သော်လည်း၊ ကျွန်ုပ်တို့သည် စွမ်းဆောင်ရည်ကန့်သတ်မှုကို ပြင်းထန်စွာ ရင်ဆိုင်ရမည်ဟု မျှော်လင့်ထားသည် (သို့သော် လာမည့်လများတွင် ချဲ့ထွင်ပြီး အကောင်းဆုံးဖြစ်အောင် လုပ်ဆောင်မည်)။
ကျွန်ုပ်တို့ မြင်တွေ့ရသည့် traffic pattern များအပေါ် မူတည်၍ GPT‑4 ကို ပမာဏပိုမိုများပြားစွာ အသုံးပြုနိုင်ရန် စာရင်းသွင်းမှုအဆင့်အသစ်တစ်ခု မိတ်ဆက်နိုင်သည်။ ထို့အပြင် စာရင်းသွင်းမှုမရှိသူများလည်း စမ်းသုံးနိုင်စေရန် အခမဲ့ GPT‑4 query အချို့ကို တစ်ချိန်ချိန်တွင် ပေးနိုင်မည်ဟုလည်း မျှော်လင့်ပါသည်။
GPT‑4 API ကို အသုံးပြုခွင့်ရရန် (gpt-3.5-turbo နှင့် တူညီသော ChatCompletions API(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) ကို အသုံးပြုသည်)၊ ကျွန်ုပ်တို့၏ waitlist တွင် စာရင်းပေးသွင်းပါ။ ယနေ့မှစ၍ developer အချို့ကို စတင်ဖိတ်ခေါ်မည်ဖြစ်ပြီး၊ စွမ်းဆောင်ရည်နှင့် တောင်းဆိုမှုတို့ကို ညှိနှိုင်းနိုင်ရန် တဖြည်းဖြည်း ချဲ့ထွင်သွားမည်ဖြစ်သည်။ သင်သည် AI ၏ လူမှုရေးသက်ရောက်မှု သို့မဟုတ် AI alignment ပြဿနာများကို လေ့လာနေသော သုတေသီဖြစ်ပါက၊ ကျွန်ုပ်တို့၏ Researcher Access Program မှတစ်ဆင့် ထောက်ပံ့ကြေးပါ အသုံးပြုခွင့်အတွက်လည်း လျှောက်ထားနိုင်ပါသည်။
အသုံးပြုခွင့်ရရှိပြီးနောက်၊ gpt-4 မော်ဒယ်သို့ စာသားသာပါသော တောင်းဆိုချက်များ ပြုလုပ်နိုင်ပါသည် (ရုပ်ပုံထည့်သွင်းမှုများမှာ ကန့်သတ်ထားသော alpha အဆင့်တွင်သာ ရှိသေးသည်)။ ကျွန်ုပ်တို့သည် အချိန်နှင့်အမျှ ဗားရှင်းအသစ်များ ထုတ်လုပ်လာသည့်အခါ ၎င်းကို အကြံပြုထားသော တည်ငြိမ်မော်ဒယ်သို့ အလိုအလျောက် အပ်ဒိတ်လုပ်မည်ဖြစ်သည် (လက်ရှိဗားရှင်းကို gpt-4-0314 ဟုခေါ်၍ pin လုပ်နိုင်ပြီး ဇွန် 14 အထိ ပံ့ပိုးပေးမည်)။ စျေးနှုန်းမှာ prompt tokens 1k လျှင် $0.03 နှင့် completion tokens 1k လျှင် $0.06 ဖြစ်သည်။ မူလ rate limit များမှာ တစ်မိနစ်လျှင် tokens 40k နှင့် requests 200 ဖြစ်သည်။
gpt-4 တွင် context အရှည် 8,192 tokens ရှိသည်။ ကျွန်ုပ်တို့သည် 32,768-context (စာသား စာမျက်နှာ 50 ခန့်) ဗားရှင်းဖြစ်သော gpt-4-32k ကိုလည်း ကန့်သတ်အသုံးပြုခွင့် ပေးနေပါသည်။ ၎င်းကိုလည်း အချိန်နှင့်အမျှ အလိုအလျောက် အပ်ဒိတ်လုပ်မည်ဖြစ်သည် (လက်ရှိဗားရှင်း gpt-4-32k-0314 ကိုလည်း ဇွန် 14 အထိ ပံ့ပိုးပေးမည်)။ စျေးနှုန်းမှာ prompt tokens 1K လျှင် $0.06 နှင့် completion tokens 1k လျှင် $0.12 ဖြစ်သည်။ long context အတွက် မော်ဒယ်အရည်အသွေးကို ကျွန်ုပ်တို့ ဆက်လက်တိုးတက်စေနေပြီး၊ သင့်အသုံးပြုမှုအခြေအနေအတွက် ၎င်း၏ စွမ်းဆောင်ရည်အပေါ် တုံ့ပြန်ချက်များကို အထူးလိုလားပါသည်။ စွမ်းဆောင်ရည်ပေါ် မူတည်၍ 8K နှင့် 32K engine များ၏ တောင်းဆိုချက်များကို ကွဲပြားသော အမြန်နှုန်းများဖြင့် ကိုင်တွယ်နေသောကြောင့်၊ ၎င်းတို့ကို အချိန်မတူညီစွာ အသုံးပြုခွင့်ရနိုင်ပါသည်။
GPT‑4 သည် လူများ၏ဘဝကို ပိုမိုကောင်းမွန်စေရန် application အများအပြားကို အားပေးပံ့ပိုးပေးမည့် တန်ဖိုးရှိသော tool တစ်ခု ဖြစ်လာမည်ဟု ကျွန်ုပ်တို့ မျှော်လင့်ပါသည်။ လုပ်ဆောင်ရန် အလုပ်များစွာ ကျန်ရှိသေးပြီး၊ ဤမော်ဒယ်အပေါ် အခြေခံ၍ တည်ဆောက်နေသူများ၊ စူးစမ်းလေ့လာနေသူများနှင့် ပါဝင်ကူညီနေသူများ ပါဝင်သော အသိုင်းအဝိုင်း၏ ပူးပေါင်းကြိုးပမ်းမှုများမှတဆင့် ဤမော်ဒယ်ကို ဆက်လက်တိုးတက်စေရန် မျှော်လင့်ပါသည်။
ပိုမိုသိရှိရန်: စာတမ်းဖတ်ရန်(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) / system card ကို ကြည့်ရန်(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) / ChatGPT Plus တွင် စမ်းသုံးရန်(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) / Playground တွင် စမ်းသုံးရန်(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) / demo livestream ကို ပြန်ကြည့်ရန်(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) / OpenAI Evals သို့ ပါဝင်ကူညီရန်(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်)
အခြားဘာသာစကားများသို့ ဘာသာပြန်ထားသော MMLU မေးခွန်းများ၏ ဥပမာ။ မှတ်ချက်အနေနှင့်၊ ကျွန်ုပ်တို့သည် ရွေးချယ်မှုတိုကင်များ (A–D) ကို တသမတ်တည်း အသုံးပြုပါသည်။
မှတ်ချက်များ
- A
ဤ benchmark ကို in-context အဖြစ် training set မှ ဥပမာ 4 ခုပါသော Chain-Of-Thought prompting ဖြင့် အကဲဖြတ်ပါသည်။ တိကျသော prompt ကို validation set ပေါ်တွင် tune လုပ်ထားပါသည်။
References
- 1
P. Arredondo (Casetext/Stanford CodeX), D. Katz (Stanford CodeX), M. Bommarito (Stanford CodeX), S. Gao (Casetext). Further analysis is available in the paper(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်).


