ကျွန်ုပ်တို့၏ မော်ဒယ်များ၏ လက်တွေ့ကမ္ဘာ တာဝန်များပေါ် စွမ်းဆောင်ရည်ကို တိုင်းတာခြင်း
ကျွန်ုပ်တို့သည် GDPval ကို မိတ်ဆက်နေပါသည်။ ၎င်းသည် အလုပ်အကိုင် 44 မျိုးတစ်လျှောက် စီးပွားရေးတန်ဖိုးရှိသော လက်တွေ့ကမ္ဘာတာဝန်များပေါ် မော်ဒယ်စွမ်းဆောင်ရည်ကို တိုင်းတာသည့် အကဲဖြတ်မှုအသစ်ဖြစ်သည်။
ကျွန်ုပ်တို့၏ မစ်ရှင်မှာ အထွေထွေ ဉာဏ်ရည်တု က လူသားအားလုံးအတွက် အကျိုးရှိစေရန် သေချာစေခြင်းဖြစ်သည်။ ကျွန်ုပ်တို့၏ မစ်ရှင်၏ တစ်စိတ်တစ်ပိုင်းအဖြစ် AI မော်ဒယ်များက လက်တွေ့ကမ္ဘာတွင် လူများကို မည်သို့ကူညီနိုင်ကြောင်းနှင့်ပတ်သက်သည့် တိုးတက်မှုကို ပွင့်လင်းမြင်သာစွာ ဆက်သွယ်ပြောကြားလိုပါသည်။ ထို့ကြောင့် ကျွန်ုပ်တို့သည် GDPval ကို မိတ်ဆက်ခြင်းဖြစ်သည်။ ၎င်းမှာ ကျွန်ုပ်တို့၏ မော်ဒယ်များနှင့် အခြားမော်ဒယ်များက စီးပွားရေးတန်ဖိုးရှိသော လက်တွေ့ကမ္ဘာတာဝန်များတွင် မည်မျှကောင်းစွာ လုပ်ဆောင်သလဲကို ခြေရာခံရန် အထောက်အကူပြုရန် ဒီဇိုင်းလုပ်ထားသည့် အကဲဖြတ်မှုအသစ်ဖြစ်သည်။ ကျွန်ုပ်တို့သည် ဤအကဲဖြတ်မှုကို GDPval ဟု ခေါ်သည်မှာ အဓိက စီးပွားရေးညွှန်ကိန်းတစ်ခုဖြစ်သော Gross Domestic Product (GDP) ၏ အယူအဆဖြင့် စတင်ခဲ့ပြီး GDP အတွက် အများဆုံး ပါဝင်ပံ့ပိုးသော လုပ်ငန်းကဏ္ဍများရှိ အဓိက အလုပ်အကိုင်များမှ တာဝန်များကို ရွေးချယ်ယူခဲ့သောကြောင့်ဖြစ်သည်။
လူများသည် လူမှုအသိုက်အဝန်းအပေါ် AI ၏ ပိုမိုကျယ်ပြန့်သော သက်ရောက်မှုကို မကြာခဏ ခန့်မှန်းပြောဆိုကြသော်လည်း ၎င်း၏ အလားအလာကို နားလည်ရန် အရှင်းဆုံးနည်းလမ်းမှာ မော်ဒယ်များက ယခုအချိန်တွင် ဘာတွေ လုပ်နိုင်နေပြီလဲကို ကြည့်ရှုခြင်းဖြစ်သည်။ သမိုင်းက အင်တာနက်မှ စမတ်ဖုန်းများအထိ အဓိက နည်းပညာများသည် တီထွင်မှုမှ ကျယ်ကျယ်ပြန့်ပြန့် အသုံးပြုလာမှုသို့ ရောက်ရန် ဆယ်နှစ်ကျော် ကြာမြင့်ခဲ့ကြောင်း ပြသထားသည်။ GDPval ကဲ့သို့ အကဲဖြတ်မှုများသည် အနာဂတ် AI တိုးတက်မှုများနှင့်ပတ်သက်သည့် ဆွေးနွေးမှုများကို ခန့်မှန်းချက်မဟုတ်ဘဲ အထောက်အထားအပေါ် အခြေခံစေကာ အချိန်နှင့်အမျှ မော်ဒယ်တိုးတက်မှုကို ခြေရာခံရန် ကူညီပေးနိုင်သည်။
စိန်ခေါ်မှုကြီးသော ပညာရပ်ဆိုင်ရာ စမ်းသပ်မှုများနှင့် ပြိုင်ပွဲဝင် coding စိန်ခေါ်မှုများကဲ့သို့ ယခင် AI အကဲဖြတ်မှုများသည် မော်ဒယ်၏ ကျိုးကြောင်းသင့်လျော်စွာ စဉ််းစားပေးသော စွမ်းရည်၏ နယ်နိမိတ်ကို တိုးချဲ့ရာတွင် အရေးပါခဲ့သော်လည်း လူအများအပြားက နေ့စဉ်အလုပ်တွင် ကိုင်တွယ်ရသည့် တာဝန်မျိုးများကို မကြာခဏ မလုံလောက်စွာ ကိုယ်စားပြုသည်။
ဤကွာဟချက်ကို ဖြည့်ဆည်းရန် ကျွန်ုပ်တို့သည် ပိုမိုလက်တွေ့ဆန်ပြီး စီးပွားရေးအရ သက်ဆိုင်ရာ စွမ်းရည်များကို တိုင်းတာသော အကဲဖြတ်မှုများကို ဖန်တီးနေခဲ့သည်။ ဤတိုးတက်လာမှုသည် MMLU (ဘာသာရပ် ဒါဇင်ပေါင်းများစွာအနှံ့ စာမေးပွဲပုံစံ မေးခွန်းများ) ကဲ့သို့ ပုံမှန် ပညာရပ်ဆိုင်ရာ benchmark များမှ စတင်ကာ SWE-Bench (software engineering bug-fixing tasks)၊ MLE-Bench (model training and analysis ကဲ့သို့ machine learning engineering tasks) နှင့် Paper-Bench (သုတေသနစာတမ်းများအပေါ် သိပ္ပံဆိုင်ရာ reasoning နှင့် critique) ကဲ့သို့ ပိုမိုအသုံးချသည့် အကဲဖြတ်မှုများသို့ ရွှေ့လျားလာခဲ့ပြီး မကြာသေးမီက SWE-Lancer (အမှန်တကယ် ပေးချေမှုများအပေါ် အခြေခံသည့် freelance software engineering projects) ကဲ့သို့ စျေးကွက်အခြေပြု အကဲဖြတ်မှုများသို့ ရောက်ရှိလာခဲ့သည်။
GDPval သည် ထိုတိုးတက်လာမှု၏ နောက်တစ်ဆင့်ဖြစ်သည်။ ၎င်းသည် အလုပ်အကိုင်များနှင့် ကဏ္ဍများ အမျိုးမျိုးအနှံ့ အတွေ့အကြုံရှိသော ပရော်ဖက်ရှင်နယ်များ၏ လက်တွေ့ကမ္ဘာ ဉာဏ်ပညာအခြေပြု အလုပ်မှ တိုက်ရိုက်ယူထားသော တာဝန်များပေါ် မော်ဒယ်စွမ်းဆောင်ရည်ကို တိုင်းတာပြီး စီးပွားရေးတန်ဖိုးရှိသော တာဝန်များတွင် မော်ဒယ်များ မည်သို့ လုပ်ဆောင်သလဲကို ပိုမိုရှင်းလင်းစွာ ဖော်ပြပေးသည်။ လက်တွေ့ဆန်သော အလုပ်အကိုင်ဆိုင်ရာ တာဝန်များပေါ် မော်ဒယ်များကို အကဲဖြတ်ခြင်းက ၎င်းတို့သည် lab ထဲတွင် မည်မျှကောင်းစွာ လုပ်ဆောင်သလဲကိုသာမက လူများ နေ့စဉ်လုပ်နေသော အလုပ်များတွင် မည်သို့ ပံ့ပိုးပေးနိုင်မည်ကိုပါ နားလည်ရန် ကူညီပေးသည်။
ဤအကဲဖြတ်မှု၏ ပထမဗားရှင်းဖြစ်သော GDPval သည် အမေရိကန် GDP အတွက် အများဆုံး ပါဝင်ပံ့ပိုးသော ထိပ်တန်း လုပ်ငန်းကဏ္ဍ 9 ခုမှ ရွေးချယ်ထားသော အလုပ်အကိုင် 44 ခုကို လွှမ်းခြုံထားသည်။ GDPval full set တွင် အထူးပြု တာဝန် 1,320 ခု (gold open-sourced set တွင် 220 ခု) ပါဝင်ပြီး တစ်ခုချင်းစီကို ဤနယ်ပယ်များမှ ပျမ်းမျှ အတွေ့အကြုံ 14 နှစ်ကျော်ရှိသော အတွေ့အကြုံရှိ ပရော်ဖက်ရှင်နယ်များက အလွန်စေ့စပ်စွာ ဖန်တီးပြီး စိစစ်အတည်ပြုထားသည်။ တာဝန်တိုင်းသည် ဥပဒေရေးရာ brief တစ်ခု၊ အင်ဂျင်နီယာ blueprint တစ်ခု၊ customer support conversation တစ်ခု သို့မဟုတ် nursing care plan တစ်ခုကဲ့သို့သော လက်တွေ့အလုပ်ထွက်ပစ္စည်းများအပေါ် အခြေခံထားသည်။
GDPval သည် အကဲဖြတ်နေသော တာဝန်များ၏ လက်တွေ့ဆန်မှုနှင့် မတူကွဲပြားမှု နှစ်မျိုးလုံးအရ ထူးခြားသည်။ စီးပွားရေးတန်ဖိုးနှင့် ဆက်နွှယ်သော အခြားအကဲဖြတ်မှုများက သီးသန့် နယ်ပယ်များ (ဥပမာ SWE-Lancer) ကိုသာ အာရုံစိုက်သော်လည်း GDPval သည် တာဝန်များနှင့် အလုပ်အကိုင်များစွာကို လွှမ်းခြုံထားသည်။ ထို့အပြင် ပညာရပ်ဆိုင်ရာ စာမေးပွဲ သို့မဟုတ် စမ်းသပ်မှု ပုံစံဖြင့် tasks များကို synthetic ဖန်တီးသည့် benchmark များ (ဥပမာ Humanity’s Last Exam သို့မဟုတ် MMLU) နှင့် မတူဘဲ GDPval သည် ယနေ့ အမှန်တကယ်တည်ရှိနေသော အလုပ် သို့မဟုတ် ထုတ်ကုန်တစ်ခုအပေါ် အခြေခံထားသည့် deliverable များ သို့မဟုတ် ထိုနည်းတူ တည်ဆောက်ထားသော အလုပ်ထွက်ပစ္စည်းများအပေါ် အခြေခံသည့် တာဝန်များကို အာရုံစိုက်ထားသည်။
ရိုးရာ benchmark များနှင့် မတူဘဲ GDPval tasks များသည် ရိုးရှင်းသော text တုံ့ပြန်ညွှန်ကြားချက် များမဟုတ်ပါ။ ၎င်းတို့တွင် reference files နှင့် context ပါရှိပြီး မျှော်မှန်းထားသော deliverable များသည် documents၊ slides၊ diagrams၊ spreadsheets နှင့် multimedia များအထိ ကျယ်ပြန့်သည်။ ဤလက်တွေ့ဆန်မှုက GDPval ကို မော်ဒယ်များက ပရော်ဖက်ရှင်နယ်များကို မည်သို့ ပံ့ပိုးနိုင်မည်ကို စမ်းသပ်ရာတွင် ပိုမိုလက်တွေ့ဆန်သော စမ်းသပ်မှုတစ်ခု ဖြစ်စေသည်။
GDPval သည် စီးပွားရေးဆိုင်ရာ တာဝန်များစွာ၏ အပြည့်အဝ အနုစိတ်မှုကို မဖော်ပြနိုင်သေးသော အစောပိုင်း ခြေလှမ်းတစ်ခုဖြစ်သည်။ ၎င်းသည် အလုပ်အကိုင် 44 ခုနှင့် ဉာဏ်ပညာအခြေပြု အလုပ်တာဝန် ရာပေါင်းများစွာကို လွှမ်းခြုံထားသော်လည်း တစ်ခေါက်တည်း ပြုလုပ်ခြင်း အကဲဖြတ်မှုများသာဖြစ်သည့်အတွက် မော်ဒယ်တစ်ခုက context တည်ဆောက်ရန် သို့မဟုတ် draft များစွာမှတစ်ဆင့် တိုးတက်ကောင်းမွန်အောင် လုပ်ရန် လိုအပ်သည့် အခြေအနေများကို မဖမ်းယူနိုင်ပါ။ အနာဂတ် ဗားရှင်းများတွင် လက်တွေ့ကမ္ဘာ ဉာဏ်ပညာအခြေပြု အလုပ်၏ ရှုပ်ထွေးမှုကို ပိုမိုကောင်းမွန်စွာ ထင်ဟပ်စေရန် ပိုမို အပြန်အလှန် လုပ်ဆောင်ရသော workflow များနှင့် context ကြွယ်ဝသော တာဝန်များသို့ တိုးချဲ့သွားမည်ဖြစ်သည် (အသေးစိတ်ကို အောက်ပါ Limitations အပိုင်းတွင် ကြည့်ပါ)။
GDPval သည် လုပ်ငန်းကဏ္ဍ 9 ခုနှင့် အလုပ်အကိုင် 44 ခုအနှံ့ရှိ တာဝန်များကို လွှမ်းခြုံထားပြီး အနာဂတ် ဗားရှင်းများတွင် ဆက်လက်တိုးချဲ့သွားမည်ဖြစ်သည်။ စတင်ရွေးချယ်ထားသော လုပ်ငန်းကဏ္ဍ 9 ခုကို St. Louis Federal Reserve Bank ၏ ဒေတာအရ U.S. GDP ၏ 5% ကျော် ပါဝင်ပံ့ပိုးသော ကဏ္ဍများအပေါ် အခြေခံ၍ ရွေးချယ်ခဲ့သည်။ ထို့နောက် May 2024 US Bureau of Labor Statistics (BLS) occupational employment report(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) မှ လုပ်ခလစာနှင့် အလုပ်အကိုင်ဒေတာကို အသုံးပြုပြီး စုစုပေါင်း လုပ်ခနှင့် လျော်ကြေးအတွက် အများဆုံး ပါဝင်ပံ့ပိုးသည့် အလုပ်အကိုင် 5 ခုကို လုပ်ငန်းကဏ္ဍတစ်ခုစီအတွင်း ရွေးချယ်ခဲ့ပြီး ဉာဏ်ပညာအခြေပြု အလုပ်အကိုင်များဖြစ်ခြင်းကိုလည်း ထည့်သွင်းစဉ်းစားခဲ့သည်။ အလုပ်အကိုင်များသည် အဓိကအားဖြင့် ဉာဏ်ပညာအခြေပြု အလုပ်ဟုတ်မဟုတ် သတ်မှတ်ရန် O*NET(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) မှ task data ကို အသုံးပြုခဲ့သည်။ ၎င်းမှာ U.S. Department of Labor က ပံ့ပိုးထားသော အမေရိကန် အလုပ်အကိုင်ဆိုင်ရာ အချက်အလက် database တစ်ခုဖြစ်သည်။ O*NET ရှိ အလုပ်အကိုင်တစ်ခုစီအတွက် တာဝန်တစ်ခုစီကို ဉာဏ်ပညာအခြေပြု အလုပ် သို့မဟုတ် ရုပ်ပိုင်းဆိုင်ရာ အလုပ်/လက်မှုအလုပ် (လက်တွေ့ကမ္ဘာတွင် လုပ်ဆောင်ချက်များ ပြုလုပ်ရမည့် အလုပ်) ဟု ကျွန်ုပ်တို့ ခွဲခြားသတ်မှတ်ခဲ့သည်။ အလုပ်အကိုင်တစ်ခု၏ အစိတ်အပိုင်းတာဝန်များအနက် အနည်းဆုံး 60% ကို ရုပ်ပိုင်းဆိုင်ရာ အလုပ် သို့မဟုတ် လက်မှုအလုပ် မပါဝင်ဟု သတ်မှတ်ထားပါက ၎င်းအလုပ်အကိုင်ကို စုစုပေါင်းအားဖြင့် “အဓိကအားဖြင့် ဉာဏ်ပညာအခြေပြု အလုပ်” ဟု သတ်မှတ်ခဲ့သည်။ ကျွန်ုပ်တို့သည် GDPval ၏ ပထမဗားရှင်းအတွက် ဤ 60% သတ်မှတ်ချက်ကို အစမှတ်တစ်ခုအဖြစ် ရွေးချယ်ခဲ့ပြီး AI က လက်တွေ့ကမ္ဘာ ထုတ်လုပ်မှုစွမ်းအားအပေါ် အမြင့်ဆုံး သက်ရောက်မှုရှိနိုင်သည့် အလုပ်အကိုင်များကို အာရုံစိုက်ခဲ့သည်။
ဤလုပ်ငန်းစဉ်မှ ထည့်သွင်းရန် အလုပ်အကိုင် 44 ခု ရရှိခဲ့သည်။
အိမ်ခြံမြေ၊ အငှားနှင့် လီးစ်
Concierge ဝန်ထမ်းများ
ပိုင်ဆိုင်မှု၊ အိမ်ခြံမြေနှင့် community association မန်နေဂျာများ
အိမ်ခြံမြေ အရောင်းအေးဂျင့်များ
အိမ်ခြံမြေ ပွဲစားများ
ကောင်တာနှင့် အငှားစာရေးများ
အစိုးရ
အပန်းဖြေလုပ်ငန်း ဝန်ထမ်းများ
လိုက်နာမှု အရာရှိများ
ရဲနှင့် စုံထောက်များ၏ ပထမတန်းကြီးကြပ်ရေးမှူးများ
အုပ်ချုပ်ရေးဝန်ဆောင်မှု မန်နေဂျာများ
ကလေး၊ မိသားစုနှင့် ကျောင်း လူမှုရေးလုပ်သားများ
ထုတ်လုပ်ရေး
စက်မှုအင်ဂျင်နီယာများ
စက်မှုလုပ်ငန်း အင်ဂျင်နီယာများ
ဝယ်ယူသူများနှင့် ဝယ်ယူရေးအေးဂျင့်များ
ပို့ဆောင်ရေး၊ လက်ခံရေးနှင့် စာရင်းပစ္စည်း စာရေးများ
ထုတ်လုပ်ရေးနှင့် လည်ပတ်ဝန်ထမ်းများ၏ ပထမတန်းကြီးကြပ်ရေးမှူးများ
ပရော်ဖက်ရှင်နယ်၊ သိပ္ပံနှင့် နည်းပညာဆိုင်ရာ ဝန်ဆောင်မှုများ
ဆော့ဖ်ဝဲ ဖန်တီးသူများ
ရှေ့နေများ
စာရင်းကိုင်များနှင့် စာရင်းစစ်များ
ကွန်ပျူတာနှင့် သတင်းအချက်အလက်စနစ် မန်နေဂျာများ
ပရောဂျက်စီမံခန့်ခွဲမှု အထူးကျွမ်းကျင်သူများ
ကျန်းမာရေးစောင့်ရှောက်မှုနှင့် လူမှုကူညီစောင့်ရှောက်ရေး
မှတ်ပုံတင်ထားသော သူနာပြုများ
အဆင့်မြင့် သူနာပြုဆရာမများ
ဆေးဘက်နှင့် ကျန်းမာရေးဝန်ဆောင်မှု မန်နေဂျာများ
ရုံးနှင့် အုပ်ချုပ်ရေးအထောက်အကူ ဝန်ထမ်းများ၏ ပထမတန်းကြီးကြပ်ရေးမှူးများ
ဆေးဘက်ဆိုင်ရာ အတွင်းရေးမှူးများနှင့် အုပ်ချုပ်ရေးလက်ထောက်များ
ငွေကြေးနှင့် အာမခံ
ဖောက်သည်ဝန်ဆောင်မှု ကိုယ်စားလှယ်များ
ငွေကြေးနှင့် ရင်းနှီးမြှုပ်နှံမှု လေ့လာသုံးသပ်သူများ
ငွေကြေး မန်နေဂျာများ
ကိုယ်ပိုင်ငွေကြေး အကြံပေးများ
လုံခြုံရေးလက်မှတ်၊ ကုန်စည်နှင့် ငွေကြေးဝန်ဆောင်မှု အရောင်းအေးဂျင့်များ
လက်လီကုန်သွယ်ရေး
ဆေးဝါးပညာရှင်များ
လက်လီအရောင်းဝန်ထမ်းများ၏ ပထမတန်းကြီးကြပ်ရေးမှူးများ
အထွေထွေနှင့် လုပ်ငန်းလည်ပတ်မှု မန်နေဂျာများ
ပုဂ္ဂလိက စုံထောက်များနှင့် စုံစမ်းရေးမှူးများ
လက်ကားကုန်သွယ်ရေး
အရောင်းမန်နေဂျာများ
အော်ဒါစာရေးများ
လက်လီမဟုတ်သော အရောင်းဝန်ထမ်းများ၏ ပထမတန်းကြီးကြပ်ရေးမှူးများ
နည်းပညာနှင့် သိပ္ပံဆိုင်ရာ ထုတ်ကုန်များမပါဝင်သော လက်ကားနှင့် ထုတ်လုပ်ရေး အရောင်းကိုယ်စားလှယ်များ
နည်းပညာနှင့် သိပ္ပံဆိုင်ရာ ထုတ်ကုန်များအတွက် လက်ကားနှင့် ထုတ်လုပ်ရေး အရောင်းကိုယ်စားလှယ်များ
သတင်းအချက်အလက်
အသံနှင့် ဗီဒီယို နည်းပညာရှင်များ
ထုတ်လုပ်သူများနှင့် ဒါရိုက်တာများ
သတင်းလေ့လာသုံးသပ်သူများ၊ သတင်းထောက်များနှင့် ဂျာနယ်လစ်များ
ရုပ်ရှင်နှင့် ဗီဒီယို တည်းဖြတ်သူများ
တည်းဖြတ်သူများ
အလုပ်အကိုင်တစ်ခုစီအတွက် ၎င်းတို့၏ နေ့စဉ်အလုပ်ကို ထင်ဟပ်စေသော ကိုယ်စားပြု တာဝန်များကို ဖန်တီးရန် ကျွန်ုပ်တို့သည် အတွေ့အကြုံရှိ ပရော်ဖက်ရှင်နယ်များနှင့် လက်တွဲလုပ်ဆောင်ခဲ့သည်။ ဤပရော်ဖက်ရှင်နယ်များ၏ ပျမ်းမျှ အတွေ့အကြုံမှာ 14 နှစ်ရှိပြီး တိုးတက်အောင်မြင်မှု မှတ်တမ်းကောင်းများ ရှိခဲ့သည်။ ကိုယ်စားပြုနိုင်မှုကို အများဆုံးဖြစ်စေရန် လက်တွေ့နယ်ပယ်အမျိုးမျိုးနှင့် ကုမ္ပဏီအရွယ်အစား မတူညီသည့် ရှေ့နေများကဲ့သို့ ကျွမ်းကျင်သူမျိုးစုံကို ရည်ရွယ်ချက်ရှိရှိ ရွေးချယ်စုဆောင်းခဲ့သည်။
တာဝန်တစ်ခုစီသည် လက်တွေ့အလုပ်ကို ကိုယ်စားပြုမှုရှိစေရန်၊ အခြားပရော်ဖက်ရှင်နယ်တစ်ဦးက ပြီးမြောက်နိုင်စေရန်၊ နှင့် အကဲဖြတ်ရန် ရှင်းလင်းစေရန် multi-step review process တစ်ခုကို ဖြတ်သန်းခဲ့သည်။ ပျမ်းမျှအားဖြင့် တာဝန်တစ်ခုစီသည် အခြား task writers များ၊ ထပ်ဆောင်း occupational reviewers များနှင့် model-based validation များအပါအဝင် ကျွမ်းကျင်သူ review 5 ကြိမ် ရရှိခဲ့သည်။
ရရှိလာသော dataset တွင် အလုပ်အကိုင်တစ်ခုစီအတွက် အပြည့်အဝ review ပြုလုပ်ထားသော တာဝန် 30 ခု (full-set) ပါဝင်ပြီး ကျွန်ုပ်တို့၏ open-sourced gold set တွင် အလုပ်အကိုင်တစ်ခုစီအတွက် တာဝန် 5 ခု ပါဝင်ကာ လက်တွေ့ကမ္ဘာ ဉာဏ်ပညာအခြေပြု အလုပ်အပေါ် မော်ဒယ်စွမ်းဆောင်ရည်ကို အကဲဖြတ်ရန် ခိုင်မာသော အခြေခံတစ်ရပ်ကို ပံ့ပိုးပေးသည်။
GDPval တာဝန် ဥပမာများ
တုံ့ပြန်ညွှန်ကြားချက် + တာဝန် အကြောင်းအရာ
အတွေ့အကြုံရှိသော လူသားက ပေးပို့နိုင်သော အထွက်

GDPval tasks များပေါ် မော်ဒယ်စွမ်းဆောင်ရည်ကို အကဲဖြတ်ရန် ကျွန်ုပ်တို့သည် expert “graders” များအပေါ် အားထားသည်—dataset တွင် ကိုယ်စားပြုထားသော အလုပ်အကိုင်များနှင့် တူညီသည့် နယ်ပယ်မှ အတွေ့အကြုံရှိ ပရော်ဖက်ရှင်နယ်များအုပ်စုဖြစ်သည်။ ဤ graders များသည် model-generated deliverable များကို task writers များထုတ်လုပ်ထားသော deliverable များနှင့် မျက်မမြင် နှိုင်းယှဉ်ကြသည် (မည်သည် AI ထုတ်လုပ်ထားသည်၊ မည်သည် လူထုတ်လုပ်ထားသည်ကို မသိဘဲ)၊ ထို့နောက် ဝေဖန်သုံးသပ်ချက်များနှင့် အဆင့်သတ်မှတ်ချက်များ ပေးကြသည်။ ထို့နောက် graders များသည် လူနှင့် AI deliverable များကို အဆင့်သတ်မှတ်ပြီး AI deliverable တစ်ခုစီကို တစ်ခုနှင့်တစ်ခု နှိုင်းယှဉ်ကာ “better”၊ “as good as” သို့မဟုတ် “worse than” ဟု ခွဲခြားသတ်မှတ်ကြသည်။
task writers များကလည်း ၎င်းတို့၏ အလုပ်အကိုင်များအတွက် အသေးစိတ် scoring rubrics များကို ဖန်တီးခဲ့ပြီး အမှတ်ပေးလုပ်ငန်းစဉ်တွင် တစ်ညီတစ်ညွတ်ရှိမှုနှင့် ပွင့်လင်းမြင်သာမှုကို တိုးစေသည်။ ကျွန်ုပ်တို့သည် “automated grader” တစ်ခုလည်း တည်ဆောက်ခဲ့သည်။ ၎င်းမှာ လူကျွမ်းကျင်သူများက ပေးထားသော deliverable တစ်ခုကို မည်သို့ အကဲဖြတ်မည်ကို ခန့်မှန်းရန် လေ့ကျင့်ထားသည့် AI system တစ်ခုဖြစ်သည်။ အခြားနည်းဖြင့်ဆိုရလျှင် အပြည့်အဝ ကျွမ်းကျင်သူ review ကို အကြိမ်တိုင်း မလုပ်တော့ဘဲ automated grader က လူများက မည်သည့် output ကို ပိုနှစ်သက်မည်ဆိုသည်ကို အလျင်အမြန် ခန့်မှန်းပေးနိုင်သည်။ ကျွန်ုပ်တို့သည် ဤ tool ကို evals.openai.com တွင် စမ်းသပ်ဆဲ သုတေသနဝန်ဆောင်မှုအဖြစ် ထုတ်ပြန်နေသော်လည်း ၎င်းသည် expert graders များလောက် မယုံကြည်ရသေးသောကြောင့် ၎င်းတို့ကို အစားမထိုးပါ။
ယနေ့၏ အကောင်းဆုံး စွမ်းဆောင်ရည်အမြင့်ဆုံး မော်ဒယ်များသည် လုပ်ငန်းကျွမ်းကျင်သူများ ထုတ်လုပ်သော အလုပ်အရည်အသွေးသို့ နီးကပ်လာနေပြီဖြစ်ကြောင်း ကျွန်ုပ်တို့ တွေ့ရှိခဲ့သည်။ ၎င်းကို စမ်းသပ်ရန် GPT‑4o၊ o4-mini၊ OpenAI o3၊ GPT‑5၊ Claude Opus 4.1၊ Gemini 2.5 Pro နှင့် Grok 4 တို့အပါအဝင် ထိပ်တန်းမော်ဒယ် အများအပြားမှ deliverable များကို လူများ ထုတ်လုပ်ထားသော အလုပ်နှင့် နှိုင်းယှဉ်သည့် blind evaluations များကို ဆောင်ရွက်ခဲ့သည်။ GDPval gold set ရှိ တာဝန် 220 ခုအနှံ့တွင် မော်ဒယ် output များကို လုပ်ငန်းကျွမ်းကျင်သူများ၏ deliverable များထက် ပိုကောင်းသည်ဟု (“wins”) သို့မဟုတ် တန်းတူဟု (“ties”) အဆင့်သတ်မှတ်ခံရသည့် အချိန်များကို မှတ်တမ်းတင်ခဲ့ပြီး အောက်ပါ bar chart တွင် ပြထားသည့်အတိုင်း ဖြစ်သည်။ Claude Opus 4.1 သည် set ထဲတွင် စွမ်းဆောင်ရည်အကောင်းဆုံး မော်ဒယ်ဖြစ်ပြီး aesthetics (ဥပမာ document formatting၊ slide layout) တွင် အထူးကောင်းမွန်ခဲ့သော်လည်း GPT‑5 သည် accuracy (ဥပမာ domain-specific knowledge ရှာဖွေခြင်း) တွင် အထူးကောင်းမွန်ခဲ့သည်။ ဤတာဝန်များပေါ်တွင် အချိန်နှင့်အမျှ တိုးတက်မှုကိုလည်း ရှင်းလင်းစွာ တွေ့ရသည်။ GPT‑4o (2024 နွေဦးတွင် ထုတ်ပြန်) မှ GPT‑5 (2025 နွေရာသီတွင် ထုတ်ပြန်) အထိ စွမ်းဆောင်ရည်သည် နှစ်ဆကျော် တိုးတက်လာပြီး ရှင်းလင်းသော linear trend တစ်ခုကို လိုက်နာနေသည်။
ထို့အပြင် စွမ်းဆောင်ရည်အမြင့်ဆုံး မော်ဒယ်များသည် GDPval tasks များကို လုပ်ငန်းကျွမ်းကျင်သူများထက် ခန့်မှန်းခြေ 100 ဆ ပိုမြန်ပြီး 100 ဆ ပိုစျေးသက်သာစွာ ပြီးမြောက်နိုင်ကြောင်း တွေ့ရှိခဲ့သည်။ သို့သော် ဤကိန်းဂဏန်းများသည် မော်ဒယ် inference time သက်သက်နှင့် API billing rates များကိုသာ ထင်ဟပ်ပြီး အလုပ်ခွင် လက်တွေ့အခြေအနေများတွင် ကျွန်ုပ်တို့၏ မော်ဒယ်များကို အသုံးပြုရန် လိုအပ်သော လူ့ကြီးကြပ်မှု၊ iteration နှင့် integration အဆင့်များကို မဖမ်းယူပါ။ သို့တိုင် အထူးသဖြင့် မော်ဒယ်များ အားကောင်းသော တာဝန်အစုခွဲများတွင် လူတစ်ဦးနှင့် မကြိုးစားမီ တာဝန်ကို မော်ဒယ်တစ်ခုထံ ပေးခြင်းသည် အချိန်နှင့် ငွေကို ချွေတာနိုင်မည်ဟု မျှော်လင့်သည်။
ကျွမ်းကျင်အမှတ်ပေးသူများက ထိပ်တန်းမော်ဒယ်များ၏ output များကို လူကျွမ်းကျင်သူများ၏ deliverable များနှင့် နှိုင်းယှဉ်ခဲ့သည်။ ယနေ့၏ စွမ်းဆောင်ရည်အမြင့်ဆုံး မော်ဒယ်များသည် လုပ်ငန်းကျွမ်းကျင်သူများ ဖန်တီးသော အလုပ်အရည်အသွေးသို့ နီးကပ်လာနေပြီဖြစ်သည်။ Claude Opus 4.1 သည် တာဝန်များ၏ တစ်ဝက်နီးပါးတွင် လူများနှင့် တန်းတူ သို့မဟုတ် ပိုကောင်းသည်ဟု အဆင့်သတ်မှတ်ခံရသော output များကို ထုတ်ပေးခဲ့သည်။
GPT‑4o မှ GPT‑5 အထိ၊ GDPval တာဝန်များပေါ်ရှိ စွမ်းဆောင်ရည်သည် တစ်နှစ်အတွင်း သုံးဆကျော် မြင့်တက်လာခဲ့သည်။
နောက်ဆုံးတွင် GDPval ပေါ် စွမ်းဆောင်ရည်ကို တိုးတက်စေနိုင်မလား စစ်ဆေးရန် GPT‑5 ၏ အတွင်းပိုင်း စမ်းသပ်ဆဲ ဗားရှင်းတစ်ခုကို အဆင့်လိုက် လေ့ကျင့်ပေးခဲ့သည်။ ဤလုပ်ငန်းစဉ်က စွမ်းဆောင်ရည်ကို တိုးတက်စေပြီး နောက်ထပ် တိုးတက်ကောင်းမွန်နိုင်မည့် လမ်းကြောင်းတစ်ခုကို ဖန်တီးပေးကြောင်း တွေ့ရှိခဲ့သည်။ အခြား ထိန်းချုပ်ထားသော စမ်းသပ်မှုများကလည်း ဤအချက်ကို ထောက်ခံသည်။ မော်ဒယ်အရွယ်အစား တိုးခြင်း၊ ကျိုးကြောင်းသင့်လျော်စွာ စဉ််းစားပေးသော အဆင့်များ ပိုလုပ်ရန် အားပေးခြင်းနှင့် ပိုမို ကြွယ်ဝသော task context ပေးခြင်းတို့သည် တိုင်းတာနိုင်သော တိုးတက်မှုများကို ဖြစ်စေခဲ့သည်။
ရလဒ်အပြည့်အစုံကို ကျွန်ုပ်တို့၏ paper တွင် ဖတ်ရှုနိုင်ပါသည်။ အခြား သုတေသီများက ဤလုပ်ငန်းအပေါ် ဆက်လက် တည်ဆောက်နိုင်ရန် GDPval tasks များ၏ gold subset တစ်ခုနှင့် အများပြည်သူသုံး grading service တစ်ခုကိုလည်း ထုတ်ပြန်နေပါသည်။
AI သည် ပိုမိုစွမ်းဆောင်နိုင်လာသည်နှင့်အမျှ အလုပ်အကိုင်ဈေးကွက်တွင် အပြောင်းအလဲများ ဖြစ်လာနိုင်သည်။ GDPval ၏ အစောပိုင်းရလဒ်များက မော်ဒယ်များသည် ထပ်တလဲလဲဖြစ်ပြီး သတ်မှတ်ချက်ရှင်းလင်းသော တာဝန်အချို့ကို ကျွမ်းကျင်သူများထက် ပိုမြန်စွာ၊ ကုန်ကျစရိတ်နိမ့်စွာ ကိုင်တွယ်နိုင်နေပြီဖြစ်ကြောင်း ပြသသည်။ သို့သော် အလုပ်အများစုမှာ ရေးချနိုင်သော တာဝန်များ စုစည်းမှုတစ်ခုမျှသာ မဟုတ်ပါ။ GDPval က AI သည် routine tasks များကို ကိုင်တွယ်နိုင်သည့် နေရာများကို မီးမောင်းထိုးပြကာ လူများကို ဖန်တီးမှုလိုအပ်သော၊ ဆုံးဖြတ်ချက်ချမှုအလေးပေးသော အလုပ်အစိတ်အပိုင်းများတွင် အချိန်ပိုသုံးနိုင်စေသည်။ AI က အလုပ်သမားများကို ဤနည်းဖြင့် ဖြည့်ဆည်းပံ့ပိုးသောအခါ သိသာထင်ရှားသော စီးပွားရေးတိုးတက်မှုအဖြစ် ဘာသာပြန်နိုင်သည်။ ကျွန်ုပ်တို့၏ ရည်မှန်းချက်မှာ ဤကိရိယာများကို အသုံးပြုခွင့်ကို လူတိုင်းသို့ ဒီမိုကရေစီဆန်စွာ ဖြန့်ဝေပေးခြင်း၊ အပြောင်းအလဲကာလအတွင်း အလုပ်သမားများကို ပံ့ပိုးခြင်းနှင့် ကျယ်ပြန့်သော ပါဝင်ပံ့ပိုးမှုကို ဆုချသည့် စနစ်များ တည်ဆောက်ခြင်းတို့မှတစ်ဆင့် AI ၏ “တက်မောင်း” ပေါ်တွင် လူတိုင်းကို ဆက်လက် ထားရှိရန် ဖြစ်သည်။
GDPval သည် အစောပိုင်း ခြေလှမ်းတစ်ခုဖြစ်သည်။ ၎င်းသည် အလုပ်အကိုင် 44 ခုနှင့် တာဝန် ရာပေါင်းများစွာကို လွှမ်းခြုံထားသော်လည်း ကျွန်ုပ်တို့သည် စမ်းသပ်မှုနယ်ပယ်ကို ချဲ့ထွင်ရန်နှင့် ရလဒ်များကို ပိုမိုအဓိပ္ပာယ်ပြည့်ဝစေရန် ကျွန်ုပ်တို့၏ ချဉ်းကပ်ပုံကို ဆက်လက် ပြုပြင်မွမ်းမံနေပါသည်။ လက်ရှိ အကဲဖြတ်မှုဗားရှင်းသည်လည်း တစ်ခေါက်တည်း ပြုလုပ်ခြင်း ဖြစ်သည့်အတွက် မော်ဒယ်တစ်ခုက context တည်ဆောက်ရန် သို့မဟုတ် draft များစွာမှတစ်ဆင့် တိုးတက်ရန် လိုအပ်သည့် အခြေအနေများကို မဖမ်းယူနိုင်ပါ—ဥပမာ client feedback ပြီးနောက် legal brief ကို ပြန်လည်ပြင်ဆင်ခြင်း သို့မဟုတ် anomaly တစ်ခုကို တွေ့ရှိပြီးနောက် data analysis ကို အကြိမ်ကြိမ် ပြန်လုပ်ခြင်းတို့ ဖြစ်သည်။ ထို့အပြင် လက်တွေ့ကမ္ဘာတွင် tasks များကို တုံ့ပြန်ညွှန်ကြားချက် နှင့် reference files များဖြင့် အမြဲတမ်း ရှင်းလင်းစွာ သတ်မှတ်မထားပါ။ ဥပမာ ရှေ့နေတစ်ဦးသည် client ကို ကူညီရန် legal brief တစ်ခု ဖန်တီးခြင်းက မှန်ကန်သော နည်းလမ်းဖြစ်သည်ဟု မဆုံးဖြတ်မီ မရှင်းလင်းမှုများကို ကိုင်တွယ်ရနိုင်ပြီး client နှင့် စကားပြောရနိုင်သည်။ ကျွန်ုပ်တို့သည် GDPval ကို အလုပ်အကိုင်များ၊ လုပ်ငန်းကဏ္ဍများနှင့် task types များ ပိုမိုပါဝင်အောင်၊ interactivity တိုးလာအောင်နှင့် ambiguity ကို ကိုင်တွယ်ရသည့် tasks များ ပိုမိုပါဝင်အောင် ချဲ့ထွင်ရန် စီစဉ်ထားပြီး ရေရှည်ရည်မှန်းချက်မှာ မတူကွဲပြားသော ဉာဏ်ပညာအခြေပြု အလုပ်တွင် တိုးတက်မှုကို ပိုမိုကောင်းမွန်စွာ တိုင်းတာနိုင်ရန် ဖြစ်သည်။
- သင်သည် လုပ်ငန်းကျွမ်းကျင်သူတစ်ဦးဖြစ်ပြီး GDPval တွင် ပါဝင်ကူညီလိုပါက ဤနေရာတွင် စိတ်ဝင်စားမှုကို ဖော်ပြပါ။
- သင်သည် OpenAI နှင့် လက်တွဲလုပ်ဆောင်နေသော customer တစ်ဦးဖြစ်ပြီး အနာဂတ် GDPval round တစ်ခုတွင် ပါဝင်ကူညီလိုပါက ဤနေရာတွင် စိတ်ဝင်စားမှုကို ဖော်ပြပါ။
လူမှုအသိုက်အဝန်း၏ ပါဝင်မှုသည် မရှိမဖြစ် အရေးကြီးပါသည်—AGI ကို အလုပ်ခွင်ရှိ လူများအတွက် ပိုမိုအသုံးဝင်စေရန် ဟူသော ကျွန်ုပ်တို့၏ ရည်မှန်းချက်ကို မျှဝေထားသော သုတေသီများ၊ လက်တွေ့လုပ်ဆောင်သူများနှင့် အဖွဲ့အစည်းများနှင့်အတူ GDPval ကို တည်ဆောက်ရန် ကျွန်ုပ်တို့ စိတ်လှုပ်ရှားလျက်ရှိပါသည်။


