၂၀၂၅ စက်တင်ဘာ ၂၅

ကျွန်ုပ်တို့၏ မော်ဒယ်များ၏ လက်တွေ့ကမ္ဘာ တာဝန်များပေါ် စွမ်းဆောင်ရည်ကို တိုင်းတာခြင်း

ကျွန်ုပ်တို့သည် GDPval ကို မိတ်ဆက်နေပါသည်။ ၎င်းသည် အလုပ်အကိုင် 44 မျိုးတစ်လျှောက် စီးပွားရေးတန်ဖိုးရှိသော လက်တွေ့ကမ္ဘာတာဝန်များပေါ် မော်ဒယ်စွမ်းဆောင်ရည်ကို တိုင်းတာသည့် အကဲဖြတ်မှုအသစ်ဖြစ်သည်။

စာတမ်းဖတ်ရန်evals.openai.com ကို ဝင်ကြည့်ပါ

ကျွန်ုပ်တို့၏ မစ်ရှင်မှာ အထွေထွေ ဉာဏ်ရည်တု က လူသားအားလုံးအတွက် အကျိုးရှိစေရန် သေချာစေခြင်းဖြစ်သည်။ ကျွန်ုပ်တို့၏ မစ်ရှင်၏ တစ်စိတ်တစ်ပိုင်းအဖြစ် AI မော်ဒယ်များက လက်တွေ့ကမ္ဘာတွင် လူများကို မည်သို့ကူညီနိုင်ကြောင်းနှင့်ပတ်သက်သည့် တိုးတက်မှုကို ပွင့်လင်းမြင်သာစွာ ဆက်သွယ်ပြောကြားလိုပါသည်။ ထို့ကြောင့် ကျွန်ုပ်တို့သည် GDPval ကို မိတ်ဆက်ခြင်းဖြစ်သည်။ ၎င်းမှာ ကျွန်ုပ်တို့၏ မော်ဒယ်များနှင့် အခြားမော်ဒယ်များက စီးပွားရေးတန်ဖိုးရှိသော လက်တွေ့ကမ္ဘာတာဝန်များတွင် မည်မျှကောင်းစွာ လုပ်ဆောင်သလဲကို ခြေရာခံရန် အထောက်အကူပြုရန် ဒီဇိုင်းလုပ်ထားသည့် အကဲဖြတ်မှုအသစ်ဖြစ်သည်။ ကျွန်ုပ်တို့သည် ဤအကဲဖြတ်မှုကို GDPval ဟု ခေါ်သည်မှာ အဓိက စီးပွားရေးညွှန်ကိန်းတစ်ခုဖြစ်သော Gross Domestic Product (GDP) ၏ အယူအဆဖြင့် စတင်ခဲ့ပြီး GDP အတွက် အများဆုံး ပါဝင်ပံ့ပိုးသော လုပ်ငန်းကဏ္ဍများရှိ အဓိက အလုပ်အကိုင်များမှ တာဝန်များကို ရွေးချယ်ယူခဲ့သောကြောင့်ဖြစ်သည်။

လူများသည် လူမှုအသိုက်အဝန်းအပေါ် AI ၏ ပိုမိုကျယ်ပြန့်သော သက်ရောက်မှုကို မကြာခဏ ခန့်မှန်းပြောဆိုကြသော်လည်း ၎င်း၏ အလားအလာကို နားလည်ရန် အရှင်းဆုံးနည်းလမ်းမှာ မော်ဒယ်များက ယခုအချိန်တွင် ဘာတွေ လုပ်နိုင်နေပြီလဲကို ကြည့်ရှုခြင်းဖြစ်သည်။ သမိုင်းက အင်တာနက်မှ စမတ်ဖုန်းများအထိ အဓိက နည်းပညာများသည် တီထွင်မှုမှ ကျယ်ကျယ်ပြန့်ပြန့် အသုံးပြုလာမှုသို့ ရောက်ရန် ဆယ်နှစ်ကျော် ကြာမြင့်ခဲ့ကြောင်း ပြသထားသည်။ GDPval ကဲ့သို့ အကဲဖြတ်မှုများသည် အနာဂတ် AI တိုးတက်မှုများနှင့်ပတ်သက်သည့် ဆွေးနွေးမှုများကို ခန့်မှန်းချက်မဟုတ်ဘဲ အထောက်အထားအပေါ် အခြေခံစေကာ အချိန်နှင့်အမျှ မော်ဒယ်တိုးတက်မှုကို ခြေရာခံရန် ကူညီပေးနိုင်သည်။

စိန်ခေါ်မှုကြီးသော ပညာရပ်ဆိုင်ရာ စမ်းသပ်မှုများနှင့် ပြိုင်ပွဲဝင် coding စိန်ခေါ်မှုများကဲ့သို့ ယခင် AI အကဲဖြတ်မှုများသည် မော်ဒယ်၏ ကျိုးကြောင်းသင့်လျော်စွာ စဉ််းစားပေးသော စွမ်းရည်၏ နယ်နိမိတ်ကို တိုးချဲ့ရာတွင် အရေးပါခဲ့သော်လည်း လူအများအပြားက နေ့စဉ်အလုပ်တွင် ကိုင်တွယ်ရသည့် တာဝန်မျိုးများကို မကြာခဏ မလုံလောက်စွာ ကိုယ်စားပြုသည်။

ဤကွာဟချက်ကို ဖြည့်ဆည်းရန် ကျွန်ုပ်တို့သည် ပိုမိုလက်တွေ့ဆန်ပြီး စီးပွားရေးအရ သက်ဆိုင်ရာ စွမ်းရည်များကို တိုင်းတာသော အကဲဖြတ်မှုများကို ဖန်တီးနေခဲ့သည်။ ဤတိုးတက်လာမှုသည် MMLU (ဘာသာရပ် ဒါဇင်ပေါင်းများစွာအနှံ့ စာမေးပွဲပုံစံ မေးခွန်းများ) ကဲ့သို့ ပုံမှန် ပညာရပ်ဆိုင်ရာ benchmark များမှ စတင်ကာ SWE-Bench (software engineering bug-fixing tasks)၊ MLE-Bench (model training and analysis ကဲ့သို့ machine learning engineering tasks) နှင့် Paper-Bench (သုတေသနစာတမ်းများအပေါ် သိပ္ပံဆိုင်ရာ reasoning နှင့် critique) ကဲ့သို့ ပိုမိုအသုံးချသည့် အကဲဖြတ်မှုများသို့ ရွှေ့လျားလာခဲ့ပြီး မကြာသေးမီက SWE-Lancer (အမှန်တကယ် ပေးချေမှုများအပေါ် အခြေခံသည့် freelance software engineering projects) ကဲ့သို့ စျေးကွက်အခြေပြု အကဲဖြတ်မှုများသို့ ရောက်ရှိလာခဲ့သည်။

GDPval သည် ထိုတိုးတက်လာမှု၏ နောက်တစ်ဆင့်ဖြစ်သည်။ ၎င်းသည် အလုပ်အကိုင်များနှင့် ကဏ္ဍများ အမျိုးမျိုးအနှံ့ အတွေ့အကြုံရှိသော ပရော်ဖက်ရှင်နယ်များ၏ လက်တွေ့ကမ္ဘာ ဉာဏ်ပညာအခြေပြု အလုပ်မှ တိုက်ရိုက်ယူထားသော တာဝန်များပေါ် မော်ဒယ်စွမ်းဆောင်ရည်ကို တိုင်းတာပြီး စီးပွားရေးတန်ဖိုးရှိသော တာဝန်များတွင် မော်ဒယ်များ မည်သို့ လုပ်ဆောင်သလဲကို ပိုမိုရှင်းလင်းစွာ ဖော်ပြပေးသည်။ လက်တွေ့ဆန်သော အလုပ်အကိုင်ဆိုင်ရာ တာဝန်များပေါ် မော်ဒယ်များကို အကဲဖြတ်ခြင်းက ၎င်းတို့သည် lab ထဲတွင် မည်မျှကောင်းစွာ လုပ်ဆောင်သလဲကိုသာမက လူများ နေ့စဉ်လုပ်နေသော အလုပ်များတွင် မည်သို့ ပံ့ပိုးပေးနိုင်မည်ကိုပါ နားလည်ရန် ကူညီပေးသည်။

GDPval က ဘာကို တိုင်းတာသလဲ

ဤအကဲဖြတ်မှု၏ ပထမဗားရှင်းဖြစ်သော GDPval သည် အမေရိကန် GDP အတွက် အများဆုံး ပါဝင်ပံ့ပိုးသော ထိပ်တန်း လုပ်ငန်းကဏ္ဍ 9 ခုမှ ရွေးချယ်ထားသော အလုပ်အကိုင် 44 ခုကို လွှမ်းခြုံထားသည်။ GDPval full set တွင် အထူးပြု တာဝန် 1,320 ခု (gold open-sourced set တွင် 220 ခု) ပါဝင်ပြီး တစ်ခုချင်းစီကို ဤနယ်ပယ်များမှ ပျမ်းမျှ အတွေ့အကြုံ 14 နှစ်ကျော်ရှိသော အတွေ့အကြုံရှိ ပရော်ဖက်ရှင်နယ်များက အလွန်စေ့စပ်စွာ ဖန်တီးပြီး စိစစ်အတည်ပြုထားသည်။ တာဝန်တိုင်းသည် ဥပဒေရေးရာ brief တစ်ခု၊ အင်ဂျင်နီယာ blueprint တစ်ခု၊ customer support conversation တစ်ခု သို့မဟုတ် nursing care plan တစ်ခုကဲ့သို့သော လက်တွေ့အလုပ်ထွက်ပစ္စည်းများအပေါ် အခြေခံထားသည်။

GDPval သည် အကဲဖြတ်နေသော တာဝန်များ၏ လက်တွေ့ဆန်မှုနှင့် မတူကွဲပြားမှု နှစ်မျိုးလုံးအရ ထူးခြားသည်။ စီးပွားရေးတန်ဖိုးနှင့် ဆက်နွှယ်သော အခြားအကဲဖြတ်မှုများက သီးသန့် နယ်ပယ်များ (ဥပမာ SWE-Lancer) ကိုသာ အာရုံစိုက်သော်လည်း GDPval သည် တာဝန်များနှင့် အလုပ်အကိုင်များစွာကို လွှမ်းခြုံထားသည်။ ထို့အပြင် ပညာရပ်ဆိုင်ရာ စာမေးပွဲ သို့မဟုတ် စမ်းသပ်မှု ပုံစံဖြင့် tasks များကို synthetic ဖန်တီးသည့် benchmark များ (ဥပမာ Humanity’s Last Exam သို့မဟုတ် MMLU) နှင့် မတူဘဲ GDPval သည် ယနေ့ အမှန်တကယ်တည်ရှိနေသော အလုပ် သို့မဟုတ် ထုတ်ကုန်တစ်ခုအပေါ် အခြေခံထားသည့် deliverable များ သို့မဟုတ် ထိုနည်းတူ တည်ဆောက်ထားသော အလုပ်ထွက်ပစ္စည်းများအပေါ် အခြေခံသည့် တာဝန်များကို အာရုံစိုက်ထားသည်။

ရိုးရာ benchmark များနှင့် မတူဘဲ GDPval tasks များသည် ရိုးရှင်းသော text တုံ့ပြန်ညွှန်ကြားချက် များမဟုတ်ပါ။ ၎င်းတို့တွင် reference files နှင့် context ပါရှိပြီး မျှော်မှန်းထားသော deliverable များသည် documents၊ slides၊ diagrams၊ spreadsheets နှင့် multimedia များအထိ ကျယ်ပြန့်သည်။ ဤလက်တွေ့ဆန်မှုက GDPval ကို မော်ဒယ်များက ပရော်ဖက်ရှင်နယ်များကို မည်သို့ ပံ့ပိုးနိုင်မည်ကို စမ်းသပ်ရာတွင် ပိုမိုလက်တွေ့ဆန်သော စမ်းသပ်မှုတစ်ခု ဖြစ်စေသည်။

GDPval သည် စီးပွားရေးဆိုင်ရာ တာဝန်များစွာ၏ အပြည့်အဝ အနုစိတ်မှုကို မဖော်ပြနိုင်သေးသော အစောပိုင်း ခြေလှမ်းတစ်ခုဖြစ်သည်။ ၎င်းသည် အလုပ်အကိုင် 44 ခုနှင့် ဉာဏ်ပညာအခြေပြု အလုပ်တာဝန် ရာပေါင်းများစွာကို လွှမ်းခြုံထားသော်လည်း တစ်ခေါက်တည်း ပြုလုပ်ခြင်း အကဲဖြတ်မှုများသာဖြစ်သည့်အတွက် မော်ဒယ်တစ်ခုက context တည်ဆောက်ရန် သို့မဟုတ် draft များစွာမှတစ်ဆင့် တိုးတက်ကောင်းမွန်အောင် လုပ်ရန် လိုအပ်သည့် အခြေအနေများကို မဖမ်းယူနိုင်ပါ။ အနာဂတ် ဗားရှင်းများတွင် လက်တွေ့ကမ္ဘာ ဉာဏ်ပညာအခြေပြု အလုပ်၏ ရှုပ်ထွေးမှုကို ပိုမိုကောင်းမွန်စွာ ထင်ဟပ်စေရန် ပိုမို အပြန်အလှန် လုပ်ဆောင်ရသော workflow များနှင့် context ကြွယ်ဝသော တာဝန်များသို့ တိုးချဲ့သွားမည်ဖြစ်သည် (အသေးစိတ်ကို အောက်ပါ Limitations အပိုင်းတွင် ကြည့်ပါ)။

အလုပ်အကိုင်များကို ကျွန်ုပ်တို့ မည်သို့ရွေးချယ်ခဲ့သလဲ

GDPval သည် လုပ်ငန်းကဏ္ဍ 9 ခုနှင့် အလုပ်အကိုင် 44 ခုအနှံ့ရှိ တာဝန်များကို လွှမ်းခြုံထားပြီး အနာဂတ် ဗားရှင်းများတွင် ဆက်လက်တိုးချဲ့သွားမည်ဖြစ်သည်။ စတင်ရွေးချယ်ထားသော လုပ်ငန်းကဏ္ဍ 9 ခုကို St. Louis Federal Reserve Bank ၏ ဒေတာအရ U.S. GDP ၏ 5% ကျော် ပါဝင်ပံ့ပိုးသော ကဏ္ဍများအပေါ် အခြေခံ၍ ရွေးချယ်ခဲ့သည်။ ထို့နောက် May 2024 US Bureau of Labor Statistics (BLS) occupational employment report⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) မှ လုပ်ခလစာနှင့် အလုပ်အကိုင်ဒေတာကို အသုံးပြုပြီး စုစုပေါင်း လုပ်ခနှင့် လျော်ကြေးအတွက် အများဆုံး ပါဝင်ပံ့ပိုးသည့် အလုပ်အကိုင် 5 ခုကို လုပ်ငန်းကဏ္ဍတစ်ခုစီအတွင်း ရွေးချယ်ခဲ့ပြီး ဉာဏ်ပညာအခြေပြု အလုပ်အကိုင်များဖြစ်ခြင်းကိုလည်း ထည့်သွင်းစဉ်းစားခဲ့သည်။ အလုပ်အကိုင်များသည် အဓိကအားဖြင့် ဉာဏ်ပညာအခြေပြု အလုပ်ဟုတ်မဟုတ် သတ်မှတ်ရန် O*NET⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) မှ task data ကို အသုံးပြုခဲ့သည်။ ၎င်းမှာ U.S. Department of Labor က ပံ့ပိုးထားသော အမေရိကန် အလုပ်အကိုင်ဆိုင်ရာ အချက်အလက် database တစ်ခုဖြစ်သည်။ O*NET ရှိ အလုပ်အကိုင်တစ်ခုစီအတွက် တာဝန်တစ်ခုစီကို ဉာဏ်ပညာအခြေပြု အလုပ် သို့မဟုတ် ရုပ်ပိုင်းဆိုင်ရာ အလုပ်/လက်မှုအလုပ် (လက်တွေ့ကမ္ဘာတွင် လုပ်ဆောင်ချက်များ ပြုလုပ်ရမည့် အလုပ်) ဟု ကျွန်ုပ်တို့ ခွဲခြားသတ်မှတ်ခဲ့သည်။ အလုပ်အကိုင်တစ်ခု၏ အစိတ်အပိုင်းတာဝန်များအနက် အနည်းဆုံး 60% ကို ရုပ်ပိုင်းဆိုင်ရာ အလုပ် သို့မဟုတ် လက်မှုအလုပ် မပါဝင်ဟု သတ်မှတ်ထားပါက ၎င်းအလုပ်အကိုင်ကို စုစုပေါင်းအားဖြင့် “အဓိကအားဖြင့် ဉာဏ်ပညာအခြေပြု အလုပ်” ဟု သတ်မှတ်ခဲ့သည်။ ကျွန်ုပ်တို့သည် GDPval ၏ ပထမဗားရှင်းအတွက် ဤ 60% သတ်မှတ်ချက်ကို အစမှတ်တစ်ခုအဖြစ် ရွေးချယ်ခဲ့ပြီး AI က လက်တွေ့ကမ္ဘာ ထုတ်လုပ်မှုစွမ်းအားအပေါ် အမြင့်ဆုံး သက်ရောက်မှုရှိနိုင်သည့် အလုပ်အကိုင်များကို အာရုံစိုက်ခဲ့သည်။

ဤလုပ်ငန်းစဉ်မှ ထည့်သွင်းရန် အလုပ်အကိုင် 44 ခု ရရှိခဲ့သည်။

အိမ်ခြံမြေ၊ အငှားနှင့် လီးစ်

Concierge ဝန်ထမ်းများ
ပိုင်ဆိုင်မှု၊ အိမ်ခြံမြေနှင့် community association မန်နေဂျာများ
အိမ်ခြံမြေ အရောင်းအေးဂျင့်များ
အိမ်ခြံမြေ ပွဲစားများ
ကောင်တာနှင့် အငှားစာရေးများ

အစိုးရ

အပန်းဖြေလုပ်ငန်း ဝန်ထမ်းများ
လိုက်နာမှု အရာရှိများ
ရဲနှင့် စုံထောက်များ၏ ပထမတန်းကြီးကြပ်ရေးမှူးများ
အုပ်ချုပ်ရေးဝန်ဆောင်မှု မန်နေဂျာများ
ကလေး၊ မိသားစုနှင့် ကျောင်း လူမှုရေးလုပ်သားများ

ထုတ်လုပ်ရေး

စက်မှုအင်ဂျင်နီယာများ
စက်မှုလုပ်ငန်း အင်ဂျင်နီယာများ
ဝယ်ယူသူများနှင့် ဝယ်ယူရေးအေးဂျင့်များ
ပို့ဆောင်ရေး၊ လက်ခံရေးနှင့် စာရင်းပစ္စည်း စာရေးများ
ထုတ်လုပ်ရေးနှင့် လည်ပတ်ဝန်ထမ်းများ၏ ပထမတန်းကြီးကြပ်ရေးမှူးများ

ပရော်ဖက်ရှင်နယ်၊ သိပ္ပံနှင့် နည်းပညာဆိုင်ရာ ဝန်ဆောင်မှုများ

ဆော့ဖ်ဝဲ ဖန်တီးသူများ
ရှေ့နေများ
စာရင်းကိုင်များနှင့် စာရင်းစစ်များ
ကွန်ပျူတာနှင့် သတင်းအချက်အလက်စနစ် မန်နေဂျာများ
ပရောဂျက်စီမံခန့်ခွဲမှု အထူးကျွမ်းကျင်သူများ

ကျန်းမာရေးစောင့်ရှောက်မှုနှင့် လူမှုကူညီစောင့်ရှောက်ရေး

မှတ်ပုံတင်ထားသော သူနာပြုများ
အဆင့်မြင့် သူနာပြုဆရာမများ
ဆေးဘက်နှင့် ကျန်းမာရေးဝန်ဆောင်မှု မန်နေဂျာများ
ရုံးနှင့် အုပ်ချုပ်ရေးအထောက်အကူ ဝန်ထမ်းများ၏ ပထမတန်းကြီးကြပ်ရေးမှူးများ
ဆေးဘက်ဆိုင်ရာ အတွင်းရေးမှူးများနှင့် အုပ်ချုပ်ရေးလက်ထောက်များ

ငွေကြေးနှင့် အာမခံ

ဖောက်သည်ဝန်ဆောင်မှု ကိုယ်စားလှယ်များ
ငွေကြေးနှင့် ရင်းနှီးမြှုပ်နှံမှု လေ့လာသုံးသပ်သူများ
ငွေကြေး မန်နေဂျာများ
ကိုယ်ပိုင်ငွေကြေး အကြံပေးများ
လုံခြုံရေးလက်မှတ်၊ ကုန်စည်နှင့် ငွေကြေးဝန်ဆောင်မှု အရောင်းအေးဂျင့်များ

လက်လီကုန်သွယ်ရေး

ဆေးဝါးပညာရှင်များ
လက်လီအရောင်းဝန်ထမ်းများ၏ ပထမတန်းကြီးကြပ်ရေးမှူးများ
အထွေထွေနှင့် လုပ်ငန်းလည်ပတ်မှု မန်နေဂျာများ
ပုဂ္ဂလိက စုံထောက်များနှင့် စုံစမ်းရေးမှူးများ

လက်ကားကုန်သွယ်ရေး

အရောင်းမန်နေဂျာများ
အော်ဒါစာရေးများ
လက်လီမဟုတ်သော အရောင်းဝန်ထမ်းများ၏ ပထမတန်းကြီးကြပ်ရေးမှူးများ
နည်းပညာနှင့် သိပ္ပံဆိုင်ရာ ထုတ်ကုန်များမပါဝင်သော လက်ကားနှင့် ထုတ်လုပ်ရေး အရောင်းကိုယ်စားလှယ်များ
နည်းပညာနှင့် သိပ္ပံဆိုင်ရာ ထုတ်ကုန်များအတွက် လက်ကားနှင့် ထုတ်လုပ်ရေး အရောင်းကိုယ်စားလှယ်များ

သတင်းအချက်အလက်

အသံနှင့် ဗီဒီယို နည်းပညာရှင်များ
ထုတ်လုပ်သူများနှင့် ဒါရိုက်တာများ
သတင်းလေ့လာသုံးသပ်သူများ၊ သတင်းထောက်များနှင့် ဂျာနယ်လစ်များ
ရုပ်ရှင်နှင့် ဗီဒီယို တည်းဖြတ်သူများ
တည်းဖြတ်သူများ

GDPval သည် ဆော့ဖ်ဝဲဖန်တီးသူများနှင့် ရှေ့နေများမှ မှတ်ပုံတင်ထားသော သူနာပြုများနှင့် စက်မှုအင်ဂျင်နီယာများအထိ ကဏ္ဍ 9 ခုအနှံ့ရှိ ဉာဏ်ပညာအခြေပြု အလုပ်အကိုင် 44 ခုကို လွှမ်းခြုံထားသည်။ ဤအလုပ်အကိုင်များကို ၎င်းတို့၏ စီးပွားရေးဆိုင်ရာ အရေးပါမှုအရ ရွေးချယ်ထားပြီး AI က ပရော်ဖက်ရှင်နယ်များကို အဓိပ္ပာယ်ရှိစွာ ကူညီနိုင်သည့် နေ့စဉ်အလုပ်အမျိုးအစားများကို ကိုယ်စားပြုသည်။

ဒေတာအစုံကို ကျွန်ုပ်တို့ မည်သို့တည်ဆောက်ခဲ့သလဲ

အလုပ်အကိုင်တစ်ခုစီအတွက် ၎င်းတို့၏ နေ့စဉ်အလုပ်ကို ထင်ဟပ်စေသော ကိုယ်စားပြု တာဝန်များကို ဖန်တီးရန် ကျွန်ုပ်တို့သည် အတွေ့အကြုံရှိ ပရော်ဖက်ရှင်နယ်များနှင့် လက်တွဲလုပ်ဆောင်ခဲ့သည်။ ဤပရော်ဖက်ရှင်နယ်များ၏ ပျမ်းမျှ အတွေ့အကြုံမှာ 14 နှစ်ရှိပြီး တိုးတက်အောင်မြင်မှု မှတ်တမ်းကောင်းများ ရှိခဲ့သည်။ ကိုယ်စားပြုနိုင်မှုကို အများဆုံးဖြစ်စေရန် လက်တွေ့နယ်ပယ်အမျိုးမျိုးနှင့် ကုမ္ပဏီအရွယ်အစား မတူညီသည့် ရှေ့နေများကဲ့သို့ ကျွမ်းကျင်သူမျိုးစုံကို ရည်ရွယ်ချက်ရှိရှိ ရွေးချယ်စုဆောင်းခဲ့သည်။

တာဝန်တစ်ခုစီသည် လက်တွေ့အလုပ်ကို ကိုယ်စားပြုမှုရှိစေရန်၊ အခြားပရော်ဖက်ရှင်နယ်တစ်ဦးက ပြီးမြောက်နိုင်စေရန်၊ နှင့် အကဲဖြတ်ရန် ရှင်းလင်းစေရန် multi-step review process တစ်ခုကို ဖြတ်သန်းခဲ့သည်။ ပျမ်းမျှအားဖြင့် တာဝန်တစ်ခုစီသည် အခြား task writers များ၊ ထပ်ဆောင်း occupational reviewers များနှင့် model-based validation များအပါအဝင် ကျွမ်းကျင်သူ review 5 ကြိမ် ရရှိခဲ့သည်။

ရရှိလာသော dataset တွင် အလုပ်အကိုင်တစ်ခုစီအတွက် အပြည့်အဝ review ပြုလုပ်ထားသော တာဝန် 30 ခု (full-set) ပါဝင်ပြီး ကျွန်ုပ်တို့၏ open-sourced gold set တွင် အလုပ်အကိုင်တစ်ခုစီအတွက် တာဝန် 5 ခု ပါဝင်ကာ လက်တွေ့ကမ္ဘာ ဉာဏ်ပညာအခြေပြု အလုပ်အပေါ် မော်ဒယ်စွမ်းဆောင်ရည်ကို အကဲဖြတ်ရန် ခိုင်မာသော အခြေခံတစ်ရပ်ကို ပံ့ပိုးပေးသည်။

GDPval တာဝန် ဥပမာများ

တုံ့ပြန်ညွှန်ကြားချက် + တာဝန် အကြောင်းအရာ

This is June 2025 and you are a Manufacturing Engineer, in an automobile assembly line. The product is a cable spooling truck for underground mining operations, and you are reviewing the final testing step. In the final testing step, a big spool of cable needs to be reeled in and reeled out 2 times, to ensure the cable spooling works as per requirement. The current operation requires 2 persons to work on this test. The first person needs to bring and position the spool near the test unit, the second person will connect the open end of the cable spool to the test unit and start the reel in step. While the cable is being unreeled from the spool, and onto the truck, the first person will need to rotate the spool in order to facilitate the unreeling. When the cable is fully reeled onto the truck, the next step is to perform the operation in reverse order, so the cable gets reeled out of the truck and back onto its own reel. This test is done another time to ensure functionality. This task is complicated, has associated risks, requires high labor and makes the work area cluttered. Your manager has requested you to develop a jig/fixture to simplify reel in and reel out of the cable reel spool, so the test can be done by one person. Attached to this request is an information document which provides basic details about the cable reel drum size, information to design the cable reel spooling jig and to structure the deliverable. The deliverable for this task will be a preliminary concept design only. Separate tasks will be done to calculate design foundations such as stress, strength, cost benefit analysis, etc. Design a jig using 3d modelling software and create a presentation using Microsoft PowerPoint. As part of the deliverable, upload only a pdf document summarizing the design, using snapshots of the 3d design created. The 3d design file is not required for submission.

Cable reel project requirements.pdf

အတွေ့အကြုံရှိသော လူသားက ပေးပို့နိုင်သော အထွက်

cable reel ဒီဇိုင်းတစ်ခု၏ အစိတ်အပိုင်းခွဲ ပြမြင်ကွင်း

GDPval ရှိ တာဝန်တစ်ခုစီကို အတွေ့အကြုံရှိ ပရော်ဖက်ရှင်နယ်တစ်ဦးက ဒီဇိုင်းလုပ်ထားပြီး ၎င်းတို့၏ အလုပ်အကိုင်မှ လက်တွေ့ ဉာဏ်ပညာအခြေပြု အလုပ်ကို ထင်ဟပ်စေသည်။ တုံ့ပြန်ညွှန်ကြားချက် သည် domain expert တစ်ဦးက ဖန်တီးထားသော လက်တွေ့အလုပ်တာဝန်ဖြစ်ပြီး gold deliverable သည် ကျွမ်းကျင်သူ၏ ကိုယ်ပိုင်ဖြေရှင်းချက်ဖြစ်သည်။

မော်ဒယ်စွမ်းဆောင်ရည်ကို ကျွန်ုပ်တို့ မည်သို့အမှတ်ပေးသလဲ

GDPval tasks များပေါ် မော်ဒယ်စွမ်းဆောင်ရည်ကို အကဲဖြတ်ရန် ကျွန်ုပ်တို့သည် expert “graders” များအပေါ် အားထားသည်—dataset တွင် ကိုယ်စားပြုထားသော အလုပ်အကိုင်များနှင့် တူညီသည့် နယ်ပယ်မှ အတွေ့အကြုံရှိ ပရော်ဖက်ရှင်နယ်များအုပ်စုဖြစ်သည်။ ဤ graders များသည် model-generated deliverable များကို task writers များထုတ်လုပ်ထားသော deliverable များနှင့် မျက်မမြင် နှိုင်းယှဉ်ကြသည် (မည်သည် AI ထုတ်လုပ်ထားသည်၊ မည်သည် လူထုတ်လုပ်ထားသည်ကို မသိဘဲ)၊ ထို့နောက် ဝေဖန်သုံးသပ်ချက်များနှင့် အဆင့်သတ်မှတ်ချက်များ ပေးကြသည်။ ထို့နောက် graders များသည် လူနှင့် AI deliverable များကို အဆင့်သတ်မှတ်ပြီး AI deliverable တစ်ခုစီကို တစ်ခုနှင့်တစ်ခု နှိုင်းယှဉ်ကာ “better”၊ “as good as” သို့မဟုတ် “worse than” ဟု ခွဲခြားသတ်မှတ်ကြသည်။

task writers များကလည်း ၎င်းတို့၏ အလုပ်အကိုင်များအတွက် အသေးစိတ် scoring rubrics များကို ဖန်တီးခဲ့ပြီး အမှတ်ပေးလုပ်ငန်းစဉ်တွင် တစ်ညီတစ်ညွတ်ရှိမှုနှင့် ပွင့်လင်းမြင်သာမှုကို တိုးစေသည်။ ကျွန်ုပ်တို့သည် “automated grader” တစ်ခုလည်း တည်ဆောက်ခဲ့သည်။ ၎င်းမှာ လူကျွမ်းကျင်သူများက ပေးထားသော deliverable တစ်ခုကို မည်သို့ အကဲဖြတ်မည်ကို ခန့်မှန်းရန် လေ့ကျင့်ထားသည့် AI system တစ်ခုဖြစ်သည်။ အခြားနည်းဖြင့်ဆိုရလျှင် အပြည့်အဝ ကျွမ်းကျင်သူ review ကို အကြိမ်တိုင်း မလုပ်တော့ဘဲ automated grader က လူများက မည်သည့် output ကို ပိုနှစ်သက်မည်ဆိုသည်ကို အလျင်အမြန် ခန့်မှန်းပေးနိုင်သည်။ ကျွန်ုပ်တို့သည် ဤ tool ကို evals.openai.com တွင် စမ်းသပ်ဆဲ သုတေသနဝန်ဆောင်မှုအဖြစ် ထုတ်ပြန်နေသော်လည်း ၎င်းသည် expert graders များလောက် မယုံကြည်ရသေးသောကြောင့် ၎င်းတို့ကို အစားမထိုးပါ။

အစောပိုင်းရလဒ်များ

ယနေ့၏ အကောင်းဆုံး စွမ်းဆောင်ရည်အမြင့်ဆုံး မော်ဒယ်များသည် လုပ်ငန်းကျွမ်းကျင်သူများ ထုတ်လုပ်သော အလုပ်အရည်အသွေးသို့ နီးကပ်လာနေပြီဖြစ်ကြောင်း ကျွန်ုပ်တို့ တွေ့ရှိခဲ့သည်။ ၎င်းကို စမ်းသပ်ရန် GPT‑4o၊ o4-mini၊ OpenAI o3၊ GPT‑5၊ Claude Opus 4.1၊ Gemini 2.5 Pro နှင့် Grok 4 တို့အပါအဝင် ထိပ်တန်းမော်ဒယ် အများအပြားမှ deliverable များကို လူများ ထုတ်လုပ်ထားသော အလုပ်နှင့် နှိုင်းယှဉ်သည့် blind evaluations များကို ဆောင်ရွက်ခဲ့သည်။ GDPval gold set ရှိ တာဝန် 220 ခုအနှံ့တွင် မော်ဒယ် output များကို လုပ်ငန်းကျွမ်းကျင်သူများ၏ deliverable များထက် ပိုကောင်းသည်ဟု (“wins”) သို့မဟုတ် တန်းတူဟု (“ties”) အဆင့်သတ်မှတ်ခံရသည့် အချိန်များကို မှတ်တမ်းတင်ခဲ့ပြီး အောက်ပါ bar chart တွင် ပြထားသည့်အတိုင်း ဖြစ်သည်။ Claude Opus 4.1 သည် set ထဲတွင် စွမ်းဆောင်ရည်အကောင်းဆုံး မော်ဒယ်ဖြစ်ပြီး aesthetics (ဥပမာ document formatting၊ slide layout) တွင် အထူးကောင်းမွန်ခဲ့သော်လည်း GPT‑5 သည် accuracy (ဥပမာ domain-specific knowledge ရှာဖွေခြင်း) တွင် အထူးကောင်းမွန်ခဲ့သည်။ ဤတာဝန်များပေါ်တွင် အချိန်နှင့်အမျှ တိုးတက်မှုကိုလည်း ရှင်းလင်းစွာ တွေ့ရသည်။ GPT‑4o (2024 နွေဦးတွင် ထုတ်ပြန်) မှ GPT‑5 (2025 နွေရာသီတွင် ထုတ်ပြန်) အထိ စွမ်းဆောင်ရည်သည် နှစ်ဆကျော် တိုးတက်လာပြီး ရှင်းလင်းသော linear trend တစ်ခုကို လိုက်နာနေသည်။

ထို့အပြင် စွမ်းဆောင်ရည်အမြင့်ဆုံး မော်ဒယ်များသည် GDPval tasks များကို လုပ်ငန်းကျွမ်းကျင်သူများထက် ခန့်မှန်းခြေ 100 ဆ ပိုမြန်ပြီး 100 ဆ ပိုစျေးသက်သာစွာ ပြီးမြောက်နိုင်ကြောင်း တွေ့ရှိခဲ့သည်။ သို့သော် ဤကိန်းဂဏန်းများသည် မော်ဒယ် inference time သက်သက်နှင့် API billing rates များကိုသာ ထင်ဟပ်ပြီး အလုပ်ခွင် လက်တွေ့အခြေအနေများတွင် ကျွန်ုပ်တို့၏ မော်ဒယ်များကို အသုံးပြုရန် လိုအပ်သော လူ့ကြီးကြပ်မှု၊ iteration နှင့် integration အဆင့်များကို မဖမ်းယူပါ။ သို့တိုင် အထူးသဖြင့် မော်ဒယ်များ အားကောင်းသော တာဝန်အစုခွဲများတွင် လူတစ်ဦးနှင့် မကြိုးစားမီ တာဝန်ကို မော်ဒယ်တစ်ခုထံ ပေးခြင်းသည် အချိန်နှင့် ငွေကို ချွေတာနိုင်မည်ဟု မျှော်လင့်သည်။

ကျွမ်းကျင်အမှတ်ပေးသူများက ထိပ်တန်းမော်ဒယ်များ၏ output များကို လူကျွမ်းကျင်သူများ၏ deliverable များနှင့် နှိုင်းယှဉ်ခဲ့သည်။ ယနေ့၏ စွမ်းဆောင်ရည်အမြင့်ဆုံး မော်ဒယ်များသည် လုပ်ငန်းကျွမ်းကျင်သူများ ဖန်တီးသော အလုပ်အရည်အသွေးသို့ နီးကပ်လာနေပြီဖြစ်သည်။ Claude Opus 4.1 သည် တာဝန်များ၏ တစ်ဝက်နီးပါးတွင် လူများနှင့် တန်းတူ သို့မဟုတ် ပိုကောင်းသည်ဟု အဆင့်သတ်မှတ်ခံရသော output များကို ထုတ်ပေးခဲ့သည်။

GPT‑4o မှ GPT‑5 အထိ၊ GDPval တာဝန်များပေါ်ရှိ စွမ်းဆောင်ရည်သည် တစ်နှစ်အတွင်း သုံးဆကျော် မြင့်တက်လာခဲ့သည်။

နောက်ဆုံးတွင် GDPval ပေါ် စွမ်းဆောင်ရည်ကို တိုးတက်စေနိုင်မလား စစ်ဆေးရန် GPT‑5 ၏ အတွင်းပိုင်း စမ်းသပ်ဆဲ ဗားရှင်းတစ်ခုကို အဆင့်လိုက် လေ့ကျင့်ပေးခဲ့သည်။ ဤလုပ်ငန်းစဉ်က စွမ်းဆောင်ရည်ကို တိုးတက်စေပြီး နောက်ထပ် တိုးတက်ကောင်းမွန်နိုင်မည့် လမ်းကြောင်းတစ်ခုကို ဖန်တီးပေးကြောင်း တွေ့ရှိခဲ့သည်။ အခြား ထိန်းချုပ်ထားသော စမ်းသပ်မှုများကလည်း ဤအချက်ကို ထောက်ခံသည်။ မော်ဒယ်အရွယ်အစား တိုးခြင်း၊ ကျိုးကြောင်းသင့်လျော်စွာ စဉ််းစားပေးသော အဆင့်များ ပိုလုပ်ရန် အားပေးခြင်းနှင့် ပိုမို ကြွယ်ဝသော task context ပေးခြင်းတို့သည် တိုင်းတာနိုင်သော တိုးတက်မှုများကို ဖြစ်စေခဲ့သည်။

ရလဒ်အပြည့်အစုံကို ကျွန်ုပ်တို့၏ paper တွင် ဖတ်ရှုနိုင်ပါသည်။ အခြား သုတေသီများက ဤလုပ်ငန်းအပေါ် ဆက်လက် တည်ဆောက်နိုင်ရန် GDPval tasks များ၏ gold subset တစ်ခုနှင့် အများပြည်သူသုံး grading service တစ်ခုကိုလည်း ထုတ်ပြန်နေပါသည်။

အလုပ်အကိုင်၏ အနာဂတ်နှင့် AI

AI သည် ပိုမိုစွမ်းဆောင်နိုင်လာသည်နှင့်အမျှ အလုပ်အကိုင်ဈေးကွက်တွင် အပြောင်းအလဲများ ဖြစ်လာနိုင်သည်။ GDPval ၏ အစောပိုင်းရလဒ်များက မော်ဒယ်များသည် ထပ်တလဲလဲဖြစ်ပြီး သတ်မှတ်ချက်ရှင်းလင်းသော တာဝန်အချို့ကို ကျွမ်းကျင်သူများထက် ပိုမြန်စွာ၊ ကုန်ကျစရိတ်နိမ့်စွာ ကိုင်တွယ်နိုင်နေပြီဖြစ်ကြောင်း ပြသသည်။ သို့သော် အလုပ်အများစုမှာ ရေးချနိုင်သော တာဝန်များ စုစည်းမှုတစ်ခုမျှသာ မဟုတ်ပါ။ GDPval က AI သည် routine tasks များကို ကိုင်တွယ်နိုင်သည့် နေရာများကို မီးမောင်းထိုးပြကာ လူများကို ဖန်တီးမှုလိုအပ်သော၊ ဆုံးဖြတ်ချက်ချမှုအလေးပေးသော အလုပ်အစိတ်အပိုင်းများတွင် အချိန်ပိုသုံးနိုင်စေသည်။ AI က အလုပ်သမားများကို ဤနည်းဖြင့် ဖြည့်ဆည်းပံ့ပိုးသောအခါ သိသာထင်ရှားသော စီးပွားရေးတိုးတက်မှုအဖြစ် ဘာသာပြန်နိုင်သည်။ ကျွန်ုပ်တို့၏ ရည်မှန်းချက်မှာ ဤကိရိယာများကို အသုံးပြုခွင့်ကို လူတိုင်းသို့ ဒီမိုကရေစီဆန်စွာ ဖြန့်ဝေပေးခြင်း၊ အပြောင်းအလဲကာလအတွင်း အလုပ်သမားများကို ပံ့ပိုးခြင်းနှင့် ကျယ်ပြန့်သော ပါဝင်ပံ့ပိုးမှုကို ဆုချသည့် စနစ်များ တည်ဆောက်ခြင်းတို့မှတစ်ဆင့် AI ၏ “တက်မောင်း” ပေါ်တွင် လူတိုင်းကို ဆက်လက် ထားရှိရန် ဖြစ်သည်။

ကန့်သတ်ချက်များနှင့် နောက်တစ်ဆင့်

GDPval သည် အစောပိုင်း ခြေလှမ်းတစ်ခုဖြစ်သည်။ ၎င်းသည် အလုပ်အကိုင် 44 ခုနှင့် တာဝန် ရာပေါင်းများစွာကို လွှမ်းခြုံထားသော်လည်း ကျွန်ုပ်တို့သည် စမ်းသပ်မှုနယ်ပယ်ကို ချဲ့ထွင်ရန်နှင့် ရလဒ်များကို ပိုမိုအဓိပ္ပာယ်ပြည့်ဝစေရန် ကျွန်ုပ်တို့၏ ချဉ်းကပ်ပုံကို ဆက်လက် ပြုပြင်မွမ်းမံနေပါသည်။ လက်ရှိ အကဲဖြတ်မှုဗားရှင်းသည်လည်း တစ်ခေါက်တည်း ပြုလုပ်ခြင်း ဖြစ်သည့်အတွက် မော်ဒယ်တစ်ခုက context တည်ဆောက်ရန် သို့မဟုတ် draft များစွာမှတစ်ဆင့် တိုးတက်ရန် လိုအပ်သည့် အခြေအနေများကို မဖမ်းယူနိုင်ပါ—ဥပမာ client feedback ပြီးနောက် legal brief ကို ပြန်လည်ပြင်ဆင်ခြင်း သို့မဟုတ် anomaly တစ်ခုကို တွေ့ရှိပြီးနောက် data analysis ကို အကြိမ်ကြိမ် ပြန်လုပ်ခြင်းတို့ ဖြစ်သည်။ ထို့အပြင် လက်တွေ့ကမ္ဘာတွင် tasks များကို တုံ့ပြန်ညွှန်ကြားချက် နှင့် reference files များဖြင့် အမြဲတမ်း ရှင်းလင်းစွာ သတ်မှတ်မထားပါ။ ဥပမာ ရှေ့နေတစ်ဦးသည် client ကို ကူညီရန် legal brief တစ်ခု ဖန်တီးခြင်းက မှန်ကန်သော နည်းလမ်းဖြစ်သည်ဟု မဆုံးဖြတ်မီ မရှင်းလင်းမှုများကို ကိုင်တွယ်ရနိုင်ပြီး client နှင့် စကားပြောရနိုင်သည်။ ကျွန်ုပ်တို့သည် GDPval ကို အလုပ်အကိုင်များ၊ လုပ်ငန်းကဏ္ဍများနှင့် task types များ ပိုမိုပါဝင်အောင်၊ interactivity တိုးလာအောင်နှင့် ambiguity ကို ကိုင်တွယ်ရသည့် tasks များ ပိုမိုပါဝင်အောင် ချဲ့ထွင်ရန် စီစဉ်ထားပြီး ရေရှည်ရည်မှန်းချက်မှာ မတူကွဲပြားသော ဉာဏ်ပညာအခြေပြု အလုပ်တွင် တိုးတက်မှုကို ပိုမိုကောင်းမွန်စွာ တိုင်းတာနိုင်ရန် ဖြစ်သည်။

ပါဝင်လိုက်ပါ

သင်သည် လုပ်ငန်းကျွမ်းကျင်သူတစ်ဦးဖြစ်ပြီး GDPval တွင် ပါဝင်ကူညီလိုပါက ဤနေရာတွင် စိတ်ဝင်စားမှုကို ဖော်ပြပါ။
သင်သည် OpenAI နှင့် လက်တွဲလုပ်ဆောင်နေသော customer တစ်ဦးဖြစ်ပြီး အနာဂတ် GDPval round တစ်ခုတွင် ပါဝင်ကူညီလိုပါက ဤနေရာတွင် စိတ်ဝင်စားမှုကို ဖော်ပြပါ။

လူမှုအသိုက်အဝန်း၏ ပါဝင်မှုသည် မရှိမဖြစ် အရေးကြီးပါသည်—AGI ကို အလုပ်ခွင်ရှိ လူများအတွက် ပိုမိုအသုံးဝင်စေရန် ဟူသော ကျွန်ုပ်တို့၏ ရည်မှန်းချက်ကို မျှဝေထားသော သုတေသီများ၊ လက်တွေ့လုပ်ဆောင်သူများနှင့် အဖွဲ့အစည်းများနှင့်အတူ GDPval ကို တည်ဆောက်ရန် ကျွန်ုပ်တို့ စိတ်လှုပ်ရှားလျက်ရှိပါသည်။

စာရေးသူ

OpenAI

ဆက်ဖတ်ရှုပါ

အားလုံးကို ကြည့်ရန်

$math-breakthroughs art-card 1x1$

Ten advances in mathematics and theoretical computer science

ထုတ်ဝေမှု၂၀၂၆ ဩ ၁

ဆက်တင်နှစ်ခုဖွင့်၍ ARC-AGI-3 အမှတ် သုံးဆတိုးခဲ့ပုံ

သုတေသန၂၀၂၆ ဇူ ၂၉

oai Science Academic Research Academic Research 1x1

ပညာရပ်ဆိုင်ရာ သုတေသီများအတွက် ChatGPT ဖြင့် သိပ္ပံရှာဖွေတွေ့ရှိမှုကို အရှိန်မြှင့်ခြင်း

ကုမ္ပဏီ၂၀၂၆ ဇူ ၂၉