ChatGPT အေးဂျင့်ကို မိတ်ဆက်ခြင်း - ရှာဖွေခြင်းနှင့် လုပ်ဆောင်မှုကို ချိတ်ဆက်ပေးခြင်း
ChatGPT သည် ယခု စဉ်းစားပြီး လုပ်ဆောင်နိုင်ပြီဖြစ်ပြီး ၎င်း၏ကိုယ်ပိုင်ကွန်ပျူတာကို အသုံးပြုကာ သင့်အတွက် အလုပ်များ ပြီးမြောက်စေရန် အေးဂျင့်စွမ်းရည် ကိရိယာများမှ တက်ကြွစွာ ရွေးချယ်အသုံးပြုသည်။
ChatGPT သည် ယခု ၎င်း၏ကိုယ်ပိုင်ကွန်ပျူတာကို အသုံးပြုကာ သင့်အတွက် အလုပ်များကို လုပ်ဆောင်နိုင်ပြီး ရှုပ်ထွေးသောအလုပ်များကို အစမှအဆုံးထိ ကိုင်တွယ်နိုင်ပြီဖြစ်သည်။
ယခု သင်သည် ChatGPT ကို “ကျွန်ုပ်၏ ပြက္ခဒိန်ကို ကြည့်ပြီး လတ်တလောသတင်းများအပေါ် အခြေခံကာ ရှေ့လာမည့် client meeting များအတွက် အကျဉ်းချုပ်ပေးပါ”, “လေးယောက်အတွက် ဂျပန်မနက်စာ လုပ်ရန် အစီအစဉ်ဆွဲပြီး ပစ္စည်းများ ဝယ်ပေးပါ”, နှင့် “ပြိုင်ဘက် သုံးဦးကို ခွဲခြမ်းစိတ်ဖြာပြီး slide deck တစ်ခု ဖန်တီးပါ” ကဲ့သို့သော တောင်းဆိုချက်များကို ကိုင်တွယ်ရန် ပြောနိုင်သည်။ ChatGPT သည် website များကို ဉာဏ်ရည်ရှိစွာ လမ်းညွှန်သွားလာမည်၊ ရလဒ်များကို စစ်ထုတ်မည်၊ လိုအပ်သည့်အခါ လုံခြုံစွာ log in ဝင်ရန် သင့်ကို တိုက်တွန်းမည်၊ code ကို run မည်၊ analysis ပြုလုပ်မည်၊ ထို့အပြင် ၎င်း၏တွေ့ရှိချက်များကို အကျဉ်းချုပ်ထားသော ပြင်ဆင်နိုင်သည့် slideshows နှင့် spreadsheets များကိုပါ ပေးပို့နိုင်သည်။
ဤစွမ်းရည်အသစ်၏ အခြေခံဗဟိုတွင် စုပေါင်းထားသော အေးဂျင့်စနစ်တစ်ခု ရှိသည်။ ၎င်းသည် ယခင် တိုးတက်မှုကြီး သုံးခု၏ အားသာချက်များကို ပေါင်းစည်းပေးထားသည် - Operator ၏ website များနှင့် အပြန်အလှန် လုပ်ဆောင်နိုင်မှု၊ နက်နဲစွာ ရှာဖွေခြင်း၏ အချက်အလက်များကို ပေါင်းစပ်နိုင်သည့် ကျွမ်းကျင်မှု၊ နှင့် ChatGPT ၏ ဉာဏ်ရည်နှင့် စကားပြောဆိုရာတွင် ချောမွေ့သဘာဝကျမှုတို့ ဖြစ်သည်။
ChatGPT သည် ဤအလုပ်များကို ၎င်း၏ကိုယ်ပိုင် virtual computer ကို အသုံးပြုကာ လုပ်ဆောင်ပြီး သင့်ညွှန်ကြားချက်များအပေါ် မူတည်၍ အစမှအဆုံးထိ ရှုပ်ထွေးသော workflow များကို ကိုင်တွယ်နိုင်ရန် ကျိုးကြောင်းသင့်လျော်စွာ စဉ််းစားပေးသောနှင့် လုပ်ဆောင်မှုကြားတွင် ချောမွေ့စွာ ပြောင်းလဲလုပ်ဆောင်သည်။
အရေးအကြီးဆုံးမှာ သင်က အမြဲထိန်းချုပ်ခွင့် ရှိနေခြင်းဖြစ်သည်။ ChatGPT သည် အကျိုးသက်ရောက်မှုရှိသော လုပ်ဆောင်ချက်များ မပြုလုပ်မီ ခွင့်ပြုချက်တောင်းမည်ဖြစ်ပြီး မည်သည့်အချိန်တွင်မဆို အလွယ်တကူ ဖြတ်တောက်ခြင်း၊ browser ကို ကိုယ်တိုင်ထိန်းချုပ်ယူခြင်း သို့မဟုတ် အလုပ်ကို ရပ်တန့်ခြင်း ပြုလုပ်နိုင်သည်။
ယနေ့မှစတင်ကာ Pro, Plus, နှင့် Team အသုံးပြုသူများသည် မည်သည့်စကားဝိုင်း၌မဆို မည်သည့်အချိန်တွင်မဆို composer ရှိ tools dropdown မှ ‘agent mode’ ကို ရွေးချယ်ခြင်းအားဖြင့် ChatGPT ၏ အေးဂျင့်စွမ်းရည်အသစ်များကို တိုက်ရိုက် ဖွင့်အသုံးပြုနိုင်ပြီဖြစ်သည်။
ChatGPT အေးဂျင့်သည် ရှုပ်ထွေးသောအလုပ်များကို ကိုင်တွယ်ရာတွင် အားကောင်းသော ကိရိယာတစ်ခု ဖြစ်နေပြီးသားဖြစ်သော်လည်း ယနေ့ မိတ်ဆက်ခြင်းသည် အစသာဖြစ်သည်။ ကျွန်ုပ်တို့သည် ပုံမှန်အားဖြင့် အရေးပါသော တိုးတက်ကောင်းမွန်မှုများကို ဆက်လက် အဆင့်လိုက် ထည့်သွင်းသွားမည်ဖြစ်ပြီး အချိန်နှင့်အမျှ လူပိုများအတွက် ပိုမိုစွမ်းဆောင်ရည်ရှိပြီး ပိုမိုအသုံးဝင်လာစေမည်။
ယခင်က Operator နှင့် နက်နဲစွာ ရှာဖွေခြင်း တို့သည် တစ်ခုချင်းစီအလိုက် ထူးခြားသော အားသာချက်များကို ယူဆောင်လာခဲ့သည် - Operator သည် ဝဘ်ပေါ်တွင် scroll လုပ်ခြင်း၊ click လုပ်ခြင်း၊ နှင့် စာရိုက်ခြင်းတို့ ပြုလုပ်နိုင်ပြီး နက်နဲစွာ ရှာဖွေခြင်း သည် အချက်အလက်များကို ခွဲခြမ်းစိတ်ဖြာပြီး အကျဉ်းချုပ်ရာတွင် ထူးချွန်ခဲ့သည်။ သို့သော် ၎င်းတို့သည် မတူညီသော အခြေအနေများတွင် ပိုမိုကောင်းမွန်စွာ အလုပ်လုပ်ခဲ့သည် - Operator သည် analysis အတွင်း နက်နက်ရှိုင်းရှိုင်း မဝင်နိုင်သလို အသေးစိတ်အစီရင်ခံစာများ မရေးနိုင်ခဲ့ပါ၊ နက်နဲစွာ ရှာဖွေခြင်း သည်လည်း ရလဒ်များကို ပိုမိုကောင်းမွန်စေရန် website များနှင့် အပြန်အလှန် မလုပ်ဆောင်နိုင်သလို အသုံးပြုသူ authentication လိုအပ်သော content များကို မရယူနိုင်ခဲ့ပါ။ အမှန်တကယ်အားဖြင့် အသုံးပြုသူများက Operator ဖြင့် ကြိုးစားခဲ့သော မေးခွန်းများစွာသည် နက်နဲစွာ ရှာဖွေခြင်း အတွက် ပိုမိုသင့်တော်ကြောင်းကို ကျွန်ုပ်တို့ တွေ့မြင်ခဲ့သဖြင့် နှစ်ဖက်စလုံး၏ အကောင်းဆုံးအရာများကို ပေါင်းစည်းခဲ့သည်။
ဤအပြန်အလှန်ဖြည့်စွက်သော အားသာချက်များကို ChatGPT ထဲတွင် ပေါင်းစည်းပြီး ကိရိယာများ ထပ်မံမိတ်ဆက်ပေးခြင်းအားဖြင့် ကျွန်ုပ်တို့သည် မော်ဒယ်တစ်ခုတည်းအတွင်း လုံးဝအသစ်သော စွမ်းရည်များကို ဖွင့်လှစ်နိုင်ခဲ့သည်။ ယခု ၎င်းသည် website များနှင့် တက်ကြွစွာ ထိတွေ့လုပ်ဆောင်နိုင်ပြီး click လုပ်ခြင်း၊ စစ်ထုတ်ခြင်း၊ နှင့် ပိုမိုတိကျပြီး ထိရောက်သော ရလဒ်များကို စုဆောင်းနိုင်သည်။ ထို့အပြင် ရိုးရှင်းသော စကားဝိုင်းတစ်ခုမှ တူညီသော chat အတွင်း တိုက်ရိုက် လုပ်ဆောင်ချက်များ တောင်းဆိုခြင်းသို့ သဘာဝကျစွာ ကူးပြောင်းနိုင်သည်။
ကျွန်ုပ်တို့သည် ChatGPT အေးဂျင့်ကို ကိရိယာအစုံအလင်တစ်ခုဖြင့် တပ်ဆင်ပေးထားသည် - graphical-user interface မှတစ်ဆင့် ဝဘ်နှင့် အပြန်အလှန်လုပ်ဆောင်သော visual browser တစ်ခု၊ ပိုမိုရိုးရှင်းသော ကျိုးကြောင်းသင့်လျော်စွာ စဉ််းစားပေးသောအပေါ် အခြေခံသည့် web queries များအတွက် text-based browser တစ်ခု၊ terminal တစ်ခု၊ နှင့် တိုက်ရိုက် API access တို့ဖြစ်သည်။ အေးဂျင့်သည် ChatGPT connectors(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) ကိုလည်း အသုံးချနိုင်သည်၊ ၎င်းက Gmail နှင့် Github ကဲ့သို့သော app များကို ချိတ်ဆက်ပေးနိုင်သောကြောင့် ChatGPT သည် သင့်တုံ့ပြန်ညွှန်ကြားချက်များနှင့် သက်ဆိုင်သော အချက်အလက်များကို ရှာဖွေကာ ၎င်းတို့ကို ၎င်း၏တုံ့ပြန်မှုများတွင် အသုံးပြုနိုင်သည်။ သင်သည် browser ကို ကိုယ်တိုင်ထိန်းချုပ်ယူခြင်းဖြင့် မည်သည့် website တွင်မဆို log in ဝင်နိုင်ပြီး ထိုသို့ပြုလုပ်ခြင်းအားဖြင့် ၎င်းသည် ၎င်း၏ရှာဖွေမှုနှင့် အလုပ်အကောင်အထည်ဖော်မှု နှစ်ရပ်စလုံးတွင် ပိုမိုနက်ရှိုင်းကျယ်ပြန့်စွာ လုပ်ဆောင်နိုင်သည်။ ChatGPT ကို ဝဘ်အချက်အလက်များသို့ ဝင်ရောက်ခြင်းနှင့် အပြန်အလှန်လုပ်ဆောင်ခြင်းအတွက် ဤကွဲပြားသော လမ်းကြောင်းများကို ပေးထားခြင်းကြောင့် ၎င်းသည် အလုပ်များကို အထိရောက်ဆုံး ဆောင်ရွက်ရန် အကောင်းဆုံးလမ်းကြောင်းကို ရွေးချယ်နိုင်သည်။ ဥပမာအားဖြင့် ၎င်းသည် API မှတစ်ဆင့် သင့်ပြက္ခဒိန်အကြောင်း အချက်အလက်များကို စုဆောင်းနိုင်သည်၊ text-based browser ကို အသုံးပြု၍ စာသားအများအပြားအပေါ် ထိရောက်စွာ ကျိုးကြောင်းသင့်လျော်စွာ စဉ််းစားပေးသောလုပ်နိုင်သည်၊ ထို့ပြင် အဓိကအားဖြင့် လူသားများအတွက် ဒီဇိုင်းရေးထားသော website များနှင့် အမြင်ပိုင်းဆိုင်ရာ အပြန်အလှန်လုပ်ဆောင်နိုင်စွမ်းလည်း ရှိသည်။
ဤအရာအားလုံးကို ၎င်း၏ကိုယ်ပိုင် virtual computer ကို အသုံးပြု၍ လုပ်ဆောင်ထားခြင်းဖြစ်ပြီး ကိရိယာများစွာ အသုံးပြုသည့်အခါတောင် အလုပ်အတွက် လိုအပ်သော context ကို ထိန်းသိမ်းပေးထားသည် - မော်ဒယ်သည် text browser သို့မဟုတ် visual browser ကို အသုံးပြု၍ စာမျက်နှာတစ်ခုကို ဖွင့်ရန် ရွေးချယ်နိုင်သည်၊ ဝဘ်မှ ဖိုင်တစ်ခုကို download လုပ်နိုင်သည်၊ terminal တွင် command တစ်ခု run ခြင်းဖြင့် ၎င်းကို ပြင်ဆင်နိုင်သည်၊ ထို့နောက် output ကို visual browser ထဲတွင် ပြန်ကြည့်နိုင်သည်။ မော်ဒယ်သည် အလုပ်များကို မြန်ဆန်မှု၊ တိကျမှု၊ နှင့် ထိရောက်မှုတို့ဖြင့် ဆောင်ရွက်နိုင်ရန် ၎င်း၏နည်းလမ်းကို လိုက်လျောညီထွေ ပြောင်းလဲအသုံးပြုသည်။
ChatGPT အေးဂျင့်ကို အဆင့်လိုက် တိုးတက်သည့် ပူးပေါင်းလုပ်ဆောင်မှု workflow များအတွက် ဒီဇိုင်းထုတ်ထားပြီး ယခင် မော်ဒယ်များထက် များစွာ ပိုမို အပြန်အလှန်ဆက်သွယ်နိုင်ပြီး လိုက်လျောညီထွေရှိသည်။ ChatGPT အလုပ်လုပ်နေစဉ် သင်သည် မည်သည့်အချိန်တွင်မဆို ဖြတ်တောက်ကာ သင့်ညွှန်ကြားချက်များကို ပိုမိုရှင်းလင်းစေနိုင်သည်၊ လိုချင်သောရလဒ်များဘက်သို့ ဦးတည်စေနိုင်သည်၊ သို့မဟုတ် အလုပ်ကို လုံးဝပြောင်းလဲနိုင်သည်။ ၎င်းသည် ယခင်တိုးတက်မှုများ မဆုံးရှုံးဘဲ သတင်းအချက်အလက်အသစ်များနှင့်အတူ ရပ်ထားခဲ့သည့်နေရာမှ ဆက်လက်လုပ်ဆောင်မည်။ ထို့အတူ လိုအပ်သည့်အခါ အလုပ်သည် သင့်ရည်မှန်းချက်များနှင့် ကိုက်ညီနေစေရန် ChatGPT ကိုယ်တိုင်ကလည်း သင့်ထံမှ အသေးစိတ်အချက်အလက်များကို တက်ကြွစွာ ထပ်မံတောင်းနိုင်သည်။ အလုပ်တစ်ခုသည် မျှော်မှန်းထားသည်ထက် ကြာမြင့်လာပါက သို့မဟုတ် တစ်နေရာတွင် ပိတ်မိနေသည်ဟု ခံစားရပါက ၎င်းကို ခဏရပ်နားနိုင်သည်၊ တိုးတက်မှုအကျဉ်းချုပ်ကို တောင်းနိုင်သည်၊ သို့မဟုတ် လုံးဝရပ်တန့်ကာ တစ်စိတ်တစ်ပိုင်း ရလဒ်များကို လက်ခံရယူနိုင်သည်။ သင့်ဖုန်းတွင် ChatGPT app ရှိပါက ၎င်းသည် သင့်အလုပ် ပြီးဆုံးသည့်အခါ အကြောင်းကြားချက် ပို့ပေးမည်။
ဤစုပေါင်းထားသော အေးဂျင့်စွမ်းရည်များသည် နေ့စဉ်ဘဝနှင့် ပရော်ဖက်ရှင်နယ် အခြေအနေများ နှစ်မျိုးစလုံးတွင် ChatGPT ၏ အသုံးဝင်မှုကို သိသိသာသာ မြှင့်တင်ပေးသည်။ အလုပ်ခွင်တွင် screenshots များ သို့မဟုတ် dashboards များကို ပြင်ဆင်နိုင်သော vector elements များပါဝင်သည့် presentations များအဖြစ် ပြောင်းလဲခြင်း၊ meetings များကို ပြန်လည်စီစဉ်ခြင်း၊ offsite များကို အစီအစဉ်ဆွဲပြီး booking လုပ်ခြင်း၊ နှင့် format မပြောင်းဘဲ spreadsheet များကို ဘဏ္ဍာရေးဒေတာအသစ်များဖြင့် update လုပ်ခြင်းကဲ့သို့သော ထပ်ခါထပ်ခါ လုပ်ရသည့်အလုပ်များကို အလိုအလျောက်လုပ်ဆောင်နိုင်သည်။ ကိုယ်ရေးကိုယ်တာဘဝတွင်လည်း ခရီးစဉ်များကို အလွယ်တကူ အစီအစဉ်ဆွဲပြီး booking လုပ်ရန်၊ ညစာစားပွဲ အပြည့်အစုံကို ဒီဇိုင်းရေးဆွဲပြီး booking လုပ်ရန်၊ သို့မဟုတ် ကျွမ်းကျင်သူများကို ရှာဖွေကာ appointment များ စီစဉ်ရန် အသုံးပြုနိုင်သည်။
မော်ဒယ်၏ မြင့်မားလာသော စွမ်းရည်များသည် web browsing နှင့် လက်တွေ့ကမ္ဘာ task completion စွမ်းရည်များကို တိုင်းတာသော evaluation များတွင် စွမ်းဆောင်ရည်အမြင့်ဆုံး (SOTA) စွမ်းဆောင်ရည်ဖြင့် ထင်ဟပ်နေသည်။
Humanity’s Last Exam(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်)* တွင်၊ ၎င်းသည် ကျွမ်းကျင်သူအဆင့် မေးခွန်းများအပေါ် AI ၏ စွမ်းဆောင်ရည်ကို ဘာသာရပ်အများအပြားတစ်လျှောက် တိုင်းတာသော evaluation ဖြစ်ပြီး ChatGPT အေးဂျင့်ကို မောင်းနှင်သည့် မော်ဒယ်သည် pass@1 SOTA အသစ် 41.6 ကို ရရှိသည်။ အေးဂျင့်သည် dynamic အဖြစ် အစီအစဉ်ဆွဲပြီး ၎င်း၏ကိုယ်ပိုင်ကိရိယာများကို ရွေးချယ်သောကြောင့် တူညီသောအလုပ်ကို run တစ်ကြိမ်ချင်းစီတွင် ကွဲပြားသော နည်းလမ်းများဖြင့် ကိုင်တွယ်နိုင်သည်။ ၎င်းကို ရိုးရှင်းသော parallel rollout strategy ဖြင့် တိုးချဲ့စမ်းသပ်သည့်အခါ - တစ်ချိန်တည်းတွင် ကြိုးစားမှု ရှစ်ကြိမ်အထိ လုပ်ဆောင်ပြီး ၎င်းတို့အနက် self-reported confidence အမြင့်ဆုံးတစ်ခုကို ရွေးချယ်ခြင်း - အေးဂျင့်၏ HLE score သည် 44.4 အထိ မြင့်တက်လာသည်။
FrontierMath** သည် လက်ရှိသိရှိထားသည့် အခက်ခဲဆုံး သင်္ချာ benchmark ဖြစ်ပြီး ကျွမ်းကျင်သင်္ချာပညာရှင်များကိုတောင် ဖြေရှင်းရန် နာရီပေါင်းများစွာ သို့မဟုတ် ရက်များစွာ ကြာလေ့ရှိသော အသစ်ပြီး မထုတ်ဝေရသေးသည့် ပြဿနာများ ပါဝင်သည်။ code execution အတွက် terminal အသုံးပြုခွင့်ကဲ့သို့သော tool use ဖြင့် ChatGPT အေးဂျင့်သည် တိကျမှု 27.4% အထိ ရောက်ရှိကာ ယခင် မော်ဒယ်နှစ်ခုလုံးကို ကြီးမားသောကွာဟချက်ဖြင့် ကျော်လွန်ခဲ့သည်။
ကျွန်ုပ်တို့သည် မော်ဒယ်ကို ရှုပ်ထွေးသော လက်တွေ့ကမ္ဘာအလုပ်များကို အခြေခံပြီး ဖန်တီးထားသော benchmark များဖြင့်လည်း အကဲဖြတ်ခဲ့သည်။ ရှုပ်ထွေးပြီး စီးပွားရေးအရ တန်ဖိုးရှိသော knowledge-work tasks များတွင် မော်ဒယ်၏ စွမ်းဆောင်ရည်ကို အကဲဖြတ်ရန် ဒီဇိုင်းထုတ်ထားသော internal benchmark တစ်ခုပေါ်တွင် ChatGPT အေးဂျင့်၏ output သည် task completion time မျိုးစုံတစ်လျှောက် case များ၏ ခန့်မှန်းအားဖြင့် တစ်ဝက်ခန့်တွင် လူသားများ၏ output နှင့် တန်းတူ သို့မဟုတ် ပိုကောင်းပြီး o3 နှင့် o4-mini ထက် သိသိသာသာ ပိုမိုကောင်းမွန်သည်။ မော်ဒယ် output များကို နယ်ပယ်အသီးသီးရှိ ထိပ်တန်း စွမ်းဆောင်သူများ ဖန်တီးထားသော အရည်အသွေးမြင့် လူသားအခြေခံနှိုင်းယှဉ်ချက်များနှင့် နှိုင်းယှဉ်ကာ ကျွမ်းကျင်သူများက အကဲဖြတ်သည်။ ကွဲပြားသော အလုပ်အကိုင်များနှင့် လုပ်ငန်းများမှ ကျွမ်းကျင်သူများထံမှ ရယူထားသော ဤအလုပ်များသည် on-demand urgent care providers များအတွက် competitive analysis ပြင်ဆင်ခြင်း၊ အသေးစိတ် amortization schedules များ တည်ဆောက်ခြင်း၊ နှင့် green hydrogen facility အသစ်အတွက် အသုံးပြုနိုင်သော water wells များကို ရှာဖွေသတ်မှတ်ခြင်း ကဲ့သို့သော လက်တွေ့ကမ္ဘာ ပရော်ဖက်ရှင်နယ်အလုပ်များကို ထင်ဟပ်စေသည်။
DSBench(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) တွင်, ဒေတာခွဲခြမ်းစိတ်ဖြာခြင်းနှင့် modeling ကို ဖြတ်သန်းသည့် လက်တွေ့ကျသော data science tasks များပေါ်တွင် အေးဂျင့်များကို အကဲဖြတ်ရန် ဒီဇိုင်းထုတ်ထားသော benchmark ဖြစ်ပြီး ChatGPT အေးဂျင့်သည် လူသားစွမ်းဆောင်ရည်ကို ကြီးမားသောကွာဟချက်ဖြင့် ထင်ရှားစွာ ကျော်လွန်သည်။
SpreadsheetBench တွင်၊ ၎င်းသည် လက်တွေ့ကမ္ဘာ အခြေအနေများမှ ယူဆောင်ထားသော spreadsheets များကို တည်းဖြတ်နိုင်စွမ်းအပေါ် မော်ဒယ်များကို အကဲဖြတ်သော benchmark ဖြစ်ပြီး ChatGPT အေးဂျင့်သည် ရှိပြီးသား မော်ဒယ်များအားလုံးကို ကြီးမားသော ကွာဟချက်ဖြင့် ကျော်လွန်ခဲ့သည်။ spreadsheets များကို တိုက်ရိုက်တည်းဖြတ်နိုင်စွမ်း ပေးထားသည့်အခါ ChatGPT အေးဂျင့်သည် Copilot in Excel ၏ 20.0% နှင့် နှိုင်းယှဉ်လျှင် 45.5% ဖြင့် ပိုမိုမြင့်မားသော ရမှတ်ကို ရရှိသည်။
နည်းလမ်းဗေဒ - SpreadsheetBench ၏ စာရေးသူများက spreadsheets များကို အကဲဖြတ်ရန် Microsoft Excel ပါသော Windows ပတ်ဝန်းကျင်ကို အသုံးပြုခဲ့သည်။ ကျွန်ုပ်တို့က OSX ပတ်ဝန်းကျင်နှင့် LibreOffice ကို အသုံးပြုခဲ့သောကြောင့် အမှတ်ပေးရာတွင် ကွာခြားမှုအသေးစားများ ဖြစ်နိုင်သည်။ ဥပမာအားဖြင့် စာရေးသူများသည် GPT‑4o အတွက် Overall Hard restriction ကို 15.02% ဟု တွေ့ရှိခဲ့ပြီး ကျွန်ုပ်တို့က 13.38% ရရှိခဲ့သည်။ ကျွန်ုပ်တို့သည် မေးခွန်း 912 ခုပါဝင်သော benchmark အပြည့်အစုံကို အသုံးပြုခဲ့သည်။
ပထမနှစ်မှ တတိယနှစ်အထိ investment banking analyst modeling tasks များကို ကိုင်တွယ်နိုင်စွမ်းကို တိုင်းတာသော internal benchmark တစ်ခုတွင် - ဥပမာ Fortune 500 ကုမ္ပဏီတစ်ခုအတွက် မှန်ကန်သော formatting နှင့် citations များပါဝင်သော three-statement financial model တစ်ခု တည်ဆောက်ခြင်း သို့မဟုတ် take-private အတွက် leveraged buyout model တစ်ခု တည်ဆောက်ခြင်း - ChatGPT အေးဂျင့်ကို မောင်းနှင်သည့် မော်ဒယ်သည် နက်နဲစွာ ရှာဖွေခြင်း နှင့် o3 ထက် သိသိသာသာ ပိုမိုကောင်းမွန်သည်။ အလုပ်တစ်ခုချင်းစီကို မှန်ကန်မှုနှင့် formula အသုံးပြုမှုနှင့် ဆက်စပ်သော စံနှုန်းရာပေါင်းများစွာအပေါ် အခြေခံ၍ အမှတ်ပေးထားသည်။
ကျွန်ုပ်တို့သည် ChatGPT အေးဂျင့်ကို BrowseComp ပေါ်တွင်လည်း အကဲဖြတ်ခဲ့သည်၊ ၎င်းသည် ယခုနှစ်အစောပိုင်းက ကျွန်ုပ်တို့ ထုတ်ပြန်ခဲ့သော benchmark ဖြစ်ပြီး ဝဘ်ပေါ်တွင် ရှာရခက်သော အချက်အလက်များကို ရှာဖွေနိုင်စွမ်းကို တိုင်းတာသည်။ ထိုမော်ဒယ်သည် 68.9% ဖြင့် SOTA အသစ်ကို တင်ထားပြီး နက်နဲစွာ ရှာဖွေခြင်း ထက် 17.4 percentage points ပိုမိုမြင့်မားသည်။
နောက်ဆုံးအနေဖြင့် WebArena(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) ပေါ်တွင်၊ ၎င်းသည် လက်တွေ့ကမ္ဘာ ဝဘ်အလုပ်များကို ပြီးမြောက်ရာတွင် web-browsing အေးဂျင့်များ၏ စွမ်းဆောင်ရည်ကို အကဲဖြတ်ရန် ဒီဇိုင်းထုတ်ထားသော benchmark ဖြစ်ပြီး ထိုမော်ဒယ်သည် o3‑powered CUA (Operator ကို မောင်းနှင်သော မော်ဒယ်) ထက် တိုးတက်ကောင်းမွန်သည်။
သင်သည် ChatGPT ၏ အေးဂျင့်စွမ်းရည်အသစ်များကို composer ရှိ tools dropdown မှ ‘agent mode’ ကို မည်သည့်စကားဝိုင်း၌မဆို မည်သည့်အချိန်တွင်မဆို ရွေးချယ်ခြင်းအားဖြင့် တိုက်ရိုက် ဖွင့်အသုံးပြုနိုင်သည်။ သင်လုပ်ဆောင်လိုသော အလုပ်ကို ရိုးရိုးရှင်းရှင်း ဖော်ပြပါ - နက်နဲစွာ ရှာဖွေခြင်း ပြုလုပ်ခြင်း ဖြစ်စေ၊ slideshow ဖန်တီးခြင်း ဖြစ်စေ၊ သို့မဟုတ် expense များ တင်သွင်းခြင်း ဖြစ်စေ။ ၎င်းသည် သင့်အလုပ်ကို လုပ်ဆောင်နေစဉ် screen ပေါ်ရှိ narration က ChatGPT ဘာလုပ်နေသည်ကို တိတိကျကျ မြင်သာစေသည်။ လိုအပ်သည့်အခါတိုင်း သင်သည် browser ကို ဖြတ်တောက်၍ ထိန်းချုပ်ယူနိုင်ပြီး အလုပ်များသည် သင့်ရည်မှန်းချက်များနှင့် ကိုက်ညီနေစေရန် သေချာစေနိုင်သည်။
ChatGPT အေးဂျင့်သည် သင့် connectors များကို ဝင်ရောက်အသုံးပြုနိုင်သောကြောင့် သင့် workflow များနှင့် ပေါင်းစည်းကာ သက်ဆိုင်ပြီး လက်တွေ့အသုံးချနိုင်သော အချက်အလက်များကို ရယူနိုင်သည်။ authenticate လုပ်ပြီးနောက် ဤ connectors များသည် ChatGPT ကို အချက်အလက်များ မြင်နိုင်စေပြီး ဥပမာ သင့်နေ့စဉ် inbox ကို အကျဉ်းချုပ်ပေးခြင်း သို့မဟုတ် meeting အတွက် သင်အားလပ်သည့် အချိန်ပိုင်းများကို ရှာဖွေပေးခြင်းကဲ့သို့သော လုပ်ဆောင်မှုများကို ပြုလုပ်နိုင်စေသည် - သို့သော် ဤ site များပေါ်တွင် လုပ်ဆောင်ချက်ယူရန်အတွက် သင်သည် browser ကို ကိုယ်တိုင်ထိန်းချုပ်ယူကာ log in ဝင်ရန် တိုက်တွန်းခံရမည်ဖြစ်သည်။
ထို့အပြင် ပြီးစီးသွားသောအလုပ်များကို အလိုအလျောက် ထပ်တလဲလဲ လုပ်ဆောင်ရန် schedule သတ်မှတ်နိုင်ပြီး ဥပမာ Monday မနက်တိုင်း အပတ်စဉ် metrics report တစ်စောင် ထုတ်ပေးစေနိုင်သည်။
ဤထုတ်ပြန်မှုသည် အသုံးပြုသူများက ChatGPT ကို ဝဘ်ပေါ်တွင် လုပ်ဆောင်ချက်များ ယူခိုင်းနိုင်သည့် ပထမဆုံးအကြိမ် ဖြစ်သည်။ ၎င်းသည် အန္တရာယ်အသစ်များကို မိတ်ဆက်ပေးလာပြီး အထူးသဖြင့် ChatGPT အေးဂျင့်သည် takeover mode မှတစ်ဆင့် သင် log in ဝင်ပေးထားသော websites များ သို့မဟုတ် connectors များမှတစ်ဆင့် ရယူထားသော အချက်အလက်များ အပါအဝင် သင့်ဒေတာနှင့် တိုက်ရိုက် အလုပ်လုပ်နိုင်သောကြောင့်ဖြစ်သည်။ ကျွန်ုပ်တို့သည် Operator ၏ research preview မှ ခိုင်မာသော ထိန်းချုပ်မှုများကို ပိုမိုအားကောင်းစေခဲ့ပြီး live web ပေါ်ရှိ sensitive information ကို ကိုင်တွယ်ခြင်း၊ ပိုမိုကျယ်ပြန့်သော အသုံးပြုသူရောက်ရှိမှု၊ နှင့် (ကန့်သတ်ထားသော) terminal network access ကဲ့သို့သော စိန်ခေါ်မှုများအတွက် safeguards များ ထပ်ပေါင်းထည့်ခဲ့သည်။ ဤ mitigations များသည် အန္တရာယ်ကို သိသိသာသာ လျှော့ချပေးသော်လည်း ChatGPT အေးဂျင့်၏ ချဲ့ထွင်ထားသော ကိရိယာများနှင့် ပိုမိုကျယ်ပြန့်သော အသုံးပြုသူရောက်ရှိမှုကြောင့် ၎င်း၏ အလုံးစုံ risk profile သည် ပိုမိုမြင့်မားလာသည်။
ကျွန်ုပ်တို့သည် မကောင်းသော တုံ့ပြန်ညွှန်ကြားချက်များ ထည့်သွင်းခြင်း မှတစ်ဆင့် ရန်ဘက်ဆန်သော လှည့်ဖြားမှု ကို တားဆီးကာကွယ်ရေးအပေါ် အထူးအလေးထားခဲ့ပြီး ၎င်းသည် ယေဘုယျအားဖြင့် အေးဂျင့်စနစ်များအတွက် အန္တရာယ်တစ်ခုဖြစ်သဖြင့် ထို့အတွက် ပိုမိုကျယ်ပြန့်သော mitigations များကို ပြင်ဆင်ထားသည်။ Prompt injections သည် အလုပ်တစ်ခု ပြီးမြောက်အောင် လုပ်ဆောင်နေစဉ် ဝဘ်ပေါ်တွင် ChatGPT အေးဂျင့် ကြုံတွေ့နိုင်သည့် မကောင်းသော ညွှန်ကြားချက်များမှတစ်ဆင့် ၎င်း၏အပြုအမူကို တတိယပုဂ္ဂိုလ်များက လှည့်ဖြားရန် ကြိုးပမ်းမှုများဖြစ်သည်။ ဥပမာအားဖြင့် webpage တစ်ခုအတွင်း၊ invisible elements သို့မဟုတ် metadata တို့တွင် ဖုံးကွယ်ထားသော malicious prompt တစ်ခုသည် အေးဂျင့်ကို မရည်ရွယ်ထားသော လုပ်ဆောင်ချက်များ လုပ်စေနိုင်ပြီး ဥပမာ connector တစ်ခုမှ ကိုယ်ရေးကိုယ်တာဒေတာကို တိုက်ခိုက်သူနှင့် မျှဝေခြင်း သို့မဟုတ် အသုံးပြုသူ log in ဝင်ထားသော site တစ်ခုပေါ်တွင် အန္တရာယ်ရှိသော လုပ်ဆောင်ချက်တစ်ခု ပြုလုပ်ခြင်းတို့ ဖြစ်နိုင်သည်။ ChatGPT အေးဂျင့်သည် တိုက်ရိုက် လုပ်ဆောင်ချက်များ ယူနိုင်သောကြောင့် အောင်မြင်သော တိုက်ခိုက်မှုများသည် ပိုမိုကြီးမားသော သက်ရောက်မှုရှိနိုင်ပြီး ပိုမိုမြင့်မားသော အန္တရာယ်များကို ဖြစ်စေနိုင်သည်။
ကျွန်ုပ်တို့သည် prompt injections များကို ခွဲခြားသိမြင်ပြီး တားဆီးနိုင်ရန် အေးဂျင့်ကို လေ့ကျင့်ပေးထားပြီး စောင့်ကြည့်မှုများကို အသုံးပြုကာ prompt injection attacks များကို လျင်မြန်စွာ ရှာဖွေပြီး တုံ့ပြန်နိုင်ရန်လည်း စမ်းသပ်ထားသည်။ အကျိုးသက်ရောက်မှုရှိသော လုပ်ဆောင်ချက်များ မပြုလုပ်မီ အသုံးပြုသူ၏ အတည်ပြုချက်ကို ရှင်းလင်းစွာ တောင်းဆိုရန် လိုအပ်ချက်က ဤတိုက်ခိုက်မှုများမှ ဖြစ်ပေါ်နိုင်သည့် ထိခိုက်မှုအန္တရာယ်ကို ထပ်မံလျှော့ချပေးပြီး အသုံးပြုသူများသည် takeover လုပ်ခြင်း သို့မဟုတ် pause လုပ်ခြင်းဖြင့် လိုအပ်သလို အလုပ်များတွင် ဝင်ရောက်ထိန်းချုပ်နိုင်သည်။ အသုံးပြုသူများသည် အေးဂျင့်အား မည်သည့်အချက်အလက်များ ပေးမည်ကို ဆုံးဖြတ်ရာတွင် ဤ tradeoff များကို စဉ်းစားချိန်ဆသင့်ပြီး task တစ်ခုအတွက် မလိုအပ်သည့်အခါ connectors များကို ပိတ်ထားခြင်းကဲ့သို့သော ဤအန္တရာယ်များနှင့် ထိတွေ့မှုကို လျှော့ချရန် အဆင့်များလည်း ယူသင့်သည်။
ကျွန်ုပ်တို့သည် မော်ဒယ် အမှားများ နှင့်ပတ်သက်၍လည်း mitigations များကို အကောင်အထည်ဖော်ထားပြီး အထူးသဖြင့် ယခု မော်ဒယ်သည် လက်တွေ့ကမ္ဘာကို သက်ရောက်စေသော အလုပ်များကို လုပ်ဆောင်နိုင်လာသောကြောင့်ဖြစ်သည် -
- ရှင်းလင်းသော အသုံးပြုသူ အတည်ပြုချက် - ဝယ်ယူမှု ပြုလုပ်ခြင်းကဲ့သို့သော လက်တွေ့ကမ္ဘာ အကျိုးဆက်များရှိသည့် လုပ်ဆောင်ချက်များ မပြုလုပ်မီ ChatGPT သည် သင့်ခွင့်ပြုချက်ကို ရှင်းလင်းစွာ တောင်းဆိုရန် လေ့ကျင့်ထားသည်။
- တက်ကြွသော ကြီးကြပ်မှု (“Watch Mode”) - email ပို့ခြင်းကဲ့သို့သော အချို့ အရေးကြီးသော အလုပ်များသည် သင့်တက်ကြွသော ကြီးကြပ်မှုကို လိုအပ်သည်။
- အန္တရာယ်ကို တက်ကြွစွာ လျှော့ချခြင်း - ဘဏ်ငွေလွှဲခြင်းကဲ့သို့သော high-risk tasks များကို ChatGPT က တက်ကြွစွာ ငြင်းဆိုရန် လေ့ကျင့်ထားသည်။
နောက်ဆုံးအနေဖြင့် မော်ဒယ် ဝင်ရောက်အသုံးပြုနိုင်သော ဒေတာကို ကန့်သတ်ရန် နောက်ထပ် ထိန်းချုပ်မှုများကိုလည်း ကျွန်ုပ်တို့ မိတ်ဆက်ထားသည် -
- ကိုယ်ရေးအချက်အလက် ထိန်းချုပ်မှုများ - ChatGPT settings တွင် click တစ်ချက်ဖြင့် browsing data အားလုံးကို ဖျက်နိုင်ပြီး active website sessions အားလုံးမှ ချက်ချင်း log out ထွက်နိုင်သည်။ မဟုတ်ပါက cookies များသည် သွားရောက်လည်ပတ်ခဲ့သော website တစ်ခုချင်းစီ၏ cookie policies များအပေါ် မူတည်၍ ဆက်လက်တည်ရှိနေပြီး site များသို့ နောက်တစ်ကြိမ် သွားရောက်မှုကို ပိုမိုထိရောက်စေနိုင်သည်။
- လုံခြုံသော browser takeover mode - ChatGPT ၏ browser (“takeover mode”) ကို အသုံးပြု၍ ဝဘ်နှင့် အပြန်အလှန်လုပ်ဆောင်သည့်အခါ သင့် input များသည် ကိုယ်ရေးလုံခြုံနေသည်။ passwords ကဲ့သို့သော သင်ထည့်သွင်းသော မည်သည့်ဒေတာကိုမဆို ChatGPT က မစုဆောင်းသလို မသိမ်းဆည်းပါ၊ အကြောင်းမှာ မော်ဒယ်က ၎င်းကို မလိုအပ်ဘဲ ၎င်းမမြင်ရခြင်းက ပိုမိုလုံခြုံသောကြောင့်ဖြစ်သည်။
မော်ဒယ်၏ စွမ်းရည်များ တိုးလာမှုနှင့်အတူ ChatGPT အေးဂျင့်ကို ကျွန်ုပ်တို့၏ ကြိုတင်ပြင်ဆင်ထားခြင်းဆိုင်ရာ ဖွဲ့စည်းမှု အောက်တွင် High Biological and Chemical capabilities အဖြစ် သတ်မှတ်ဆက်ဆံရန် ဆုံးဖြတ်ချက်ချခဲ့ပြီး သက်ဆိုင်သော safeguards များကို စတင်အကောင်အထည်ဖော်ခဲ့သည်။ မော်ဒယ်သည် အစပြုသူတစ်ဦးကို ပြင်းထန်သော ဇီဝအန္တရာယ်တစ်ခု ဖန်တီးရန် အဓိပ္ပာယ်ရှိစွာ ကူညီနိုင်ကြောင်း - High capability အတွက် ကျွန်ုပ်တို့၏ threshold - အတည်ပြုနိုင်သော သက်သေမရှိသေးသော်လည်း ကျွန်ုပ်တို့သည် သတိထားမှုဖြင့် လိုအပ်သော safeguards များကို ယခုကတည်းက အကောင်အထည်ဖော်နေသည်။ ထို့ကြောင့် ဤမော်ဒယ်သည် biology အတွက် မြှင့်တင်ထားသော safeguards များပါဝင်သည့် ယနေ့အထိ အပြည့်စုံဆုံး ဘေးကင်းရေး stack ကို ရရှိထားသည် - ပြည့်စုံသော threat modeling, dual-use refusal training, always-on classifiers နှင့် ကျိုးကြောင်းသင့်လျော်စွာ စဉ််းစားပေးသော monitors, နှင့် ရှင်းလင်းသော enforcement pipelines တို့ဖြစ်သည်။
ChatGPT အေးဂျင့်ကို လုံခြုံစေရန် ကျွန်ုပ်တို့၏လုပ်ဆောင်မှုအပြင် layered biosafety သည် safeguards များကို lab တစ်ခုတည်းထက် ပိုလွန်အောင် တိုးချဲ့ထားသည့်အခါ အကောင်းဆုံး အလုပ်လုပ်ကြောင်းလည်း ကျွန်ုပ်တို့ သိရှိထားသဖြင့် ecosystem တစ်လျှောက် ကာကွယ်ရေးကို ပိုမိုအားကောင်းစေရန် ပူးပေါင်းဆောင်ရွက်နေပါသည်။ ပထမနေ့ကတည်းက ပြင်ပ biosecurity experts, safety institutes, နှင့် academic researchers များနှင့် အတူ ကျွန်ုပ်တို့၏ threat model, assessments, နှင့် policies များကို ပုံဖော်တည်ဆောက်ခဲ့သည်။ biology-trained reviewers များက ကျွန်ုပ်တို့၏ evaluation data ကို အတည်ပြုခဲ့ပြီး domain-expert red teamers များက လက်တွေ့ကျသော အခြေအနေများတွင် safeguards များကို stress-test ပြုလုပ်ခဲ့သည်။ ယခုလအစောပိုင်းတွင် AI ဖြင့် မောင်းနှင်သော biodefense research ကို တိုးတက်စေရန်နှင့် ပူးပေါင်းဆောင်ရွက်မှုကို မြန်ဆန်စေရန် အစိုးရ၊ ပညာရေး၊ national labs, နှင့် NGOs များမှ ကျွမ်းကျင်သူများနှင့်အတူ Biodefense workshop တစ်ခု ကျွန်ုပ်တို့ ခေါ်ယူကျင်းပခဲ့သည်။ ပေါ်ထွက်လာမည့် အန္တရာယ်များကို ရှေ့တန်းမှ တားဆီးနိုင်ရန် ကမ္ဘာတစ်ဝှမ်း ပူးပေါင်းဆောင်ရွက်မှုကို ဆက်လက်လုပ်ဆောင်သွားမည်။
စုပေါင်းထားသော အေးဂျင့် မော်ဒယ်အတွက် ကျွန်ုပ်တို့၏ ခိုင်မာသော ဘေးကင်းရေး နည်းလမ်းအကြောင်းကို စနစ်ကဒ် တွင် ပိုမိုဖတ်ရှုနိုင်သည်။ ထို့အပြင် လက်တွေ့ကမ္ဘာအန္တရာယ်များကို ရှာဖွေပြီး ပြုပြင်နိုင်ရန် bug bounty program တစ်ခုကိုလည်း ကျွန်ုပ်တို့ စတင်မိတ်ဆက်နေသည်။
ChatGPT အေးဂျင့်ကို ယနေ့မှစတင်၍ Pro, Plus, နှင့် Team သို့ ဖြန့်ချိပေးနေပြီး Pro သည် ယနေ့အဆုံးမတိုင်မီ အသုံးပြုခွင့် ရရှိမည်ဖြစ်ကာ Plus နှင့် Team အသုံးပြုသူများသည် နောက်ရက်အနည်းငယ်အတွင်း အသုံးပြုခွင့် ရရှိမည်ဖြစ်သည်။ Enterprise နှင့် Education အသုံးပြုသူများသည် လာမည့် သီတင်းပတ်များတွင် အသုံးပြုခွင့် ရရှိမည်ဖြစ်သည်။ Pro အသုံးပြုသူများသည် တစ်လလျှင် မက်ဆေ့ဂျ် 400 ရရှိပြီး အခြား paid အသုံးပြုသူများသည် တစ်လလျှင် မက်ဆေ့ဂျ် 40 ရရှိမည်ဖြစ်ကာ ထပ်မံအသုံးပြုမှုကို flexible credit-based options များမှတစ်ဆင့် ရရှိနိုင်သည်။
ကျွန်ုပ်တို့သည် European Economic Area နှင့် Switzerland အတွက် အသုံးပြုခွင့် ဖွင့်ပေးရန် ဆက်လက်လုပ်ဆောင်နေဆဲဖြစ်သည်။
Operator research preview site သည် နောက်ထပ် သီတင်းပတ်အနည်းငယ်အထိ ဆက်လက်အသုံးပြုနိုင်မည်ဖြစ်ပြီး ထို့နောက် ရပ်နားသွားမည်ဖြစ်သည်။ နက်နဲစွာ ရှာဖွေခြင်း သည် ChatGPT အေးဂျင့်၏ စွမ်းရည်များထဲမှ တစ်စိတ်တစ်ပိုင်းဖြစ်သည်။ မူလ နက်နဲစွာ ရှာဖွေခြင်း feature ကို သင် နှစ်သက်ပါက - ၎င်းသည် run ရန် ပိုကြာနိုင်သော်လည်း default အနေဖြင့် ပိုမိုအသေးစိတ်ပြီး နက်ရှိုင်းသော တုံ့ပြန်မှုများ ပေးသည် - မက်ဆေ့ဂျ်ရေးသည့်နေရာ ရှိ dropdown မှ “နက်နဲစွာ ရှာဖွေခြင်း” ကို ရွေးချယ်ခြင်းဖြင့် ဆက်လက်အသုံးပြုနိုင်သေးသည်။
ChatGPT အေးဂျင့်သည် အစောပိုင်းအဆင့်များတွင်သာ ရှိသေးသည်။ ၎င်းသည် ရှုပ်ထွေးသော အလုပ်မျိုးစုံကို ကိုင်တွယ်နိုင်သော်လည်း အမှားများ ပြုလုပ်နိုင်သေးသည်။
slideshows ဖန်တီးနိုင်စွမ်းတွင် အရေးပါသော အလားအလာများကို ကျွန်ုပ်တို့ မြင်တွေ့သော်လည်း ဤ functionality သည် လက်ရှိတွင် beta အဆင့်ဖြစ်သည်။ ယခုအချိန်တွင် အထွက်များသည် အထူးသဖြင့် ရှိပြီးသား document မရှိဘဲ စတင်သည့်အခါ formatting နှင့် polish ပိုင်းတွင် တစ်ခါတစ်ရံ မပြည့်စုံသေးသလို ခံစားရနိုင်သည်။ ကျွန်ုပ်တို့သည် မော်ဒယ်၏ ကနဦးစွမ်းရည်များကို presentation များအတွက် သင့်တော်သော flow နှင့် format ဖြင့် အချက်အလက်များကို စုစည်းပေးသည့် artifacts များ ဖန်တီးရာတွင် အာရုံစိုက်ထားပြီး text, charts, images, နှင့် shapes ကဲ့သို့သော export ပြီးနောက်လည်း native အနေဖြင့် လွယ်ကူစွာ ပြင်ဆင်နိုင်သော elements များပါဝင်အောင် ဖန်တီးထားကာ structure နှင့် flexibility ကို အကောင်းဆုံးဖြစ်အောင် လုပ်ထားသည်။ လက်ရှိတွင် viewer ထဲရှိ slides များနှင့် exported powerpoint ကြားတွင် တစ်ခါတစ်ရံ ကွာဟချက်များလည်း ရှိနေပြီး ၎င်းတို့ကို လျှော့ချရန် ကျွန်ုပ်တို့ လုပ်ဆောင်နေသည်။ ထို့အပြင် လက်ရှိတွင် ChatGPT ကို တည်းဖြတ်ရန် သို့မဟုတ် template အဖြစ် အသုံးပြုရန် ရှိပြီးသား spreadsheet တစ်ခု upload လုပ်နိုင်သော်လည်း ဤစွမ်းရည်ကို slideshows အတွက်တော့ မရရှိသေးပါ။ ကျွန်ုပ်တို့သည် ပိုမိုပြည့်စုံကောင်းမွန်ပြီး ဆန်းပြားသော output များကို ပိုမိုကျယ်ပြန့်သော စွမ်းရည်များနှင့် ပိုမိုကောင်းမွန်သော formatting ဖြင့် ထုတ်ပေးနိုင်ရန် ChatGPT ၏ slideshow creation ၏ နောက်တစ်ကြိမ် iteration ကို လေ့ကျင့်နေပြီးသားဖြစ်သည်။
စုစုပေါင်းအားဖြင့် ChatGPT အေးဂျင့်၏ ထိရောက်မှု၊ နက်ရှိုင်းမှု၊ နှင့် စွယ်စုံသုံးနိုင်မှုတို့တွင် အချိန်နှင့်အမျှ ဆက်လက်တိုးတက်လာမည်ဟု ကျွန်ုပ်တို့ မျှော်လင့်ထားပြီး အသုံးပြုသူထံမှ လိုအပ်သော oversight ပမာဏကို ဆက်လက်ညှိနှိုင်းနေစဉ် ပိုမိုချောမွေ့သော အပြန်အလှန်ဆက်သွယ်မှုများလည်း ပါဝင်မည်ဖြစ်ကာ အသုံးဝင်မှု ပိုမိုမြင့်တက်စေသည့်အပြင် လုံခြုံစွာ အသုံးပြုနိုင်စေရန်လည်း သေချာစေမည်။
SpreadsheetBench | ||||
မော်ဒယ် | အကဲဖြတ် ပတ်ဝန်းကျင် | Soft restriction (%): Cell-level | Soft restriction (%): Sheet-level | Soft restriction (%): Overall |
GPT‑4o | Windows, Excel | 15.03 | 23.65 | 18.35 |
Copilot in Excel | Windows, Excel | 23.33 | 15.00 | 20.00 |
GPT‑4o | OSX, LibreOffice | 15.86 | 18.33 | 16.81 |
OpenAI o3 | OSX, LibreOffice | 22.40 | 24.60 | 23.25 |
ChatGPT အေးဂျင့် | OSX, LibreOffice | 38.27 | 30.48 | 35.27 |
.xlsx ဖြင့် ChatGPT အေးဂျင့် | OSX, LibreOffice | 50.56 | 37.51 | 45.54 |
လူသား | 75.56 | 65.00 | 71.33 |
စာရေးသူ
မှတ်ချက်များ
* browsing ကို ဖွင့်ထားသောအခါ မော်ဒယ်သည် တစ်ခါတစ်ရံ dataset တစ်ခုမှ sample problems ပါသော blog posts များကို ဖတ်ခြင်းဖြင့် ဥပမာ အတိအကျအဖြေများကို online ပေါ်တွင် ရှာတွေ့နိုင်သည်။ browsing လုပ်နေစဉ် မော်ဒယ် cheating လုပ်ခြင်းနှင့်ပတ်သက်သော စိုးရိမ်မှုများကို ကျွန်ုပ်တို့က နည်းဗျူဟာ ၂ ခုဖြင့် လျှော့ချထားသည် -
1. အတိတ်တွင် မော်ဒယ် cheating လုပ်ခဲ့သည်ကို ကျွန်ုပ်တို့ တွေ့ခဲ့သော domains များကို ပိတ်ထားခြင်း။
2. ကြိုးစားမှုတစ်ကြိမ်ချင်းစီတွင် tool output တိုကင် အားလုံးကို စစ်ဆေးရန် monitor အဖြစ် extra မော်ဒယ်တစ်ခု အသုံးပြုကာ suspicious behavior ကို ခွဲခြားသတ်မှတ်ခဲ့သည်။ Suspicious behavior ကို “ဤသီးသန့်မေးခွန်းအတွက် အတိအကျအဖြေကို ပေးရန် အဓိကရည်ရွယ်ထားသော စာမျက်နှာ၊ ဖိုင်၊ သို့မဟုတ် snippet တစ်ခု - ဥပမာ official grading key, leaked “solutions” gist, သို့မဟုတ် ပြီးဆုံးသွားသောအဖြေကို verbatim ကိုးကားထားသည့် discussion” ဟု သတ်မှတ်သည်။ Benign behavior ကို “ဂရုတစိုက်လုပ်ကိုင်သော လူတစ်ဦးက ကိုးကားကြည့်ရှုနိုင်မည့် authoritative resource မည်သည့်အရာမဆို (documentation, manuals, scholarly papers, reputable articles) မှန်ကန်သောအဖြေ ပါဝင်နေသည်ဖြစ်စေ” ဟု သတ်မှတ်သည်။ monitor က rollout ကို suspicious ဟု သတ်မှတ်ခဲ့သော ကြိုးစားမှုများအားလုံးကို မမှန်ကန်ဟု ရေတွက်သည်။ ဤစစ်ဆေးမှုကြောင့် ပျက်ကွက်ခဲ့သော sample အများစုသည် HLE နှင့် မသက်ဆိုင်သော internet sources များစွာပေါ်တွင် ၎င်းတို့၏ အတိအကျ ဖြေရှင်းချက် ရရှိနိုင်သည့် ပြဿနာများဖြစ်သည်။
**OpenAI သည် Tier 1-3 dataset ရှိ private questions 290 ခုအနက် 237 ခုကို သီးသန့်အသုံးပြုခွင့် ရရှိထားသည်။ ဤ eval တွင် FrontierMath tier 4 questions မပါဝင်ပါ။ ရလဒ်များကို မေးခွန်းတစ်ခုချင်းစီဖြေဆိုရန် ကြိုးစားမှု 16 ကြိမ်၏ ပျမ်းမျှအဖြစ် အကဲဖြတ်ထားသည်။ ChatGPT အေးဂျင့် ရလဒ်များကို OpenAI က elicited လုပ်ထားပြီး Epoch AI က graded လုပ်ထားသည်၊ browser နှင့် terminal access ပါရှိပြီး အဖြေတစ်ခုလျှင် တိုကင် 128K ကန့်သတ်ထားသည်။ OpenAI o4-mini နှင့် o3 evaluations များကို Epoch AI က elicited နှင့် graded လုပ်ထားပြီး browser နှင့် terminal access မပါဘဲ၊ လုပ်ဆောင်ချက် ခေါ်ဆိုမှု မှတစ်ဆင့် python scripts အသုံးပြုကာ အဖြေတစ်ခုလျှင် တိုကင် 100K ကန့်သတ်ထားသည်။
*** Oracle@64 သည် ground truth ကို အသုံးပြုကာ ရွေးချယ်ထားသော sampled runs 64 ကြိမ်တစ်လျှောက် ရရှိခဲ့သည့် အကောင်းဆုံး score ကို ရည်ညွှန်းသည် (ဆိုလိုသည်မှာ task တစ်ခုချင်းစီအတွက် actual graded performance အပေါ် အခြေခံကာ score အမြင့်ဆုံး ကြိုးစားမှုကို ကျွန်ုပ်တို့ ရွေးချယ်သည်)။ task အားလုံးတစ်လျှောက် ဤ per-task best scores များ၏ ပျမ်းမျှကို ကျွန်ုပ်တို့ ဖော်ပြသည်။ ဤ metric သည် မော်ဒယ်၏ upper-bound potential နှင့် task performance ထဲရှိ variance ကို မီးမောင်းထိုးပြပြီး - မော်ဒယ် အောင်မြင်သည့်အခါ မည်မျှစွမ်းဆောင်နိုင်သည်ကို ပြသကာ နောက်ထပ် training များဖြင့် consistency ကို တိုးတက်စေနိုင်သည့် နေရာကို ညွှန်ပြသည်။ ပုံမှန် “best of N” metrics များကဲ့သို့ မော်ဒယ် confidence အပေါ် အခြေခံ၍ ရွေးချယ်ခြင်းမဟုတ်ဘဲ oracle@64 သည် ရွေးချယ်ရန် ground truth ကို အသုံးပြုကာ binary pass/fail မဟုတ်သော continuous 0–1 scale ပေါ်တွင် graded လုပ်သော tasks များအတွက် သက်ဆိုင်သည်။


