အဓိက အကြောင်းအရာသို့ ကျော်သွားရန်
OpenAI

၂၀၂၅ ဩဂုတ် ၇

ထုတ်ကုန်

developer များအတွက် GPT‑5 ကို မိတ်ဆက်ခြင်း

coding နှင့် အေးဂျင့်အလုပ်တာဝန်များအတွက် အကောင်းဆုံး မော်ဒယ်။

ဖွင့်နေသည်…

မိတ်ဆက်

ယနေ့တွင် ကျွန်ုပ်တို့၏ API platform တွင် GPT‑5 ကို ထုတ်ပြန်လိုက်ပါပြီ—coding နှင့် အေးဂျင့်အလုပ်တာဝန်များအတွက် ယနေ့ထိ ကျွန်ုပ်တို့၏ အကောင်းဆုံး မော်ဒယ်ဖြစ်သည်။

GPT‑5 သည် အရေးပါသော coding benchmark များတစ်လျှောက် state-of-the-art (SOTA) ဖြစ်ပြီး SWE-bench Verified တွင် 74.9% နှင့် Aider polyglot တွင် 88% ရရှိထားသည်။ ကျွန်ုပ်တို့သည် GPT‑5 ကို စစ်မှန်သော coding collaborator တစ်ခုဖြစ်စေရန် လေ့ကျင့်ပေးထားသည်။ ၎င်းသည် အရည်အသွေးမြင့် code ထုတ်လုပ်ခြင်းနှင့် bug ပြင်ခြင်း၊ code တည်းဖြတ်ခြင်း၊ ရှုပ်ထွေးသော codebase များနှင့်ပတ်သက်သည့် မေးခွန်းများကို ဖြေကြားခြင်းကဲ့သို့ အလုပ်များကို ကိုင်တွယ်ရာတွင် ထူးချွန်သည်။ မော်ဒယ်သည် steerable ဖြစ်ပြီး ပူးပေါင်းလုပ်ဆောင်ရလွယ်ကူသည်—အလွန်အသေးစိတ်သော ညွှန်ကြားချက်များကို တိကျမှုမြင့်စွာ လိုက်နာနိုင်ပြီး tool call များမတိုင်မီနှင့် ၎င်းတို့အကြား ၎င်း၏ လုပ်ဆောင်ချက်များကို ကြိုတင်ရှင်းပြနိုင်သည်။ မော်ဒယ်သည် front-end coding တွင်လည်း ထူးချွန်ပြီး internal testing တွင် frontend web development အတွက် OpenAI o3 ကို အချိန်၏ 70% တွင် ကျော်လွန်ခဲ့သည်။

ကျွန်ုပ်တို့သည် startup များနှင့် enterprise များတစ်လျှောက် အစောပိုင်း စမ်းသပ်သူများနှင့် ပူးပေါင်း၍ GPT‑5 ကို လက်တွေ့ကမ္ဘာ coding tasks များအပေါ် လေ့ကျင့်ပေးခဲ့သည်။ Cursor က GPT‑5 ကို “သူတို့ အသုံးပြုဖူးသမျှထဲက အထက်မြက်ဆုံး မော်ဒယ်” နှင့် “ထူးခြားစွာ ဉာဏ်ကောင်းပြီး steer လုပ်ရလွယ်ကူကာ အခြားမော်ဒယ်များတွင် မတွေ့ဖူးသော personality တောင် ရှိသည်” ဟု ဆိုသည်။ Windsurf က GPT‑5 သည် ၎င်းတို့၏ evals တွင် SOTA ဖြစ်ပြီး “အခြား စွမ်းဆောင်ရည်အမြင့်ဆုံး မော်ဒယ်များထက် tool calling error rate တစ်ဝက်သာ ရှိသည်” ဟု မျှဝေခဲ့သည်။ Vercel က “၎င်းသည် aesthetics နှင့် code quality နှစ်ခုလုံးတွင် ထိပ်တန်း performance ရရှိသော အကောင်းဆုံး frontend AI model ဖြစ်ပြီး ကိုယ်ပိုင်အတန်းတစ်ခုထဲတွင် ရှိနေသည်” ဟု ဆိုသည်။

GPT‑5 သည် ကြာရှည်လည်ပတ်သော အေးဂျင့်အလုပ်များတွင်လည်း ထူးချွန်ပြီး—လွန်ခဲ့သော 2 လကသာ ထုတ်ပြန်ထားသော tool-calling benchmark ဖြစ်သည့် τ2-bench telecom တွင် SOTA ရလဒ် 96.7% ရရှိခဲ့သည်။ GPT‑5 ၏ တိုးတက်လာသော tool intelligence က ၎င်းကို လမ်းမပျောက်ဘဲ tool call ဒါဇင်များစွာကို ဆက်တိုက်ဖြစ်စေ၊ တပြိုင်နက်ဖြစ်စေ ယုံကြည်စိတ်ချစွာ ချိတ်ဆက်အသုံးပြုနိုင်စေပြီး ရှုပ်ထွေးသော လက်တွေ့ကမ္ဘာအလုပ်များကို အစမှအဆုံး လုပ်ဆောင်ရာတွင် အလွန်ကောင်းမွန်စေသည်။ ၎င်းသည် tool instruction များကို ပိုတိကျစွာ လိုက်နာနိုင်သည်၊ tool error များကို ကိုင်တွယ်ရာတွင် ပိုကောင်းလာသည်၊ နှင့် long-context content retrieval တွင် ထူးချွန်သည်။ Manus က GPT‑5 သည် “[သူတို့] internal benchmark များတွင် single model တစ်ခုမှ မြင်ဖူးသမျှထဲက အကောင်းဆုံး performance ကို ရရှိခဲ့သည်” ဟု ဆိုသည်။ Notion က “[မော်ဒယ်၏] လျင်မြန်သော response များ၊ အထူးသဖြင့် low reasoning mode တွင်၊ တစ်ခေါက်တည်း ပြုလုပ်ခြင်း ဖြင့် ရှုပ်ထွေးသော အလုပ်များကို ဖြေရှင်းလိုသည့်အခါ GPT‑5 ကို အကောင်းဆုံး မော်ဒယ်တစ်ခု ဖြစ်စေသည်” ဟု ဆိုသည်။ Inditex က “[GPT‑5] ကို အမှန်တကယ် ကွဲပြားစေသည့် အရာမှာ ၎င်း၏ reasoning ၏ အနက်ဖြစ်သည်။ နူးညံ့သိမ်မွေ့ပြီး အလွှာစုံသော အဖြေများက အမှန်တကယ် subject-matter understanding ကို ထင်ဟပ်စေသည်” ဟု မျှဝေခဲ့သည်။

developer များကို မော်ဒယ် response များအပေါ် ပိုမိုထိန်းချုပ်နိုင်စေရန် ကျွန်ုပ်တို့၏ API တွင် feature အသစ်များကို မိတ်ဆက်နေပါသည်။ GPT‑5 သည် အဖြေများကို တိုတောင်း၍ တိကျစေရန် သို့မဟုတ် ရှည်လျားပြီး ပြည့်စုံစေရန် ထိန်းချုပ်ကူညီပေးသော verbosity parameter အသစ် (တန်ဖိုးများ - low, medium, high) ကို ပံ့ပိုးသည်။ GPT‑5 ၏ reasoning_effort parameter သည် ယခု minimal တန်ဖိုးကိုပါ လက်ခံနိုင်ပြီး reasoning များစွာ မလုပ်မီ ပိုမြန်စွာ အဖြေပြန်ရရှိစေသည်။ JSON အစား plaintext ဖြင့် GPT‑5 က tool များကို ခေါ်နိုင်စေရန် tool အမျိုးအစားအသစ်—custom tools—ကိုလည်း ထည့်သွင်းထားသည်။ custom tools များသည် developer က ပေးသော context-free grammar များဖြင့် ကန့်သတ်သတ်မှတ်မှုကို ပံ့ပိုးသည်။

developer များအတွက် performance၊ cost နှင့် latency အကြား ပိုမိုလွယ်ကူစွာ ညှိနှိုင်းရွေးချယ်နိုင်ရန် API တွင် GPT‑5 ကို အရွယ်အစားသုံးမျိုး—gpt-5, gpt-5-mini, နှင့် gpt-5-nano—ဖြင့် ထုတ်ပြန်နေပါသည်။ ChatGPT ထဲရှိ GPT‑5 သည် reasoning၊ non-reasoning နှင့် router မော်ဒယ်များ၏ စနစ်တစ်ခုဖြစ်သော်လည်း API platform ထဲရှိ GPT‑5 သည် ChatGPT တွင် အမြင့်ဆုံး performance ကို ပေးစွမ်းသော ကျိုးကြောင်းသင့်လျော်စွာ စဉ်းစားပေးသော မော်ဒယ် ဖြစ်သည်။ ထူးခြားစွာဆိုရသော် minimal reasoning ပါသော GPT‑5 သည် ChatGPT ထဲရှိ non-reasoning model နှင့် မတူညီသော မော်ဒယ်ဖြစ်ပြီး developer များအတွက် ပိုမိုကောင်းစွာ tune လုပ်ထားသည်။ ChatGPT တွင် အသုံးပြုသော non-reasoning model ကို gpt-5-chat-latest အဖြစ် ရရှိနိုင်သည်။

ChatGPT ထဲရှိ GPT‑5 အကြောင်း ဖတ်ရှုရန်နှင့် ChatGPT ၏ အခြားတိုးတက်မှုများအကြောင်း ပိုမိုသိရှိရန် ကျွန်ုပ်တို့၏ research blog ကို ကြည့်ပါ။ enterprise များက GPT‑5 ကို မည်သို့ စိတ်လှုပ်ရှားစွာ အသုံးပြုလိုကြသည်ကို ပိုမိုသိရှိလိုပါက ကျွန်ုပ်တို့၏ enterprise blog ကို ကြည့်ပါ။

Coding

GPT‑5 သည် ကျွန်ုပ်တို့ ထုတ်ပြန်ဖူးသမျှထဲက အားအကောင်းဆုံး coding model ဖြစ်သည်။ ၎င်းသည် coding benchmark များနှင့် လက်တွေ့အသုံးပြုမှုများတွင် o3 ကို ကျော်လွန်ပြီး Cursor, Windsurf, GitHub Copilot နှင့် Codex CLI ကဲ့သို့သော အေးဂျင့် coding product များတွင် ထူးချွန်စေရန် fine-tune လုပ်ထားသည်။ GPT‑5 သည် ကျွန်ုပ်တို့၏ alpha testers များကို အထင်ကြီးစေခဲ့ပြီး ၎င်းတို့၏ private internal evals များစွာတွင် စံချိန်တင်ခဲ့သည်။

လက်တွေ့ကမ္ဘာ coding tasks များအတွက် GPT‑5 အပေါ် အစောပိုင်းတုံ့ပြန်ချက်

“GPT-5 က ကျွန်ုပ်တို့ အသုံးပြုဖူးသမျှ coding model တွေထဲမှာ အထက်မြက်ဆုံးပါ။ ကျွန်ုပ်တို့အဖွဲ့က GPT-5 ကို ထူးခြားစွာ ဉာဏ်ကောင်းပြီး steer လုပ်ရလွယ်ကူသလို အခြားမော်ဒယ်တွေမှာ မတွေ့ဖူးတဲ့ personality တောင် ရှိတယ်လို့ တွေ့ရှိထားပါတယ်။ အလွန်ခက်ခဲပြီး နက်နက်ရှိုင်းရှိုင်း ဖုံးကွယ်နေတဲ့ bug တွေကို ဖမ်းမိရုံသာမက ရှုပ်ထွေးတဲ့ အလုပ်များကို အဆုံးထိ ပြီးမြောက်အောင် ရှည်လျားတဲ့ multi-turn background agents တွေကိုလည်း run နိုင်ပါတယ်—အရင်က အခြားမော်ဒယ်တွေ ပိတ်မိတတ်တဲ့ ပြဿနာမျိုးတွေပါ။ PR များကို scope သတ်မှတ်ခြင်းနဲ့ planning လုပ်ခြင်းကနေ end-to-end build ပြီးစီးအောင်လုပ်ခြင်းအထိ ကျွန်ုပ်တို့ရဲ့ နေ့စဉ်အဓိကမော်ဒယ် ဖြစ်လာပါပြီ။”
Cursor မှ Co-Founder & CEO ဖြစ်သူ Michael Truell

လက်တွေ့ကမ္ဘာ software engineering tasks များအပေါ် အခြေခံသည့် evaluation ဖြစ်သော SWE-bench Verified တွင် GPT‑5 သည် 74.9% ရရှိပြီး o3 ၏ 69.1% ထက် မြင့်တက်လာသည်။ ထူးခြားစွာဆိုရသော် GPT‑5 သည် ပိုမိုထိရောက်၍ ပိုမြန်ဆန်စွာ ဤမြင့်မားသော ရမှတ်ကို ရရှိထားသည်။ high reasoning effort ရှိ o3 နှင့် နှိုင်းယှဉ်လျှင် GPT‑5 သည် output တိုကင် 22% နည်းပြီး tool call 45% နည်းသည်။

SWE-bench Verified တွင် မော်ဒယ်တစ်ခုကို code repository နှင့် issue description ပေးပြီး issue ကို ဖြေရှင်းရန် patch တစ်ခု ထုတ်ပေးရသည်။ စာသား label များသည် reasoning effort ကို ညွှန်ပြသည်။ ကျွန်ုပ်တို့၏ ရမှတ်များတွင် အဖြေများကို ကျွန်ုပ်တို့၏ infrastructure ပေါ်တွင် ယုံကြည်စိတ်ချစွာ pass မလုပ်နိုင်သော problem 500 ထဲမှ 23 ခုကို ချန်ထားသည်။ GPT‑5 ကို solution များကို စေ့စေ့စပ်စပ် verify လုပ်ရန် အလေးပေးသော short prompt တစ်ခု ပေးထားပြီး အလားတူ prompt က o3 အတွက် အကျိုးမရှိခဲ့ပါ။

code editing ကို အကဲဖြတ်သည့် Aider polyglot တွင် GPT‑5 သည် 88% ဆိုသော စံချိန်သစ်တစ်ခု တင်ထားပြီး o3 နှင့် နှိုင်းယှဉ်လျှင် error rate ကို သုံးပုံတစ်ပုံ လျှော့ချထားသည်။

Aider polygot(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) (diff) တွင် မော်ဒယ်တစ်ခုကို Exercism မှ coding exercise တစ်ခု ပေးပြီး ၎င်း၏ အဖြေကို code diff အဖြစ် ရေးရပါသည်။ ကျိုးကြောင်းသင့်လျော်စွာ စဉ်းစားပေးသော မော်ဒယ်များကို high reasoning effort ဖြင့် run ခဲ့သည်။

ကျွန်ုပ်တို့သည် GPT‑5 ကို codebase များထဲ နက်နက်ရှိုင်းရှိုင်း ဝင်ရောက်လေ့လာကာ အစိတ်အပိုင်းအသီးသီး မည်သို့ အလုပ်လုပ်သည် သို့မဟုတ် အချင်းချင်း မည်သို့ အပြန်အလှန်ဆက်စပ်သည်ဆိုသော မေးခွန်းများကို ဖြေဆိုရာတွင်လည်း အလွန်ကောင်းမွန်သည်ဟု တွေ့ရှိထားသည်။ OpenAI ၏ အားဖြည့် သင်ယူလေ့လာခြင်း stack လောက် ရှုပ်ထွေးသော codebase တစ်ခုတွင်ပင် GPT‑5 သည် ကျွန်ုပ်တို့၏ code အကြောင်း reasoning လုပ်ရန်နှင့် မေးခွန်းများကို ဖြေဆိုရန် ကူညီပေးနိုင်ပြီး နေ့စဉ်လုပ်ငန်းများကို အရှိန်မြှင့်ပေးနေသည်။

Frontend engineering

web app များအတွက် frontend code ထုတ်လုပ်ရာတွင် GPT‑5 သည် ပိုမို aesthetics ကို ထည့်သွင်းစဉ်းစားနိုင်ပြီး၊ ပိုမို ရည်မှန်းချက်ကြီးကာ၊ ပိုမိုတိကျသည်။ o3 နှင့် ယှဉ်တွဲနှိုင်းယှဉ်မှုများတွင် GPT‑5 ကို ကျွန်ုပ်တို့၏ testers များက အချိန်၏ 70% တွင် ပိုနှစ်သက်ခဲ့သည်။

prompt တစ်ခုတည်းဖြင့် GPT‑5 လုပ်ဆောင်နိုင်သည့် ပျော်စရာကောင်းသော ရွေးချယ်တင်ပြထားသည့် ဥပမာအချို့မှာ အောက်ပါအတိုင်းဖြစ်သည်။

တုံ့ပြန်ညွှန်ကြားချက်: ကော်ဖီကို အလွန်စိတ်ဝင်စားသောသူများအတွက် တစ်လလျှင် $200 subscription ဝန်ဆောင်မှုတစ်ခုအတွက် လှပပြီး လက်တွေ့ဆန်သော landing page တစ်ခု ဖန်တီးပေးပါ။ ဤဝန်ဆောင်မှုသည် coffee roasting နှင့် အကောင်းဆုံး espresso ဖန်တီးခြင်းအတွက် equipment rental နှင့် coaching ကို ပေးသည်။ target audience သည် Bay Area တွင် နေထိုင်သော၊ နည်းပညာလုပ်ငန်းတွင် အလုပ်လုပ်နေနိုင်သည့်၊ ပညာတတ်၊ အသုံးစရိတ်သက်သာမဟုတ်ဘဲ သုံးစွဲနိုင်သော ဝင်ငွေရှိပြီး ကော်ဖီ၏ အနုပညာနှင့် သိပ္ပံကို စိတ်အားထက်သန်သော အလယ်အရွယ်လူတစ်ဦးဖြစ်သည်။ 6 လ signup အတွက် conversion ကို အကောင်းဆုံးဖြစ်အောင် optimize လုပ်ပါ။

ကျွန်ုပ်တို့၏ gallery တွင် GPT‑5 ၏ ဥပမာများကို ဤနေရာတွင်(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) ပိုမိုကြည့်ရှုနိုင်သည်။

Coding collaboration

GPT‑5 သည် အထူးသဖြင့် Cursor, Windsurf, GitHub Copilot နှင့် Codex CLI ကဲ့သို့သော အေးဂျင့် coding product များတွင် ပိုမိုကောင်းမွန်သော collaborator ဖြစ်သည်။ လုပ်ဆောင်နေစဉ် GPT‑5 သည် tool call များအကြား အစီအစဉ်များ၊ update များနှင့် recap များကို output ထုတ်ပေးနိုင်သည်။ ကျွန်ုပ်တို့၏ ယခင်မော်ဒယ်များနှင့် နှိုင်းယှဉ်လျှင် GPT‑5 သည် သင်၏ go-ahead ကို ရပ်စောင့်မနေဘဲ သို့မဟုတ် ရှုပ်ထွေးမှုမြင့်မားခြင်းကြောင့် တွန့်ဆုတ်မနေဘဲ ရည်မှန်းချက်ကြီးသော အလုပ်များကို ပြီးစီးအောင် ပိုမို proactive ဖြစ်သည်။

ဤသည်မှာ ရှုပ်ထွေးသော အလုပ်တစ်ခုကို ကိုင်တွယ်နေစဉ် GPT‑5 မည်သို့ ရှိနိုင်သည်ဆိုသော ဥပမာတစ်ခု ဖြစ်သည် (ဤကိစ္စတွင် စားသောက်ဆိုင်တစ်ခုအတွက် website တစ်ခု ဖန်တီးခြင်း) -

အသုံးပြုသူက သူတို့ရဲ့ စားသောက်ဆိုင်အတွက် website တစ်ခု တောင်းဆိုပြီးနောက် GPT‑5 က အစီအစဉ်အကျဉ်းတစ်ခု မျှဝေကာ app အခြေခံဖွဲ့စည်းပုံကို တည်ဆောက်၊ dependencies များကို install လုပ်၊ site content ကို ဖန်တီး၊ compilation error များ ရှိမရှိ စစ်ဆေးဖို့ build ကို run လုပ်၊ ၎င်းလုပ်ဆောင်ခဲ့သမျှကို အနှစ်ချုပ်ပေးပြီး နောက်တစ်ဆင့် ဖြစ်နိုင်ချေများကို အကြံပြုပါတယ်။ စောင့်ဆိုင်းချိန် လျှော့ချရန် ဤဗီဒီယိုကို ~3x အမြန်နှုန်းဖြင့် ပြထားပြီး website ဖန်တီးရန် အချိန်အပြည့်အစုံမှာ သုံးမိနစ်ခန့် ဖြစ်ခဲ့ပါတယ်။

Agentic tasks

အေးဂျင့် coding ထက် ကျော်လွန်၍ GPT‑5 သည် ယေဘုယျအားဖြင့် အေးဂျင့်အလုပ်များတွင် ပိုကောင်းသည်။ GPT‑5 သည် instruction following (69.6% on Scale MultiChallenge, o3‑mini ဖြင့် graded) နှင့် tool calling (96.7% on τ2-bench telecom) benchmark များတွင် စံချိန်သစ်များ တင်ထားသည်။ တိုးတက်လာသော tool intelligence သည် GPT‑5 ကို လက်တွေ့ကမ္ဘာအလုပ်များကို ပြီးမြောက်စေရန် လုပ်ဆောင်ချက်များကို ပိုမိုယုံကြည်စိတ်ချစွာ ချိတ်ဆက်လုပ်ဆောင်နိုင်စေသည်။

အေးဂျင့်အလုပ်များအတွက် GPT‑5 အပေါ် အစောပိုင်းတုံ့ပြန်ချက်

“GPT-5 က ကြီးမားတဲ့ တိုးတက်မှုတစ်ခုပါ။ ကျွန်ုပ်တို့ရဲ့ internal benchmark တွေမှာ single model တစ်ခုကနေ တွေ့ဖူးသမျှထဲမှာ အကောင်းဆုံး performance ကို ရရှိခဲ့ပါတယ်။ code တစ်ကြောင်းတောင် မပြင်ခင်၊ prompt ကိုတောင် မအလိုက်သင့်မပြုပြင်ခင် GPT-5 က အေးဂျင့်တာဝန်မျိုးစုံတစ်လျှောက် ထူးချွန်ခဲ့ပါတယ်။ preamble အသစ်များနဲ့ tool အသုံးပြုမှုအပေါ် ပိုတိကျတဲ့ ထိန်းချုပ်နိုင်မှုက ကျွန်ုပ်တို့ရဲ့ အေးဂျင့်များရဲ့ stability နဲ့ steerability ကို သိသာစွာ ခုန်တက်စေခဲ့ပါတယ်။”
Manus မှ Co-Founder & Chief Scientist ဖြစ်သူ Yichao ‘Peak’ Ji

Instruction following

GPT‑5 သည် ၎င်းထက်အရင် မော်ဒယ်အားလုံးထက် ပိုမိုယုံကြည်စိတ်ချစွာ instruction များကို လိုက်နာနိုင်ပြီး COLLIE, Scale MultiChallenge နှင့် ကျွန်ုပ်တို့၏ internal instruction following eval တို့တွင် ရမှတ်မြင့်မားစွာ ရရှိထားသည်။

COLLIE(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) တွင် မော်ဒယ်များသည် ကန့်သတ်ချက်အမျိုးမျိုးကို ဖြည့်ဆည်းသော စာသားကို ရေးရပါသည်။ Scale MultiChallenge(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) တွင် မော်ဒယ်များကို ယခင် message များမှ information အမျိုးအစားလေးမျိုးကို မှန်ကန်စွာ အသုံးပြုရန် multi-turn conversation များပေါ် စိန်ခေါ်ထားသည်။ ကျွန်ုပ်တို့၏ ရမှတ်များသည် GPT‑4o ထက် ပိုတိကျသော grader အဖြစ် o3‑mini ကို အသုံးပြုထားခြင်းမှ ရရှိသည်။ ကျွန်ုပ်တို့၏ internal OpenAI API instruction following eval တွင် မော်ဒယ်များသည် developer feedback အစစ်မှ ဆင်းသက်လာသော ခက်ခဲသည့် instruction များကို လိုက်နာရသည်။ ကျိုးကြောင်းသင့်လျော်စွာ စဉ်းစားပေးသော မော်ဒယ်များကို high reasoning effort ဖြင့် run ခဲ့သည်။

Tool calling

developer များအတွက် အရေးကြီးသည့် နည်းလမ်းများအတိုင်း tool calling ကို တိုးတက်ကောင်းမွန်စေရန် ကျွန်ုပ်တို့ ကြိုးစားခဲ့သည်။ GPT‑5 သည် tool instruction များကို လိုက်နာရာတွင် ပိုကောင်းသည်၊ tool error များကို ကိုင်တွယ်ရာတွင် ပိုကောင်းသည်၊ နှင့် tool call များစွာကို ဆက်တိုက် သို့မဟုတ် တပြိုင်နက် proactive အနေဖြင့် ပြုလုပ်ရာတွင် ပိုကောင်းသည်။ ညွှန်ကြားထားပါက GPT‑5 သည် ပိုကြာသော အေးဂျင့်အလုပ်များအတွင်း အသုံးပြုသူများကို တိုးတက်မှုအခြေအနေ မျှဝေရန် tool call များမတိုင်မီနှင့် ၎င်းတို့အကြား preamble message များကိုလည်း output ထုတ်ပေးနိုင်သည်။

လွန်ခဲ့သည့် နှစ်လက τ2-bench telecom ကို Sierra.ai က အသုံးပြုသူများက ပြောင်းလဲနိုင်သော environment state တစ်ခုနှင့် အပြန်အလှန်လုပ်ဆောင်ရသည့်အခါ language model performance သိသိသာသာ ကျဆင်းသွားပုံကို ထင်ရှားစေသည့် စိန်ခေါ်မှုရှိသော tool use benchmark အဖြစ် ထုတ်ပြန်ခဲ့သည်။ ၎င်းတို့၏ publication(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) တွင် မော်ဒယ်တစ်ခုမျှ 49% ထက် မရရှိခဲ့ပါ။ GPT‑5 က 97% ရရှိသည်။

τ2-bench(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) တွင် မော်ဒယ်တစ်ခုသည် customer service task တစ်ခုကို ပြီးမြောက်စေရန် tool များကို အသုံးပြုရပြီး ထိုနေရာတွင် ဆက်သွယ်နိုင်ပြီး world state ပေါ် action ယူနိုင်သော user တစ်ဦး ရှိနိုင်သည်။ ကျိုးကြောင်းသင့်လျော်စွာ စဉ်းစားပေးသော မော်ဒယ်များကို high reasoning effort ဖြင့် run ခဲ့သည်။

GPT‑5 သည် long-context performance တွင်လည်း အားကောင်းသော တိုးတက်မှုများကို ပြသသည်။ long-context information retrieval ကို တိုင်းတာသည့် OpenAI-MRCR တွင် GPT‑5 သည် o3 နှင့် GPT‑4.1 ကို ကျော်လွန်ပြီး input length ပိုရှည်လာလေ ကွာဟချက်က ပိုမိုကြီးမားလာသည်။

OpenAI-MRCR(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) (multi-round co-reference resolution) တွင် တူညီသော “needle” user request များအများအပြားကို ဆင်တူသော request နှင့် response များပါသော ရှည်လျားသည့် “haystack” များထဲသို့ ထည့်သွင်းပြီး မော်ဒယ်ကို i-th needle အတွက် response ကို ပြန်ထုတ်ရန် တောင်းဆိုသည်။ Mean match ratio သည် မော်ဒယ်၏ response နှင့် မှန်ကန်သော answer အကြား average string match ratio ကို တိုင်းတာသည်။ 256k max input tokens ရှိ point များသည် 128k–256k input tokens အပေါ် ပျမ်းမျှများကို ကိုယ်စားပြုသည်၊ ထို့အတူ ဆက်လက်ဖြစ်သည်။ ဤနေရာတွင် 256k သည် 256 * 1,024 = 262,114 တိုကင်ကို ကိုယ်စားပြုသည်။ ကျိုးကြောင်းသင့်လျော်စွာ စဉ်းစားပေးသော မော်ဒယ်များကို high reasoning effort ဖြင့် run ခဲ့သည်။

ကျွန်ုပ်တို့သည် long-context Q&A အကဲဖြတ်ရန် benchmark အသစ်ဖြစ်သည့် BrowseComp Long Context(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) ကိုလည်း open source ပြုလုပ်နေပါသည်။ ဤ benchmark တွင် မော်ဒယ်ကို အသုံးပြုသူ query တစ်ခု၊ ဆက်စပ် search result အရှည်ကြီးစာရင်းတစ်ခု ပေးထားပြီး search result များအပေါ်အခြေခံ၍ မေးခွန်းကို ဖြေဆိုရသည်။ ကျွန်ုပ်တို့သည် BrowseComp Long Context ကို လက်တွေ့ဆန်စေရန်၊ ခက်ခဲစေရန်နှင့် ယုံကြည်စိတ်ချစွာ မှန်ကန်သော ground truth answer များ ရှိစေရန် ဒီဇိုင်းထုတ်ထားသည်။ 128K–256K တိုကင် input များတွင် GPT‑5 သည် အချိန်၏ 89% တွင် မှန်ကန်သော အဖြေကို ပေးသည်။

API တွင် GPT‑5 မော်ဒယ်အားလုံးသည် အများဆုံး input တိုကင် 272,000 ကို လက်ခံနိုင်ပြီး reasoning & output တိုကင် အများဆုံး 128,000 ထုတ်ပေးနိုင်သဖြင့် စုစုပေါင်း context length သည် 400,000 တိုကင် ဖြစ်သည်။

Factuality

GPT‑5 သည် ကျွန်ုပ်တို့၏ ယခင်မော်ဒယ်များထက် ပိုမိုယုံကြည်ထိုက်သည်။ LongFact နှင့် FactScore benchmark များမှ prompt များတွင် GPT‑5 သည် o3 ထက် factual error များကို ~80% နည်းစေသည်။ ထို့ကြောင့် မှန်ကန်မှုအရေးကြီးသည့် အေးဂျင့်အသုံးပြုမှုများ—အထူးသဖြင့် code၊ data နှင့် ဆုံးဖြတ်ချက်ချခြင်းတွင်—ပိုမိုသင့်တော်စေသည်။

ရမှတ်ပိုမြင့်လေ ပိုဆိုးလေဖြစ်သည်။ LongFact(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) နှင့် FActScore(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) တို့သည် အဆုံးမသတ်ထားသော fact-seeking question များဖြစ်သည်။ ဤ benchmark များမှ prompt များအပေါ် response များကို fact-check လုပ်ရန် browsing ပါဝင်သည့် LLM-based grader ကို အသုံးပြုပြီး factual အမှားပါသော claim အချိုးကို တိုင်းတာသည်။ implementation နှင့် grading အသေးစိတ်အချက်အလက်များကို စနစ်ကဒ် တွင် တွေ့နိုင်သည်။ ကျိုးကြောင်းသင့်လျော်စွာ စဉ်းစားပေးသော မော်ဒယ်များသည် high reasoning effort ကို အသုံးပြုခဲ့သည်။ Search ကို မဖွင့်ထားပါ။

ယေဘုယျအားဖြင့် GPT‑5 ကို ၎င်း၏ ကိုယ်ပိုင်ကန့်သတ်ချက်များကို ပိုမိုသတိပြုမိစေပြီး မမျှော်လင့်ထားသော curveball များကို ပိုကောင်းစွာ ကိုင်တွယ်နိုင်စေရန် လေ့ကျင့်ပေးထားသည်။ ကျွန်ုပ်တို့သည် GPT‑5 ကို ကျန်းမာရေးဆိုင်ရာ မေးခွန်းများအပေါ် ပိုမိုတိကျစေရန်လည်း လေ့ကျင့်ထားသည် (ပိုမိုဖတ်ရှုရန် ကျွန်ုပ်တို့၏ research blog) ကို ကြည့်ပါ)။ language model အားလုံးကဲ့သို့ပင် အရေးကြီးမှုမြင့်မားသောအခါ GPT‑5 ၏ လုပ်ဆောင်ချက်များကို သင်စစ်ဆေးအတည်ပြုရန် ကျွန်ုပ်တို့ အကြံပြုပါသည်။

Feature အသစ်များ

Minimal reasoning effort

developer များသည် API ထဲရှိ reasoning_effort parameter မှတစ်ဆင့် GPT‑5 ၏ စဉ်းစားချိန်ကို ထိန်းချုပ်နိုင်သည်။ ယခင်တန်ဖိုးများဖြစ်သော low, medium (default), နှင့် high တို့အပြင် GPT‑5 သည် minimal ကိုလည်း ပံ့ပိုးပြီး GPT‑5 ၏ reasoning ကို အနည်းဆုံးထားကာ အဖြေကို မြန်မြန်ပြန်ပေးစေသည်။

reasoning_effort တန်ဖိုး မြင့်လေ quality အများဆုံးရရှိလေ ဖြစ်ပြီး တန်ဖိုးနိမ့်လေ speed အများဆုံးရရှိလေ ဖြစ်သည်။ အလုပ်အားလုံးက ထပ်တိုး reasoning မှ တူညီစွာ အကျိုးမရရှိသောကြောင့် သင်အရေးထားသော use case များအတွက် ဘယ်တန်ဖိုးက အကောင်းဆုံး လုပ်ဆောင်သလဲကို စမ်းသပ်ကြည့်ရန် အကြံပြုပါသည်။

ဥပမာအားဖြင့် low ထက်မြင့်သော reasoning သည် အတော်လေးရိုးရှင်းသည့် long-context retrieval တွင် ထပ်တိုးအကျိုးနည်းသော်လည်း visual reasoning benchmark တစ်ခုဖြစ်သော CharXiv Reasoning(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) တွင် ရာခိုင်နှုန်းအမှတ် အတော်များများ ပေါင်းထည့်ပေးသည်။

GPT‑5 ၏ reasoning effort သည် မတူညီသော task များတွင် မတူညီသော အကျိုးကျေးဇူးများ ပေးသည်။ CharXiv Reasoning အတွက် GPT‑5 ကို python tool တစ်ခု အသုံးပြုခွင့် ပေးထားသည်။

Verbosity

GPT‑5 ၏ အဖြေများ၏ default အရှည်ကို steer လုပ်ရန် ကူညီစေရန် verbosity ဟုခေါ်သော API parameter အသစ်ကို မိတ်ဆက်ထားပြီး ၎င်းသည် low, medium (default), နှင့် high တန်ဖိုးများကို လက်ခံသည်။ အကယ်၍ အတိအလင်း ညွှန်ကြားချက်များနှင့် verbosity parameter များ အငြင်းပွားပါက အတိအလင်း ညွှန်ကြားချက်များက ဦးစားပေးခံရမည်။ ဥပမာ GPT‑5 ကို “စာပိုဒ် 5 ပိုဒ်ပါ essay တစ်ပုဒ် ရေးပါ” ဟု သင်တောင်းဆိုပါက verbosity level မည်သို့ပင်ဖြစ်စေ မော်ဒယ်၏ response သည် အမြဲတမ်း စာပိုဒ် 5 ပိုဒ် ဖြစ်ရမည် (သို့သော် စာပိုဒ်တစ်ပိုဒ်ချင်းစီသည် ပိုရှည်သို့မဟုတ် ပိုတိုနိုင်သည်)။

Verbosity=နိမ့်

Why is the sky blue?

Because of Rayleigh scattering. Air molecules are much smaller than the wavelength of visible light, so they scatter short wavelengths (blue/violet) far more than long ones (red). The scattered blue light comes to your eyes from all directions, making the sky look blue. We don’t see violet as much because the Sun emits less of it, our eyes are less sensitive to it, and some is absorbed in the upper atmosphere. At sunrise and sunset, the longer path through air removes more blue, leaving the sky reddish.

Verbosity=အလတ်

Why is the sky blue?

Because of Rayleigh scattering. Sunlight contains all colors, but air molecules scatter shorter wavelengths (blue/violet) much more strongly than longer wavelengths (red). The scattering strength goes roughly as 1/(wavelength)^4, so blue light gets redirected across the sky and into your eyes.

We don’t see a violet sky because:

  • The Sun emits slightly less violet than blue.
  • The upper atmosphere absorbs some violet/UV.
  • Human eyes are less sensitive to violet.

At sunrise and sunset, sunlight passes through more atmosphere, scattering out most of the blues along the way and leaving the longer red/orange wavelengths to dominate.

Verbosity=မြင့်

Why is the sky blue?

The sky looks blue because sunlight gets scattered by the tiny molecules in Earth’s atmosphere. This process is called Rayleigh scattering.

Key points:

  • Sunlight is made of many colors (wavelengths). Shorter wavelengths, like violet and blue, are scattered much more strongly by air molecules than longer wavelengths like red. The scattering strength increases sharply as wavelength gets shorter.
  • As sunlight passes through the atmosphere, the shorter-wavelength light (especially blue) is scattered in all directions, so no matter where you look away from the Sun, you see that scattered blue light — the “blue sky.”

Why not violet?

  • The Sun emits less violet than blue.
  • Our eyes are less sensitive to violet.
  • Some violet/UV is absorbed higher up by ozone.

Together, that makes the scattered light we perceive look mainly blue.

Why are sunsets red/orange?

  • Near sunrise and sunset, sunlight travels a much longer path through the atmosphere.
  • Much of the blue light gets scattered out of the direct path before it reaches your eyes, leaving the remaining direct sunlight enriched in reds and oranges.

Other influences:

  • Haze, pollution, smoke, or dust have larger particles that scatter light less selectively (called Mie scattering), making the sky look paler or whitish.
  • The blue sky is partially polarized due to the scattering geometry, which is why polarized sunglasses can darken parts of it.
  • On worlds with different atmospheres and particle sizes (like Mars), skies can look butterscotch or reddish for similar scattering reasons.

If Earth had no atmosphere, there would be nothing to scatter sunlight, and the sky would appear black even in daytime, with the Sun as a bright disk.

Tool call များမတိုင်မီ preamble message များ

ညွှန်ကြားထားပါက GPT‑5 သည် tool call များမတိုင်မီနှင့် ၎င်းတို့အကြား အသုံးပြုသူမြင်နိုင်သော preamble message များကို output ထုတ်ပေးမည်ဖြစ်သည်။ hidden reasoning message များနှင့် မတူဘဲ ဤမြင်နိုင်သော message များက GPT‑5 ကို ၎င်း၏ အစီအစဉ်များနှင့် တိုးတက်မှုအခြေအနေကို အသုံးပြုသူထံ ဆက်သွယ်နိုင်စေပြီး tool call များနောက်ကွယ်ရှိ ၎င်း၏ approach နှင့် intent ကို အဆုံးအသုံးပြုသူများ နားလည်စေရန် ကူညီပေးသည်။

Custom tools

ကျွန်ုပ်တို့သည် GPT‑5 ကို JSON အစား plaintext ဖြင့် tool တစ်ခုကို ခေါ်နိုင်စေသော custom tools ဟုခေါ်သော tool အမျိုးအစားအသစ်ကို မိတ်ဆက်နေပါသည်။ GPT‑5 ကို custom tool format များအတိုင်း လိုက်နာစေရန် developer များသည် regex တစ်ခု သို့မဟုတ် ပိုမိုပြည့်စုံစွာ သတ်မှတ်ထားသော context-free grammar(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) တစ်ခုကို ပေးနိုင်သည်။

ယခင်က developer သတ်မှတ် tool များအတွက် ကျွန်ုပ်တို့၏ interface သည် ၎င်းတို့ကို JSON ဖြင့် ခေါ်ရန် လိုအပ်ခဲ့ပြီး ၎င်းသည် web API များနှင့် developer များ ယေဘုယျအသုံးများသော common format တစ်ခု ဖြစ်သည်။ သို့သော် valid JSON ထုတ်ရန် မော်ဒယ်သည် quotation mark များ၊ backslash များ၊ newline များနှင့် အခြား control character များအားလုံးကို အမှားမရှိ escape လုပ်နိုင်ရမည်။ ကျွန်ုပ်တို့၏ မော်ဒယ်များကို JSON ထုတ်ရန် ကောင်းစွာ လေ့ကျင့်ထားသော်လည်း code လိုင်းရာချီ သို့မဟုတ် 5 မျက်နှာစာ report ကဲ့သို့သော input အရှည်များတွင် အမှားဖြစ်နိုင်ခြေ မြင့်တက်လာသည်။ custom tools ဖြင့် GPT‑5 သည် escape လုပ်ရန်လိုအပ်သည့် character အားလုံးကို မစိုးရိမ်ရဘဲ tool input များကို plaintext အဖြစ် ရေးသားနိုင်သည်။

JSON tools အစား custom tools ကို အသုံးပြုထားသော SWE-bench Verified တွင် GPT‑5 သည် တော်တော်တူညီသော ရမှတ်ကို ရရှိသည်။

Safety

GPT‑5 သည် safety တွင် frontier ကို တိုးတက်စေပြီး ပိုမိုခိုင်မာ၊ ယုံကြည်စိတ်ချရပြီး အကူအညီဖြစ်စေသော မော်ဒယ်တစ်ခု ဖြစ်သည်။ GPT‑5 သည် ကျွန်ုပ်တို့၏ ယခင်မော်ဒယ်များထက် အမှားထင်ယောင်ထင်မှား ဖြစ်နိုင်ခြေ သိသိသာသာ နည်းပြီး ၎င်း၏ လုပ်ဆောင်ချက်များနှင့် စွမ်းရည်များကို အသုံးပြုသူထံ ပိုမိုရိုးသားစွာ ဆက်သွယ်ကာ safety boundary များအတွင်း ရှိနေသေးစဉ် ဖြစ်နိုင်သမျှ အကူအညီအများဆုံး အဖြေကို ပေးသည်။ ပိုမိုဖတ်ရှုရန် ကျွန်ုပ်တို့၏ research blog ကို ကြည့်ပါ။

ရရှိနိုင်မှု & စျေးနှုန်း

GPT‑5 ကို ယခု API platform တွင် အရွယ်အစားသုံးမျိုးဖြင့် ရရှိနိုင်ပါပြီ - gpt-5, gpt-5-mini, နှင့် gpt-5-nano။ ၎င်းကို Responses API၊ စကားပြောပြီးဆုံးခြင်း API တွင် ရရှိနိုင်ပြီး Codex CLI တွင် default အဖြစ် သတ်မှတ်ထားသည်။ GPT‑5 ၏ စျေးနှုန်းမှာ input တိုကင် 1M လျှင် $1.25 နှင့် output တိုကင် 1M လျှင် $10 ဖြစ်သည်။ GPT‑5 mini ၏ စျေးနှုန်းမှာ input တိုကင် 1M လျှင် $0.25 နှင့် output တိုကင် 1M လျှင် $2 ဖြစ်သည်။ GPT‑5 nano ၏ စျေးနှုန်းမှာ input တိုကင် 1M လျှင် $0.05 နှင့် output တိုကင် 1M လျှင် $0.40 ဖြစ်သည်။

ဤမော်ဒယ်များသည် reasoning_effort နှင့် verbosity API parameter များအပြင် custom tools များကိုလည်း ပံ့ပိုးသည်။ ၎င်းတို့သည် parallel tool calling၊ built-in tools (web search, file search, ရုပ်ပုံ ထုတ်လုပ်မှု နှင့် အခြားများ)၊ အဓိက API feature များ (streaming, တည်ဆောက်ထားသော ရလဒ်များ နှင့် အခြားများ) နှင့် prompt caching နှင့် Batch API ကဲ့သို့သော cost-saving feature များကိုလည်း ပံ့ပိုးသည်။

ChatGPT တွင် အသုံးပြုသော non-reasoning version ဖြစ်သည့် GPT‑5 ကို API တွင် gpt-5-chat-latest အဖြစ် ရရှိနိုင်ပြီး input တိုကင် 1M လျှင် $1.25 နှင့် output တိုကင် 1M လျှင် $10 ဟူသော စျေးနှုန်းဖြစ်သည်။

GPT‑5 ကို Microsoft 365 Copilot, Copilot, GitHub Copilot နှင့် Azure AI Foundry အပါအဝင် Microsoft platform များတစ်လျှောက်လည်း စတင်ထုတ်ပြန်နေသည်။

အသေးစိတ် benchmark များ

ဉာဏ်ရည်
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
AIME ’25(no tools)၉၄.၆%၉၁.၁%၈၅.၂%၈၈.၉%၉၂.၇%၄၆.၄%၄၀.၂%-
FrontierMath(with python tool only)၂၆.၃%၂၂.၁%၉.၆%၁၅.၈%၁၅.၄%---
GPQA diamond(no tools)၈၅.၇%၈၂.၃%၇၁.၂%၈၃.၃%၈၁.၄%၆၆.၃%၆၅.၀%၅၀.၃%
HLE[1](no tools)၂၄.၈%၁၆.၇%၈.၇%၂၀.၂%၁၄.၇%၅.၄%၃.၇%-
HMMT 2025(no tools)၉၃.၃%၈၇.၈%၇၅.၆%၈၁.၇%၈၅.၀%၂၈.၉%၃၅.၀%-

[1] HLE ၏ ယခင်ဗားရှင်းပေါ်တွင် run ခဲ့သောကြောင့် ကျွန်ုပ်တို့၏ ယခင် blog post တွင် ဖော်ပြထားသော ကိန်းဂဏန်းများနှင့် အနည်းငယ် ကွာဟမှုရှိပါသည်။

Multimodal
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
MMMU၈၄.၂%၈၁.၆%၇၅.၆%၈၂.၉%၈၁.၆%၇၄.၈%၇၂.၇%၅၅.၄%
MMMU-Pro(avg across standard and vision sets)၇၈.၄%၇၄.၁%၆၂.၆%၇၆.၄%၇၃.၄%၆၀.၃%၅၈.၉%၃၃.၀%
CharXiv reasoning(python enabled)၈၁.၁%၇၅.၅%၆၂.၇%၇၈.၆%၇၂.၀%၅၆.၇%၅၆.၈%၄၀.၅%
VideoMMMU, max frame 256၈၄.၆%၈၂.၅%၆၆.၈%၈၃.၃%၇၉.၄%၆၀.၉%၅၅.၁%၃၀.၂%
ERQA၆၅.၇%၆၂.၉%၅၀.၁%၆၄.၀%၅၆.၅%၄၄.၃%၄၂.၃%၂၆.၅%
Coding
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
SWE-Lancer: IC SWE Diamond Freelance Coding Tasks၁.၁ သိန်း US$၇.၅ သောင်း US$၄.၉ သောင်း US$၈.၆ သောင်း US$၆.၆ သောင်း US$၃.၄ သောင်း US$၃.၁ သောင်း US$၉ ထောင် US$
SWE-bench Verified[2]၇၄.၉%၇၁.၀%၅၄.၇%၆၉.၁%၆၈.၁%၅၄.၆%၂၃.၆%-
Aider polyglot(diff)၈၈.၀%၇၁.၆%၄၈.၄%၇၉.၆%၅၈.၂%၅၂.၉%၃၁.၆%၆.၂%

[2] ကျွန်ုပ်တို့၏ infrastructure ပေါ်တွင် run မလုပ်နိုင်သော problem 23/500 ကို ချန်လှပ်ထားသည်။ ချန်လှပ်ထားသော task 23 ခု၏ စာရင်းအပြည့်အစုံမှာ 'astropy__astropy-7606', 'astropy__astropy-8707', 'astropy__astropy-8872', 'django__django-10097', 'django__django-7530', 'matplotlib__matplotlib-20488', 'matplotlib__matplotlib-20676', 'matplotlib__matplotlib-20826', 'matplotlib__matplotlib-23299', 'matplotlib__matplotlib-24970', 'matplotlib__matplotlib-25479', 'matplotlib__matplotlib-26342', 'psf__requests-6028', 'pylint-dev__pylint-6528', 'pylint-dev__pylint-7080', 'pylint-dev__pylint-7277', 'pytest-dev__pytest-5262', 'pytest-dev__pytest-7521', 'scikit-learn__scikit-learn-12973', 'sphinx-doc__sphinx-10466', 'sphinx-doc__sphinx-7462', 'sphinx-doc__sphinx-8265', နှင့် 'sphinx-doc__sphinx-9367' တို့ဖြစ်သည်။

ညွှန်ကြားချက် လိုက်နာခြင်း
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
Scale multichallenge[3](o3-mini grader)၆၉.၆%၆၂.၃%၅၄.၉%၆၀.၄%၅၇.၅%၄၆.၂%၄၂.၂%၃၁.၁%
Internal API instruction following eval(hard)၆၄.၀%၆၅.၈%၅၆.၁%၄၇.၄%၄၄.၇%၄၉.၁%၄၅.၁%၃၁.၆%
COLLIE၉၉.၀%၉၈.၅%၉၆.၉%၉၈.၄%၉၆.၁%၆၅.၈%၅၄.၆%၄၂.၅%

[3] မှတ်ချက် - MultiChallenge ထဲရှိ default grader (GPT-4o) သည် မော်ဒယ် response များကို မကြာခဏ အမှတ်ပေးမှားတတ်သည်ဟု ကျွန်ုပ်တို့ တွေ့ရှိထားသည်။ grader ကို o3-mini ကဲ့သို့သော ကျိုးကြောင်းသင့်လျော်စွာ စဉ်းစားပေးသော မော်ဒယ်တစ်ခုသို့ ပြောင်းလိုက်ခြင်းက ကျွန်ုပ်တို့ စစ်ဆေးခဲ့သော sample များတွင် grading accuracy ကို သိသိသာသာ မြှင့်တင်ပေးသည်ဟု တွေ့ရှိထားသည်။

လုပ်ဆောင်ချက် ခေါ်ဆိုမှု
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
Tau2-bench airline၆၂.၆%၆၀.၀%၄၁.၀%၆၄.၈%၆၀.၂%၅၆.၀%၅၁.၀%၁၄.၀%
Tau2-bench retail၈၁.၁%၇၈.၃%၆၂.၃%၈၀.၂%၇၀.၅%၇၄.၀%၆၆.၀%၂၁.၅%
Tau2-bench telecom၉၆.၇%၇၄.၁%၃၅.၅%၅၈.၂%၄၀.၅%၃၄.၀%၄၄.၀%၁၂.၁%
ရှည်လျားသော Context
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
OpenAI-MRCR: 2 needle 128k၉၅.၂%၈၄.၃%၄၃.၂%၅၅.၀%၅၆.၄%၅၇.၂%၄၇.၂%၃၆.၆%
OpenAI-MRCR: 2 needle 256k၈၆.၈%၅၈.၈%၃၄.၉%--၅၆.၂%၄၅.၅%၂၂.၆%
Graphwalks bfs <128k၇၈.၃%၇၃.၄%၆၄.၀%၇၇.၃%၆၂.၃%၆၁.၇%၆၁.၇%၂၅.၀%
Graphwalks parents <128k၇၃.၃%၆၄.၃%၄၃.၈%၇၂.၉%၅၁.၁%၅၈.၀%၆၀.၅%၉.၄%
BrowseComp Long Context 128k၉၀.၀%၈၉.၄%၈၀.၄%၈၈.၃%၈၀.၀%၈၅.၉%၈၉.၀%၈၉.၄%
BrowseComp Long Context 256k၈၈.၈%၈၆.၀%၆၈.၄%--၇၅.၅%၈၁.၆%၁၉.၁%
VideoMME(long, with subtitle category)၈၆.၇%၇၈.၅%၆၅.၇%၈၄.၉%၇၉.၅%၇၈.၇%၆၈.၄%၅၅.၂%
အမှားထင်ယောင်ထင်မှားများ
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
LongFact-Concepts hallucination rate(no tools)[lower is better]၁.၀%၀.၇%၁.၀%၅.၂%၃.၀%၀.၇%၁.၁%-
LongFact-Objects hallucination rate(no tools)[lower is better]၁.၂%၁.၃%၂.၈%၆.၈%၈.၉%၁.၁%၁.၈%-
FActScore hallucination rate(no tools)[lower is better]၂.၈%၃.၅%၇.၃%၂၃.၅%၃၈.၇%၆.၇%၁၀.၉%-

စာရေးသူ

OpenAI