ယနေ့ ကျွန်ုပ်တို့သည် ယနေ့ထိ အသေးစားမော်ဒယ်များအနက် စွမ်းဆောင်ရည်အမြင့်ဆုံးဖြစ်သော GPT‑5.4 mini နှင့် nano ကို ထုတ်ပြန်လိုက်ပါသည်။ ၎င်းတို့သည် GPT‑5.4 ၏ အားသာချက်များစွာကို workload ပမာဏမြင့်များအတွက် ဒီဇိုင်းထုတ်ထားသော ပိုမိုမြန်ဆန်၍ ပိုမိုထိရောက်သည့် မော်ဒယ်များထဲသို့ ယူဆောင်လာပါသည်။
GPT‑5.4 mini သည် coding၊ reasoning၊ multimodal နားလည်မှုနှင့် tool အသုံးပြုမှုတို့တွင် GPT‑5 mini ထက် သိသိသာသာ တိုးတက်ကောင်းမွန်လာပြီး 2x ကျော် ပိုမြန်စွာ လည်ပတ်သည်။ ထို့အပြင် SWE-Bench Pro နှင့် OSWorld-Verified အပါအဝင် အကဲဖြတ်မှုအချို့တွင် ပိုကြီးသော GPT‑5.4 မော်ဒယ်၏ စွမ်းဆောင်ရည်ကိုလည်း နီးစပ်စွာ ရောက်ရှိလာသည်။
GPT‑5.4 nano သည် အမြန်နှုန်းနှင့် ကုန်ကျစရိတ် အရေးအကြီးဆုံးဖြစ်သော လုပ်ငန်းများအတွက် GPT‑5.4 ၏ အသေးဆုံးနှင့် ဈေးအသက်သာဆုံး ဗားရှင်းဖြစ်သည်။ ၎င်းသည် GPT‑5 nano ထက်လည်း သိသိသာသာ အဆင့်မြှင့်တင်ထားသော ဗားရှင်းဖြစ်သည်။ ပိုမိုရိုးရှင်းသော ပံ့ပိုးရေးတာဝန်များကို ကိုင်တွယ်သော classification၊ data extraction၊ ranking နှင့် coding subagent များအတွက် ၎င်းကို ကျွန်ုပ်တို့ အကြံပြုပါသည်။
ဤမော်ဒယ်များကို latency က ထုတ်ကုန်အတွေ့အကြုံကို တိုက်ရိုက်သက်ရောက်စေသော workload မျိုးများအတွက် တည်ဆောက်ထားပါသည်။ ဥပမာအားဖြင့် တုံ့ပြန်မှုမြန်ရမည့် coding assistant များ၊ ပံ့ပိုးရေးတာဝန်များကို လျင်မြန်စွာ ပြီးစီးစေသော subagent များ၊ screenshot များကို ဖမ်းယူပြီး အဓိပ္ပာယ်ဖော်နိုင်သော computer-using system များနှင့် ပုံများကို real-time ဖြင့် ကျိုးကြောင်းဆင်ခြင်နိုင်သော multimodal application များ ဖြစ်သည်။ ဤကဲ့သို့သော အခြေအနေများတွင် အကောင်းဆုံး မော်ဒယ်သည် အကြီးဆုံးမော်ဒယ် ဖြစ်ခြင်းမဟုတ်ဘဲ—လျင်မြန်စွာ တုံ့ပြန်နိုင်ပြီး၊ tools များကို ယုံကြည်စိတ်ချစွာ အသုံးပြုနိုင်ကာ၊ ရှုပ်ထွေးသော ပရော်ဖက်ရှင်နယ်တာဝန်များတွင်လည်း ကောင်းစွာ လုပ်ဆောင်နိုင်သော မော်ဒယ် ဖြစ်သည်။
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| SWE-Bench Pro (Public) | 57.7% | 54.4% | 52.4% | 45.7% |
| Terminal-Bench 2.0 | 75.1% | 60.0% | 46.3% | 38.2% |
| Toolathlon | 54.6% | 42.9% | 35.5% | 26.9% |
| GPQA Diamond | 93.0% | 88.0% | 82.8% | 81.6% |
| OSWorld-Verified | 75.0% | 72.1% | 39.0% | 42.0% |
1 GPT‑5 mini အတွက် ရရှိနိုင်သော အမြင့်ဆုံး reasoning_effort သည် 'high' ဖြစ်သည်။
၎င်းတို့၏ workflow များတွင် GPT‑5.4 mini နှင့် nano ကို စမ်းသပ်ပြီးနောက် ကျွန်ုပ်တို့၏ customer များ၏ အမြင်မှာ ဤသို့ဖြစ်သည်:
“GPT-5.4 mini သည် ဤအတန်းအစားရှိ မော်ဒယ်တစ်ခုအတွက် အဆုံးမှအဆုံးထိ စွမ်းဆောင်ရည်ကောင်းကို ပေးစွမ်းသည်။ ကျွန်ုပ်တို့၏ အကဲဖြတ်မှုများတွင် ၎င်းသည် ကုန်ကျစရိတ် ပိုမိုနည်းပါးစွာဖြင့် output task အချို့နှင့် citation recall တို့တွင် ပြိုင်ဘက် မော်ဒယ်များနှင့် တန်းတူ သို့မဟုတ် ကျော်လွန်ခဲ့သည်။ ထို့အပြင် ပိုကြီးသော GPT-5.4 မော်ဒယ်ထက် end-to-end pass rate ပိုမြင့်ပြီး source attribution ပိုကောင်းခဲ့သည်။”
GPT‑5.4 mini နှင့် nano သည် လျင်မြန်သော iteration မှ အကျိုးရှိသော coding workflow များတွင် အထူးထိရောက်သည်။ ဤမော်ဒယ်များသည် targeted edit များ၊ codebase navigation၊ front-end generation နှင့် debugging loop များကို latency နည်းနည်းဖြင့် ကိုင်တွယ်နိုင်သောကြောင့် ပိုမြန်သော အရှိန်နှင့် ကုန်ကျစရိတ်နည်းနည်းဖြင့် ပြီးမြောက်ရမည့် coding task များအတွက် အလွန်သင့်တော်သည်။
benchmark များတွင် GPT‑5.4 mini သည် ဆင်တူ latency များတွင် GPT‑5‑mini ထက် အမြဲတမ်း စွမ်းဆောင်ရည်ကောင်းပြီး ပိုမြန်စွာ လည်ပတ်နေစဉ် GPT‑5.4 အဆင့် pass rate များကိုပါ နီးစပ်စွာ ရရှိကာ coding workflow များအတွက် performance-per-latency အချိုးအစား အကောင်းဆုံးများထဲမှ တစ်ခုကို ပေးစွမ်းသည်။
ကျွန်ုပ်တို့သည် မော်ဒယ်များ၏ production behavior ကိုကြည့်ရှုပြီး ၎င်းကို offline ဖြင့် simulation လုပ်ကာ latency ကို ခန့်မှန်းပါသည်။ ဤ latency ခန့်မှန်းချက်တွင် tool call ကြာချိန် (code execution time)၊ sampled တိုကင်များနှင့် input တိုကင်များ ပါဝင်သည်။ လက်တွေ့အသုံးပြုမှုရှိ latency သည် အလွန်ကွာခြားနိုင်ပြီး ကျွန်ုပ်တို့၏ simulation တွင် မဖမ်းယူထားသော အချက်အလက်များစွာပေါ် မူတည်သည်။ ထိုနည်းတူစွာပင် ကုန်ကျစရိတ်များကိုလည်း ရေးသားချိန်တွင် ရှိနေသော ဤမော်ဒယ်များ၏ API pricing အပေါ် အခြေခံ၍ ခန့်မှန်းထားပါသည်။ အနာဂတ်တွင် ကုန်ကျစရိတ်များ ပြောင်းလဲနိုင်သည်။ reasoning effort များကို low မှ xhigh အထိ sweep လုပ်ခဲ့ပါသည်။
GPT‑5.4 mini သည် အရွယ်အစား မတူညီသော မော်ဒယ်များကို ပေါင်းစပ်အသုံးပြုသည့် system များအတွက်လည်း အလွန်သင့်တော်သည်။ ဥပမာ Codex တွင် GPT‑5.4 ကဲ့သို့ ပိုကြီးသော မော်ဒယ်တစ်ခုက planning၊ coordination နှင့် နောက်ဆုံးဆုံးဖြတ်ချက်ကို ကိုင်တွယ်နိုင်ပြီး၊ တပြိုင်နက်တည်း ပိုကျဉ်းမြောင်းသော subtask များကို ကိုင်တွယ်သော GPT‑5.4 mini subagent များထံ လွှဲအပ်နိုင်သည်—ဥပမာ codebase တစ်ခုကို ရှာဖွေခြင်း၊ file အကြီးတစ်ခုကို ပြန်လည်သုံးသပ်ခြင်း သို့မဟုတ် supporting document များကို process လုပ်ခြင်းတို့ ဖြစ်သည်။ Codex တွင် subagent များ မည်သို့ လုပ်ဆောင်သည်ကို docs(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) တွင် လေ့လာနိုင်ပါသည်။
အသေးစား မော်ဒယ်များ ပိုမြန်လာပြီး ပိုစွမ်းဆောင်ရည်ကောင်းလာသဖြင့် ဤပုံစံသည် ပိုမိုအသုံးဝင်လာသည်။ အရာအားလုံးအတွက် မော်ဒယ်တစ်ခုတည်း အသုံးပြုမည့်အစား developer များသည် ပိုကြီးသော မော်ဒယ်များက ဘာလုပ်ရမည်ကို ဆုံးဖြတ်ပြီး အသေးစား မော်ဒယ်များက scale ဖြင့် လျင်မြန်စွာ အကောင်အထည်ဖော်သည့် system များကို ဖွဲ့စည်းနိုင်သည်။ GPT‑5.4 mini သည် ဤ workflow ပုံစံအတွက် ယနေ့ထိ ကျွန်ုပ်တို့၏ အကောင်းဆုံး mini မော်ဒယ် ဖြစ်သည်။
GPT‑5.4 mini သည် multimodal task များတွင်လည်း အထူးကောင်းမွန်ပြီး အထူးသဖြင့် computer use နှင့် ဆက်စပ်သော task များတွင် ဖြစ်သည်။ ဤမော်ဒယ်သည် စုစည်းသိပ်သည်းသော user interface များ၏ screenshot များကို လျင်မြန်စွာ အဓိပ္ပာယ်ဖော်နိုင်သောကြောင့် computer use task များကို မြန်နှုန်းကောင်းစွာဖြင့် ပြီးမြောက်စေသည်။ OSWorld-Verified တွင် GPT‑5.4 mini သည် GPT‑5.4 ကို နီးစပ်စွာ လိုက်မီနေပြီး GPT‑5 mini ထက်လည်း သိသိသာသာ ပိုကောင်းစွာ လုပ်ဆောင်သည်။
GPT‑5.4 mini ကို ယနေ့မှစ၍ API၊ Codex နှင့် ChatGPT တွင် ရရှိနိုင်ပါသည်။
API တွင် GPT‑5.4 mini သည် text နှင့် image input များ၊ tool အသုံးပြုမှု၊ လုပ်ဆောင်ချက် ခေါ်ဆိုမှု၊ web search၊ file search၊ computer use နှင့် skills များကို ပံ့ပိုးပေးသည်။ ၎င်းတွင် 400k context window ရှိပြီး 1M input တိုကင်လျှင် $0.75 နှင့် 1M output တိုကင်လျှင် $4.50 ကုန်ကျသည်။
Codex တွင် GPT‑5.4 mini ကို Codex app၊ CLI၊ IDE extension နှင့် web တို့တစ်လျှောက် ရရှိနိုင်သည်။ ၎င်းသည် GPT‑5.4 quota ၏ 30% သာ အသုံးပြုသောကြောင့် developer များသည် Codex တွင် ပိုရိုးရှင်းသော coding task များကို ကုန်ကျစရိတ် သုံးပုံတစ်ပုံခန့်ဖြင့် လျင်မြန်စွာ ကိုင်တွယ်နိုင်သည်။ Codex သည် GPT‑5.4 mini subagent များထံလည်း လွှဲအပ်နိုင်သောကြောင့် reasoning အလွန်မလိုအပ်သော အလုပ်များကို ပိုဈေးသက်သာသော မော်ဒယ်ပေါ်တွင် လည်ပတ်စေနိုင်သည်။
ChatGPT တွင် GPT‑5.4 mini ကို Free နှင့် Go အသုံးပြုသူများအတွက် + menu ထဲရှိ “Thinking” feature မှတစ်ဆင့် ရရှိနိုင်သည်။ အခြားအသုံးပြုသူအားလုံးအတွက် GPT‑5.4 mini ကို GPT‑5.4 Thinking အတွက် rate limit fallback အဖြစ် ရရှိနိုင်သည်။
GPT‑5.4 nano ကို API တွင်သာ ရရှိနိုင်ပြီး 1M input တိုကင်လျှင် $0.20 နှင့် 1M output တိုကင်လျှင် $1.25 ကုန်ကျသည်။
မော်ဒယ်များ၏ safeguards များအကြောင်း ပိုမိုသိရှိလိုပါက ကျွန်ုပ်တို့၏ Deployment Safety Hub(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) ရှိ System Card addendum ကို ကြည့်ရှုပါ။
Coding
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| SWE-bench Pro (Public) | 57.7% | 54.4% | 52.4% | 45.7% |
| Terminal-Bench 2.0 | 75.1% | 60.0% | 46.3% | 38.2% |
Tool-calling
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| MCP Atlas | 67.2% | 57.7% | 56.1% | 47.6% |
| Toolathlon | 54.6% | 42.9% | 35.5% | 26.9% |
| τ2-bench (telecom) | 98.9% | 93.4% | 92.5% | 74.1% |
Intelligence
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| GPQA Diamond | 93.0% | 88.0% | 82.8% | 81.6% |
| HLE w/ tool | 52.1% | 41.5% | 37.7% | 31.6% |
| HLE w/o tools | 39.8% | 28.2% | 24.3% | 18.3% |
MM / Vision / CUA
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| OSWorld-Verified | 75.0% | 72.1% | 39.0% | 42.0% |
| MMMUPro w/ Python | 81.5% | 78.0% | 69.5% | 74.1% |
| MMMUPro | 81.2% | 76.6% | 66.1% | 67.5% |
| OmniDocBench 1.5 (no tools)² — lower is better | 0.109 | 0.1263 | 0.2419 | 0.1791 |
Long context
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| OpenAI MRCR v2 8-needle 64K–128K | 86.0% | 47.7% | 44.2% | 35.1% |
| OpenAI MRCR v2 8-needle 128K–256K | 79.3% | 33.6% | 33.1% | 19.4% |
| Graphwalks BFS 0K–128K | 93.1% | 76.3% | 73.4% | 73.4% |
| Graphwalks parents 0–128K (accuracy) | 89.8% | 71.5% | 50.8% | 64.3% |
1 GPT‑5 mini အတွက် ရရှိနိုင်သော အမြင့်ဆုံး reasoning_effort သည် 'high' ဖြစ်သည်။
2 Overall Edit Distance။ OmniDocBench ကို reasoning_effort ကို 'none' ဟု သတ်မှတ်၍ run လုပ်ထားပြီး ကုန်ကျစရိတ်နည်း၊ latency နည်းသော စွမ်းဆောင်ရည်ကို ထင်ဟပ်စေရန် ဖြစ်သည်။


