Ngayong araw, ilalabas namin ang GPT‑5.4 mini at nano, ang pinaka-capable naming maliliit na modelo sa kasaysayan. Bitbit nila ang marami sa mga advantage ng GPT‑5.4 tungo sa mas mabilis at mas mahusay na mga modelo na idinisenyo para sa mga workload na may mataas na volume.
Malaki ang iniangat ng GPT‑5.4 mini kumpara sa GPT‑5 mini sa coding, pangangatwiran, multimodal na pag-unawa, at paggamit ng tool, habang tumatakbo nang higit sa 2x na mas mabilis. Lumalapit din ito sa performance ng mas malaking modelo na GPT‑5.4 sa ilang pagsusuri, kabilang ang SWE-Bench Pro at OSWorld-Verified.
Ang GPT‑5.4 nano ang pinakamaliit at pinakamurang bersyon ng GPT‑5.4 para sa mga gawain kung saan pinakamahalaga ang bilis at gastos. Isa rin itong makabuluhang pagpapahusay kumpara sa GPT‑5 nano. Inirerekomenda namin ito para sa pag-uuri, pagkuha ng data, pagraranggo, at mga subagent para sa pag-code na humahawak ng mas simpleng mga pansuportang gawain.
Ang mga modelo na ito ay ginawa para sa mga uri ng workload kung saan direktang hinuhubog ng latency ang karanasan sa produkto: mga coding assistant na kailangang maging mabilis ang pagtugon, mga subagent na mabilis na kumukumpleto ng mga pansuportang gawain, mga sistemang gumagamit ng computer na kumukuha at nagbibigay-kahulugan sa mga screenshot, at mga multimodal na application na kayang mangatuwiran sa mga larawan nang real-time. Sa mga setting na ito, ang pinakamagandang modelo ay kadalasang hindi ang pinakamalaki—iyon ay ang kayang tumugon nang mabilis, gumamit ng mga tool nang may kumpiyansa, at mahusay pa ring makaganap ng mga kumplikadong propesyonal na gawain.
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| SWE-Bench Pro (Public) | 57.7% | 54.4% | 52.4% | 45.7% |
| Terminal-Bench 2.0 | 75.1% | 60.0% | 46.3% | 38.2% |
| Toolathlon | 54.6% | 42.9% | 35.5% | 26.9% |
| GPQA Diamond | 93.0% | 88.0% | 82.8% | 81.6% |
| OSWorld-Verified | 75.0% | 72.1% | 39.0% | 42.0% |
1 Ang pinakamataas na reasoning_effort na available para sa GPT‑5 mini ay 'high'.
Narito ang palagay ng mga customer namin matapos subukan ang GPT‑5.4 mini at nano sa mga workflow nila:
"Ang GPT-5.4 mini ay naghahatid ng makapangyarihang pagganap mula simula hanggang katapusan para sa ganitong uri ng modelo. Sa aming mga pagsusuri, kapantay ito o mas mahusay pa kaysa sa mga kakumpitensyang modelo sa ilang mga gawain sa output at pag-alala sa mga sipi sa mas mababang halaga. Nakamit din nito ang mas matataas marka ng pagpasa mula simula hanggang katapusan at mas malakas na pagkilala sa pinagmulan kaysa sa mas malaking modelo na GPT-5.4."
Ang GPT‑5.4 mini at nano ay lalong epektibo sa mga daloy ng trabaho ng coding na nakikinabang sa mabilis na iterasyon. Pinapangasiwaan ng mga modelo ang mga naka-target na pag-edit, pag-navigate sa codebase, pag-generate ng front-end, at mga debugging loop na may mababang latency. Angkop na angkop ang mga ito para sa mga gawain sa pag-code na kailangang matapos nang mas mabilis at sa mas murang halaga.
Sa mga benchmark, palagiang mas mahusay ang performance ng GPT‑5.4 mini kaysa sa GPT‑5‑mini sa magkatulad na latency at nalalapit sa mga pass rate ng GPT‑5.4 habang mas mabilis na tumatakbo, na nagbibigay ng isa sa pinakamahuhusay na tradeoff sa performance-per-latency para sa mga workflow sa coding.
Tinatantiya namin ang latency sa pamamagitan ng pagtingin sa pagkilos ng produksyon ng aming mga modelo, at pagsasagawa ng offline na simulation nito. Isinasaalang-alang ng pagtatantiya ng latency ang tagal ng tool call (oras ng pagpapatupad ng code), mga na-sample na token, at mga input token. Maaaring mag-iba nang malaki ang latency sa totoong buhay, at nakadepende ito sa maraming salik na hindi naka-capture sa aming simulation. Katulad nito, ang mga gastos ay tinatantiya batay sa pagpepresyo ng API ng mga modelo ito sa oras ng pagsulat. Maaaring magbago ang mga gastos sa hinaharap. Ang mga pagsisikap sa pangangatuwiran ay na-sweep mula low hanggang xhigh.
Angkop na angkop din ang GPT‑5.4 mini sa mga sistema na pinagsasama ang mga modelo na may iba’t ibang laki. Sa Codex, halimbawa, ang mas malaking modelo tulad ng GPT‑5.4 ay kayang humawak ng pagpaplano, koordinasyon, at panghuling paghatol, habang nag-aatas sa mga subagent ng GPT‑5.4 mini na humahawak ng mas maliliit na subtask nang sabay-sabay—gaya ng paghahanap sa codebase, pag-review ng malaking file, o pagproseso ng mga pansuportang dokumento. Alamin kung paano gumagana ang mga subagent sa Codex sa docs(magbubukas sa bagong window).
Nagiging mas kapaki-pakinabang ang pattern na ito habang mas bumibilis at mas humuhusay ang mas maliliit na modelo. Sa halip na gumamit ng isang modelo para sa lahat, puwedeng bumuo ang mga developer ng mga system kung saan ang mas malalaking modelo ang nagpapasya kung ano ang gagawin at ang mas maliliit na modelo ang mabilis na nagsasagawa nito sa malawakang saklaw. Ang GPT‑5.4 mini ang pinakamalakas naming mini na modelo sa kasaysayan para sa ganoong istilo ng workflow.
Malakas din ang GPT‑5.4 mini sa mga multimodal na gawain, partikular na sa mga nauugnay sa paggamit ng computer. Kayang mabilis na bigyang-kahulugan ng modelo ang mga screenshot ng mga dense na user interface para makumpleto ang mga gawain sa paggamit ng computer nang mabilis. Sa OSWorld-Verified, lumalapit ang GPT‑5.4 mini sa GPT‑5.4 habang malaki ang inilalamang nito sa GPT‑5 mini.
Available na ngayon ang GPT‑5.4 mini sa API, Codex, at ChatGPT.
Sa API, sinusuportahan ng GPT‑5.4 mini ang mga input na text at larawan, paggamit ng tool, pagtawag ng function, paghahanap sa web, paghahanap ng file, paggamit ng computer, at mga skill. May 400k context window ito at nagkakahalaga ng $0.75 kada 1M input token at $4.50 kada 1M output token.
Sa Codex, available ang GPT‑5.4 mini sa Codex app, CLI, IDE extension at web. Gumagamit lamang ito ng 30% ng GPT‑5.4 quota, na nagbibigay-daan sa mga developer na mabilis na mapangasiwaan ang mas simpleng mga gawain sa pag-code sa Codex sa humigit-kumulang one-third ng gastos. Pwede ring mag-atas ang Codex sa mga subagent ng GPT‑5.4 mini upang ang mga gawaing hindi gaanong matindi sa pangangatwiran ay tumakbo sa mas murang modelo.
Sa ChatGPT, available ang GPT‑5.4 mini sa mga user ng Free at Go sa pamamagitan ng feature na “Thinking” sa + menu. Para sa lahat ng iba pang user, available ang GPT‑5.4 mini bilang fallback sa rate limit para sa GPT‑5.4 Thinking.
Ang GPT‑5.4 nano ay available lang sa API at nagkakahalaga ng $0.20 kada 1M input token at $1.25 kada 1M output token.
Para sa karagdagang impormasyon tungkol sa mga pananggalang ng mga modelo, pakitingnan ang addendum ng card ng system sa aming Deployment Safety Hub(magbubukas sa bagong window).
Coding
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| SWE-bench Pro (Public) | 57.7% | 54.4% | 52.4% | 45.7% |
| Terminal-Bench 2.0 | 75.1% | 60.0% | 46.3% | 38.2% |
Tool-calling
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| MCP Atlas | 67.2% | 57.7% | 56.1% | 47.6% |
| Toolathlon | 54.6% | 42.9% | 35.5% | 26.9% |
| τ2-bench (telecom) | 98.9% | 93.4% | 92.5% | 74.1% |
Intelligence
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| GPQA Diamond | 93.0% | 88.0% | 82.8% | 81.6% |
| HLE w/ tool | 52.1% | 41.5% | 37.7% | 31.6% |
| HLE w/o tools | 39.8% | 28.2% | 24.3% | 18.3% |
MM / Vision / CUA
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| OSWorld-Verified | 75.0% | 72.1% | 39.0% | 42.0% |
| MMMUPro w/ Python | 81.5% | 78.0% | 69.5% | 74.1% |
| MMMUPro | 81.2% | 76.6% | 66.1% | 67.5% |
| OmniDocBench 1.5 (no tools)² — lower is better | 0.109 | 0.1263 | 0.2419 | 0.1791 |
Long context
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| OpenAI MRCR v2 8-needle 64K–128K | 86.0% | 47.7% | 44.2% | 35.1% |
| OpenAI MRCR v2 8-needle 128K–256K | 79.3% | 33.6% | 33.1% | 19.4% |
| Graphwalks BFS 0K–128K | 93.1% | 76.3% | 73.4% | 73.4% |
| Graphwalks parents 0–128K (accuracy) | 89.8% | 71.5% | 50.8% | 64.3% |
1 Ang pinakamataas na reasoning_effort na available para sa GPT‑5 mini ay 'high'.
2 Pangkalahatang Distansya sa Pag-edit. Pinatakbo ang OmniDocBench na naka-set sa 'none' ang reasoning_effort upang maipakita ang mababang gastos at mababang latency na pagganap.


