Danes predstavljamo GPT‑5.4 mini in nano, naša doslej najzmogljivejša majhna modela. Prinašata številne prednosti GPT‑5.4 v hitrejše in učinkovitejše modele, zasnovane za delovne obremenitve velikega obsega.
GPT‑5.4 mini se v primerjavi z GPT‑5 mini bistveno izboljšuje na področjih generiranja kode, sklepanja, večmodalnega razumevanja in uporabe orodij, pri tem pa deluje več kot dvakrat hitreje. Prav tako se na več evalvacijah po zmogljivosti približuje večjemu modelu GPT‑5.4, vključno s SWE-Bench Pro in OSWorld-Verified.
GPT‑5.4 nano je najmanjša in cenovno najugodnejša različica GPT‑5.4 za naloge, kjer sta ključna hitrost in strošek. Hkrati predstavlja pomembno nadgradnjo glede na GPT‑5 nano. Model priporočamo za razvrščanje, ekstrakcijo podatkov, rangiranje ter kodirne podagente, ki izvajajo enostavnejše podporne naloge.
Ti modeli so zasnovani za vrste delovnih obremenitev, kjer latenca neposredno vpliva na uporabniško izkušnjo produkta: pomočnike za programiranje, ki morajo delovati odzivno; podagente, ki hitro zaključujejo podporne naloge; sisteme za uporabo računalnika, ki zajemajo in interpretirajo posnetke zaslona; ter večmodalne aplikacije, ki v realnem času sklepajo na podlagi slik. V takih primerih najboljši model pogosto ni največji, temveč tisti, ki odgovarja hitro, zanesljivo uporablja orodja in hkrati ohranja visoko raven uspešnosti pri zahtevnih profesionalnih nalogah.
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| SWE-Bench Pro (Public) | 57.7% | 54.4% | 52.4% | 45.7% |
| Terminal-Bench 2.0 | 75.1% | 60.0% | 46.3% | 38.2% |
| Toolathlon | 54.6% | 42.9% | 35.5% | 26.9% |
| GPQA Diamond | 93.0% | 88.0% | 82.8% | 81.6% |
| OSWorld-Verified | 75.0% | 72.1% | 39.0% | 42.0% |
1 Najvišja raven parametra reasoning_effort za GPT‑5 mini je »visoka«.
Tukaj je nekaj odzivov naših strank po testiranju GPT‑5.4 mini in nano v njihovih delovnih tokovih:
»GPT-5.4 mini dosega zelo dobre rezultate od začetka do konca za model tega razreda. V naših evalvacijah je pri več nalogah generiranja izhodov in priklica citatov dosegel ali presegel konkurenčne modele ob bistveno nižjih stroških. Hkrati je dosegel višjo stopnjo uspešnosti od začetka do konca in boljšo pripisljivost virov kot večji model GPT-5.4.«
GPT‑5.4 mini in nano sta posebej učinkovita v programerskih delovnih tokovih, ki temeljijo na hitri iteraciji. Modela z nizko latenco obvladujeta ciljno usmerjene popravke, orientacijo v kodni bazi, generiranje čelnega dela aplikacije ter iterativno razhroščevanje, zato sta zelo primerna za naloge, ki jih je treba opraviti hitro in stroškovno učinkovito.
V primerjalnih analizah GPT‑5.4 mini pri podobnih latencah dosledno presega GPT‑5‑mini ter se približuje stopnjam uspešnosti modela GPT‑5.4, pri tem pa deluje bistveno hitreje, kar prinaša eno najboljših razmerij med zmogljivostjo in latenco za delovne tokove generiranja kode.
Latenco ocenjujemo na podlagi dejanskega delovanja modelov v produkciji in jo simuliramo v ločenem okolju. Ocena latence upošteva trajanje priklica orodij (čas izvajanja kode), vzorčene žetone in vhodne žetone. Dejanska latenca se lahko v praksi bistveno razlikuje, saj nanjo vplivajo številni dejavniki, ki jih simulacija ne zajame. Podobno so stroški ocenjeni na podlagi cen API-ja teh modelov v času pisanja. Stroški se lahko v prihodnje spremenijo. Preizkusili smo razpon vrednosti parametra reasoning_effort od »nizke« do »zelo visoke«.
GPT‑5.4 mini se dobro obnese tudi v sistemih, ki združujejo modele različnih velikosti. V Codexu lahko na primer večji model, kot je GPT‑5.4, prevzame načrtovanje, usklajevanje in končno presojo, medtem ko naloge razdeli podagentom GPT‑5.4 mini, ki vzporedno obdelujejo ožje podnaloge, kot so iskanje po kodni bazi, pregled obsežnih datotek ali obdelava podporne dokumentacije. Več o delovanju podagentov v Codexu je na voljo v dokumentaciji(odpre se v novem oknu).
Ta pristop postaja še uporabnejši, ko manjši modeli postajajo hitrejši in zmogljivejši. Namesto uporabe enega modela za vse naloge lahko razvijalci sestavljajo sisteme, v katerih večji modeli odločajo, kaj je treba storiti, manjši modeli pa naloge hitro izvajajo v velikem obsegu. GPT‑5.4 mini je naš doslej najzmogljivejši mini model za tak način delovnih tokov.
GPT‑5.4 mini je prav tako zelo zmogljiv pri večmodalnih nalogah, zlasti tistih, povezanih z uporabo računalnika. Model lahko hitro interpretira posnetke zaslona kompleksnih uporabniških vmesnikov in tako z veliko hitrostjo opravi naloge uporabe računalnika. Na OSWorld-Verified se GPT‑5.4 mini po zmogljivosti približa GPT‑5.4, hkrati pa bistveno presega GPT‑5 mini.
GPT‑5.4 mini je od danes na voljo v API-ju, Codexu in ChatGPT‑ju.
V API-ju GPT‑5.4 mini podpira besedilne in slikovne vhode, uporabo orodij, priklic funkcij, spletno iskanje, iskanje po datotekah, uporabo računalnika in veščine. Ima kontekstno okno velikosti 400k in stane 0,75 USD za 1 milijon vhodnih žetonov ter 4,50 USD za 1 milijon izhodnih žetonov.
V Codexu je GPT‑5.4 mini na voljo v aplikaciji Codex, vmesniku CLI, razširitvi za IDE in na spletu. Porabi le 30 % kvote GPT‑5.4, zato lahko razvijalci enostavnejše naloge v Codexu obdelajo približno za tretjino stroška. Codex lahko naloge z nižjimi zahtevami po sklepanju dodeli podagentom GPT‑5.4 mini, da se izvajajo na cenovno ugodnejšem modelu.
V ChatGPT‑ju je GPT‑5.4 mini na voljo uporabnikom paketov Free in Go prek funkcije »Thinking« v meniju +. Za vse druge uporabnike je GPT‑5.4 mini na voljo kot nadomestni model ob omejitvah hitrosti za GPT‑5.4 Thinking.
GPT‑5.4 nano je na voljo samo v API in stane 0,20 USD za 1 milijon vhodnih žetonov ter 1,25 USD za 1 milijon izhodnih žetonov.
Za več informacij o zaščitnih ukrepih modelov glejte dodatek k sistemskemu dokumentu na portalu Deployment Safety Hub(odpre se v novem oknu).
Coding
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| SWE-bench Pro (Public) | 57.7% | 54.4% | 52.4% | 45.7% |
| Terminal-Bench 2.0 | 75.1% | 60.0% | 46.3% | 38.2% |
Tool-calling
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| MCP Atlas | 67.2% | 57.7% | 56.1% | 47.6% |
| Toolathlon | 54.6% | 42.9% | 35.5% | 26.9% |
| τ2-bench (telecom) | 98.9% | 93.4% | 92.5% | 74.1% |
Intelligence
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| GPQA Diamond | 93.0% | 88.0% | 82.8% | 81.6% |
| HLE w/ tool | 52.1% | 41.5% | 37.7% | 31.6% |
| HLE w/o tools | 39.8% | 28.2% | 24.3% | 18.3% |
MM / Vision / CUA
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| OSWorld-Verified | 75.0% | 72.1% | 39.0% | 42.0% |
| MMMUPro w/ Python | 81.5% | 78.0% | 69.5% | 74.1% |
| MMMUPro | 81.2% | 76.6% | 66.1% | 67.5% |
| OmniDocBench 1.5 (no tools)² — lower is better | 0.109 | 0.1263 | 0.2419 | 0.1791 |
Long context
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| OpenAI MRCR v2 8-needle 64K–128K | 86.0% | 47.7% | 44.2% | 35.1% |
| OpenAI MRCR v2 8-needle 128K–256K | 79.3% | 33.6% | 33.1% | 19.4% |
| Graphwalks BFS 0K–128K | 93.1% | 76.3% | 73.4% | 73.4% |
| Graphwalks parents 0–128K (accuracy) | 89.8% | 71.5% | 50.8% | 64.3% |
1 Najvišja raven parametra reasoning_effort za GPT‑5 mini je »visoka«.
2 Skupna razdalja urejanja. OmniDocBench je bil izveden z nastavitvijo reasoning_effort »brez«, da odraža delovanje z nizkimi stroški in nizko latenco.


