I dag lanserer vi GPT‑5.4 mini og nano, våre mest kapable og minste modeller hittil. De bringer mange av styrkene til GPT‑5.4 til raskere, mer effektive modeller som er utformet for arbeidsbelastninger med høyt volum.
GPT‑5.4 mini gir en betydelig forbedring sammenlignet med GPT‑5 mini på tvers av koding, resonnering, multimodal forståelse og verktøybruk, samtidig som den kjører mer enn 2x raskere. Den nærmer seg også ytelsen til den større GPT‑5.4‑modell på flere evalueringer, inkludert SWE-Bench Pro og OSWorld-Verified.
GPT‑5.4 nano er den minste og billigste versjonen av GPT‑5.4 for oppgaver der hastighet og kostnad betyr mest. Det er også en betydelig oppgradering sammenlignet med GPT‑5 nano. Vi anbefaler det for klassifisering, datauttrekk, rangering og kodeunderagenter som håndterer enklere støtteoppgaver.
Disse modellene er bygget for typer arbeidsoppgaver der latens direkte former produktopplevelsen: kodeassistenter som må føles responsive, underagenter som raskt fullfører støtteoppgaver, systemer som bruker en datamaskin til å ta og tolke skjermbilder, og multimodale applikasjoner som kan resonnere over bilder i sanntid. I slike situasjoner er ikke nødvendigvis den beste modellen den største – det er den som kan svare raskt, bruke verktøy på en pålitelig måte og fortsatt prestere godt på komplekse profesjonelle oppgaver.
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| SWE-Bench Pro (Public) | 57.7% | 54.4% | 52.4% | 45.7% |
| Terminal-Bench 2.0 | 75.1% | 60.0% | 46.3% | 38.2% |
| Toolathlon | 54.6% | 42.9% | 35.5% | 26.9% |
| GPQA Diamond | 93.0% | 88.0% | 82.8% | 81.6% |
| OSWorld-Verified | 75.0% | 72.1% | 39.0% | 42.0% |
1 Den høyeste «resonneringsinnsatsen» som er tilgjengelig for GPT‑5 mini, er «høy».
Her er hva kundene våre synes etter å ha testet GPT‑5.4 mini og nano i arbeidsflytene sine:
«GPT-5.4 mini leverer sterk ende-til-ende-ytelse for en modell i denne klassen. I våre evalueringer matchet eller overgikk den konkurrerende modeller på flere output-oppgaver og kildehenvisningsgjenkalling til en mye lavere kostnad. Den oppnådde også høyere ende-til-ende-beståelsesrater og sterkere kildeattribuering enn den større GPT-5.4-modellen.»
GPT‑5.4 mini og nano er spesielt effektive i arbeidsflyter for koding som drar nytte av raske iterasjoner. Modellene håndterer målrettede redigeringer, navigering i kodebasen, front-end-generering og feilsøkingssløyfer med kort ventetid, noe som gjør dem svært godt egnet for kodeoppgaver som må fullføres raskere og til lavere kostnader.
I benchmarktester overgår GPT‑5.4 mini konsekvent GPT‑5‑mini ved tilsvarende latenser og nærmer seg GPT‑5.4‑nivå beståttandel samtidig som den kjører mye raskere, og leverer en av de sterkeste avveiningene mellom ytelse og ventetid for kodearbeidsflyter.
Vi estimerer latens ved å se på produksjonsatferden til modellene våre, og simulere dette offline. Latensestimatet tar hensyn til varigheten av verktøykall (kodekjøringstid), samplede tokens og inndatatokens. Forsinkelse i den virkelige verden kan variere betydelig, og avhenger av mange faktorer som ikke fanges opp i simuleringen vår. På samme måte er kostnadene estimert basert på API-priser for disse modellene på tidspunktet dette skrives. Kostnader kan endres i fremtiden. Resonnering ble økt fra low til xhigh.
GPT‑5.4 mini passer også godt til systemer som kombinerer modeller av ulike størrelser. I Codex kan for eksempel en større modell som GPT‑5.4 håndtere planlegging, koordinering og endelig vurdering, mens den delegerer til GPT‑5.4 mini-underagenter som håndterer smalere deloppgaver parallelt – som å søke i en kodebase, gjennomgå en stor fil eller behandle støttedokumenter. Finn ut hvordan underagenter fungerer i Codex i docs(åpnes i et nytt vindu).
Dette mønsteret blir mer nyttig etter hvert som mindre modeller blir raskere og mer kapable. I stedet for å bruke én modell til alt, kan utviklere sette sammen systemer der større modeller bestemmer hva som skal gjøres, og mindre modeller utfører raskt i stor skala. GPT‑5.4 mini er vår sterkeste mini-modell så langt for den typen arbeidsflyt.
GPT‑5.4 mini er også sterk på multimodale oppgaver, særlig de som er knyttet til databruk. Modell kan raskt tolke skjermbilder av tette brukergrensesnitt for å fullføre datamaskinbrukoppgaver med høy hastighet. På OSWorld-Verified nærmer GPT‑5.4 mini seg GPT‑5.4, samtidig som den presterer vesentlig bedre enn GPT‑5 mini.
GPT‑5.4 mini er tilgjengelig i dag i API-et, Codex og ChatGPT.
I API-en støtter GPT‑5.4 mini tekst- og bildeinndata, verktøybruk, funksjonskall, nettsøk, filsøk, databruk og ferdigheter. Den har et kontekstvindu på 400k og koster $0.75 per 1M input tokens og $4.50 per 1M output tokens.
I Codex er GPT‑5.4 mini tilgjengelig i Codex-appen, CLI, IDE-utvidelsen og web. Den bruker bare 30 % av kvoten til GPT‑5.4, slik at utviklere raskt kan håndtere enklere kodingsoppgaver i Codex for omtrent en tredjedel av kostnaden. Codex kan også delegere til GPT‑5.4 mini-underagenter, slik at arbeid som krever mindre resonnering, kan kjøre på den rimeligere modellen.
I ChatGPT er GPT‑5.4 mini tilgjengelig for Free- og Go-brukere via «Thinking»-funksjonen i +-menyen. For alle andre brukere er GPT‑5.4 mini tilgjengelig som en reserve ved ratebegrensning for GPT‑5.4. Thinking.
GPT‑5.4 nano er bare tilgjengelig i API-en og koster $0.20 per 1M inndata-tokens og $1.25 per 1M utdata-tokens.
Hvis du vil ha mer informasjon om sikkerhetstiltakene for modellene, kan du lese tillegget til systemkortet på Deployment Safety Hub(åpnes i et nytt vindu).
Coding
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| SWE-bench Pro (Public) | 57.7% | 54.4% | 52.4% | 45.7% |
| Terminal-Bench 2.0 | 75.1% | 60.0% | 46.3% | 38.2% |
Tool-calling
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| MCP Atlas | 67.2% | 57.7% | 56.1% | 47.6% |
| Toolathlon | 54.6% | 42.9% | 35.5% | 26.9% |
| τ2-bench (telecom) | 98.9% | 93.4% | 92.5% | 74.1% |
Intelligence
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| GPQA Diamond | 93.0% | 88.0% | 82.8% | 81.6% |
| HLE w/ tool | 52.1% | 41.5% | 37.7% | 31.6% |
| HLE w/o tools | 39.8% | 28.2% | 24.3% | 18.3% |
MM / Vision / CUA
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| OSWorld-Verified | 75.0% | 72.1% | 39.0% | 42.0% |
| MMMUPro w/ Python | 81.5% | 78.0% | 69.5% | 74.1% |
| MMMUPro | 81.2% | 76.6% | 66.1% | 67.5% |
| OmniDocBench 1.5 (no tools)² — lower is better | 0.109 | 0.1263 | 0.2419 | 0.1791 |
Long context
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| OpenAI MRCR v2 8-needle 64K–128K | 86.0% | 47.7% | 44.2% | 35.1% |
| OpenAI MRCR v2 8-needle 128K–256K | 79.3% | 33.6% | 33.1% | 19.4% |
| Graphwalks BFS 0K–128K | 93.1% | 76.3% | 73.4% | 73.4% |
| Graphwalks parents 0–128K (accuracy) | 89.8% | 71.5% | 50.8% | 64.3% |
1 Den høyeste «resonneringsinnsatsen» som er tilgjengelig for GPT‑5 mini, er «høy».
2 Samlet redigeringsavstand. OmniDocBench ble kjørt med resonnement satt til «none», for å gjenspeile ytelse med lave kostnader og kort ventetid.


