Avui llancem GPT‑5.4 mini i nano, els nostres models petits més capaços fins ara. Aporten molts dels punts forts de GPT‑5.4 a models més ràpids i eficients, dissenyats per a càrregues de treball d’alt volum.
GPT‑5.4 mini millora de manera significativa GPT‑5 mini en codificació, raonament, comprensió multimodal i ús d’eines, alhora que funciona més de 2x més ràpid. També s’acosta al rendiment del model més gran GPT‑5.4 en diverses avaluacions, incloses SWE-Bench Pro i OSWorld-Verified.
GPT‑5.4 nano és la versió més petita i més econòmica de GPT‑5.4 per a tasques en què la velocitat i el cost són el més important. També és una millora notable respecte de GPT‑5 nano. El recomanem per a classificació, extracció de dades, classificació per rang i subagents de codificació que gestionen tasques de suport més senzilles.
Aquests models estan pensats per als tipus de càrregues de treball en què la latència determina directament l’experiència del producte: assistents de codificació que han de ser reactius, subagents que completen ràpidament tasques de suport, sistemes d’ús d’ordinador que capturen i interpreten captures de pantalla, i aplicacions multimodals que poden raonar sobre imatges en temps real. En aquests contextos, el millor model sovint no és el més gran, sinó el que pot respondre ràpidament, utilitzar eines de manera fiable i continuar rendint bé en tasques professionals complexes.
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| SWE-Bench Pro (Public) | 57.7% | 54.4% | 52.4% | 45.7% |
| Terminal-Bench 2.0 | 75.1% | 60.0% | 46.3% | 38.2% |
| Toolathlon | 54.6% | 42.9% | 35.5% | 26.9% |
| GPQA Diamond | 93.0% | 88.0% | 82.8% | 81.6% |
| OSWorld-Verified | 75.0% | 72.1% | 39.0% | 42.0% |
1 El reasoning_effort més alt disponible per a GPT‑5 mini és 'high'.
Això és el que pensen els nostres clients després de provar GPT‑5.4 mini i nano en els seus fluxos de treball:
«GPT-5.4 mini ofereix un sòlid rendiment integral per a un model d’aquesta classe. En les nostres avaluacions, va igualar o superar models competidors en diverses tasques de sortida i en record de cites amb un cost molt més baix. També va aconseguir taxes d’èxit integral més altes i una atribució de fonts més sòlida que el model més gran GPT-5.4.»
GPT‑5.4 mini i nano són especialment eficaços en fluxos de treball de codificació que es beneficien d’iteració ràpida. Els models gestionen edicions específiques, navegació per bases de codi, generació de front-end i bucles de depuració amb baixa latència, cosa que els fa ideals per a tasques de codificació que s’han de completar més ràpid i amb costos més baixos.
En els benchmarks, GPT‑5.4 mini supera de manera constant GPT‑5‑mini amb latències similars i s’acosta a taxes d’èxit de nivell GPT‑5.4 mentre funciona molt més ràpid, oferint una de les relacions rendiment-latència més sòlides per a fluxos de treball de codificació.
Estimem la latència observant el comportament dels nostres models en producció i simulant-lo fora de línia. L’estimació de latència té en compte la durada de la crida a eines (temps d’execució del codi), els segments mostrejats i els segments d’entrada. La latència en el món real pot variar substancialment i depèn de molts factors que no es recullen en la nostra simulació. De manera similar, els costos s’estimen a partir del preu de l’API d’aquests models en el moment d’escriure aquest text. Els costos poden canviar en el futur. Els nivells d’esforç de raonament es van recórrer de low a xhigh.
GPT‑5.4 mini també encaixa molt bé en sistemes que combinen models de mides diferents. A Codex, per exemple, un model més gran com GPT‑5.4 pot encarregar-se de la planificació, la coordinació i el judici final, mentre delega en subagents GPT‑5.4 mini que gestionen subtasques més acotades en paral·lel, com ara cercar en una base de codi, revisar un fitxer gran o processar documents de suport. Descobriu com funcionen els subagents a Codex a la documentació(s'obre en una finestra nova).
Aquest patró esdevé més útil a mesura que els models petits són més ràpids i més capaços. En lloc d’utilitzar un model per a tot, els desenvolupadors poden compondre sistemes on els models grans decideixen què fer i els models petits executen ràpidament a escala. GPT‑5.4 mini és el nostre model mini més potent fins ara per a aquest estil de flux de treball.
GPT‑5.4 mini també és potent en tasques multimodals, especialment les relacionades amb l’ús d’ordinador. El model pot interpretar ràpidament captures de pantalla d’interfícies d’usuari denses per completar amb velocitat tasques d’ús d’ordinador. A OSWorld-Verified, GPT‑5.4 mini s’acosta a GPT‑5.4 mentre supera clarament GPT‑5 mini.
GPT‑5.4 mini està disponible avui a l’API, Codex i ChatGPT.
A l’API, GPT‑5.4 mini admet entrades de text i imatge, ús d’eines, crida a funcions, cerca web, cerca de fitxers, ús d’ordinador i skills. Té una finestra de context de 400k i costa 0,75 $ per cada 1M segments d’entrada i 4,50 $ per cada 1M segments de sortida.
A Codex, GPT‑5.4 mini està disponible a l’app de Codex, la CLI, l’extensió IDE i el web. Només utilitza el 30% de la quota de GPT‑5.4, cosa que permet als desenvolupadors gestionar ràpidament tasques de codificació més senzilles a Codex per aproximadament un terç del cost. Codex també pot delegar en subagents GPT‑5.4 mini perquè la feina menys intensiva en raonament s’executi amb el model més econòmic.
A ChatGPT, GPT‑5.4 mini està disponible per als usuaris Free i Go mitjançant la funció «Thinking» del menú +. Per a tots els altres usuaris, GPT‑5.4 mini està disponible com a alternativa quan s’arriba al límit de GPT‑5.4 Thinking.
GPT‑5.4 nano només està disponible a l’API i costa 0,20 $ per cada 1M segments d’entrada i 1,25 $ per cada 1M segments de sortida.
Per obtenir més informació sobre les salvaguardes dels models, consulteu l’addenda de la fitxa del model al nostre Deployment Safety Hub(s'obre en una finestra nova).
Coding
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| SWE-bench Pro (Public) | 57.7% | 54.4% | 52.4% | 45.7% |
| Terminal-Bench 2.0 | 75.1% | 60.0% | 46.3% | 38.2% |
Tool-calling
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| MCP Atlas | 67.2% | 57.7% | 56.1% | 47.6% |
| Toolathlon | 54.6% | 42.9% | 35.5% | 26.9% |
| τ2-bench (telecom) | 98.9% | 93.4% | 92.5% | 74.1% |
Intelligence
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| GPQA Diamond | 93.0% | 88.0% | 82.8% | 81.6% |
| HLE w/ tool | 52.1% | 41.5% | 37.7% | 31.6% |
| HLE w/o tools | 39.8% | 28.2% | 24.3% | 18.3% |
MM / Vision / CUA
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| OSWorld-Verified | 75.0% | 72.1% | 39.0% | 42.0% |
| MMMUPro w/ Python | 81.5% | 78.0% | 69.5% | 74.1% |
| MMMUPro | 81.2% | 76.6% | 66.1% | 67.5% |
| OmniDocBench 1.5 (no tools)² — lower is better | 0.109 | 0.1263 | 0.2419 | 0.1791 |
Long context
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| OpenAI MRCR v2 8-needle 64K–128K | 86.0% | 47.7% | 44.2% | 35.1% |
| OpenAI MRCR v2 8-needle 128K–256K | 79.3% | 33.6% | 33.1% | 19.4% |
| Graphwalks BFS 0K–128K | 93.1% | 76.3% | 73.4% | 73.4% |
| Graphwalks parents 0–128K (accuracy) | 89.8% | 71.5% | 50.8% | 64.3% |
1 El reasoning_effort més alt disponible per a GPT‑5 mini és 'high'.
2 Distància global d’edició. OmniDocBench es va executar amb reasoning_effort definit com a 'none' per reflectir un rendiment de baix cost i baixa latència.


