Hoy lanzamos GPT‑5.4 mini y nano, nuestros modelos pequeños más capaces hasta la fecha. Llevan muchas de las fortalezas de GPT‑5.4 a modelos más rápidos y eficientes, diseñados para manejar grandes volúmenes de trabajo.
GPT‑5.4 mini mejora de forma significativa frente a GPT‑5 mini en programación, razonamiento, comprensión multimodal y uso de herramientas, y funciona a más del doble de velocidad. También se acerca al rendimiento del modelo GPT‑5.4 de mayor tamaño en varias evaluaciones, incluidas SWE-Bench Pro y OSWorld-Verified.
GPT‑5.4 nano es la versión más pequeña y económica de GPT‑5.4 para tareas en las que la velocidad y el costo son lo más importante. También es una mejora significativa con respecto a GPT‑5 nano. Lo recomendamos para clasificación, extracción de datos, clasificación por relevancia y subagentes de programación que manejan tareas de apoyo más sencillas.
Estos modelos están diseñados para escenarios en los que la latencia influye directamente en la experiencia del producto: asistentes de programación que deben responder con rapidez, subagentes que completan tareas de apoyo en poco tiempo, sistemas que controlan una computadora y capturan e interpretan capturas de pantalla, y aplicaciones multimodales capaces de analizar imágenes en tiempo real. En estos casos, el mejor modelo a menudo no es el más grande: es el que puede responder con rapidez, usar herramientas de forma confiable y aun así rendir bien en tareas profesionales complejas.
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| SWE-Bench Pro (Public) | 57.7% | 54.4% | 52.4% | 45.7% |
| Terminal-Bench 2.0 | 75.1% | 60.0% | 46.3% | 38.2% |
| Toolathlon | 54.6% | 42.9% | 35.5% | 26.9% |
| GPQA Diamond | 93.0% | 88.0% | 82.8% | 81.6% |
| OSWorld-Verified | 75.0% | 72.1% | 39.0% | 42.0% |
1 El esfuerzo de razonamiento más alto disponible para GPT‑5 mini es 'alto'.
Esto es lo que opinan nuestros clientes después de probar GPT‑5.4 mini y nano en sus flujos de trabajo:
"GPT-5.4 mini ofrece un rendimiento muy sólido para un modelo de esta categoría. En nuestras evaluaciones, igualó o superó a modelos competitivos en varias tareas de generación y en la recuperación de citas, a un costo mucho menor. También logró mayores tasas de aprobación de extremo a extremo y una atribución de fuentes más robusta que el modelo GPT-5.4 de mayor tamaño."
GPT‑5.4 mini y nano son especialmente eficaces en flujos de trabajo de programación que se benefician de una iteración rápida. Los modelos permiten realizar ediciones dirigidas, navegar por la base de código, generar interfaces de front-end y completar ciclos de depuración con baja latencia, lo que los convierte en una buena opción para tareas de programación que deben resolverse con mayor rapidez y a menor costo.
En evaluaciones comparativas, GPT‑5.4 mini supera de forma constante a GPT‑5 mini con latencias similares y se acerca a las tasas de aprobación de GPT‑5.4, aunque se ejecuta mucho más rápido, lo que le permite ofrecer una de las mejores combinaciones de rendimiento y latencia para flujos de trabajo de programación.
Estimamos la latencia observando el comportamiento de nuestros modelos en producción y mediante simulaciones sin conexión. La estimación tiene en cuenta la duración de las llamadas a herramientas (tiempo de ejecución del código), así como los tokens muestreados y los tokens de entrada. La latencia en el mundo real puede variar considerablemente y depende de muchos factores que no se capturan en nuestra simulación. De manera similar, los costos se estiman en función de los precios de la API de estos modelos al momento de redactar este texto. Los costos pueden cambiar en el futuro. Los esfuerzos de razonamiento se ajustaron de bajo a muy alto.
GPT‑5.4 mini también es una buena opción para sistemas que combinan modelos de distintos tamaños. En Codex, por ejemplo, un modelo más grande como GPT‑5.4 puede encargarse de la planificación, la coordinación y la decisión final, mientras delega en subagentes GPT‑5.4 mini tareas más acotadas que se ejecutan en paralelo, como buscar en una base de código, revisar un archivo grande o procesar documentos de respaldo. Consulta la documentación(se abre en una nueva ventana) para conocer cómo funcionan los subagentes en Codex.
Este patrón se vuelve más útil a medida que los modelos más pequeños se vuelven más rápidos y más capaces. En lugar de usar un solo modelo para todo, los desarrolladores pueden componer sistemas donde los modelos más grandes deciden qué hacer y los más pequeños ejecutan rápidamente a escala. GPT‑5.4 mini es nuestro modelo mini más potente hasta ahora para ese estilo de flujo de trabajo.
GPT‑5.4 mini también es fuerte en tareas multimodales, en particular las relacionadas con el uso de computadoras. El modelo puede interpretar rápidamente capturas de pantalla de interfaces de usuario densas para completar tareas de uso de la computadora con rapidez. En OSWorld-Verified, GPT‑5.4 mini se acerca a GPT‑5.4, a la vez que supera ampliamente a GPT‑5 mini.
GPT‑5.4 mini está disponible desde hoy en la API, Codex y ChatGPT.
En la API, GPT‑5.4 mini admite entradas de texto e imagen, uso de herramientas, llamadas a funciones, búsqueda en la web, búsqueda de archivos, control del equipo y habilidades. Tiene una ventana de contexto de 400 mil tokens y cuesta USD 0.75 por 1 millón de tokens de entrada y USD 4.50 por 1 millón de tokens de salida.
GPT‑5.4 mini está disponible en la aplicación de Codex, la CLI, la extensión del IDE y la web. Solo consume el 30 % de la cuota de GPT‑5.4, lo que permite a los desarrolladores resolver rápidamente tareas de programación más simples en Codex por aproximadamente un tercio del costo. Codex también puede delegar tareas en subagentes GPT‑5.4 mini para que el trabajo menos exigente en términos de razonamiento se ejecute en el modelo más económico.
En ChatGPT, GPT‑5.4 mini está disponible para los usuarios de los planes Gratis y Go a través de la opción “Thinking” en el menú +. Para los demás usuarios, GPT‑5.4 mini se ofrece como alternativa cuando se alcanza el límite de uso de GPT‑5.4 Thinking.
GPT‑5.4 nano solo está disponible en la API y cuesta USD 0.20 por 1 millón de tokens de entrada y USD 1.25 por 1 millón de tokens de salida.
Para obtener más información sobre las salvaguardas de los modelos, consulta el anexo a la tarjeta del sistema en nuestro Centro de seguridad de implementación(se abre en una nueva ventana).
Coding
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| SWE-bench Pro (Public) | 57.7% | 54.4% | 52.4% | 45.7% |
| Terminal-Bench 2.0 | 75.1% | 60.0% | 46.3% | 38.2% |
Tool-calling
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| MCP Atlas | 67.2% | 57.7% | 56.1% | 47.6% |
| Toolathlon | 54.6% | 42.9% | 35.5% | 26.9% |
| τ2-bench (telecom) | 98.9% | 93.4% | 92.5% | 74.1% |
Intelligence
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| GPQA Diamond | 93.0% | 88.0% | 82.8% | 81.6% |
| HLE w/ tool | 52.1% | 41.5% | 37.7% | 31.6% |
| HLE w/o tools | 39.8% | 28.2% | 24.3% | 18.3% |
MM / Vision / CUA
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| OSWorld-Verified | 75.0% | 72.1% | 39.0% | 42.0% |
| MMMUPro w/ Python | 81.5% | 78.0% | 69.5% | 74.1% |
| MMMUPro | 81.2% | 76.6% | 66.1% | 67.5% |
| OmniDocBench 1.5 (no tools)² — lower is better | 0.109 | 0.1263 | 0.2419 | 0.1791 |
Long context
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| OpenAI MRCR v2 8-needle 64K–128K | 86.0% | 47.7% | 44.2% | 35.1% |
| OpenAI MRCR v2 8-needle 128K–256K | 79.3% | 33.6% | 33.1% | 19.4% |
| Graphwalks BFS 0K–128K | 93.1% | 76.3% | 73.4% | 73.4% |
| Graphwalks parents 0–128K (accuracy) | 89.8% | 71.5% | 50.8% | 64.3% |
1 El esfuerzo de razonamiento más alto disponible para GPT‑5 mini es 'alto'.
2 Distancia de edición total. OmniDocBench se ejecutó con el esfuerzo de razonamiento configurado en 'nulo' para reflejar un rendimiento de bajo costo y baja latencia.


