Ir al contenido principal
OpenAI

13 de noviembre de 2025

Producto

Presentamos GPT‑5.1 para desarrolladores

Cargando…

Hoy lanzamos GPT‑5.1 en la plataforma API, el siguiente modelo de la serie GPT‑5 que combina inteligencia y rapidez para una amplia variedad de tareas de agentes y codificación. GPT‑5.1 ajusta automáticamente el tiempo que dedica a pensar según la complejidad de la tarea, lo que lo hace mucho más rápido y eficiente en el uso de tokens en tareas sencillas del día a día. Además, incluye un modo «sin razonamiento» para responder más rápido en tareas que no requieren un análisis profundo, sin perder la inteligencia de vanguardia de GPT‑5.1.

Para que GPT‑5.1 sea aún más eficiente, lanzamos un almacenamiento en caché ampliado de prompts, que los retiene hasta 24 horas y permite respuestas más rápidas a preguntas de seguimiento a un costo menor. Los clientes que formen parte de nuestro servicio de Procesamiento prioritario(se abre en una ventana nueva) también notarán un rendimiento significativamente más rápido con GPT‑5.1 en comparación con GPT‑5.

En cuanto a programación, hemos colaborado de cerca con startups como Cursor, Cognition, Augment Code, Factory y Warp para mejorar la personalidad de la programación, la capacidad de orientación y la calidad del código de GPT‑5.1. En general, GPT‑5.1 es más intuitivo para programar y comunica mejor las actualizaciones al usuario mientras realiza las tareas.

Finalmente, presentamos dos nuevas herramientas con GPT‑5.1: una herramienta apply_patch diseñada para editar código de manera más confiable y una herramienta de línea de comandos (shell) que permite al modelo ejecutar comandos en tu ordenador local.

GPT‑5.1 es el siguiente avance de la serie GPT‑5, y planeamos seguir invirtiendo en modelos más inteligentes y potentes para ayudar a los desarrolladores a crear flujos de trabajo fiables con agentes.

Razonamiento eficiente en diversas tareas

Razonamiento adaptativo

Para que GPT‑5.1 sea más rápido, rediseñamos la forma en que procesa la información. En tareas sencillas, GPT‑5.1 utiliza menos tokens, lo que permite experiencias más ágiles en el producto y reduce los costes de tokens. En tareas complejas que requieren mayor reflexión, GPT‑5.1 se mantiene persistente, evalúa opciones y verifica su trabajo para maximizar la fiabilidad.

Balyasny(se abre en una ventana nueva), una compañía de gestión de activos, comentó que GPT‑5.1 «superó tanto a GPT‑4.1 como a GPT‑5 en nuestro conjunto completo de evaluaciones dinámicas y se ejecutó de 2 a 3 veces más rápido que GPT‑5». También mencionaron que, en sus tareas de razonamiento intensivas en herramientas, GPT‑5.1 «usaba de manera consistente aproximadamente la mitad de tokens que los principales competidores, manteniendo una calidad similar o superior». De manera similar, AI insurance BPO Pace(se abre en una ventana nueva) también probó el modelo y dijo que sus agentes funcionan «un 50 % más rápido en GPT‑5.1, superando la precisión de GPT‑5 y otros modelos líderes en nuestras evaluaciones».

GPT‑5.1 varía su tiempo de procesamiento de manera más dinámica que GPT‑5. En una distribución representativa de tareas de ChatGPT, GPT‑5.1 es mucho más rápido en las tareas sencillas, incluso cuando requiere un gran esfuerzo de razonamiento.

Por ejemplo, cuando se le pregunta «muéstrame un comando npm para listar los paquetes instalados globalmente», GPT‑5.1 responde en 2 segundos en lugar de 10.

GPT-5 (medio) procesa aproximadamente 250 tokens en aproximadamente 10 segundos

show an npm command to list globally installed packages

npm list -g --depth=0

GPT-5.1 (medio) procesa aproximadamente 50 tokens en aproximadamente 2 segundos

show an npm command to list globally installed packages

You can list globally installed npm packages with:

  • Just package names: npm ls -g --depth=0
  • Including their install paths: npm ls -g

The first one is usually what you want.

Nuevo modo «sin razonamiento»

Los desarrolladores ahora pueden usar GPT‑5.1 sin razonamiento cambiando la configuración de reasoning_effort a «none». Esto permite que el modelo se comporte como un modelo sin razonamiento para casos de uso sensibles a la latencia, conservando la alta inteligencia de GPT‑5.1 y con el beneficio adicional de llamadas a herramientas de alto rendimiento. En comparación con GPT‑5 con razonamiento «mínimo», GPT‑5.1 sin razonamiento ofrece mejores resultados en llamadas a herramientas en paralelo (lo que aumenta la velocidad de finalización de tareas de extremo a extremo), tareas de codificación, seguimiento de instrucciones y uso de herramientas de búsqueda. Además, permite la búsqueda en la web(se abre en una ventana nueva) en nuestra plataforma API. Sierra(se abre en una ventana nueva) compartió que GPT‑5.1 en modo «sin razonamiento» mostró una «mejora del 20 % en el rendimiento de llamadas a herramientas de baja latencia en comparación con el razonamiento mínimo de GPT‑5» en sus evaluaciones del mundo real.

Con la introducción de «none» como valor en reasoning_effort, los desarrolladores ahora tienen aún más flexibilidad y control sobre el equilibrio entre velocidad, coste e inteligencia para su caso de uso. GPT‑5.1 tiene como valor predeterminado 'none', lo cual es ideal para cargas de trabajo sensibles a la latencia. Recomendamos a los desarrolladores que elijan «low» o «medium» para tareas de mayor complejidad y «high» cuando la inteligencia y la fiabilidad importan más que la velocidad.

Almacenamiento en caché ampliado de prompts

El almacenamiento en caché ampliado mejora la eficiencia del razonamiento al permitir que los mensajes permanezcan activos en la memoria caché hasta por 24 horas, en lugar de los pocos minutos que se admiten hoy. Con una ventana de retención más larga, más solicitudes de seguimiento pueden aprovechar el contexto almacenado, lo que reduce la latencia, disminuye los costes y ofrece un rendimiento más fluido en interacciones prolongadas, como chats de varios turnos, sesiones de codificación o flujos de trabajo de recuperación de conocimientos.

El precio del caché de prompts se mantiene sin cambios: los tokens de entrada en caché siguen siendo un 90 % más baratos que los tokens no almacenados en caché, y no hay cargos adicionales ni por escrituras ni por el propio almacenamiento en caché. Para usar el almacenamiento en caché ampliado con GPT‑5.1, agrega el parámetro prompt_cache_retention="24h" en la API de Respuestas o en la API de finalizaciones de chat. Consulta la documentación sobre el almacenamiento en caché de prompts(se abre en una ventana nueva) para más información.

Codificación

GPT‑5.1 se basa en las capacidades de codificación de GPT‑5 e incluye una personalidad de codificación más flexible, menos «overthinking», calidad de código mejorada, mejores mensajes de actualización dirigidos al usuario (preámbulos) durante las secuencias de llamadas a herramientas y diseños de frontend más funcionales, especialmente cuando se utiliza un bajo («low») esfuerzo de razonamiento.

En tareas de codificación más sencillas, como ediciones rápidas de código, las velocidades más altas de GPT‑5.1 facilitan la iteración de ida y vuelta. Estas mejoras en tareas simples no afectan el rendimiento en tareas más complejas. En SWE-bench Verificado, GPT‑5.1 incluso supera a GPT‑5, alcanzando un 76,3 %

En SWE-bench Verified⁠, un modelo recibe un repositorio de código y una descripción del problema, y debe generar un parche para resolverlo. Las etiquetas indican el nivel de esfuerzo de razonamiento. La precisión se obtiene como promedio de 500 problemas. Todos los modelos usaron un arnés con la herramienta apply_patch basada en JSON.

Recibimos comentarios iniciales sobre GPT‑5.1 de un puñado de empresas de codificación. Aquí están sus impresiones:

  • Augment Code(se abre en una ventana nueva) describió a GPT‑5.1 como «más preciso en sus decisiones, con menos acciones desperdiciadas, un razonamiento más eficiente y un mejor enfoque en las tareas», y señaló que están observando «cambios más precisos, solicitudes de extracción más fluidas y una iteración más rápida en proyectos con múltiples archivos».
  • Cline(se abre en una ventana nueva) compartió que, en sus evaluaciones, «GPT‑5.1 alcanzó los mejores resultados en la prueba comparativa de edición de diferencias, con una mejora del 7 % y demostrando una confiabilidad excepcional en tareas de codificación complejas».
  • CodeRabbit(se abre en una ventana nueva) llamó a GPT‑5.1 su «modelo principal de elección para las revisiones de PR».
  • Cognition(se abre en una ventana nueva) dijo que GPT‑5.1 es «notablemente mejor a la hora de entender lo que pides y de trabajar contigo para conseguirlo».
  • Factory(se abre en una ventana nueva) dijo: «GPT‑5.1 ofrece respuestas notablemente más rápidas y adapta su profundidad de razonamiento a la tarea, reduciendo la reflexión excesiva y mejorando la experiencia general del desarrollador».
  • Warp(se abre en una ventana nueva) estableció a GPT‑5.1 como el modelo predeterminado para los nuevos usuarios y afirma que «aprovecha las destacadas mejoras de inteligencia de la serie GPT‑5, al mismo tiempo que ofrece un rendimiento mucho más ágil».
«GPT‑5.1 no es solo otro LLM: es genuinamente <em>agentic</em>, el modelo más autónomo y natural que he probado hasta ahora». Escribe como tú, codifica como tú, sigue sin esfuerzo instrucciones complejas y sobresale en tareas de front-end, encajando perfectamente en tu base de código existente. Puedes aprovechar todo su potencial en la API de Respuestas, y estamos emocionados de ofrecerlo en nuestro IDE».
—Denis Shiryaev, director del ecosistema AI DevTools, JetBrains

Nuevas herramientas en GPT‑5.1

Presentamos dos nuevas herramientas con GPT‑5.1 para ayudar a los desarrolladores a aprovechar al máximo el modelo en la API de Respuestas: una herramienta apply_patchde uso libre, que permite realizar ediciones de código de manera más confiable sin necesidad de escapar JSON, y una herramienta de línea de comandos (shell) que permite al modelo ejecutar comandos directamente en tu máquina local.

Herramienta Apply_patch

La herramienta de formato libre apply_patch permite a GPT‑5.1 crear, actualizar y eliminar archivos en una base de código utilizando diferencias estructuradas. En lugar de solo sugerir ediciones, el modelo genera operaciones de parche que la aplicación aplica y sobre las que devuelve información, lo que permite flujos de trabajo iterativos de edición de código en varios pasos.

Para usar la herramienta apply_patch en la API de Respuestas, inclúyela en el arreglo de herramientas con "tools": [{"type": "apply_patch"}] y proporciona contenido de archivo en tus datos de entrada o permite que el modelo interactúe con tu sistema de archivos mediante otras herramientas. El modelo generará elementos apply_patch_call para crear, actualizar o eliminar archivos que contengan las diferencias que apliques en tu sistema de archivos. Para obtener más información sobre cómo integrar la herramienta apply_patch, consulta nuestra documentación para desarrolladores(se abre en una ventana nueva).

Herramienta de línea de comandos

La herramienta de línea de comandos permite que el modelo interactúe con un equipo local mediante una interfaz controlada. El modelo propone comandos que la integración del desarrollador ejecuta y devuelve junto con sus resultados. Esto crea un bucle simple de planificación y ejecución que permite al modelo inspeccionar el sistema, ejecutar utilidades y recopilar datos hasta completar la tarea.

Para usar la herramienta de línea de comandos (shell) en la API de Respuestas, los desarrolladores pueden incluirla en el arreglo de herramientas con "tools": [{“type”: “shell”}]. La API generará elementos "shell_call" que contienen los comandos de la herramienta de línea de comandos a ejecutar. Los desarrolladores ejecutan los comandos en el entorno local y devuelven los resultados de ejecución en el elemento "shell_call_output" en la siguiente solicitud de API. Obtén más información en nuestra documentación para desarrolladores(se abre en una ventana nueva).

Precios y disponibilidad

GPT‑5.1 y gpt-5.1-chat-latest están disponibles para los desarrolladores en todos los niveles de pago de la API. Los precios y límites de tarifas(se abre en una ventana nueva) son los mismos que los de GPT‑5. También estamos lanzando gpt-5.1-codex y gpt-5.1-codex-mini en la API. Aunque GPT‑5.1 sobresale en la mayoría de las tareas de codificación, los modelos gpt-5.1-codex están optimizados para tareas de codificación con agentes de larga duración en Codex o en entornos similares a Codex.

Los desarrolladores pueden empezar a programar usando nuestra documentación para desarrolladores de GPT‑5.1(se abre en una ventana nueva) y la guía de prompts de modelos(se abre en una ventana nueva). Por ahora, no planeamos descontinuar GPT‑5 en la API y avisaremos a los desarrolladores con antelación si llegamos a hacerlo.

Próximos pasos

Nos comprometemos a ofrecer de manera continua los modelos más capaces y confiables para tareas reales de agentes y codificación: modelos que piensan con eficiencia, iteran rápidamente y manejan tareas complejas sin interrumpir el flujo de trabajo del desarrollador. Con razonamiento adaptativo, un rendimiento de desarrollo más sólido, actualizaciones más claras para el usuario y nuevas herramientas como apply_patch y de línea de comandos, GPT‑5.1 está diseñado para que crees con menos fricción. Seguimos invirtiendo fuertemente en este campo, y pronto podrás acceder a modelos de agentes y de desarrollo de código aún más avanzados.

Anexo: evaluaciones de modelos

Evaluación

GPT‑5.1 (high)

GPT‑5 (high)

SWE-bench Verified
(los 500 problemas)

76,3 %

72,8 %

GPQA Diamond
(sin herramientas)

88,1 %

85,7 %

AIME 2025
(sin herramientas)

94,0 %

94,6 %

FrontierMath
(con la herramienta Python)

26,7 %

26,3 %

MMMU

85,4 %

84,2 %

Evaluación TAU 2 (aerolínea)

67,0 %

62,6 %

Evaluación TAU 2 (telecom)*

95,6 %

96,7 %

Evaluación TAU 2 (comercio)

77,9 %

81,1 %

BrowseComp Long Context 128 000

90,0 %

90,0 %

* Para la evaluación Tau2 (Telecom), le proporcionamos a GPT‑5.1 un prompt breve y de uso general para mejorar su rendimiento.

Autor

OpenAI