Presentamos GPT‑5.1 para desarrolladores
Hoy lanzamos GPT‑5.1 en la plataforma API, el siguiente modelo de la serie GPT‑5 que combina inteligencia y rapidez para una amplia gama de tareas de agentes y codificación. GPT‑5.1 ajusta automáticamente el tiempo que dedica a pensar según la complejidad de la tarea, lo que lo hace mucho más rápido y eficiente en el uso de tokens en tareas sencillas del día a día. Además, incluye un modo “sin razonamiento” para responder más rápido cuando se trate de tareas que no requieren un análisis profundo, sin perder la inteligencia de vanguardia de GPT‑5.1.
Para que GPT‑5.1 sea aún más eficiente, lanzamos un almacenamiento en caché extendido de prompts, que los retiene hasta 24 horas y permite respuestas más rápidas a preguntas de seguimiento a un costo menor. Los clientes que formen parte de nuestro servicio de Procesamiento prioritario(se abre en una nueva ventana) también notarán un rendimiento significativamente más rápido con GPT‑5.1 en comparación con GPT‑5.
En cuanto a codificación, hemos colaborado de cerca con startups como Cursor, Cognition, Augment Code, Factory y Warp para mejorar la personalidad de la codificación, la capacidad de orientación y la calidad del código de GPT‑5.1. En general, GPT‑5.1 es más intuitivo para programar y comunica mejor las actualizaciones al usuario mientras realiza las tareas.
Finalmente, presentamos dos nuevas herramientas con GPT‑5.1: una herramienta apply_patch diseñada para editar código de manera más confiable y una herramienta de línea de comandos (shell) que permite al modelo ejecutar comandos en tu computadora local.
GPT‑5.1 es el siguiente avance de la serie GPT‑5, y planeamos seguir invirtiendo en modelos más inteligentes y capaces para ayudar a los desarrolladores a crear flujos de trabajo confiables con agentes.
Para que GPT‑5.1 sea más rápido, rediseñamos la manera en que procesa la información. En tareas sencillas, GPT‑5.1 usa menos tokens, lo que permite experiencias más ágiles en el producto y reduce los costos de tokens. En tareas complejas que requieren mayor reflexión, GPT‑5.1 se mantiene persistente, evalúa opciones y verifica su trabajo para maximizar la fiabilidad.
Balyasny(se abre en una nueva ventana), una compañía de administración de activos, comentó que GPT‑5.1 "superó tanto a GPT‑4.1 como a GPT‑5 en nuestro conjunto completo de evaluaciones dinámicas y se ejecutó de 2 a 3 veces más rápido que GPT‑5". También mencionaron que, en sus tareas de razonamiento intensivas en herramientas, GPT‑5.1 “usaba de manera consistente aproximadamente la mitad de tokens que los principales competidores, manteniendo una calidad similar o superior”. De manera similar, la empresa de seguros de IA BPO Pace(se abre en una nueva ventana) también probó el modelo y afirmó que sus agentes "funcionan un 50 % más rápido con GPT‑5.1, superando la precisión de GPT‑5 y de otros modelos líderes en nuestras evaluaciones".
GPT‑5.1 varía su tiempo de procesamiento de manera más dinámica que GPT‑5. En una distribución representativa de tareas de ChatGPT, GPT‑5.1 es mucho más rápido en las tareas sencillas, incluso cuando requiere un gran esfuerzo de razonamiento.
Por ejemplo, cuando se le pregunta “muéstrame un comando npm para listar los paquetes instalados globalmente”, GPT‑5.1 responde en 2 segundos en lugar de 10.
GPT-5 (medio) procesa aproximadamente 250 tokens en aproximadamente 10 segundos
GPT-5.1 (medio) procesa aproximadamente 50 tokens en aproximadamente 2 segundos
Los desarrolladores ahora pueden usar GPT‑5.1 sin razonamiento cambiando la configuración de reasoning_effort a "none". Esto permite que el modelo se comporte como un modelo sin razonamiento para casos de uso sensibles a la latencia, conservando la alta inteligencia de GPT‑5.1 y con el beneficio adicional de llamadas a herramientas de alto rendimiento.En comparación con GPT‑5 con razonamiento “mínimo”, GPT‑5.1 sin razonamiento ofrece mejores resultados en llamadas a herramientas en paralelo (lo que aumenta la velocidad de finalización de tareas de extremo a extremo), tareas de codificación, seguimiento de instrucciones y uso de herramientas de búsqueda. Además, permite la búsqueda en la web(se abre en una nueva ventana) en nuestra plataforma API. Sierra(se abre en una nueva ventana) compartió que GPT‑5.1 en modo “sin razonamiento” mostró una “mejora del 20 % en el rendimiento de llamadas a herramientas de baja latencia en comparación con el razonamiento mínimo de GPT‑5” en sus evaluaciones del mundo real.
Con la incorporación de none como un valor de reasoning_effort, los desarrolladores ahora tienen más flexibilidad y control para equilibrar la velocidad, el costo y la inteligencia según su caso de uso. GPT‑5.1 usa none como valor predeterminado, lo que resulta ideal para cargas de trabajo sensibles a la latencia.Recomendamos elegir low o medium para tareas más complejas y high cuando la inteligencia y la fiabilidad sean más importantes que la velocidad.
El almacenamiento en caché extendido mejora la eficiencia del razonamiento al permitir que los mensajes permanezcan activos en la memoria caché hasta por 24 horas, en lugar de los pocos minutos que se admiten hoy. Con una ventana de retención más larga, más solicitudes de seguimiento pueden aprovechar el contexto almacenado, lo que reduce la latencia, disminuye los costos y ofrece un rendimiento más fluido en interacciones prolongadas, como chats de varios turnos, sesiones de codificación o flujos de trabajo de recuperación de conocimientos.
El precio del caché de prompts se mantiene sin cambios: los tokens de entrada en caché siguen siendo un 90 % más baratos que los tokens no almacenados en caché, y no hay cargos adicionales por escrituras ni por el propio almacenamiento en caché. Para usar el almacenamiento en caché extendido con GPT‑5.1, agrega el parámetro prompt_cache_retention="24h" en la API de Respuestas o la API de finalizaciones de chat. Consulta la documentación sobre el almacenamiento en caché de prompts(se abre en una nueva ventana) para más información.
GPT‑5.1 se basa en las capacidades de codificación de GPT‑5 e incluye una personalidad de codificación más flexible, menos "overthinking", calidad de código mejorada, mejores mensajes de actualización dirigidos al usuario (preámbulos) durante las secuencias de llamadas a herramientas y diseños de frontend más funcionales, especialmente cuando se utiliza un bajo (low) esfuerzo de razonamiento.
En tareas de codificación más simples, como ediciones rápidas de código, las velocidades más altas de GPT‑5.1 facilitan la iteración de ida y vuelta. Estas mejoras en tareas simples no afectan el rendimiento en tareas más complejas. En SWE-bench Verificado, GPT‑5.1 incluso supera a GPT‑5, alcanzando un 76.3 %.
En SWE-bench Verified, un modelo recibe un repositorio de código y una descripción del problema, y debe generar un parche para resolverlo. Las etiquetas indican el nivel de esfuerzo de razonamiento. La precisión se obtiene como promedio de 500 problemas. Todos los modelos usaron un arnés con la herramienta apply_patch basada en JSON.
Recibimos los primeros comentarios sobre GPT‑5.1 de algunas empresas de desarrollo de software. Aquí están sus impresiones:
- Augment Code(se abre en una nueva ventana) describió a GPT‑5.1 como “más preciso en sus decisiones, con menos acciones desperdiciadas, un razonamiento más eficiente y un mejor enfoque en las tareas”, y señaló que están observando “cambios más precisos, solicitudes de extracción más fluidas y una iteración más rápida en proyectos con múltiples archivos”.
- Cline(se abre en una nueva ventana) compartió que, en sus evaluaciones, “GPT‑5.1 alcanzó los mejores resultados en la prueba comparativa de edición de diferencias, con una mejora del 7 % y demostrando una confiabilidad excepcional en tareas de codificación complejas”.
- CodeRabbit(se abre en una nueva ventana) llamó a GPT‑5.1 "su modelo preferido para las revisiones de solicitudes de extracción (PR)".
- Cognition(se abre en una nueva ventana) dijo que GPT‑5.1 es “notablemente mejor para entender lo que pides y trabajar contigo para lograrlo”.
- Factory(se abre en una nueva ventana) dijo que “GPT‑5.1 ofrece respuestas significativamente más rápidas y ajusta la profundidad de su razonamiento según la tarea, evitando el pensamiento excesivo y mejorando la experiencia general del desarrollador”.
- Warp(se abre en una nueva ventana) estableció a GPT‑5.1 como el modelo predeterminado para los nuevos usuarios y afirma que “aprovecha las destacadas mejoras de inteligencia de la serie GPT‑5, al mismo tiempo que ofrece un rendimiento mucho más ágil”.
"GPT‑5.1 no es solo otro LLM: es genuinamente <em>agentic</em>, el modelo más autónomo y natural que he probado hasta ahora. Escribe como tú, programa como tú, sigue instrucciones complejas sin esfuerzo y destaca en tareas de front-end, integrándose perfectamente en tu base de código existente. Puedes aprovechar todo su potencial en la API de Respuestas, y estamos emocionados de ofrecerlo en nuestro IDE".
Presentamos dos nuevas herramientas con GPT‑5.1 para ayudar a los desarrolladores a aprovechar al máximo el modelo en la API de Respuestas: una herramienta apply_patchde uso libre, que permite realizar ediciones de código de manera más confiable sin necesidad de escapar JSON, y una herramienta de línea de comandos (shell) que permite al modelo ejecutar comandos directamente en tu máquina local.
La herramienta de formato libre apply_patch permite a GPT‑5.1 crear, actualizar y eliminar archivos en una base de código utilizando diferencias estructuradas. En lugar de solo sugerir ediciones, el modelo genera operaciones de parche que la aplicación aplica y sobre las que devuelve información, lo que permite flujos de trabajo iterativos de edición de código en varios pasos.
Para usar la herramienta apply_patch en la API de Respuestas, inclúyela en el arreglo de herramientas con "tools": [{"type": "apply_patch"}] y proporciona contenido de archivo en tus datos de entrada o permite que el modelo interactúe con tu sistema de archivos mediante otras herramientas. El modelo generará elementos apply_patch_call para crear, actualizar o eliminar archivos que contengan las diferencias que apliques en tu sistema de archivos. Para obtener más información sobre cómo integrar la herramienta apply_patch, consulta nuestra documentación para desarrolladores(se abre en una nueva ventana).
La herramienta de línea de comandos permite que el modelo interactúe con una computadora local mediante una interfaz controlada. El modelo propone comandos que la integración del desarrollador ejecuta y devuelve con sus resultados. Esto crea un bucle simple de planificación y ejecución que permite al modelo inspeccionar el sistema, ejecutar utilidades y recopilar datos hasta completar la tarea.
Para usar la herramienta de línea de comandos (shell) en la API de Respuestas, los desarrolladores pueden incluirla en el arreglo de herramientas con "tools": [{“type”: “shell”}]. La API generará elementos "shell_call" que contienen los comandos de la herramienta de línea de comandos a ejecutar. Los desarrolladores ejecutan los comandos en el entorno local y devuelven los resultados de ejecución en el elemento "shell_call_output" en la siguiente solicitud de API. Obtén más información en nuestra documentación para desarrolladores(se abre en una nueva ventana).
GPT‑5.1 y gpt-5.1-chat-latest están disponibles para desarrolladores en todos los niveles de pago de la API. Los precios y límites de tarifas(se abre en una nueva ventana) son los mismos que los de GPT‑5. También estamos lanzando gpt-5.1-codex y gpt-5.1-codex-mini en la API.Si bien GPT‑5.1 sobresale en la mayoría de las tareas de codificación, los modelos gpt-5.1-codex están optimizados para tareas de codificación con agentes de larga duración en Codex o en arneses similares a Codex.
Los desarrolladores pueden empezar a programar usando nuestra documentación para desarrolladores de GPT‑5.1(se abre en una nueva ventana) y la guía de prompts de modelos(se abre en una nueva ventana). Por ahora, no planeamos descontinuar GPT‑5 en la API y avisaremos a los desarrolladores con anticipación si llegamos a hacerlo.
Nos comprometemos a ofrecer de manera continua los modelos más capaces y confiables para tareas reales de agentes y codificación: modelos que piensan con eficiencia, iteran rápidamente y manejan tareas complejas sin interrumpir el flujo de trabajo del desarrollador. Con razonamiento adaptativo, un rendimiento de desarrollo más sólido, actualizaciones más claras para el usuario y nuevas herramientas como apply_patch y de línea de comandos, GPT‑5.1 está diseñado para que crees con menos fricción. Seguimos invirtiendo fuertemente en este campo, y pronto podrás acceder a modelos de agentes y de desarrollo de código aún más avanzados.
Evaluación | GPT‑5.1 (high) | GPT‑5 (high) |
SWE-bench Verified | 76.3 % | 72.8 % |
GPQA Diamond | 88.1 % | 85.7 % |
AIME 2025 | 94.0 % | 94.6 % |
FrontierMath | 26.7 % | 26.3 % |
MMMU | 85.4 % | 84.2 % |
Evaluación TAU 2 (aerolínea) | 67.0 % | 62.6 % |
Evaluación TAU 2 (telecom)* | 95.6 % | 96.7 % |
Evaluación TAU 2 (comercio) | 77.9 % | 81.1 % |
BrowseComp Long Context 128 000 | 90.0 % | 90.0 % |
* Para la evaluación Tau2 (telecom), le proporcionamos a GPT‑5.1 un prompt breve y de uso general para mejorar su rendimiento.


