Actualización del 24 de abril de 2026: GPT‑5.5 y GPT‑5.5 Pro ya están disponibles en la API. La tarjeta del sistema también se ha actualizado para describir las salvaguardas adicionales que se aplican.
Lanzamos GPT‑5.5, nuestro modelo más inteligente e intuitivo hasta ahora, y el siguiente paso hacia una nueva forma de trabajar en una computadora.
GPT‑5.5 entiende más rápido lo que intentas hacer y puede encargarse de una mayor parte del trabajo por sí mismo. Se destaca en escribir y depurar código, investigar en línea, analizar datos, crear documentos y hojas de cálculo, usar software y pasar de una herramienta a otra hasta terminar una tarea. En lugar de gestionar cuidadosamente cada paso, puedes darle a GPT‑5.5 una tarea desordenada y en varias partes y confiar en que planifique, use herramientas, revise su trabajo, navegue en medio de la ambigüedad y siga adelante.
Los avances son especialmente sólidos en la codificación agéntica, el uso de computadoras, el trabajo basado en el conocimiento y la investigación científica temprana: áreas en las que el progreso depende del razonamiento a través de distintos contextos y de la ejecución de acciones a lo largo del tiempo. GPT‑5.5 ofrece este salto en inteligencia sin comprometer la velocidad: los modelos más grandes y capaces suelen tardar más en responder, pero GPT‑5.5 iguala la latencia por token de GPT‑5.4 en uso real, a la vez que rinde a un nivel de inteligencia mucho más alto. Además. usa muchos menos tokens para completar las mismas tareas de Codex, lo que lo hace más eficiente y más capaz.
Estamos lanzando GPT‑5.5 con nuestro conjunto de protecciones más sólido hasta la fecha, diseñado para reducir el uso indebido y preservar el acceso para trabajos beneficiosos. Evaluamos este modelo en todo nuestro conjunto de marcos de seguridad y preparación, colaboramos con equipos internos y externos especializados, agregamos pruebas específicas para capacidades avanzadas de ciberseguridad y biología, y recopilamos comentarios sobre casos de uso reales de casi 200 socios de confianza con acceso anticipado antes del lanzamiento.
Hoy, GPT‑5.5 se lanza para los usuarios de Plus, Pro, Business y Enterprise en ChatGPT y Codex; además, GPT‑5.5 Pro se lanza para los usuarios de Pro, Business y Enterprise en ChatGPT. Las implementaciones de la API requieren diferentes medidas de protección; estamos trabajando estrechamente con socios y clientes en los requisitos de seguridad para ofrecerla a gran escala. Llevaremos GPT‑5.5 y GPT‑5.5 Pro a la API muy pronto.
GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro | |
Terminal-Bench 2.0 | 82.7 % | 75.1 % | - | - | 69,4 % | 68,5 % |
Expert-SWE (interno) | 73,1 % | 68,5 % | - | - | - | - |
GDPval (victorias o empates) | 84,9 % | 83.0 % | 82,3 % | 82.0 % | 80.3 % | 67,3 % |
OSWorld-Verified | 78,7 % | 75.0 % | - | - | 78,0 % | - |
Toolathlon | 55.6 % | 54.6 % | - | - | - | 48,8 % |
BrowseComp | 84,4 % | 82.7 % | 90,1 % | 89.3 % | 79.3 % | 85,9 % |
FrontierMath Niveles 1–3 | 51,7 % | 47.6 % | 52,4 % | 50.0 % | 43,8 % | 36,9 % |
FrontierMath Nivel 4 | 35,4 % | 27.1 % | 39,6 % | 38.0 % | 22,9 % | 16,7 % |
CyberGym | 81,8 % | 79,0 % | - | - | 73,1 % | - |
OpenAI está desarrollando la infraestructura global para la IA basada en agentes, haciendo posible que personas y empresas de todo el mundo trabajen con IA. En el último año, hemos visto cómo la IA ha acelerado drásticamente la ingeniería de software. Con GPT‑5.5 en Codex y ChatGPT, esa misma transformación está comenzando a extenderse a la investigación científica y a otras tareas que las personas realizan en computadoras.
En todos estos ámbitos, GPT‑5.5 no solo es más inteligente, sino también más eficiente a la hora de resolver problemas, y a menudo logra resultados de mayor calidad con menos tokens y menos intentos. En el Índice de codificación de Artificial Analysis, GPT‑5.5 ofrece inteligencia de vanguardia a la mitad del costo de los modelos de codificación de vanguardia de la competencia.
El Índice de inteligencia de Artificial Analysis(se abre en una nueva ventana) es un promedio ponderado de 10 evaluaciones realizadas por un tercero: AA-LCR, AA-Omniscience, CritPt, GDPval-AA, GPQA Diamond, Humanity’s Last Exam, IFBench, SciCode, Terminal-Bench Hard, τ²-Bench Telecom.
GPT‑5.5 es nuestro modelo de programación con agentes más potente hasta la fecha. En Terminal-Bench 2.0, que evalúa flujos de trabajo complejos de línea de comandos que requieren planificación, iteración y coordinación de herramientas, alcanza una precisión de última generación del 82,7 %. En SWE-Bench Pro, que evalúa la resolución de incidencias reales de GitHub, alcanza el 58,6 %, y resuelve más tareas de extremo a extremo en una sola ejecución que los modelos anteriores. En Expert-SWE, nuestra evaluación interna de vanguardia para tareas de programación a largo plazo con un tiempo estimado de finalización (mediana) de 20 horas para una persona, GPT‑5.5 también supera a GPT‑5.4.
En las tres evaluaciones, GPT‑5.5 mejora las puntuaciones de GPT‑5.4 mientras utiliza menos tokens.
Las fortalezas de programación del modelo se manifiestan con especial claridad en Codex, donde puede encargarse de tareas de ingeniería que van desde la implementación y la refactorización hasta la depuración, las pruebas y la validación. Las pruebas iniciales sugieren que GPT‑5.5 se desempeña mejor en los comportamientos esenciales para el trabajo de ingeniería real, como mantener el contexto en sistemas grandes, razonamiento ante fallas ambiguas, comprobar supuestos con herramientas y propagar cambios en el código base circundante.
La trayectoria representada utiliza datos vectoriales de NASA/JPL Horizons para Orión, la Luna y el Sol, con escalado de visualización aplicado para mejorar la legibilidad.
Prompt: [attached image] Implement this as a new app using webgl and vite using real data from the artemis II mission. Make sure to test the app thoroughly until it is fully functional and looks like the app in the picture. Pay close attention to the rendering of the planets and fly paths. I want to be able to interact with the 3D rendering. Ensure it has realistic orbital mechanics.
Más allá de las pruebas comparativas, quienes lo probaron al inicio dijeron que GPT‑5.5 muestra una mayor capacidad para entender la forma de un sistema: por qué algo falla, dónde debe quedar la corrección y qué otras partes de la base de código se verían afectadas.

“El primer modelo de programación que he usado que tiene una claridad conceptual realmente notable”.
Dan Shipper, fundador y CEO de Every, describió a GPT‑5.5 como “el primer modelo de programación que he usado que tiene una claridad conceptual notable”.
Después lanzar una aplicación, pasó días depurando un problema posterior al lanzamiento antes de recurrir a uno de sus mejores ingenieros para que reescribiera parte del sistema. Para probar GPT‑5.5, retrocedió efectivamente el reloj: ¿podía el modelo observar el estado defectuoso y producir el mismo tipo de reescritura por la que el ingeniero acabó decantándose? GPT‑5.4 no pudo. GPT‑5.5 sí pudo.

“Realmente se siente como si estuviera trabajando con una inteligencia superior, y casi hay una sensación de respeto”.
Pietro Schirano, CEO de MagicPath, observó un cambio similar cuando GPT‑5.5 fusionó una rama con cientos de cambios de frontend y refactorización en una rama principal que también había cambiado sustancialmente, resolviendo el trabajo de una sola vez en unos 20 minutos.
Ingenieros sénior que probaron el modelo dijeron que GPT‑5.5 era notablemente superior a GPT‑5.4 y Claude Opus 4.7 en razonamiento y autonomía, ya que detectaba problemas con anticipación y predecía las necesidades de pruebas y revisión sin instrucciones explícitas. En un caso, un ingeniero pidió que se rediseñara la arquitectura de un sistema de comentarios en un editor colaborativo de Markdown y, al regresar, encontró una pila de 12 diferencias que estaba casi completa. Otras personas mencionaron que, sorprendentemente, necesitaron poca corrección en la implementación y que confiaban más en los planes de GPT‑5.5 que en los de GPT‑5.4.
Un ingeniero de NVIDIA que tuvo acceso anticipado al modelo llegó a decir: “Perder el acceso a GPT‑5.5 se siente como si me hubieran amputado una extremidad”.
“GPT-5.5 es notablemente más inteligente y más persistente que GPT-5.4, con mejor desempeño en programación y un uso más confiable de herramientas. Se mantiene enfocado en la tarea durante mucho más tiempo sin detenerse antes de tiempo, algo especialmente importante para el trabajo complejo y de larga duración que nuestros usuarios delegan en Cursor”.
Las mismas fortalezas que hacen que GPT‑5.5 sea tan bueno para programar también lo hacen muy potente para el trabajo diario en la computadora. Dado que el modelo comprende mejor la intención, puede avanzar de manera más natural a través de todo el ciclo del trabajo del conocimiento: encontrar información, entender qué es importante, usar herramientas, verificar los resultados y transformar materia prima en algo útil.
En Codex, GPT‑5.5 es mejor que GPT‑5.4 para generar documentos, hojas de cálculo y presentaciones de diapositivas. Los evaluadores alfa dijeron que superó a modelos anteriores en tareas como investigación operativa, modelado de hojas de cálculo y convertir información empresarial desordenada en planes. Cuando se combina con las capacidades de uso de la computadora de Codex, GPT‑5.5 nos acerca más a la sensación de que el modelo realmente puede usar la computadora contigo: ver lo que hay en la pantalla, hacer clic, escribir, navegar por interfaces y pasar de una herramienta a otra con precisión.
Los equipos de OpenAI ya están utilizando estas fortalezas en flujos de trabajo reales. Hoy en día, más del 85 % de la empresa utiliza Codex cada semana en distintas funciones, incluidas ingeniería de software, finanzas, comunicaciones, marketing, ciencia de datos y gestión de productos. En comunicaciones, el equipo utilizó GPT‑5.5 en Codex para analizar seis meses de datos de solicitudes de charlas, crear un marco de puntuación y riesgo, y validar un agente automatizado de Slack para que las solicitudes de bajo riesgo se gestionaran automáticamente, mientras que las de mayor riesgo se derivaran a revisión humana. En Finanzas, el equipo utilizó Codex para revisar 24 771 formularios fiscales K-1 que sumaban 71 637 páginas, mediante un flujo de trabajo que excluía información personal y ayudó al equipo a completar la tarea dos semanas antes que el año anterior. En el equipo de go-to-market, un empleado automatizó la generación de informes comerciales semanales, ahorrando de 5 a 10 horas a la semana.
En ChatGPT, el razonamiento de GPT‑5.5 te ofrece ayuda más rápida para problemas más difíciles, con respuestas más inteligentes y concisas para ayudarte a avanzar en trabajos complejos con mayor eficiencia. Destaca en tareas profesionales como la programación, la investigación, la síntesis y el análisis de información, así como en tareas con gran carga documental, especialmente al usar complementos.
En GPT‑5.5 Pro, los primeros evaluadores están observando un avance significativo en la complejidad y calidad del trabajo que ChatGPT puede asumir, con mejoras en la latencia que lo hacen más práctico para tareas exigentes. En comparación con GPT‑5.4 Pro, los evaluadores encontraron que las respuestas de GPT‑5.5 Pro eran más completas, bien estructuradas, precisas, relevantes y útiles, con un desempeño sólido en negocios, derecho, educación y ciencia de datos.
GPT‑5.5 alcanza un desempeño de vanguardia en múltiples pruebas comparativas que reflejan este tipo de trabajo. En GDPval, que evalúa la capacidad de los agentes para producir trabajo especializado bien definido en 44 ocupaciones, GPT‑5.5 obtiene una puntuación de 84.9 %. En OSWorld-Verified, que mide si un modelo puede operar entornos informáticos reales de forma autónoma, alcanza el 78.7 %. Y en Tau2-bench Telecom, que pone a prueba flujos de trabajo complejos de atención al cliente, alcanza un 98.0 % sin ajuste de prompt. GPT‑5.5 también muestra un desempeño sólido en otras evaluaciones de trabajo intelectual: 60.0 % en FinanceAgent, 88.5 % en tareas internas de modelado de banca de inversión y 54.1 % en OfficeQA Pro.
Tau2-bench Telecom se ejecutó sin ajuste de prompt (y con GPT‑4.1 como modelo de usuario). GPT‑5.5 comprende mejor la intención de la tarea y es más eficiente en el uso de tokens que sus predecesores.
GPT-5.5 ofrece el rendimiento sostenido necesario para trabajos con alta carga de ejecución. Desarrollado y ejecutado en sistemas NVIDIA GB200 NVL72, el modelo permite a nuestros equipos lanzar funcionalidades de principio a fin a partir de prompts en lenguaje natural, reducir el tiempo de depuración de días a horas y convertir semanas de experimentación en avances de la noche a la mañana en bases de código complejas. Es más que programar más rápido: es una nueva forma de trabajar que permite a las personas operar a una velocidad fundamentalmente diferente.
GPT‑5.5 también presenta avances en los flujos de trabajo de investigación científica y técnica, que exigen más que responder una pregunta difícil. Los investigadores necesitan explorar una idea, recopilar evidencia, probar sus suposiciones, interpretar los resultados y decidir qué hacer después. GPT‑5.5 es mejor para persistir a lo largo de ese ciclo que otros modelos.
Cabe destacar que GPT‑5.5 muestra una mejora clara con respecto a GPT‑5.4 en GeneBench(se abre en una nueva ventana), una nueva evaluación centrada en el análisis científico de datos en múltiples etapas en genética y biología cuantitativa. Estos problemas requieren que los modelos razonen sobre datos potencialmente ambiguos o con errores con una supervisión mínima, afronten obstáculos realistas como factores de confusión ocultos o fallos de control de calidad, e implementen e interpreten correctamente los métodos estadísticos modernos. El rendimiento del modelo resulta sorprendente si tenemos en cuenta que estas tareas suelen corresponder a proyectos de varios días para los expertos científicos.
De manera similar, en BixBench(se abre en una nueva ventana), una evaluación comparativa diseñada en torno a la bioinformática y el análisis de datos del mundo real, GPT‑5.5 logró el mejor rendimiento entre los modelos con puntuaciones publicadas. Las capacidades científicas del modelo son ahora lo suficientemente sólidas como para acelerar de manera significativa el progreso en las fronteras de la investigación biomédica, actuando como un auténtico científico cooperador.
En otro ejemplo, una versión interna de GPT‑5.5 con un entorno personalizado ayudó a descubrir una nueva demostración(se abre en una nueva ventana) sobre los números de Ramsey, uno de los objetos centrales de la combinatoria. La combinatoria estudia cómo encajan los objetos discretos: gráficos, redes, conjuntos y patrones. Los números de Ramsey plantean, a grandes rasgos, cuán grande debe ser una red para que se garantice la aparición de algún tipo de orden. Los resultados en este ámbito son poco frecuentes y a menudo técnicamente difíciles. En este caso, GPT‑5.5 encontró una demostración de un hecho asintótico conocido desde hace tiempo sobre los números de Ramsey fuera de la diagonal, que se verificó posteriormente en Lean. El resultado es un ejemplo concreto de cómo GPT‑5.5 aporta no solo código o explicaciones, sino también un argumento matemático sorprendente y útil en un área de investigación fundamental.
Los primeros evaluadores usaron GPT‑5.5 Pro en ChatGPT menos como un motor de respuestas de un ejemplo y más como un compañero de investigación: criticando manuscritos en múltiples pasadas, poniendo a prueba argumentos técnicos, proponiendo análisis y trabajando con código, notas y el contexto de archivos PDF. El hilo conductor es que GPT‑5.5 ayuda mejor a los investigadores a pasar de la pregunta al experimento y a los resultados.
Derya Unutmaz, profesor e investigador en inmunología en el Jackson Laboratory for Genomic Medicine, utilizó GPT‑5.5 Pro para analizar un conjunto de datos de expresión génica con 62 muestras y casi 28 000 genes, lo que genera un informe de investigación detallado que no solo resumía los hallazgos, sino que también planteaba preguntas clave e ideas adicionales; un trabajo que, según afirmó, le habría tomado meses a su equipo.
Bartosz Naskręcki, profesor adjunto de matemáticas en la Universidad Adam Mickiewicz de Poznań, Polonia, utilizó GPT‑5.5 en Codex para desarrollar una aplicación de geometría algebraica a partir de un único prompt en 11 minutos, visualizando la intersección de superficies cuadráticas y transformando la curva resultante en un modelo de Weierstrass.
Más adelante, amplió la aplicación con una visualización más estable de singularidades y coeficientes exactos que pueden reutilizarse en trabajos futuros. Para él, el cambio más importante es que Codex ahora puede facilitar la implementación de flujos de trabajo personalizados para visualización matemática y álgebra computacional que antes requerían herramientas especializadas. En conjunto, estos ejemplos muestran cómo GPT‑5.5 transforma la intención de los expertos en herramientas funcionales de investigación y análisis.

Crédito: Bartosz Naskręcki(se abre en una nueva ventana)
Prompt: # Algebraic geometry surface intersection
Crea una aplicación que dibuje dos superficies cuadráticas y coloree de rojo la curva de intersección. Usa el teorema computacional de Riemann-Roch para convertir esto en una curva de Weierstrass.
## Ventana principal
Dos superficies teñidas con un sombreado ligeramente transparente, renderizado de alta calidad se intersectan a lo largo de una curva algebraica de color rojo
Rotación con dispositivos de mouse en ambas direcciones, mecanismo de pellizco completo para hacer zoom, pulsación háptica para mostrar el menú pequeño con controles deslizantes para ajustar los coeficientes de cada superficie; detección mediante el nivel del búfer Z
## Ventana derecha lateral
Ecuación corta de Weierstrass (sobre Q o una extensión cuadrática de cuerpos) calculada sobre la marcha mediante fórmulas efectivas del teorema de Riemann-Roch.
## Modo ambiente en el que todos los controles están ocultos y la persona usuaria puede admirar la belleza de las formas
## Especificaciones
La aplicación se ejecuta en el navegador, con una implementación ligera que utiliza las bibliotecas más recientes para toda la pila tecnológica, es portátil y fácil de implementar
## Documentos
Repositorio de Git, diario y plan (archivos en formato Markdown)
“Es increíblemente estimulante usar el nuevo modelo GPT-5.5 de OpenAI en nuestro entorno de pruebas, hacer que analice grandes volúmenes de datos bioquímicos para predecir los resultados de los fármacos en humanos y luego observar cómo ofrece mejoras significativas en la precisión en nuestras evaluaciones más exigentes de descubrimiento de fármacos. Si OpenAI sigue trabajando así, los fundamentos del descubrimiento de fármacos cambiarán de aquí a fin de año”.
Ofrecer GPT‑5.5 con la latencia de GPT‑5.4 requirió replantear la inferencia como un sistema integrado, no como un conjunto de optimizaciones aisladas. GPT‑5.5 fue co-diseñado, entrenado y desplegado en sistemas NVIDIA GB200 y GB300 NVL72. Codex y GPT‑5.5 fueron fundamentales para alcanzar nuestros objetivos de rendimiento. Codex ayudó al equipo a avanzar más rápido de la idea a una implementación susceptible de evaluación comparativa, esbozando enfoques, conectando experimentos y ayudando a identificar qué optimizaciones merecían una inversión más profunda. GPT‑5.5 ayudó a identificar e implementar mejoras clave en la propia pila. En pocas palabras, el modelo ayudó a mejorar la infraestructura que le da servicio.
Una de esas mejoras fue el balanceo de carga y las heurísticas de partición. Antes de GPT‑5.5, dividíamos las solicitudes en un acelerador en una cantidad fija de fragmentos para equilibrar la carga de trabajo entre los núcleos de cómputo, lo que asegura que tanto las solicitudes grandes como las pequeñas pudieran ejecutarse en la misma GPU. Sin embargo, una cantidad predeterminada de fragmentos estáticos no resulta óptima para todos los patrones de tráfico. Para aprovechar mejor las GPU, Codex analizó patrones de tráfico de producción durante varias semanas y desarrolló algoritmos heurísticos personalizados para particionar y equilibrar de manera óptima las cargas de trabajo. El esfuerzo tuvo un impacto desproporcionado, lo que aumenta las velocidades de generación de tokens en más de un 20 %.
Preparar al mundo para modelos que sean muy buenos detectando y corrigiendo vulnerabilidades de seguridad es un trabajo en equipo y requerirá que todo el ecosistema se esfuerce por desarrollar resiliencia, con un acceso democratizado a los modelos y una implementación iterativa para la próxima era de la ciberdefensa.
Los modelos de vanguardia son cada vez más capaces en ciberseguridad. Esas capacidades estarán ampliamente disponibles, y creemos que el mejor camino es asegurarnos de que se utilicen para acelerar la ciberdefensa y fortalecer el ecosistema.
GPT‑5.5 es un paso gradual pero importante hacia una IA capaz de resolver algunos de los retos más difíciles del mundo, como la ciberseguridad. Con GPT‑5.2 en diciembre, implementamos de forma proactiva las medidas de ciberseguridad necesarias para limitar el posible uso indebido de nuestros modelos; ahora, con GPT‑5.5, estamos implementando clasificadores más estrictos para los posibles riesgos cibernéticos, que a algunos usuarios pueden resultarles molestos al principio, ya que los vamos ajustando con el tiempo.
Llevamos años incluyendo la ciberseguridad como una categoría en nuestro marco de preparación(se abre en una nueva ventana), a medida que nuestros modelos han ido mejorando gradualmente, y desarrollamos y calibramos medidas de mitigación de forma iterativa para poder lanzar con responsabilidad modelos con capacidades significativas en ciberseguridad.
- Estamos implementando salvaguardas líderes en el sector para este nivel de capacidad cibernética. Introdujimos por primera vez salvaguardas específicas para la ciberseguridad con GPT‑5.2(se abre en una nueva ventana) el año pasado, y hemos seguido probándolas, perfeccionándolas y ampliándolas en implementaciones posteriores. Para GPT‑5.5, diseñamos controles más estrictos en torno a las actividades de mayor riesgo y las solicitudes cibernéticas sensibles, y añadimos protecciones adicionales frente al uso indebido reiterado. El acceso generalizado es posible gracias a nuestras inversiones en la seguridad de los modelos, el uso autenticado y la supervisión de usos no permitidos. Llevamos meses trabajando con expertos externos para desarrollar, probar y perfeccionar iterativamente la solidez de estas salvaguardas. Con GPT‑5.5, nos aseguramos de que los desarrolladores puedan proteger su código con facilidad, al tiempo que establecemos controles más estrictos en torno a los flujos de trabajo cibernéticos con mayor probabilidad de ser aprovechados por actores maliciosos para causar daños.
- Estamos ampliando el acceso para acelerar la ciberdefensa en todos los niveles. Estamos poniendo a disposición de los usuarios nuestros modelos cibernéticos permisivos a través de Trusted Access for Cyber, empezando por Codex, que incluye un acceso ampliado a las capacidades avanzadas de ciberseguridad de GPT‑5.5 con menos restricciones para los usuarios verificados que cumplan ciertos criterios de confianza(se abre en una nueva ventana) en el momento del lanzamiento. Las organizaciones responsables de defender infraestructuras críticas pueden solicitar acceso a modelos cibernéticos permisivos como GPT‑5.4‑Cyber, siempre que cumplan estrictos requisitos de seguridad para proteger sus sistemas internos. Con esto, una amplia gama de defensores verificados obtiene herramientas más eficaces para llevar a cabo un trabajo legítimo de seguridad con menos obstáculos innecesarios, a fin de garantizar la democratización del acceso a capacidades defensivas importantes. Los usuarios pueden solicitar acceso confiable en chatgpt.com/cyber(se abre en una nueva ventana) para reducir rechazos innecesarios al usar GPT‑5.5 para trabajos defensivos verificados.
- Estamos trabajando con socios gubernamentales para ayudar a proteger la infraestructura crítica para el público. Juntos, estamos explorando cómo la IA avanzada puede apoyar la labor defensiva de funcionarios de confianza responsables de sistemas de los que depende la gente, desde los sistemas digitales que protegen datos importantes de los contribuyentes hasta la red eléctrica y los suministros de agua de las comunidades locales.
Consideramos que las capacidades biológicas/químicas y de ciberseguridad de GPT‑5.5 son de nivel Alto según nuestro Marco de preparación(se abre en una nueva ventana). Si bien GPT‑5.5 no alcanzó el nivel Crítico de capacidad en ciberseguridad, nuestras evaluaciones y pruebas mostraron que sus capacidades de ciberseguridad representan un avance con respecto a GPT‑5.4.
Además, GPT‑5.5 pasó por nuestro proceso completo de seguridad y gobernanza antes de su lanzamiento, incluyendo evaluaciones de preparación, pruebas específicas por dominio, nuevas evaluaciones específicas para capacidades avanzadas de biología y ciberseguridad, y pruebas exhaustivas con expertos externos. Compartimos más detalles en la tarjeta del sistema de GPT‑5.5(se abre en una nueva ventana).
Este trabajo refleja nuestro enfoque más amplio sobre la resiliencia de la IA, que creemos que es necesario a medida que avanzan las capacidades de los modelos. Queremos que la IA poderosa esté disponible para las personas que la utilizan para defender sistemas, instituciones y al público. El camino viable es el acceso confiable, protecciones sólidas que se adapten al aumento de las capacidades y la capacidad operativa para detectar y responder al uso indebido grave.
Hoy, GPT‑5.5 se lanza para los usuarios de Plus, Pro, Business y Enterprise en ChatGPT y Codex; además, GPT‑5.5 Pro se lanza para los usuarios de Pro, Business y Enterprise en ChatGPT. Llevaremos GPT‑5.5 y GPT‑5.5 Pro a la API muy pronto.
En ChatGPT, el razonamiento de GPT‑5.5 está disponible para los usuarios de Plus, Pro, Business y Enterprise. GPT‑5.5 Pro, diseñado para preguntas aún más difíciles y trabajos de mayor precisión, está disponible para los usuarios de Pro, Business y Enterprise.
En Codex, GPT‑5.5 está disponible para los planes Plus, Pro, Business, Enterprise, Edu y Go con una ventana de contexto de 400 mil. GPT‑5.5 también está disponible en modo rápido, genera token 1,5 veces más rápido por 2,5 veces el costo.
Para los desarrolladores de API, gpt-5.5 estará disponible próximamente en las API de respuestas y para completar chats a USD 5 por cada millón de tokens de entrada y USD 30 por cada millón de tokens de salida, con una ventana de contexto de 1 millón. Los precios de Batch y Flex están disponibles a la mitad de la tarifa estándar de la API, mientras que el procesamiento prioritario está disponible a 2.5 veces la tarifa estándar. También lanzaremos gpt-5.5-pro en la API con una precisión aún mayor, a un precio de USD 30 por cada millón de tokens de entrada y USD 180 por cada millón de tokens de salida. Consulta la página de precios para conocer todos los detalles.
Si bien GPT‑5.5 tiene un precio más alto que GPT‑5.4, es a la vez más inteligente y mucho más eficiente en el uso de tokens. En Codex, hemos ajustado cuidadosamente la experiencia para que GPT‑5.5 ofrezca mejores resultados con menos tokens que GPT‑5.4 para la mayoría de los usuarios, sin dejar de ofrecer un uso amplio en todos los niveles de suscripción.
Programación
Eval | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
SWE-Bench Pro (público) * | 58,6 % | 57.7 % | - | - | 64.3 % | 54,2 % |
Terminal-Bench 2.0 | 82.7 % | 75.1 % | - | - | 69,4 % | 68,5 % |
Expert-SWE (interno) | 73,1 % | 68,5 % | - | - | - | - |
*Los laboratorios han observado indicios de memorización(se abre en una nueva ventana) en esta evaluación
Profesional
Eval | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
GDPval (victorias o empates) | 84,9 % | 83.0 % | 82,3 % | 82.0 % | 80.3 % | 67,3 % |
FinanceAgent v1.1 | 60,0 % | 56.0 % | - | 61.5 % | 64,4 % | 59,7 % |
Tareas de modelado de banca de inversión (Internas) | 88,5 % | 87.3 % | 88,6 % | 83.6 % | - | - |
OfficeQA Pro | 54,1 % | 53,2 % | - | - | 43.6 % | 18,1 % |
Uso de la computadora y visión
Eval | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
OSWorld-Verified | 78,7 % | 75.0 % | - | - | 78,0 % | - |
MMMU Pro (sin herramientas) | 81.2 % | 81.2 % | - | - | - | 80,5 % |
MMMU Pro (con herramientas) | 83,2 % | 82.1 % | - | - | - | - |
Uso de herramientas
Eval | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
BrowseComp | 84,4 % | 82.7 % | 90,1 % | 89.3 % | 79.3 % | 85,9 % |
MCP Atlas** | 75,3 % | 70,6 % | - | - | 79,1 % | 78,2 % |
Toolathlon | 55.6 % | 54.6 % | - | - | - | 48,8 % |
Tau2-bench Telecom*** | 98,0 % | 92.8 % | - | - | - | - |
** MCP Atlas: resultados de Scale AI tras la última actualización de abril de 2026.
*** Tau2-bench telecom: resultados de 5,5 y 5,4 con prompts originales, es decir, sin ajustes de prompt. Esto omite resultados de otros laboratorios que se evaluaron con ajustes de prompt.
Académico
Eval | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
GeneBench | 25,0 % | 19,0 % | 33,2 % | 25,6 % | - | - |
FrontierMath Niveles 1–3 | 51,7 % | 47.6 % | 52,4 % | 50.0 % | 43,8 % | 36,9 % |
FrontierMath Nivel 4 | 35,4 % | 27.1 % | 39,6 % | 38.0 % | 22,9 % | 16,7 % |
BixBench | 80,5 % | 74.0% | - | - | - | - |
GPQA Diamond | 93,6 % | 92.8 % | - | 94.4 % | 94,2 % | 94,3 % |
Humanity's Last Exam (sin herramientas) | 41,4 % | 39.8 % | 43,1 % | 42.7 % | 46,9 % | 44,4 % |
Humanity's Last Exam (con herramientas) | 52,2 % | 52.1 % | 57.2 % | 58.7 % | 54,7 % | 51,4 % |
Ciberseguridad
Eval | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
Tareas de desafíos Capture the Flag (interno)**** | 88.1 % | 83,7 % | - | - | - | - |
CyberGym | 81,8 % | 79,0 % | - | - | 73,1 % | - |
**** Una ampliación de los CTF más difíciles utilizados en tarjetas del sistema con desafíos adicionales.
Contexto largo
Eval | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
Graphwalks BFS 256 mil f1 | 73.7 % | 62,5 % | - | - | 76,9 % | - |
Graphwalks BFS 1 millón f1 | 45,4 % | 9,4 % | - | - | 41,2 % (Opus 4.6) | - |
Graphwalks padres 256 mil f1 | 90,1 % | 82,8 % | - | - | 93,6 % | - |
Graphwalks padres 1 millón f1 | 58,5 % | 44,4 % | - | - | 72,0 % (Opus 4.6) | - |
OpenAI MRCR v2 8-agujas 4 mil-8 mil | 98,1 % | 97.3 % | - | - | - | - |
OpenAI MRCR v2 8-agujas 8 mil-16 mil | 93.0 % | 91.4 % | - | - | - | - |
OpenAI MRCR v2 8-agujas 16 mil-32 mil | 96,5 % | 97.2 % | - | - | - | - |
OpenAI MRCR v2 8-agujas 32 mil-64 mil | 90.0 % | 90.5 % | - | - | - | - |
OpenAI MRCR v2 8-agujas 64 mil-128 mil | 83,1 % | 86.0 % | - | - | - | - |
OpenAI MRCR v2 8-agujas 128 mil-256 mil | 87,5 % | 79.3 % | - | - | 59,2 % | - |
OpenAI MRCR v2 8-agujas 256 mil-512 mil | 81,5 % | 57.5 % | - | - | - | - |
OpenAI MRCR v2 8-agujas 512 mil-1 millón | 74.0% | 36.6 % | - | - | 32.2 % | - |
Razonamiento abstracto
Eval | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
ARC-IAG-1 (Verificado) | 95,0 % | 93.7 % | - | 94.5% | 93,5 % | 98,0 % |
ARC-IAG-2 (Verificado) | 85,0 % | 73.3 % | - | 83.3 % | 75,8 % | 77,1 % |
Las evaluaciones de GPT se ejecutaron con el esfuerzo de razonamiento configurado en xhigh y se realizaron en un entorno de investigación, por lo que en algunos casos los resultados pueden diferir ligeramente de los que se obtienen en ChatGPT en producción.








