Actualización del 24 de abril de 2026: GPT‑5.5 y GPT‑5.5 Pro ya están disponibles en la API. La tarjeta del sistema también se ha actualizado para describir las salvaguardas adicionales que se aplican.
Lanzamos GPT‑5.5, nuestro modelo más inteligente y más intuitivo hasta la fecha, y el siguiente paso hacia una nueva forma de trabajar con el ordenador.
GPT‑5.5 entiende más rápido lo que intentas hacer y puede encargarse por sí solo de una mayor parte del trabajo. Destaca en escribir y depurar código, investigar en línea, analizar datos, crear documentos y hojas de cálculo, manejar software y moverse entre herramientas hasta completar una tarea. En lugar de gestionar cuidadosamente cada paso, puedes darle a GPT‑5.5 una tarea desordenada y con varias partes, y confiar en que planificará, usará herramientas, comprobará su trabajo, se desenvolverá en la ambigüedad y seguirá adelante.
Las mejoras son especialmente notables en la programación agéntica, el uso del ordenador, el trabajo intelectual y la investigación científica inicial —ámbitos en los que el progreso depende de razonar en contexto y actuar a lo largo del tiempo—. GPT‑5.5 ofrece este salto en inteligencia sin sacrificar la velocidad: los modelos más grandes y capaces suelen servirse con mayor lentitud, pero GPT‑5.5 iguala la latencia por token de GPT‑5.4 en condiciones reales de servicio, al tiempo que rinde a un nivel de inteligencia mucho mayor. Además, utiliza muchos menos tokens para completar las mismas tareas de Codex, lo que lo hace más eficiente y también más capaz.
Lanzamos GPT‑5.5 con nuestro conjunto de salvaguardas más sólido hasta la fecha, diseñado para reducir el uso indebido sin dejar de preservar el acceso para usos beneficiosos. Evaluamos este modelo en todo nuestro conjunto de marcos de seguridad y preparación, trabajamos con miembros del equipo rojo internos y externos, añadimos pruebas específicas para capacidades avanzadas de ciberseguridad y biología y recopilamos comentarios sobre casos de uso reales de casi 200 socios de confianza con acceso anticipado antes del lanzamiento.
A partir de hoy, GPT‑5.5 se está implementando para los usuarios de Plus, Pro, Business y Enterprise en ChatGPT y Codex, y GPT‑5.5 Pro se está implementando para los usuarios de Pro, Business y Enterprise en ChatGPT. Las implementaciones en la API requieren salvaguardas diferentes y estamos colaborando estrechamente con socios y clientes en los requisitos de protección y seguridad para ofrecerla a gran escala. Muy pronto llevaremos GPT‑5.5 y GPT‑5.5 Pro a la API.
GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro | |
Terminal-Bench 2.0 | 82,7 % | 75,1 % | - | - | 69,4 % | 68,5 % |
Expert-SWE (interno) | 73,1 % | 68,5 % | - | - | - | - |
GDPval (victorias o empates) | 84,9 % | 83,0 % | 82,3 % | 82,0 % | 80,3 % | 67,3 % |
OSWorld-Verified | 78,7 % | 75,0 % | - | - | 78,0 % | - |
Toolathlon | 55,6 % | 54,6 % | - | - | - | 48,8 % |
BrowseComp | 84,4 % | 82,7 % | 90,1 % | 89,3 % | 79,3 % | 85,9 % |
FrontierMath Niveles 1–3 | 51,7 % | 47,6 % | 52,4 % | 50,0 % | 43,8 % | 36,9 % |
FrontierMath Nivel 4 | 35,4 % | 27,1 % | 39,6 % | 38,0 % | 22,9 % | 16,7 % |
CyberGym | 81,8 % | 79,0 % | - | - | 73,1 % | - |
OpenAI está construyendo la infraestructura global para la IA agéntica, lo que permite a personas y empresas de todo el mundo trabajar con IA. Durante el último año, hemos visto cómo la IA ha acelerado drásticamente la ingeniería de software. Con GPT‑5.5 en Codex y ChatGPT, esa misma transformación está empezando a extenderse a la investigación científica y al trabajo más amplio que las personas hacen en el ordenador.
En todos estos ámbitos, GPT‑5.5 no solo es más inteligente, sino que también es más eficiente a la hora de resolver problemas, y a menudo logra resultados de mayor calidad con menos tokens y menos intentos. En el Índice de codificación de Artificial Analysis, GPT‑5.5 ofrece inteligencia de vanguardia a la mitad del coste de los modelos de codificación de vanguardia de la competencia.
El Índice de inteligencia de Artificial Analysis(se abre en una ventana nueva) es una media ponderada de 10 evaluaciones realizadas por un tercero: AA-LCR, AA-Omniscience, CritPt, GDPval-AA, GPQA Diamond, Humanity's Last Exam, IFBench, SciCode, Terminal-Bench Hard, τ²-Bench Telecom.
GPT‑5.5 es nuestro modelo de programación agéntica más potente hasta la fecha. En Terminal-Bench 2.0, que pone a prueba flujos de trabajo complejos de línea de comandos que requieren planificación, iteración y coordinación de herramientas, alcanza una precisión de vanguardia del 82,7 %. En SWE-Bench Pro, que evalúa la resolución de incidencias reales en GitHub, alcanza el 58,6 % y resuelve más tareas de principio a fin en una sola pasada que los modelos anteriores. En Expert-SWE, nuestra evaluación interna de vanguardia para tareas de programación a largo plazo con un tiempo medio estimado de finalización por parte de un humano de 20 horas, GPT‑5.5 también supera a GPT‑5.4.
En las tres evaluaciones, GPT‑5.5 mejora las puntuaciones de GPT‑5.4 utilizando menos tokens.
Las capacidades de programación del modelo se manifiestan con especial claridad en Codex, donde puede encargarse de tareas de ingeniería que van desde la implementación y la refactorización hasta la depuración, las pruebas y la validación. Las primeras pruebas sugieren que GPT‑5.5 es mejor en los comportamientos de los que depende el trabajo de ingeniería real, como mantener el contexto en sistemas grandes, razonar ante fallos ambiguos, verificar supuestos con herramientas y propagar los cambios por el código circundante.
La trayectoria representada utiliza datos vectoriales de NASA/JPL Horizons para Orión, la Luna y el Sol, con un ajuste de escala aplicado para mejorar la legibilidad.
Prompt: [imagen adjunta] Implementa esto como una nueva aplicación usando WebGL y Vite con datos reales de la misión Artemis II. Asegúrate de probar la aplicación a fondo hasta que funcione perfectamente y se vea igual que la de la imagen. Presta mucha atención a la representación de los planetas y las trayectorias de vuelo. Quiero poder interactuar con el renderizado 3D. Asegúrate de que tenga una mecánica orbital realista.
Más allá de las pruebas comparativas, los primeros evaluadores afirmaron que GPT‑5.5 muestra una mayor capacidad para comprender la estructura de un sistema: por qué falla algo, dónde hay que aplicar la corrección y qué otras partes del código se verían afectadas.

«El primer modelo de programación que he usado que tiene una claridad conceptual notable».
Dan Shipper, fundador y director ejecutivo de Every, describió GPT‑5.5 como «el primer modelo de programación que he usado que tiene una notable claridad conceptual».
Tras lanzar una aplicación, pasó días depurando un problema posterior al lanzamiento antes de recurrir a uno de sus mejores ingenieros para que reescribiera parte del sistema. Para probar GPT‑5.5, retrocedió efectivamente el reloj: ¿podía el modelo observar el estado defectuoso y producir el mismo tipo de reescritura por la que el ingeniero acabó decantándose? GPT‑5.4 no pudo. GPT‑5.5 sí pudo.

«Realmente se siente como si estuviera trabajando con una inteligencia superior, y casi se percibe una sensación de respeto».
Pietro Schirano, director ejecutivo de MagicPath, vio un salto similar cuando GPT‑5.5 fusionó una rama con cientos de cambios de frontend y de refactorización en una rama principal que también había cambiado sustancialmente y resolvió el trabajo de una sola vez en unos 20 minutos.
Los ingenieros sénior que probaron el modelo afirmaron que GPT‑5.5 era notablemente más potente que GPT‑5.4 y Claude Opus 4.7 en cuanto a razonamiento y autonomía, y que detectaba problemas con antelación y predecía las necesidades de pruebas y revisión sin que nadie se lo pidiera explícitamente. En un caso, un ingeniero le pidió que rediseñara un sistema de comentarios en un editor colaborativo de Markdown y, al volver, se encontró con una pila de 12 cambios (diffs) casi terminada. Otros comentaron que necesitaron sorprendentemente pocas correcciones en la implementación y se sintieron más seguros con los planes de GPT‑5.5 en comparación con GPT‑5.4.
Un ingeniero de NVIDIA que tuvo acceso anticipado al modelo llegó a decir: «Perder el acceso a GPT‑5.5 es como si me hubieran amputado una extremidad».
«GPT-5.5 es notablemente más inteligente y más persistente que GPT-5.4, con un mejor rendimiento en programación y un uso más fiable de las herramientas. Mantiene el rumbo durante bastante más tiempo sin detenerse antes de tiempo, lo que es especialmente importante para el trabajo complejo y de larga duración que nuestros usuarios delegan en Cursor».
Las mismas fortalezas que hacen que GPT‑5.5 sea excelente para programar también lo convierten en una herramienta poderosa para el trabajo diario en el ordenador. Como el modelo comprende mejor la intención, puede moverse con mayor naturalidad por todo el ciclo del trabajo intelectual: buscar información, entender lo que importa, utilizar herramientas, verificar los resultados y convertir la materia prima en algo útil.
En Codex, GPT‑5.5 es mejor que GPT‑5.4 a la hora de generar documentos, hojas de cálculo y presentaciones de diapositivas. Los evaluadores alfa afirmaron que superaba a los modelos anteriores en tareas como la investigación operativa, la modelización en hojas de cálculo y la conversión de datos empresariales desordenados en planes. Cuando se combinan con las capacidades de uso del ordenador de Codex, GPT‑5.5 nos acerca más a la sensación de que el modelo realmente puede usar el ordenador contigo: ver lo que hay en pantalla, hacer clic, escribir, navegar por las interfaces y moverse entre herramientas con precisión.
Los equipos de OpenAI ya están utilizando estas fortalezas en flujos de trabajo reales. Hoy en día, más del 85 % de la empresa utiliza Codex cada semana en áreas como ingeniería de software, finanzas, comunicación, marketing, ciencia de datos y gestión de productos. En Comunicación, el equipo utilizó GPT‑5.5 en Codex para analizar datos de seis meses de solicitudes de ponencias, crear un marco de puntuación y riesgo y validar un agente automatizado de Slack para que las solicitudes de bajo riesgo se pudieran gestionar automáticamente, mientras que las de mayor riesgo se derivaran a revisión humana. En Finanzas, el equipo utilizó Codex para revisar 24 771 formularios fiscales K-1 que sumaban 71 637 páginas, mediante un flujo de trabajo que excluía la información personal y ayudó al equipo a completar la tarea dos semanas antes que el año anterior. En el equipo de Go-to-Market, un empleado automatizó la generación de informes empresariales semanales, con lo que ahorró entre 5 y 10 horas a la semana.
En ChatGPT, GPT‑5.5 Thinking ofrece ayuda más rápida para problemas difíciles, con respuestas más inteligentes y concisas que te ayudan a avanzar en tareas complejas de forma más eficiente. Destaca en tareas profesionales como la programación, la investigación, la síntesis y el análisis de información, y las tareas con gran volumen de documentos, especialmente cuando se utilizan complementos.
En GPT‑5.5 Pro, los primeros evaluadores están observando un salto significativo tanto en la dificultad como en la calidad del trabajo que ChatGPT puede asumir, con mejoras en la latencia que lo hacen mucho más práctico para tareas exigentes. En comparación con GPT‑5.4 Pro, los evaluadores consideraron que las respuestas de GPT‑5.5 Pro eran significativamente más completas, mejor estructuradas, precisas, pertinentes y útiles, con un rendimiento especialmente sólido en los ámbitos empresarial, jurídico, educativo y de ciencia de datos.
GPT‑5.5 alcanza un desempeño de vanguardia en múltiples pruebas comparativas que reflejan este tipo de trabajo. En GDPval, que evalúa la capacidad de los agentes para producir trabajo especializado bien definido en 44 ocupaciones, GPT‑5.5 obtiene una puntuación del 84,9 %. En OSWorld-Verified, que mide si un modelo puede operar entornos informáticos reales de forma autónoma, alcanza el 78,7 %. Y en Tau2-bench Telecom, que pone a prueba flujos de trabajo complejos de atención al cliente, alcanza el 98,0 % sin ajustes de prompts. GPT‑5.5 también muestra un desempeño sólido en otras evaluaciones de trabajo intelectual: 60,0 % en FinanceAgent, 88,5 % en tareas internas de modelado de banca de inversión y 54,1 % en OfficeQA Pro.
Tau2-bench Telecom se ejecutó sin ajuste del prompt (y con GPT‑4.1 como modelo de usuario). GPT‑5.5 comprende mejor la intención de la tarea y es más eficiente en el uso de tokens que sus predecesores.
«GPT-5.5 ofrece el rendimiento sostenido que requieren los trabajos con una alta carga de ejecución. Desarrollado y ejecutado en sistemas NVIDIA GB200 NVL72, el modelo permite a nuestros equipos lanzar funcionalidades integrales a partir de prompts en lenguaje natural, reducir el tiempo de depuración de días a horas y convertir semanas de experimentación en avances de la noche a la mañana en bases de código complejas. Va más allá de programar más rápido: es una nueva forma de trabajar que ayuda a la gente a desenvolverse a una velocidad radicalmente distinta».
GPT‑5.5 también muestra avances en los flujos de trabajo de investigación científica y técnica, que requieren algo más que responder a una pregunta difícil. Los investigadores necesitan explorar una idea, recopilar pruebas, comprobar hipótesis, interpretar resultados y decidir qué probar a continuación. GPT‑5.5 se mantiene mejor que otros modelos a lo largo de ese ciclo.
Cabe destacar que GPT‑5.5 muestra una mejora clara con respecto a GPT‑5.4 en GeneBench(se abre en una ventana nueva), una nueva evaluación centrada en el análisis científico de datos en múltiples etapas en genética y biología cuantitativa. Estos problemas requieren que los modelos razonen sobre datos potencialmente ambiguos o con errores con una supervisión mínima, afronten obstáculos realistas como factores de confusión ocultos o fallos de control de calidad, e implementen e interpreten correctamente los métodos estadísticos modernos. El rendimiento del modelo resulta sorprendente si tenemos en cuenta que estas tareas suelen corresponder a proyectos de varios días para los expertos científicos.
Del mismo modo, en BixBench(se abre en una ventana nueva), una evaluación comparativa diseñada en torno a la bioinformática y el análisis de datos del mundo real, GPT‑5.5 logró el mejor rendimiento entre los modelos con puntuaciones publicadas. Las capacidades científicas del modelo son ahora lo suficientemente sólidas como para acelerar de manera significativa el progreso en las fronteras de la investigación biomédica, actuando como un auténtico científico cooperador.
En otro ejemplo, una versión interna de GPT‑5.5 con un entorno personalizado ayudó a descubrir una nueva demostración(se abre en una ventana nueva) sobre los números de Ramsey, uno de los objetos centrales de la combinatoria. La combinatoria estudia cómo encajan los objetos discretos: grafos, redes, conjuntos y patrones. Los números de Ramsey plantean, a grandes rasgos, cuán grande debe ser una red para que se garantice la aparición de algún tipo de orden. Los resultados en este ámbito son poco frecuentes y a menudo técnicamente difíciles. En este caso, GPT‑5.5 encontró una demostración de un hecho asintótico conocido desde hace tiempo sobre los números de Ramsey fuera de la diagonal, que se verificó posteriormente en Lean. El resultado es un ejemplo concreto de cómo GPT‑5.5 aporta no solo código o explicaciones, sino también un argumento matemático sorprendente y útil en un área de investigación fundamental.
Los primeros evaluadores utilizaron GPT‑5.5 Pro en ChatGPT menos como un motor de respuestas de un ejemplo y más como un compañero de investigación: revisaron manuscritos en varias pasadas, sometieron argumentos técnicos a pruebas de estrés, propusieron análisis y trabajaron con código, notas y contexto en PDF. El hilo conductor es que GPT‑5.5 es mejor a la hora de ayudar a los investigadores a pasar de la pregunta al experimento y de ahí a los resultados.
Derya Unutmaz, profesor de inmunología e investigador en el Jackson Laboratory for Genomic Medicine, utilizó GPT‑5.5 Pro para analizar un conjunto de datos de expresión génica con 62 muestras y casi 28 000 genes, y elaboró un informe de investigación detallado que no solo resumía los hallazgos, sino que también planteaba preguntas clave y aportaba conclusiones reveladoras; un trabajo que, según él, le habría llevado meses a su equipo.
Bartosz Naskręcki, profesor adjunto de matemáticas en la Universidad Adam Mickiewicz de Poznań (Polonia), utilizó GPT‑5.5 en Codex para crear una aplicación de geometría algebraica a partir de un único prompt en 11 minutos, visualizando la intersección de superficies cuadráticas y convirtiendo la curva resultante en un modelo de Weierstrass.
Más adelante, amplió la aplicación con una visualización de singularidades más estable y coeficientes exactos que pueden reutilizarse en trabajos posteriores. Para él, el cambio más importante es que Codex ahora puede ayudar a implementar flujos de trabajo personalizados de visualización matemática y álgebra computacional que antes requerían herramientas específicas. En conjunto, estos ejemplos muestran cómo GPT‑5.5 convierte la intención de los expertos en herramientas y análisis de investigación funcionales.

Créditos: Bartosz Naskręcki(se abre en una ventana nueva)
Prompt: # Intersección de superficies en geometría algebraica
Crea una aplicación que dibuje dos superficies cuadráticas y coloree de rojo la curva de intersección. Usa el teorema computacional de Riemann-Roch para convertir esto en una curva de Weierstrass.
## Ventana principal
Dos superficies tintadas con un sombreado ligeramente transparente y un renderizado de alta calidad se cruzan a lo largo de una curva algebraica de color rojo
Rotación con el ratón en ambas direcciones, mecanismo de pellizco completo para el zoom, pulsación háptica para mostrar el pequeño menú con controles deslizantes para cambiar los coeficientes de cada superficie; detección mediante el nivel del búfer Z
## Ventana lateral derecha
Ecuación corta de Weierstrass (sobre Q o una extensión cuadrática de cuerpos) calculada sobre la marcha mediante fórmulas efectivas del teorema de Riemann-Roch
## Modo ambiente en el que se ocultan todos los controles y el usuario puede admirar la belleza de las formas
## Especificaciones
La aplicación se ejecuta en el navegador; implementación ligera con las bibliotecas full stack más recientes; portátil y lista para implementar
## Documentación
Repositorio Git, diario, plan (archivos Markdown)
«Es increíblemente estimulante usar el nuevo modelo GPT-5.5 de OpenAI en nuestro sistema, hacer que razone sobre enormes conjuntos de datos bioquímicos para predecir los resultados de fármacos en humanos y, después, ver cómo aporta mejoras notables de precisión en nuestras evaluaciones de descubrimiento de fármacos más difíciles. Si OpenAI sigue así, los cimientos del descubrimiento de fármacos habrán cambiado a finales de año».
Ofrecer GPT‑5.5 con la latencia de GPT‑5.4 exigió replantear la inferencia como un sistema integrado, no como un conjunto de optimizaciones aisladas. GPT‑5.5 se codiseñó para los sistemas NVIDIA GB200 y GB300 NVL72, se entrenó con ellos y se ejecutó en ellos. Codex y GPT‑5.5 fueron fundamentales para alcanzar nuestros objetivos de rendimiento. Codex ayudó al equipo a avanzar más rápido de la idea a una implementación evaluable mediante pruebas de referencia: esbozó enfoques, configuró experimentos y ayudó a identificar qué optimizaciones merecían una mayor inversión. GPT‑5.5 ayudó a encontrar e implementar mejoras clave en la propia pila. En pocas palabras, el modelo ayudó a mejorar la infraestructura que le da servicio.
Una de esas mejoras fue el equilibrio de carga y las heurísticas de partición. Antes de GPT‑5.5, dividíamos las solicitudes en un acelerador en un número fijo de fragmentos para repartir el trabajo entre los núcleos de computación, lo que garantizaba que las solicitudes grandes y pequeñas pudieran ejecutarse en la misma GPU. Sin embargo, un número predeterminado de fragmentos estáticos no es óptimo para todos los patrones de tráfico. Para aprovechar mejor las GPU, Codex analizó varias semanas de patrones de tráfico de producción y escribió algoritmos heurísticos personalizados para particionar y equilibrar la carga de trabajo de forma óptima. El esfuerzo tuvo un impacto enorme y aumentó la velocidad de generación de tokens en más de un 20 %.
Preparar al mundo para modelos que sean muy buenos detectando y corrigiendo vulnerabilidades de seguridad es un trabajo en equipo y requerirá que todo el ecosistema se esfuerce por desarrollar resiliencia, con un acceso democratizado a los modelos y una implementación iterativa para la próxima era de la ciberdefensa.
Los modelos de vanguardia son cada vez más capaces en ciberseguridad. Esas capacidades pasarán a estar ampliamente distribuidas y creemos que la mejor manera de avanzar es asegurarnos de que puedan utilizarse para acelerar la ciberdefensa y reforzar el ecosistema.
GPT‑5.5 es un paso gradual pero importante hacia una IA capaz de resolver algunos de los retos más difíciles del mundo, como la ciberseguridad. Con GPT‑5.2 en diciembre, implementamos de forma proactiva las medidas de ciberseguridad necesarias para limitar el posible uso indebido de nuestros modelos; ahora, con GPT‑5.5, estamos implementando clasificadores más estrictos para los posibles riesgos cibernéticos, que a algunos usuarios pueden resultarles molestos al principio, ya que los vamos ajustando con el tiempo.
Llevamos años incluyendo la ciberseguridad como una categoría en nuestro marco de preparación(se abre en una ventana nueva), a medida que nuestros modelos han ido mejorando gradualmente, y desarrollamos y calibramos medidas de mitigación de forma iterativa para poder lanzar con responsabilidad modelos con capacidades significativas en ciberseguridad.
- Estamos implementando salvaguardas líderes en el sector para este nivel de capacidad cibernética. Introdujimos por primera vez salvaguardas específicas para la ciberseguridad con GPT‑5.2(se abre en una ventana nueva) el año pasado, y hemos seguido probándolas, perfeccionándolas y ampliándolas en implementaciones posteriores. Para GPT‑5.5, diseñamos controles más estrictos en torno a las actividades de mayor riesgo y las solicitudes cibernéticas sensibles, y añadimos protecciones adicionales frente al uso indebido reiterado. El acceso generalizado es posible gracias a nuestras inversiones en la seguridad de los modelos, el uso autenticado y la supervisión de usos no permitidos. Llevamos meses trabajando con expertos externos para desarrollar, probar y perfeccionar iterativamente la solidez de estas salvaguardas. Con GPT‑5.5, nos aseguramos de que los desarrolladores puedan proteger su código con facilidad, al tiempo que establecemos controles más estrictos en torno a los flujos de trabajo cibernéticos con mayor probabilidad de ser aprovechados por actores maliciosos para causar daños.
- Estamos ampliando el acceso para acelerar la ciberdefensa en todos los niveles. Estamos poniendo a disposición de los usuarios nuestros modelos cibernéticos permisivos a través de Trusted Access for Cyber, empezando por Codex, que incluye un acceso ampliado a las capacidades avanzadas de ciberseguridad de GPT‑5.5 con menos restricciones para los usuarios verificados que cumplan ciertos criterios de confianza(se abre en una ventana nueva) en el momento del lanzamiento. Las organizaciones responsables de defender infraestructuras críticas pueden solicitar acceso a modelos cibernéticos permisivos como GPT‑5.4‑Cyber, siempre que cumplan estrictos requisitos de seguridad para proteger sus sistemas internos. Con esto, una amplia gama de defensores verificados obtiene herramientas más eficaces para llevar a cabo un trabajo legítimo de seguridad con menos obstáculos innecesarios, a fin de garantizar la democratización del acceso a capacidades defensivas importantes. Los usuarios pueden solicitar acceso confiable en chatgpt.com/cyber(se abre en una ventana nueva) para reducir rechazos innecesarios al usar GPT‑5.5 para trabajos defensivos verificados.
- Estamos trabajando con socios gubernamentales para ayudar a proteger las infraestructuras críticas para la ciudadanía. Juntos, estamos explorando cómo la IA avanzada puede apoyar la labor defensiva de responsables de confianza encargados de sistemas de los que depende la ciudadanía, desde los sistemas digitales que protegen datos importantes de los contribuyentes hasta la red eléctrica y el suministro de agua de las comunidades locales.
Consideramos que las capacidades biológicas/químicas y de ciberseguridad de GPT‑5.5 son de nivel Alto según nuestro Marco de preparación(se abre en una ventana nueva). Si bien GPT‑5.5 no alcanzó el nivel Crítico de capacidad en ciberseguridad, nuestras evaluaciones y pruebas mostraron que sus capacidades de ciberseguridad representan un avance con respecto a GPT‑5.4.
Además, GPT‑5.5 pasó por nuestro proceso completo de seguridad y gobernanza antes de su lanzamiento, incluyendo evaluaciones de preparación, pruebas específicas por dominio, nuevas evaluaciones específicas para capacidades avanzadas de biología y ciberseguridad, y pruebas exhaustivas con expertos externos. Compartimos más detalles en la tarjeta del sistema de GPT‑5.5(se abre en una ventana nueva).
Este trabajo refleja nuestro enfoque más amplio sobre la resiliencia de la IA, que creemos que es necesario a medida que avanzan las capacidades de los modelos. Queremos que una IA potente esté al alcance de quienes la utilizan para defender los sistemas, las instituciones y la ciudadanía. El camino viable pasa por el acceso de confianza, unas salvaguardas sólidas que se adapten al nivel de capacidad, y la capacidad operativa necesaria para detectar el uso indebido grave y responder ante él.
A partir de hoy, GPT‑5.5 se está implementando para los usuarios de Plus, Pro, Business y Enterprise en ChatGPT y Codex, y GPT‑5.5 Pro se está implementando para los usuarios de Pro, Business y Enterprise en ChatGPT. Muy pronto llevaremos GPT‑5.5 y GPT‑5.5 Pro a la API.
En ChatGPT, GPT‑5.5 Thinking está disponible para los usuarios de Plus, Pro, Business y Enterprise. GPT‑5.5 Pro, diseñado para preguntas aún más difíciles y trabajos de mayor precisión, está disponible para los usuarios de Pro, Business y Enterprise.
En Codex, GPT‑5.5 está disponible para los planes Plus, Pro, Business, Enterprise, Edu y Go con una ventana de contexto de 400 000 tokens. GPT‑5.5 también está disponible en modo Fast, que genera tokens 1,5 veces más rápido por 2,5 veces el coste.
Para los desarrolladores de API, gpt-5.5 estará disponible próximamente en las API de respuestas y para completar chats a 5 USD por cada millón de tokens de entrada y 30 USD por cada millón de tokens de salida, con una ventana de contexto de 1 millón. Los precios de Batch y Flex están disponibles a la mitad de la tarifa estándar de la API, mientras que el procesamiento prioritario está disponible a 2,5 veces la tarifa estándar. También lanzaremos gpt-5.5-pro en la API con una precisión aún mayor, a un precio de 30 USD por cada millón de tokens de entrada y 180 USD por cada millón de tokens de salida. Consulta la página de precios para conocer todos los detalles.
Aunque GPT‑5.5 tiene un precio más alto que GPT‑5.4, es a la vez más inteligente y mucho más eficiente en el uso de tokens. En Codex, hemos ajustado cuidadosamente la experiencia para que GPT‑5.5 ofrezca mejores resultados con menos tokens que GPT‑5.4 para la mayoría de los usuarios, sin dejar de ofrecer un uso generoso en todos los niveles de suscripción.
Programación
Eval | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
SWE-Bench Pro (público) * | 58,6 % | 57,7 % | - | - | 64,3 % | 54,2 % |
Terminal-Bench 2.0 | 82,7 % | 75,1 % | - | - | 69,4 % | 68,5 % |
Expert-SWE (interno) | 73,1 % | 68,5 % | - | - | - | - |
*Los laboratorios ha observado indicios de memorización(se abre en una ventana nueva) en esta evaluación
Profesional
Eval | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
GDPval (victorias o empates) | 84,9 % | 83,0 % | 82,3 % | 82,0 % | 80,3 % | 67,3 % |
FinanceAgent v1.1 | 60,0 % | 56,0 % | - | 61,5 % | 64,4 % | 59,7 % |
Tareas de modelado de banca de inversión (Interno) | 88,5 % | 87,3 % | 88,6 % | 83,6 % | - | - |
OfficeQA Pro | 54,1 % | 53,2 % | - | - | 43,6 % | 18,1 % |
Uso del ordenador y visión
Eval | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
OSWorld-Verified | 78,7 % | 75,0 % | - | - | 78,0 % | - |
MMMU Pro (sin herramientas) | 81.2% | 81.2% | - | - | - | 80,5 % |
MMMU Pro (con herramientas) | 83,2 % | 82,1 % | - | - | - | - |
Uso de herramientas
Eval | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
BrowseComp | 84,4 % | 82,7 % | 90,1 % | 89,3 % | 79,3 % | 85,9 % |
MCP Atlas** | 75,3 % | 70,6 % | - | - | 79,1 % | 78,2 % |
Toolathlon | 55,6 % | 54,6 % | - | - | - | 48,8 % |
Tau2-bench Telecom*** | 98,0 % | 92,8 % | - | - | - | - |
** MCP Atlas: resultados de Scale AI tras la última actualización de abril de 2026.
*** Tau2-bench Telecom: resultados para 5.5 y 5.4 con prompts originales, es decir, sin ajuste del prompt. Se omiten los resultados de otros laboratorios que se evaluaron con ajustes del prompt.
Académico
Eval | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
GeneBench | 25,0 % | 19,0 % | 33,2 % | 25,6 % | - | - |
FrontierMath Niveles 1–3 | 51,7 % | 47,6 % | 52,4 % | 50,0 % | 43,8 % | 36,9 % |
FrontierMath Nivel 4 | 35,4 % | 27,1 % | 39,6 % | 38,0 % | 22,9 % | 16,7 % |
BixBench | 80,5 % | 74,0 % | - | - | - | - |
GPQA Diamond | 93,6 % | 92,8 % | - | 94,4 % | 94,2 % | 94,3 % |
Humanity's Last Exam(sin herramientas) | 41,4 % | 39,8 % | 43,1 % | 42,7 % | 46,9 % | 44,4 % |
Humanity's Last Exam (con herramientas) | 52,2 % | 52,1 % | 57,2 % | 58,7 % | 54,7 % | 51,4 % |
Ciberseguridad
Eval | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
Tareas de desafíos Capture-the-Flag (interno)**** | 88,1 % | 83,7 % | - | - | - | - |
CyberGym | 81,8 % | 79,0 % | - | - | 73,1 % | - |
**** Una ampliación de los CTF más difíciles utilizados en las tarjetas del sistema con desafíos adicionales de mayor dificultad.
Contexto largo
Eval | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
Graphwalks BFS 256k f1 | 73,7 % | 62,5 % | - | - | 76,9 % | - |
Graphwalks BFS 1mil f1 | 45,4 % | 9,4 % | - | - | 41,2% (Opus 4.6) | - |
Graphwalks parents 256k f1 | 90,1 % | 82,8 % | - | - | 93,6 % | - |
Graphwalks parents 1mil f1 | 58,5 % | 44,4 % | - | - | 72,0 % (Opus 4.6) | - |
OpenAI MRCR v2 8-needle 4K-8K | 98,1 % | 97,3 % | - | - | - | - |
OpenAI MRCR v2 8-needle 8K-16K | 93,0 % | 91,4 % | - | - | - | - |
OpenAI MRCR v2 8-needle 16K-32K | 96,5 % | 97,2 % | - | - | - | - |
OpenAI MRCR v2 8-needle 32K-64K | 90,0 % | 90,5 % | - | - | - | - |
OpenAI MRCR v2 8-needle 64K-128K | 83,1 % | 86,0 % | - | - | - | - |
OpenAI MRCR v2 8-needle 128K-256K | 87,5 % | 79,3 % | - | - | 59,2 % | - |
OpenAI MRCR v2 8-needle 256K-512K | 81,5 % | 57,5 % | - | - | - | - |
OpenAI MRCR v2 8-needle 512K-1M | 74,0 % | 36,6 % | - | - | 32,2 % | - |
Razonamiento abstracto
Eval | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
ARC-IAG-1 (Verificado) | 95,0 % | 93,7 % | - | 94,5 % | 93,5 % | 98,0 % |
ARC-IAG-2 (Verificado) | 85,0 % | 73,3 % | - | 83,3 % | 75,8 % | 77,1 % |
Las evaluaciones de GPT se ejecutaron con el esfuerzo de razonamiento configurado en xhigh y se realizaron en un entorno de investigación, por lo que en algunos casos los resultados pueden diferir ligeramente de los que se obtienen en ChatGPT en producción.








