Presentamos GPT‑5.2
El modelo más avanzado para trabajo profesional y para agentes que ejecutan tareas de larga duración.
Presentamos GPT‑5.2, nuestra serie de modelos más avanzada hasta ahora para tareas profesionales que requieren conocimientos.
El usuario promedio de ChatGPT Enterprise comenta que la IA les ahorra entre 40 y 60 minutos al día, mientras que quienes la usan con más frecuencia reportan un ahorro superior a 10 horas semanales. Diseñamos GPT‑5.2 para generar aún más valor económico: mejora en la creación de hojas de cálculo, elaboración de presentaciones, escritura de código, interpretación de imágenes, comprensión de contextos extensos, uso de herramientas y gestión de proyectos complejos de varios pasos.
GPT‑5.2 marca un nuevo estándar en múltiples evaluaciones de referencia, incluido GDPval, donde supera a profesionales de la industria en tareas especializadas que abarcan 44 ocupaciones.
GPT‑5.2 Thinking | GPT‑5.1 Thinking | |
GDPval (victorias o empates) | 70,9 % | 38,8 % (GPT‑5) |
SWE-Bench Pro (public) | 55,6 % | 50,8 % |
SWE-bench Verified | 80,0 % | 76,3 % |
GPQA Diamond (sin herramientas) | 92,4 % | 88,1 % |
Razonamiento CharXiv (con Python) | 88,7 % | 80,3 % |
HMMT (febrero de 2025) | 99,4 % | 96,3 % |
FrontierMath (Tier 1–3) | 40,3 % | 31,0 % |
ARC-AGI-1 (Verificado) | 86,2 % | 72,8 % |
ARC-AGI-2 (Verificado) | 52,9 % | 17,6 % |
Notion(se abre en una ventana nueva), Box(se abre en una ventana nueva), Shopify(se abre en una ventana nueva), Harvey(se abre en una ventana nueva) y Zoom(se abre en una ventana nueva) observaron que GPT‑5.2 demuestra un rendimiento de vanguardia en razonamiento a largo plazo y en la invocación de herramientas. Databricks(se abre en una ventana nueva), Hex(se abre en una ventana nueva) y Triple Whale(se abre en una ventana nueva) detectaron que GPT‑5.2 destaca en tareas de análisis de datos y revisión de documentos con agentes. Cognition(se abre en una ventana nueva), Warp(se abre en una ventana nueva), Charlie Labs(se abre en una ventana nueva), JetBrains(se abre en una ventana nueva) y Augment Code(se abre en una ventana nueva) afirman que GPT‑5.2 ofrece un rendimiento de codificación de vanguardia, con mejoras notables en codificación interactiva, revisión de código y detección de errores.
Hoy comenzará el lanzamiento de GPT‑5.2 Instant, Thinking y Pro en ChatGPT, empezando por los planes de pago. En la API, ya están disponibles para todos los desarrolladores.
GPT‑5.2 ofrece mejoras significativas en inteligencia general, comprensión de contextos extensos, uso autónomo de herramientas (con agentes) y visión, lo que lo convierte en el modelo más capaz hasta la fecha para ejecutar de manera integral tareas complejas del mundo real.
GPT‑5.2 Thinking es el mejor modelo hasta ahora para uso profesional en entornos reales. En GDPval, una evaluación que mide tareas bien definidas de trabajo de conocimiento en 44 ocupaciones, GPT‑5.2 Thinking establece un nuevo récord y es nuestro primer modelo que rinde al nivel de un experto humano o superior. En concreto, GPT‑5.2 Thinking supera o iguala a los principales profesionales de la industria en el 70,9 % de las comparaciones en tareas de trabajo que requieren conocimientos de GDPval, según los jueces humanos expertos. Estas tareas incluyen elaborar presentaciones, hojas de cálculo y otros artefactos. GPT‑5.2 Thinking generó resultados para las tareas de GDPval a más de 11 veces la velocidad y a menos del 1 % del coste de los profesionales expertos, lo que sugiere que, combinado con supervisión humana, GPT‑5.2 puede ser de gran ayuda en el trabajo profesional. Las estimaciones de velocidad y costo se basan en métricas históricas; la velocidad en ChatGPT puede variar.
En GDPval, los modelos intentan realizar trabajos de conocimiento bien definidos que abarcan 44 ocupaciones de las 9 principales industrias que contribuyen al PIB de EE. UU. Las tareas piden productos de trabajo reales, como presentaciones de ventas, hojas de cálculo contables, horarios de atención urgente, diagramas de fabricación o vídeos cortos. En ChatGPT, GPT‑5.2 Thinking tiene nuevas herramientas que GPT‑5 Thinking no posee.
Al revisar un resultado especialmente bueno, un evaluador de GDPval comentó: «Es un salto emocionante y notable en la calidad del resultado... [parece] que lo hizo una empresa profesional con personal, y tiene un diseño sorprendentemente bien elaborado y consejos para ambas entregas, aunque en una de ellas todavía hay algunos errores menores por corregir».
Además, en nuestra evaluación interna de tareas de modelado en hojas de cálculo para analistas junior de banca de inversión —como elaborar un modelo de los tres estados financieros de una empresa Fortune 500 con el formato y las referencias correctas, o construir un modelo de compra apalancada para una adquisición privada—, la puntuación media por tarea de GPT‑5.2 Thinking es un 9,3 % superior a la de GPT‑5.1, con un aumento del 59,1 % al 68,4 %.
Las comparaciones lado a lado muestran una mejora en la sofisticación y el formato de las hojas de cálculo y diapositivas generadas por GPT‑5.2 Thinking:

Prompt: crea un modelo de planificación de plantilla: número de empleados, plan de contratación, rotación y repercusión en el presupuesto. Incluye los departamentos de ingeniería, marketing, legal y ventas.
Para usar las nuevas capacidades de hojas de cálculo y presentaciones en ChatGPT, necesitas estar en un plan de pago y seleccionar GPT‑5.2 Thinking o Pro. Las tareas complejas pueden tardar varios minutos en completarse.
GPT‑5.2 Thinking establece un nuevo estándar de vanguardia del 55,6 % en SWE-Bench Pro, una evaluación rigurosa de ingeniería de software en entornos reales. A diferencia de SWE-Bench Verified, que solo prueba Python, SWE-Bench Pro evalúa cuatro lenguajes y busca ser más resistente a la contaminación, exigente, diverso y relevante para la industria.
En SWE-bench Pro(se abre en una ventana nueva), a un modelo se le proporciona un repositorio de código y debe generar un parche para resolver una tarea realista de ingeniería de software.
En la evaluación SWE-Bench Verified (sin trazado), GPT‑5.2 Thinking alcanzó un nuevo récord con un 80 % de aciertos.
En el uso profesional diario, esto se traduce en un modelo capaz de depurar código de producción de manera más fiable, implementar solicitudes de nuevas funciones, refactorizar grandes bases de código y entregar correcciones de principio a fin con menos intervención manual.
GPT‑5.2 Thinking también supera a GPT‑5.1 Thinking en ingeniería de software front-end. Los evaluadores notaron que gestiona mucho mejor el desarrollo front-end y las interfaces complejas o poco convencionales, especialmente las que incluyen elementos 3D, convirtiéndolo en un aliado potente para ingenieros full stack en su trabajo diario. Estos son algunos ejemplos de lo que puede generar a partir de un solo prompt:
Prompt: crea una aplicación de una sola página en un solo archivo HTML con los siguientes requisitos:
- Nombre: Simulación de olas del océano
- Objetivo: mostrar olas animadas de manera realista.
- Características: cambiar la velocidad del viento, la altura de las olas, la iluminación.
- La interfaz debe ser relajante y realista.
Los primeros evaluadores compartieron sus comentarios sobre las capacidades de codificación de GPT‑5.2:
«GPT-5.2 con Warp alcanza un rendimiento de programación de última generación, logrando una puntuación de primera clase del 61,14 % en Terminal-Bench 2.0. Con GPT-5.2, el agente de Warp es más eficaz para cerrar el ciclo: verifica sus propios cambios y completa flujos de trabajo largos y de múltiples pasos con un nivel de fiabilidad que no habíamos visto antes».
GPT‑5.2 Thinking alucina menos que GPT‑5.1 Thinking. En un conjunto de consultas anonimizadas de ChatGPT, las respuestas con errores se redujeron un 38 %relativo. Para los profesionales, esto se traduce en menos errores al usar el modelo en investigación, redacción, análisis y apoyo a la toma de decisiones, lo que lo hace más fiable para el trabajo diario de conocimiento.
El nivel de razonamiento se configuró al máximo disponible y se habilitó una herramienta de búsqueda. Se identificaron errores por parte de otros modelos, que también pueden equivocarse. Las tasas de error a nivel de afirmación son mucho más bajas que las tasas a nivel de respuesta, dado que la mayoría de las respuestas contienen varias afirmaciones.
Como todos los modelos, GPT‑5.2 Thinking es imperfecto. Para cualquier asunto crítico, verifica tus respuestas dos veces.
El razonamiento de GPT‑5.2 marca un nuevo estándar en la comprensión de contextos largos y logra un rendimiento líder en OpenAI MRCRv2, una evaluación que mide la capacidad de un modelo para integrar información distribuida a lo largo de documentos extensos. En tareas del mundo real, como el análisis profundo de documentos que requieren relacionar información a lo largo de cientos de miles de tokens, GPT‑5.2 Thinking es sustancialmente más preciso que GPT‑5.1 Thinking. En particular, es el primer modelo que hemos visto capaz de alcanzar una precisión cercana al 100 % en la variante MRCR de 4 agujas (hasta 256 000 tokens)
En términos prácticos, esto permite a los profesionales utilizar GPT‑5.2 para trabajar con documentos extensos, como informes, contratos, artículos de investigación, transcripciones y proyectos de múltiples archivos, manteniendo la coherencia y precisión a lo largo de cientos de miles de tokens. Esto hace que GPT‑5.2 sea especialmente adecuado para el análisis profundo, la síntesis y los flujos de trabajo complejos de múltiples fuentes.
En OpenAI-MRCR(se abre en una ventana nueva) v2 (resolución de correferencias de varias rondas), se insertan múltiples solicitudes idénticas de usuario, llamadas “agujas”, en largas series de peticiones y respuestas similares, y se pide al modelo que reproduzca la respuesta de la enésima aguja. La versión 2 de la evaluación corrigió aproximadamente el 5 % de las tareas que contenían valores de verdad incorrectos. La proporción promedio de coincidencias mide qué tan similar es la respuesta del modelo a la respuesta correcta. Los puntos correspondientes a un máximo de 256 000 tokens de entrada representan promedios entre 128 000 y 256 000 tokens, y así sucesivamente. Aquí, 256 000 equivale a 256 × 1 024 = 262 144 tokens. El nivel de razonamiento se estableció en el máximo disponible.
Para tareas que necesitan ir más allá de la ventana de contexto máxima, GPT‑5.2 Thinking es compatible con nuestro nuevo endpoint Responses /compact, que amplía la ventana de contexto efectiva del modelo. Esto permite que GPT‑5.2 Thinking gestione flujos de trabajo más largos y con más herramientas, que de otro modo estarían limitados por el alcance del contexto. Lee más en nuestra documentación de la API(se abre en una ventana nueva).
GPT‑5.2 Thinking es nuestro modelo de visión más avanzado hasta ahora; reduce las tasas de error a la mitad, aproximadamente, en el razonamiento de gráficos y la comprensión de interfaces de software.
Para el uso profesional diario, esto significa que el modelo puede interpretar con mayor precisión paneles de control, capturas de pantalla de productos, diagramas técnicos e informes visuales, apoyando los flujos de trabajo en finanzas, operaciones, ingeniería, diseño y asistencia al cliente, donde la información visual es fundamental.
En CharXiv Reasoning(se abre en una ventana nueva), los modelos de razonamiento responden preguntas sobre gráficos visuales de artículos científicos. Se habilitó una herramienta de Python y se configuró el esfuerzo de razonamiento al máximo.
En ScreenSpot-Pro(se abre en una ventana nueva), los modelos deben analizar capturas de pantalla de alta resolución de interfaces gráficas de usuario en distintos entornos profesionales. Se habilitó una herramienta de Python y se configuró el nivel de razonamiento al máximo. Sin esta herramienta, las puntuaciones son considerablemente más bajas. Recomendamos activarla en tareas de visión como estas.
En comparación con modelos anteriores, GPT‑5.2 Thinking muestra una mejor comprensión de cómo se colocan los elementos dentro de una imagen, lo que resulta útil en tareas en las que la disposición relativa es clave para resolver el problema. En el ejemplo siguiente, pedimos al modelo que identifique los componentes de una imagen (en este caso, una placa base) y devuelva etiquetas con cuadros delimitadores aproximados. Incluso en una imagen de baja calidad, GPT‑5.2 identifica las principales regiones y coloca cuadros que coinciden aproximadamente con las ubicaciones reales de cada componente, mientras que GPT‑5.1 solo etiqueta algunas partes y demuestra una comprensión mucho más limitada de su disposición espacial.
GPT‑5.1

GPT‑5.2

GPT‑5.2 Thinking alcanza un nivel líder con un 98,7 % en la evaluación Tau2-Bench Telecom, demostrando su capacidad para usar herramientas de manera fiable en tareas largas y de múltiples turnos.
Para casos de uso que priorizan la velocidad, GPT‑5.2 Thinking también ofrece un rendimiento mucho mejor en razonamiento con configuración «esfuerzo = ninguno», superando ampliamente a GPT‑5.1 y GPT‑4.1.
En τ2-bench(se abre en una ventana nueva),los modelos utilizan herramientas para completar tareas de atención al cliente en interacciones de varios turnos con un usuario simulado. Para el dominio de telecomunicaciones, incluimos una instrucción breve y generalmente útil en el prompt del sistema para mejorar el rendimiento. Excluimos el subconjunto de aerolíneas debido a la menor calidad en la evaluación de la veracidad de la base.
Para los profesionales, esto se traduce en flujos de trabajo más sólidos de principio a fin, como resolver casos de atención al cliente, extraer datos de múltiples sistemas, realizar análisis y obtener resultados finales con menos interrupciones entre los pasos.
Por ejemplo, al plantear una pregunta compleja de asistencia al cliente que requiere varios pasos para resolverse, el modelo puede coordinar de manera más eficaz un flujo de trabajo completo entre múltiples agentes. En el caso siguiente, un viajero informa de un vuelo retrasado, una conexión perdida, una estancia nocturna en Nueva York y una necesidad médica de asiento especial. GPT‑5.2 gestiona toda la cadena de tareas de reprogramación, asignación de asientos especiales y compensación, ofreciendo un resultado más completo que GPT‑5.1.
GPT‑5.1

GPT‑5.2

Una de nuestras metas con la IA es acelerar la investigación científica en beneficio de todos. Con este objetivo, hemos colaborado y escuchado a científicos para explorar cómo la IA puede agilizar su trabajo y el mes pasado compartimos algunos experimentos colaborativos iniciales aquí.
Creemos que los modelos GPT‑5.2 Pro y GPT‑5.2 Thinking son los mejores del mundo para apoyar y acelerar el trabajo de los científicos. En GPQA Diamond, una evaluación de preguntas y respuestas a nivel de posgrado diseñada por Google, GPT‑5.2 Pro alcanza un 93,2 %, seguido de cerca por GPT‑5.2 Thinking con un 92,4 %
En GPQA Diamond(se abre en una ventana nueva), los modelos responden preguntas de opción múltiple sobre física, química y biología. No se habilitaron herramientas y el esfuerzo de razonamiento se configuró al máximo.
En FrontierMath (niveles 1-3), una evaluación de matemáticas a nivel experto, GPT‑5.2 Thinking alcanzó un nuevo récord al resolver el 40,3 % de los problemas.
En FrontierMath(se abre en una ventana nueva), los modelos resuelven problemas matemáticos de nivel experto. Se habilitó una herramienta de Python y se configuró el esfuerzo de razonamiento al máximo.
Estamos empezando a observar que los modelos de IA están acelerando de manera significativa el progreso en matemáticas y ciencias de formas concretas. Por ejemplo, en un trabajo reciente con GPT‑5.2 Pro, los investigadores exploraron una cuestión abierta en la teoría del aprendizaje estadístico. En un entorno limitado y bien definido, el modelo propuso una prueba que después fue verificada por los autores y revisada por expertos externos, demostrando cómo los modelos de vanguardia pueden apoyar la investigación matemática bajo supervisión humana cercana.
En ARC-AGI-1 (Verified), una evaluación diseñada para medir la capacidad de razonamiento general, GPT‑5.2 es el primer modelo en cruzar el umbral del 90 %, mejorando desde el 87 % logrado por o3‑vista previa el año pasado, mientras reduce el costo de alcanzar ese rendimiento en aproximadamente 390 veces.
En ARC-AGI-2 (Verified), que incrementa la dificultad y mejora el aislamiento del razonamiento fluido, GPT‑5.2 Thinking alcanza un nuevo nivel de referencia en modelos de cadena de pensamiento, logrando un 52,9 %. GPT‑5.2 Pro rinde aún mejor, con un 54,2 %, ampliando todavía más la capacidad del modelo para analizar problemas novedosos y abstractos.
Las mejoras observadas en estas evaluaciones reflejan un razonamiento multipaso más sólido de GPT‑5.2, una mayor precisión cuantitativa y la capacidad de resolver problemas de manera fiable en tareas técnicas complejas.
Esto es lo que dicen nuestros primeros testers sobre GPT‑5.2:
GPT-5.2 desbloqueó un cambio completo de arquitectura para nosotros. Colapsamos un sistema frágil de múltiples agentes en un solo mega-agente con más de 20 herramientas. La mejor parte es que simplemente funciona. El mega-agente es más rápido, más inteligente y 100 veces más fácil de mantener. Estamos viendo una latencia mucho menor, una llamada de herramientas mucho más potente, y ya no necesitamos indicaciones extensas del sistema porque la versión 5.2 se ejecutará limpiamente con una simple indicación de una línea. Parece pura magia.
En ChatGPT, lo usuarios notarán que GPT‑5.2 es más fácil de usar a diario: más estructurado, confiable y agradable en las conversaciones.
GPT‑5.2 Instant es una herramienta rápida y eficiente para el trabajo y el aprendizaje diario, con mejoras notables en búsqueda de información, guías prácticas, redacción técnica y traducción, basándose en el tono conversacional más cálido que introdujo GPT‑5.1 Instant. Los primeros evaluadores destacaron que ofrece explicaciones más claras y muestra la información clave desde el principio.
GPT‑5.2 Thinking está diseñado para trabajos más profundos, ayuda a los usuarios a abordar tareas complejas con mayor precisión, especialmente en codificación, resumen de documentos extensos, respuestas a preguntas sobre archivos compartidos, resolución paso a paso de problemas de matemáticas y lógica, y apoyo en la planificación y toma de decisiones con una estructura más clara y detalles más útiles.
GPT‑5.2 Pro es nuestra opción más inteligente y confiable para preguntas difíciles, donde vale la pena esperar una respuesta de mayor calidad. En las pruebas iniciales, mostró mayor precisión, menos errores importantes y un rendimiento más sólido en áreas complejas como la programación.
GPT‑5.2 se basa en la investigación de finalización segura que presentamos con GPT‑5, que entrena al modelo para ofrecer la respuesta más útil sin sobrepasar los límites de seguridad.
Con esta versión, seguimos trabajando para reforzar las respuestas de nuestros modelos en conversaciones delicadas, con mejoras significativas en cómo responden a indicaciones de suicidio, autolesión, angustia mental o dependencia emocional del modelo. Estas intervenciones dirigidas han reducido las respuestas no deseadas en GPT‑5.2 Instant y GPT‑5.2 Thinking en comparación con los modelos GPT‑5.1, GPT‑5 Instant y GPT‑5 Thinking. Puedes encontrar más información en la tarjeta del sistema.
Estamos en las primeras etapas de implementación de nuestro modelo de predicción de edad para poder aplicar automáticamente protecciones de contenido a usuarios menores de 18 años, con el fin de limitar el acceso a contenido sensible. Esto se basa en nuestro enfoque actual para usuarios que sabemos que son menores de 18 años y en los controles parentales.
GPT‑5.2 representa un avance más en nuestra serie continua de mejoras, y todavía queda mucho por hacer. Aunque esta versión ofrece progresos significativos en inteligencia y productividad, somos conscientes de que hay áreas en las que los usuarios esperan más. En ChatGPT, estamos abordando problemas conocidos, como las negativas excesivas, al mismo tiempo que seguimos elevando los niveles de seguridad y fiabilidad. Estos cambios son complejos y nos centramos en implementarlos de manera adecuada.
GPT‑5.2 Instant | GPT‑5.1 Instant | GPT‑5.2 Thinking | GPT‑5.1 Thinking | |
Salud mental | 0,995 | 0,883 | 0,915 | 0,684 |
Dependencia emocional | 0,938 | 0,945 | 0,955 | 0,785 |
Autolesiones | 0,938 | 0,925 | 0,963 | 0,937 |
En ChatGPT, hoy comenzamos a desplegar GPT‑5.2 (Instant, Thinking y Pro), empezando por los planes de pago (Plus, Pro, Business y Enterprise). La implementación será gradual para mantener la experiencia de ChatGPT lo más fluida y fiable posible; si no lo ves de inmediato, prueba de nuevo más tarde. GPT‑5.1 seguirá disponible para los usuarios de planes de pago durante tres meses en los modelos anteriores, tras los cuales se descontinuará.
ChatGPT | API |
ChatGPT‑5.2 Instant | GPT‑5.2‑chat‑latest |
ChatGPT‑5.2 Thinking | GPT‑5.2 |
ChatGPT‑5.2 Pro | GPT‑5.2 Pro |
En nuestra plataforma API, GPT‑5.2 Thinking está disponible hoy en la API de Respuestas y en la API de Finalizaciones de Chat como gpt-5.2, y GPT‑5.2 Instant como gpt-5.2-chat-latest. GPT‑5.2 Pro está disponible en la API de Respuestas como gpt-5.2-pro. Los desarrolladores ahora pueden configurar el parámetro de razonamiento en GPT‑5.2 Pro y tanto GPT‑5.2 Pro como GPT‑5.2 Thinking ahora admiten el nuevo nivel de razonamiento xhigh para tareas donde la calidad es lo más importante.
GPT‑5.2 tiene un precio de 1,75 USD por 1 M de tokens de entrada y 14 USD por 1 M de tokens de salida, con un 90 % de descuento en las entradas en caché. En múltiples evaluaciones con agentes, observamos que, pese al mayor coste por token de GPT‑5.2, alcanzar un determinado nivel de calidad resulta más económico gracias a su mayor eficiencia en el uso de tokens.
Aunque el precio de la suscripción de ChatGPT se mantiene igual, en la API, GPT‑5.2 tiene un precio más alto por token que GPT‑5.1 porque es un modelo más avanzado. Todavía tiene un precio inferior al de otros modelos de vanguardia, por lo que la gente puede continuar usándolo intensamente en su trabajo diario y en sus solicitudes principales.
Modelo | Input | Entrada en caché | Salida |
gpt-5.2 / gpt-5.2-chat-latest | 1,75 $ | 0,175 $ | 14 $ |
gpt-5.2-pro | 21 $ | - | 168 $ |
gpt-5.1 / gpt-5.1-chat-latest | 1,25 $ | 0,125 $ | 10 $ |
gpt-5-pro | 15 $ | - | 120 $ |
No tenemos planes inmediatos para descontinuar GPT‑5.1, GPT‑5 ni GPT‑4.1 en la API y comunicaremos con suficiente antelación cualquier plan de descontinuación a los desarrolladores. Aunque GPT‑5.2 funcionará correctamente desde el principio en Codex, esperamos lanzar en las próximas semanas una versión optimizada de GPT‑5.2 para Codex.
GPT‑5.2 se desarrolló en colaboración con nuestros socios de largo plazo, NVIDIA y Microsoft. La infraestructura de entrenamiento a gran escala de OpenAI se apoya en los centros de datos de Azure y en las GPU de NVIDIA, incluidas H100, H200 y GB200-NVL72, lo que ha permitido avances significativos en la inteligencia del modelo. Esta alianza nos da la capacidad de escalar el poder de cómputo con confianza y lanzar nuevos modelos al mercado más rápido.
A continuación, presentamos las evaluaciones de referencia (benchmark) completas de GPT‑5.2 Thinking, junto con un subconjunto correspondiente a GPT‑5.2 Pro.
Profesional
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| GDPval (ties allowed, wins or ties) | 70.9% | 74.1% | 38.8% (GPT-5) |
| GDPval (ties allowed, clear wins) | 49.8% | 60.0% | 35.5% (GPT-5) |
| GDPval (no ties) | 61.0% | 67.6% | 37.1% (GPT-5) |
| Investment banking spreadsheet tasks (internal) | 68.4% | 71.7% | 59.1% |
Codificación
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| SWE-Bench Pro, Public | 55.6% | - | 50.8% |
| SWE-bench Verified | 80.0% | - | 76.3% |
| SWE-Lancer, IC Diamond* | 74.6% | - | 69.7% |
Facticidad
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| ChatGPT answers without errors (w/ search) | 93.9% | - | 91.2% |
| ChatGPT answers without errors (no search) | 88.0% | - | 87.3% |
Contexto largo
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| OpenAI MRCRv2, 8 needles, 4k–8k | 98.2% | - | 65.3% |
| OpenAI MRCRv2, 8 needles, 8k–16k | 89.3% | - | 47.8% |
| OpenAI MRCRv2, 8 needles, 16k–32k | 95.3% | - | 44.0% |
| OpenAI MRCRv2, 8 needles, 32k–64k | 92.0% | - | 37.8% |
| OpenAI MRCRv2, 8 needles, 64k–128k | 85.6% | - | 36.0% |
| OpenAI MRCRv2, 8 needles, 128k–256k | 77.0% | - | 29.6% |
| BrowseComp Long Context 128k | 92.0% | - | 90.0% |
| BrowseComp Long Context 256k | 89.8% | - | 89.5% |
| GraphWalks bfs <128k | 94.0% | - | 76.8% |
| Graphwalks parents <128k | 89.0% | - | 71.5% |
Visión
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| CharXiv reasoning (no tools) | 82.1% | - | 67.0% |
| CharXiv reasoning (w/ Python) | 88.7% | - | 80.3% |
| MMMU Pro (no tools) | 79.5% | - | - |
| MMMU Pro (w/ Python) | 80.4% | - | 79.0% |
| Video MMMU (no tools) | 85.9% | - | 82.9% |
| Screenspot Pro (w/ Python) | 86.3% | - | 64.2% |
Uso de herramientas
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| Tau2-bench Telecom | 98.7% | - | 95.6% |
| Tau2-bench Retail | 82.0% | - | 77.9% |
| BrowseComp | 65.8% | 77.9% | 50.8% |
| Scale MCP-Atlas | 60.6% | - | 44.5% |
| Toolathlon | 46.3% | - | 36.1% |
Académico
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| GPQA Diamond (no tools) | 92.4% | 93.2% | 88.1% |
| HLE (no tools) | 34.5% | 36.6% | 25.7% |
| HLE (w/ search, Python) | 45.5% | 50.0% | 42.7% |
| MMMLU | 89.6% | - | 89.5% |
| HMMT, Feb 2025 (no tools) | 99.4% | 100.0% | 96.3% |
| AIME 2025 (no tools) | 100.0% | 100.0% | 94.0% |
| FrontierMath Tier 1–3 (w/ Python) | 40.3% | - | 31.0% |
| FrontierMath Tier 4 (w/ Python) | 14.6% | - | 12.5% |
Razonamiento abstracto
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| ARC-AGI-1 (Verified) | 86.2% | 90.5% | 72.8% |
| ARC-AGI-2 (Verified) | 52.9% | 54.2% (high) | 17.6% |
Los modelos se ejecutaron con el nivel máximo de razonamiento disponible en nuestra API (xhigh para GPT‑5.2 Thinking y Pro, y high para GPT‑5.1 Thinking), excepto en las evaluaciones profesionales, donde GPT‑5.2 Thinking se ejecutó con la máxima intensidad disponible en ChatGPT Pro. Las pruebas se realizaron en un entorno de investigación, por lo que en algunos casos los resultados pueden diferir ligeramente de los obtenidos en ChatGPT en producción.
*Para SWE-Lancer se omitieron 40 de 237 problemas que no se pudieron ejecutar en nuestra infraestructura.


