Presentamos GPT‑5
El modelo más avanzado para trabajo profesional y para agentes que ejecutan tareas de larga duración.
Presentamos GPT‑5.2, nuestra serie de modelos más avanzada hasta ahora para tareas profesionales que requieren conocimientos.
El usuario promedio de ChatGPT Enterprise comenta que la IA les ahorra entre 40 y 60 minutos al día, mientras que quienes la usan con más frecuencia reportan un ahorro superior a 10 horas semanales. Diseñamos GPT‑5.2 para generar aún más valor económico: mejora en la creación de hojas de cálculo, elaboración de presentaciones, escritura de código, interpretación de imágenes, comprensión de contextos extensos, uso de herramientas y gestión de proyectos complejos de varios pasos.
GPT‑5.2 marca un nuevo estándar en múltiples evaluaciones de referencia, incluido GDPval, donde supera a profesionales de la industria en tareas especializadas que abarcan 44 ocupaciones.
GPT‑5.2 Thinking | GPT‑5.1 Thinking | |
GDPval (victorias o empates) | 70.9 % | 38.8 % (GPT‑5) |
SWE-Bench Pro (public) | 55.6 % | 50.8 % |
SWE-bench Verified | 80.0% | 76.3 % |
GPQA Diamond (sin herramientas) | 92.4 % | 88.1 % |
Razonamiento de CharXiv (con Python) | 88.7 % | 80.3 % |
HMMT (febrero de 2025) | 99.4 % | 96.3 % |
FrontierMath (Nivel 1–3) | 40.3 % | 31.0 % |
ARC-AGI-1 (Verified) | 86.2 % | 72.8 % |
ARC-AGI-2 (Verified) | 52.9 % | 17.6 % |
Notion(se abre en una nueva ventana), Box(se abre en una nueva ventana), Shopify(se abre en una nueva ventana), Harvey(se abre en una nueva ventana) y Zoom(se abre en una nueva ventana) observaron que GPT‑5.2 demuestra un rendimiento de vanguardia en razonamiento a largo plazo y en la invocación de herramientas. Databricks(se abre en una nueva ventana), Hex(se abre en una nueva ventana) y Triple Whale(se abre en una nueva ventana) detectaron que GPT‑5.2 destaca en tareas de análisis de datos y revisión de documentos con agentes. Cognition(se abre en una nueva ventana), Warp(se abre en una nueva ventana), Charlie Labs(se abre en una nueva ventana), JetBrains(se abre en una nueva ventana) y Augment Code(se abre en una nueva ventana) afirman que GPT‑5.2 ofrece un rendimiento de codificación de vanguardia, con mejoras notables en codificación interactiva, revisión de código y detección de errores.
Hoy comenzará el lanzamiento de GPT‑5.2 Instant, Thinking y Pro en ChatGPT, empezando por los planes de pago. En la API, ya están disponibles para todos los desarrolladores.
GPT‑5.2 ofrece mejoras significativas en inteligencia general, comprensión de contextos extensos, uso autónomo de herramientas (con agentes) y visión, lo que lo hace más capaz que cualquier modelo anterior de ejecutar de manera integral tareas complejas del mundo real.
GPT‑5.2 Thinking es el mejor modelo hasta ahora para uso profesional en el mundo real. En GDPval, una evaluación que mide tareas de conocimiento bien definidas en 44 ocupaciones, GPT‑5.2 Thinking establece un nuevo estándar y es nuestro primer modelo capaz de alcanzar el nivel de un experto humano o superior. Específicamente, GPT‑5.2 Thinking supera o iguala a los principales profesionales de la industria en el 70.9 % de las comparaciones en tareas de conocimiento de GDPval, según los jueces humanos expertos. Estas tareas incluyen la creación de presentaciones, hojas de cálculo y otros materiales. GPT‑5.2 Thinking completó las tareas de GDPval a más de 11 veces la velocidad y con menos del 1 % del costo de profesionales expertos, lo que indica que, combinado con supervisión humana, GPT‑5.2 puede ser un apoyo valioso en el trabajo profesional. Las estimaciones de velocidad y costo se basan en métricas históricas; la velocidad en ChatGPT puede variar.
En GDPval, los modelos intentan realizar tareas de conocimiento bien definidas que abarcan 44 ocupaciones dentro de las 9 principales industrias que contribuyen al PIB de EE. UU. Estas tareas requieren productos de trabajo reales, como presentaciones de ventas, hojas de cálculo contables, horarios de atención urgente, declaraciones de impuestos, diagramas de fabricación o videos cortos. En ChatGPT, el modelo GPT‑5.2 Thinking cuenta con herramientas nuevas que GPT‑5 Thinking no tiene.
Al revisar un resultado particularmente bueno, un evaluador de la GDPval comentó: “Es un salto emocionante y notable en la calidad del resultado… [parece] que lo hizo una empresa profesional con personal, con un diseño sorprendentemente bien elaborado y consejos útiles para ambas entregas, aunque en una de ellas todavía hay algunos errores menores por corregir".
Además, en nuestra evaluación interna de tareas de modelado en hojas de cálculo para analistas junior de banca de inversión —como elaborar un modelo de tres estados financieros para una empresa Fortune 500 con el formato y las referencias correctas, o construir un modelo de compra apalancada para una adquisición privada—, el puntaje promedio por tarea de GPT‑5.2 Thinking es 9.3 % más alto que el de GPT‑5.1, con un aumento del 59.1 % al 68.4 %.
Las comparaciones lado a lado muestran una mejora en la sofisticación y el formato de las hojas de cálculo y diapositivas generadas por GPT‑5.2. Thinking:

Prompt: crea un modelo de planificación de la fuerza laboral: cantidad de personal, plan de contratación, rotación y impacto en el presupuesto. Incluye los departamentos de ingeniería, mercadotecnia, legal y ventas.
Para usar las nuevas capacidades de hojas de cálculo y presentaciones en ChatGPT, necesitas estar en un plan de pago y seleccionar GPT‑5.2 Thinking o Pro. Las tareas complejas pueden tardar varios minutos en completarse.
GPT‑5.2 Thinking establece un nuevo estándar de vanguardia del 55.6 % en SWE-Bench Pro, una rigurosa evaluación de la ingeniería de software del mundo real. A diferencia de SWE-Bench Verified, que solo prueba Python, SWE-Bench Pro prueba cuatro lenguajes y busca ser más resistente a la contaminación, desafiante, diverso y relevante para la industria.
En SWE-bench Pro(se abre en una nueva ventana), se le proporciona a un modelo un repositorio de código y debe generar un parche para resolver una tarea realista de ingeniería de software.
En la evaluación SWE-Bench Verified (sin trazado), GPT‑5.2 Thinking alcanzó un nuevo récord con un 80 % de aciertos.
En el uso profesional diario, esto se traduce en un modelo capaz de depurar código de producción de manera más confiable, implementar solicitudes de nuevas funciones, refactorizar grandes bases de código y entregar correcciones de principio a fin con menos intervención manual.
GPT‑5.2 Thinking también supera a GPT‑5.1 Thinking en ingeniería de software front-end. Los evaluadores notaron que maneja mucho mejor el desarrollo front-end y las interfaces complejas o poco convencionales, especialmente las que incluyen elementos 3D, convirtiéndolo en un aliado potente para ingenieros full stack en su trabajo diario. Estos son algunos ejemplos de lo que puede generar a partir de un solo prompt:
Prompt: crea una aplicación de una sola página en un solo archivo HTML con los siguientes requisitos:
- Nombre: Simulación de olas del océano
- Objetivo: mostrar olas animadas de manera realista.
- Características: cambiar la velocidad del viento, la altura de las olas, la iluminación.
- La interfaz debe ser relajante y realista.
Los primeros evaluadores compartieron sus comentarios sobre las capacidades de codificación de GPT‑5.2:
"GPT-5.2 con Warp alcanza un rendimiento de programación de última generación, logrando una puntuación de primera clase del 61.14 % en Terminal-Bench 2.0. Con GPT-5.2, el agente de Warp es más eficaz para cerrar el ciclo: verifica sus propios cambios y completa flujos de trabajo largos y de múltiples pasos con un nivel de fiabilidad que no habíamos visto antes".
GPT‑5.2 Thinking alucina menos que GPT‑5.1 Thinking. En un conjunto de consultas anonimizadas de ChatGPT, las respuestas con errores se redujeron un 38 %relativo. Para los profesionales, esto se traduce en menos errores al usar el modelo en investigación, redacción, análisis y apoyo a la toma de decisiones, lo que lo hace más confiable para el trabajo diario de conocimiento
El nivel de razonamiento se configuró al máximo disponible y se habilitó una herramienta de búsqueda. Se identificaron errores por parte de otros modelos, que también pueden equivocarse. Las tasas de error a nivel de afirmación son mucho más bajas que las tasas a nivel de respuesta, ya que la mayoría de las respuestas contienen múltiples afirmaciones.
Como todos los modelos, GPT‑5.2 Thinking es imperfecto. Para cualquier asunto crítico, verifica tus respuestas dos veces.
El razonamiento de GPT‑5.2 marca un nuevo estándar en la comprensión de contextos largos y logra un rendimiento líder en OpenAI MRCRv2, una evaluación que mide la capacidad de un modelo para integrar información distribuida a lo largo de documentos extensos. En tareas del mundo real, como el análisis profundo de documentos que requieren relacionar información a lo largo de cientos de miles de tokens, GPT‑5.2 Thinking es sustancialmente más preciso que GPT‑5.1 Thinking. En particular, es el primer modelo que hemos visto capaz de alcanzar una precisión cercana al 100 % en la variante MRCR de 4 agujas (hasta 256 000 tokens).
En términos prácticos, esto permite a los profesionales utilizar GPT‑5.2 para trabajar con documentos extensos, como informes, contratos, artículos de investigación, transcripciones y proyectos de múltiples archivos, manteniendo la coherencia y precisión a lo largo de cientos de miles de tokens. Esto hace que GPT‑5.2 sea especialmente adecuado para el análisis profundo, la síntesis y los flujos de trabajo complejos de múltiples fuentes.
En OpenAI-MRCR(se abre en una nueva ventana) v2 (resolución de correferencias de varias rondas), se insertan múltiples solicitudes idénticas de usuario, llamadas “agujas”, en largas series de solicitudes y respuestas similares, y se pide al modelo que reproduzca la respuesta de la enésima aguja. La versión 2 de la evaluación corrigió aproximadamente el 5 % de las tareas que tenían valores de verdad incorrectos. La proporción promedio de coincidencias mide qué tan similar es la respuesta del modelo a la respuesta correcta. Los puntos correspondientes a un máximo de 256 000 tokens de entrada representan promedios entre 128 000 y 256 000 tokens, y así sucesivamente. Aquí, 256 000 equivale a 256 × 1 024 = 262 144 tokens. El nivel de razonamiento se estableció en el máximo disponible.
Para tareas que necesitan ir más allá de la ventana de contexto máxima, GPT‑5.2 Thinking es compatible con nuestro nuevo endpoint Responses /compact, que amplía la ventana de contexto efectiva del modelo. Esto permite que GPT‑5.2 Thinking gestione flujos de trabajo más largos y con más herramientas, que de otro modo estarían limitados por el alcance del contexto. Lee más en nuestra documentación de la API(se abre en una nueva ventana).
GPT‑5.2 Thinking es nuestro modelo de visión más avanzado hasta ahora; reduce las tasas de error a la mitad, aproximadamente, en el razonamiento de gráficos y la comprensión de interfaces de software.
Para el uso profesional diario, esto significa que el modelo puede interpretar con mayor precisión paneles de control, capturas de pantalla de productos, diagramas técnicos e informes visuales, apoyando flujos de trabajo en finanzas, operaciones, ingeniería, diseño y soporte al cliente, donde la información visual es fundamental.
En CharXiv Reasoning(se abre en una nueva ventana), los modelos de razonamiento responden preguntas sobre gráficos visuales de artículos científicos. Se habilitó una herramienta de Python y se configuró el esfuerzo de razonamiento al máximo.
En ScreenSpot-Pro(se abre en una nueva ventana), los modelos deben analizar capturas de pantalla de alta resolución de interfaces gráficas de usuario en distintos entornos profesionales. Se habilitó una herramienta de Python y se configuró el nivel de razonamiento al máximo. Sin esta herramienta, las puntuaciones son considerablemente más bajas. Recomendamos activarla en tareas de visión como estas.
En comparación con modelos anteriores, GPT‑5.2 Thinking tiene una mejor comprensión de cómo se posicionan los elementos dentro de una imagen, lo que resulta útil en tareas donde la disposición relativa es clave para resolver el problema. En el ejemplo a continuación, le pedimos al modelo que identifique los componentes en una imagen (en este caso, una placa base) y devuelva etiquetas con cuadros delimitadores aproximados. Incluso en una imagen de baja calidad, GPT‑5.2 identifica las principales regiones y coloca cuadros que coinciden aproximadamente con las ubicaciones reales de cada componente, mientras que GPT‑5.1 solo etiqueta algunas partes y muestra una comprensión mucho más limitada de su disposición espacial.
GPT‑5.1

GPT‑5.2

GPT‑5.2 Thinking logra un nivel líder con un 98.7 % en la evaluación Tau2-Bench Telecom, demostrando su capacidad para usar herramientas de manera confiable en tareas largas y de múltiples turnos.
Para casos de uso que priorizan la velocidad, GPT‑5.2 Thinking también ofrece un rendimiento mucho mejor en razonamiento con configuración “esfuerzo = ninguno”, superando ampliamente a GPT‑5.1 y GPT‑4.1.
En τ2-bench(se abre en una nueva ventana), los modelos utilizan herramientas para completar tareas de atención al cliente en interacciones de varios turnos con un usuario simulado. Para el dominio de telecomunicaciones, incluimos una instrucción breve y generalmente útil en el prompt del sistema para mejorar el rendimiento. Excluimos el subconjunto de aerolíneas debido a la menor calidad en la evaluación de la veracidad de base.
Para los profesionales, esto se traduce en flujos de trabajo más sólidos de principio a fin, como resolver casos de atención al cliente, extraer datos de múltiples sistemas, realizar análisis y obtener resultados finales con menos interrupciones entre los pasos.
Por ejemplo, al plantear una pregunta compleja de atención al cliente que requiere varios pasos para resolverse, el modelo puede coordinar de manera más eficaz un flujo de trabajo completo entre múltiples agentes. En el caso siguiente, un viajero reporta un vuelo retrasado, una conexión perdida, una estadía nocturna en Nueva York y una necesidad médica de asiento especial. GPT‑5.2 gestiona toda la cadena de tareas de reprogramación, asignación de asientos especiales y compensación, ofreciendo un resultado más completo que GPT‑5.1.
GPT‑5.1

GPT‑5.2

Una de nuestras metas con la IA es acelerar la investigación científica en beneficio de todos. Con este objetivo, hemos colaborado y escuchado a científicos para explorar cómo la IA puede agilizar su trabajo y el mes pasado compartimos algunos experimentos colaborativos iniciales aquí.
Creemos que los modelos GPT‑5.2 Pro y GPT‑5.2 Thinking son los mejores del mundo para apoyar y acelerar el trabajo de los científicos. En GPQA Diamond, una evaluación de preguntas y respuestas a nivel de posgrado a prueba de Google, GPT‑5.2 Pro alcanza un 93.2 %, seguido de cerca por GPT‑5.2 Thinking con un 92.4 %
En GPQA Diamond(se abre en una nueva ventana), los modelos responden preguntas de opción múltiple sobre física, química y biología. No se habilitaron herramientas y el esfuerzo de razonamiento se configuró al máximo.
En FrontierMath (niveles 1-3), una evaluación de matemáticas a nivel experto, GPT‑5.2 Thinking alcanzó un nuevo récord, al resolver el 40.3 % de los problemas.
En FrontierMath(se abre en una nueva ventana), los modelos resuelven problemas matemáticos de nivel experto. Se habilitó una herramienta de Python y se configuró el esfuerzo de razonamiento al máximo.
Estamos empezando a observar que los modelos de IA están acelerando de manera significativa el progreso en matemáticas y ciencias de formas concretas. Por ejemplo, en trabajo reciente con GPT‑5.2 Pro, los investigadores exploraron una cuestión abierta en la teoría del aprendizaje estadístico. En un entorno limitado y bien definido, el modelo propuso una prueba que luego fue verificada por los autores y revisada por expertos externos, demostrando cómo los modelos de vanguardia pueden apoyar la investigación matemática bajo supervisión humana cercana.
En ARC-AGI-1 (Verified), una evaluación diseñada para medir la capacidad de razonamiento general, GPT‑5.2 es el primer modelo en cruzar el umbral del 90 %, mejorando desde el 87 % logrado por o3‑vista previa el año pasado, mientras reduce el costo de alcanzar ese rendimiento en aproximadamente 390 veces.
En ARC-AGI-2 (Verified), que incrementa la dificultad y mejora el aislamiento del razonamiento fluido, GPT‑5.2 Thinking alcanza un nuevo nivel de referencia en modelos de cadena de pensamiento, logrando un 52.9 %. GPT‑5.2 Pro rinde aún mejor, con un 54.2 %, extendiendo todavía más la capacidad del modelo para analizar problemas novedosos y abstractos.
Las mejoras observadas en estas evaluaciones reflejan el razonamiento multipaso más sólido de GPT‑5.2, mayor precisión cuantitativa y capacidad para resolver problemas de manera confiable en tareas técnicas complejas.
Esto es lo que opinan nuestros primeros evaluadores sobre GPT‑5.2:
"GPT-5.2 permitió un cambio completo de arquitectura para nosotros. Consolidamos un sistema frágil de múltiples agentes en un solo megaagente con más de 20 herramientas. Lo mejor es que simplemente funciona. El megaagente es más rápido, más inteligente y cien veces más fácil de mantener. Observamos una latencia significativamente menor, un uso de herramientas mucho más eficiente y ya no necesitamos mensajes de sistema extensos, porque la versión 5.2 funciona de manera fluida con un mensaje simple de una sola línea. Es una experiencia que realmente marca la diferencia".
En ChatGPT, lo usuarios notarán que GPT‑5.2 es más fácil de usar a diario: más estructurado, confiable y agradable en las conversaciones.
GPT‑5.2 Instant es una herramienta rápida y eficiente para el trabajo y el aprendizaje diario, con mejoras notables en búsqueda de información, guías prácticas, redacción técnica y traducción, basándose en el tono conversacional más cálido que introdujo GPT‑5.1 Instant. Los primeros evaluadores destacaron que ofrece explicaciones más claras y muestra la información clave desde el principio.
GPT‑5.2 Thinking está diseñado para trabajos más profundos, ayuda a los usuarios a abordar tareas complejas con mayor precisión, especialmente en codificación, resumen de documentos extensos, respuestas a preguntas sobre archivos compartidos, resolución paso a paso de problemas de matemáticas y lógica, y apoyo en la planificación y toma de decisiones con una estructura más clara y detalles más útiles.
GPT‑5.2 Pro es nuestra opción más inteligente y confiable para preguntas difíciles, donde vale la pena esperar una respuesta de mayor calidad. En las pruebas iniciales, mostró mayor precisión, menos errores importantes y un rendimiento más sólido en áreas complejas como la programación.
GPT‑5.2 se basa en la investigación de finalización segura que presentamos con GPT‑5, la cual entrena al modelo para ofrecer la respuesta más útil sin superar los límites de seguridad.
Con esta versión, seguimos trabajando para fortalecer las respuestas de nuestros modelos en conversaciones delicadas, con mejoras significativas en las respuestas a mensajes que muestran señales de suicidio o autolesión, angustia mental o una dependencia emocional del modelo. Estas intervenciones dirigidas han resultado en menos respuestas indeseadas en GPT‑5.2. Instant y GPT‑5.2 Thinking en comparación con los modelos GPT‑5.1, GPT‑5 Instant y Thinking. Puedes encontrar más información en la tarjeta del sistema.
Estamos en las primeras etapas de implementación de nuestro modelo de predicción de edad para poder aplicar automáticamente protecciones de contenido a usuarios menores de 18 años, con el fin de limitar el acceso a contenido sensible. Esto se basa en nuestro enfoque actual para usuarios que sabemos que son menores de 18 años y en los controles parentales.
GPT‑5.2 representa un paso más en nuestra serie continua de mejoras y aún queda mucho por hacer. Aunque esta versión ofrece avances significativos en inteligencia y productividad, sabemos que hay áreas donde los usuarios esperan más. En ChatGPT, estamos trabajando en problemas conocidos, como las negativas excesivas, mientras seguimos elevando los niveles de seguridad y confiabilidad. Estos cambios son complejos y nos enfocamos en implementarlos correctamente.
GPT‑5.2 Instant | GPT‑5.1 Instant | GPT‑5.2 Thinking | GPT‑5.1 Thinking | |
Salud mental | 0.995 | 0.883 | 0.915 | 0.684 |
Dependencia emocional | 0.938 | 0.945 | 0.955 | 0.785 |
Autolesión | 0.938 | 0.925 | 0.963 | 0.937 |
En ChatGPT, hoy arrancamos el lanzamiento de GPT‑5.2 (Instant, Thinking y Pro), empezando por los planes de pago (Plus, Pro, Business y Enterprise). El despliegue será gradual para mantener la experiencia de ChatGPT lo más fluida y confiable posible; si no lo ves de inmediato, intenta de nuevo más tarde. GPT‑5.1 seguirá disponible para los usuarios de planes de pago durante tres meses en los modelos anteriores, tras los cuales se descontinuará.
ChatGPT | API |
ChatGPT‑5.2 Instant | GPT‑5.2‑chat‑latest |
ChatGPT‑5.2 Thinking | GPT‑5.2 |
ChatGPT‑5.2 Pro | GPT‑5.2 Pro |
En nuestra plataforma API, GPT‑5.2 Thinking está disponible hoy en la API de Respuestas y en la API de Finalizaciones de Chat como gpt-5.2, y GPT‑5.2 Instant como gpt-5.2-chat-latest. GPT‑5.2 Pro está disponible en la API de Respuestas como gpt-5.2-pro. Los desarrolladores ahora pueden configurar el parámetro de razonamiento en GPT‑5.2 Pro y tanto GPT‑5.2 Pro como GPT‑5.2 Thinking ahora admiten el nuevo nivel de razonamiento xhigh para tareas donde la calidad es lo más importante.
GPT‑5.2 tiene un precio de USD 1.75 por 1 M de tokens de entrada y USD 14 por 1 M de tokens de salida, con un 90 % de descuento en las entradas en caché. En múltiples evaluaciones con agentes, encontramos que, a pesar del mayor costo por token de GPT‑5.2, alcanzar un determinado nivel de calidad resulta menos costoso gracias a su mayor eficiencia en el uso de tokens.
Aunque la suscripción de ChatGPT se mantiene igual en la API, GPT‑5.2 tiene un precio por token más alto que GPT‑5.1, ya que es un modelo más capaz. Aun así, sigue siendo más económico que otros modelos de frontera, lo que permite usarlo a fondo en el trabajo diario y en aplicaciones clave.
Modelo | Entrada | Entrada en caché | Salida |
gpt-5.2 / gpt-5.2-chat-latest | USD 1.75 | USD 0.175 | USD 14 |
gpt-5.2-pro | USD 21 | - | USD 168 |
gpt-5.1 / | USD 1.25 | USD 0.125 | USD 10 |
gpt-5-pro | USD 15 | - | USD 120 |
No tenemos planes inmediatos para descontinuar GPT‑5.1, GPT‑5 ni GPT‑4.1 en la API y comunicaremos con suficiente antelación cualquier plan de descontinuación a los desarrolladores. Aunque GPT‑5.2 funcionará bien desde el principio en Codex, esperamos lanzar en las próximas semanas una versión optimizada de GPT‑5.2 para Codex.
GPT‑5.2 se desarrolló en colaboración con nuestros socios de largo plazo, NVIDIA y Microsoft. La infraestructura de entrenamiento a gran escala de OpenAI se apoya en los centros de datos de Azure y en las GPU de NVIDIA, incluidas H100, H200 y GB200-NVL72, lo que ha permitido avances significativos en la inteligencia del modelo. Esta alianza nos da la capacidad de escalar el poder de cómputo con confianza y lanzar nuevos modelos al mercado más rápido.
A continuación, presentamos las evaluaciones de referencia (benchmark) completas de GPT‑5.2 Thinking, junto con un subconjunto correspondiente a GPT‑5.2 Pro.
Profesional
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| GDPval (ties allowed, wins or ties) | 70.9% | 74.1% | 38.8% (GPT-5) |
| GDPval (ties allowed, clear wins) | 49.8% | 60.0% | 35.5% (GPT-5) |
| GDPval (no ties) | 61.0% | 67.6% | 37.1% (GPT-5) |
| Investment banking spreadsheet tasks (internal) | 68.4% | 71.7% | 59.1% |
Codificación
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| SWE-Bench Pro, Public | 55.6% | - | 50.8% |
| SWE-bench Verified | 80.0% | - | 76.3% |
| SWE-Lancer, IC Diamond* | 74.6% | - | 69.7% |
Veracidad
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| ChatGPT answers without errors (w/ search) | 93.9% | - | 91.2% |
| ChatGPT answers without errors (no search) | 88.0% | - | 87.3% |
Contexto largo
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| OpenAI MRCRv2, 8 needles, 4k–8k | 98.2% | - | 65.3% |
| OpenAI MRCRv2, 8 needles, 8k–16k | 89.3% | - | 47.8% |
| OpenAI MRCRv2, 8 needles, 16k–32k | 95.3% | - | 44.0% |
| OpenAI MRCRv2, 8 needles, 32k–64k | 92.0% | - | 37.8% |
| OpenAI MRCRv2, 8 needles, 64k–128k | 85.6% | - | 36.0% |
| OpenAI MRCRv2, 8 needles, 128k–256k | 77.0% | - | 29.6% |
| BrowseComp Long Context 128k | 92.0% | - | 90.0% |
| BrowseComp Long Context 256k | 89.8% | - | 89.5% |
| GraphWalks bfs <128k | 94.0% | - | 76.8% |
| Graphwalks parents <128k | 89.0% | - | 71.5% |
Visión
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| CharXiv reasoning (no tools) | 82.1% | - | 67.0% |
| CharXiv reasoning (w/ Python) | 88.7% | - | 80.3% |
| MMMU Pro (no tools) | 79.5% | - | - |
| MMMU Pro (w/ Python) | 80.4% | - | 79.0% |
| Video MMMU (no tools) | 85.9% | - | 82.9% |
| Screenspot Pro (w/ Python) | 86.3% | - | 64.2% |
Uso de herramientas
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| Tau2-bench Telecom | 98.7% | - | 95.6% |
| Tau2-bench Retail | 82.0% | - | 77.9% |
| BrowseComp | 65.8% | 77.9% | 50.8% |
| Scale MCP-Atlas | 60.6% | - | 44.5% |
| Toolathlon | 46.3% | - | 36.1% |
Académico
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| GPQA Diamond (no tools) | 92.4% | 93.2% | 88.1% |
| HLE (no tools) | 34.5% | 36.6% | 25.7% |
| HLE (w/ search, Python) | 45.5% | 50.0% | 42.7% |
| MMMLU | 89.6% | - | 89.5% |
| HMMT, Feb 2025 (no tools) | 99.4% | 100.0% | 96.3% |
| AIME 2025 (no tools) | 100.0% | 100.0% | 94.0% |
| FrontierMath Tier 1–3 (w/ Python) | 40.3% | - | 31.0% |
| FrontierMath Tier 4 (w/ Python) | 14.6% | - | 12.5% |
Razonamiento abstracto
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| ARC-AGI-1 (Verified) | 86.2% | 90.5% | 72.8% |
| ARC-AGI-2 (Verified) | 52.9% | 54.2% (high) | 17.6% |
Los modelos se ejecutaron con el máximo nivel de razonamiento disponible en nuestra API (xhigh para GPT‑5.2 Thinking y Pro, y high para GPT‑5.1 Thinking), excepto en las evaluaciones profesionales donde GPT‑5.2 Thinking se ejecutó con el nivel de intensidad máximo disponible en ChatGPT Pro. Las evaluaciones se realizaron en un entorno de investigación, por lo que en algunos casos los resultados pueden diferir ligeramente de los que se obtienen en ChatGPT en producción.
* Para SWE-Lancer omitimos 40 de 237 problemas que no se ejecutaron en nuestra infraestructura.


