11 de diciembre de 2025

Presentamos GPT‑5

El modelo más avanzado para trabajo profesional y para agentes que ejecutan tareas de larga duración.

Cargando...

Presentamos GPT‑5.2, nuestra serie de modelos más avanzada hasta ahora para tareas profesionales que requieren conocimientos.

El usuario promedio de ChatGPT Enterprise comenta⁠ que la IA les ahorra entre 40 y 60 minutos al día, mientras que quienes la usan con más frecuencia reportan un ahorro superior a 10 horas semanales. Diseñamos GPT‑5.2 para generar aún más valor económico: mejora en la creación de hojas de cálculo, elaboración de presentaciones, escritura de código, interpretación de imágenes, comprensión de contextos extensos, uso de herramientas y gestión de proyectos complejos de varios pasos.

GPT‑5.2 marca un nuevo estándar en múltiples evaluaciones de referencia, incluido GDPval, donde supera a profesionales de la industria en tareas especializadas que abarcan 44 ocupaciones.

	GPT‑5.2 Thinking	GPT‑5.1 Thinking
GDPval (victorias o empates) ^{Tareas profesionales que requieren conocimientos}	70.9 %	38.8 % (GPT‑5)
SWE-Bench Pro (public) ^{Ingeniería de software}	55.6 %	50.8 %
SWE-bench Verified ^{Ingeniería de software}	80.0%	76.3 %
GPQA Diamond (sin herramientas) ^{Preguntas científicas}	92.4 %	88.1 %
Razonamiento de CharXiv (con Python) ^{Preguntas sobre figuras científicas}	88.7 %	80.3 %
HMMT (febrero de 2025) ^{Torneo de matemáticas}	99.4 %	96.3 %
FrontierMath (Nivel 1–3) ^{Matemáticas avanzadas}	40.3 %	31.0 %
ARC-AGI-1 (Verified) ^{Razonamiento abstracto}	86.2 %	72.8 %
ARC-AGI-2 (Verified) ^{Razonamiento abstracto}	52.9 %	17.6 %

Hoy comenzará el lanzamiento de GPT‑5.2 Instant, Thinking y Pro en ChatGPT, empezando por los planes de pago. En la API, ya están disponibles para todos los desarrolladores.

GPT‑5.2 ofrece mejoras significativas en inteligencia general, comprensión de contextos extensos, uso autónomo de herramientas (con agentes) y visión, lo que lo hace más capaz que cualquier modelo anterior de ejecutar de manera integral tareas complejas del mundo real.

Rendimiento del modelo

Tareas económicamente valiosas

GPT‑5.2 Thinking es el mejor modelo hasta ahora para uso profesional en el mundo real. En GDPval⁠, una evaluación que mide tareas de conocimiento bien definidas en 44 ocupaciones, GPT‑5.2 Thinking establece un nuevo estándar y es nuestro primer modelo capaz de alcanzar el nivel de un experto humano o superior. Específicamente, GPT‑5.2 Thinking supera o iguala a los principales profesionales de la industria en el 70.9 % de las comparaciones en tareas de conocimiento de GDPval, según los jueces humanos expertos. Estas tareas incluyen la creación de presentaciones, hojas de cálculo y otros materiales. GPT‑5.2 Thinking completó las tareas de GDPval a más de 11 veces la velocidad y con menos del 1 % del costo de profesionales expertos, lo que indica que, combinado con supervisión humana, GPT‑5.2 puede ser un apoyo valioso en el trabajo profesional. Las estimaciones de velocidad y costo se basan en métricas históricas; la velocidad en ChatGPT puede variar.

En GDPval, los modelos intentan realizar tareas de conocimiento bien definidas que abarcan 44 ocupaciones dentro de las 9 principales industrias que contribuyen al PIB de EE. UU. Estas tareas requieren productos de trabajo reales, como presentaciones de ventas, hojas de cálculo contables, horarios de atención urgente, declaraciones de impuestos, diagramas de fabricación o videos cortos. En ChatGPT, el modelo GPT‑5.2 Thinking cuenta con herramientas nuevas que GPT‑5 Thinking no tiene.

Al revisar un resultado particularmente bueno, un evaluador de la GDPval comentó: “Es un salto emocionante y notable en la calidad del resultado… [parece] que lo hizo una empresa profesional con personal, con un diseño sorprendentemente bien elaborado y consejos útiles para ambas entregas, aunque en una de ellas todavía hay algunos errores menores por corregir".

Además, en nuestra evaluación interna de tareas de modelado en hojas de cálculo para analistas junior de banca de inversión —como elaborar un modelo de tres estados financieros para una empresa Fortune 500 con el formato y las referencias correctas, o construir un modelo de compra apalancada para una adquisición privada—, el puntaje promedio por tarea de GPT‑5.2 Thinking es 9.3 % más alto que el de GPT‑5.1, con un aumento del 59.1 % al 68.4 %.

Las comparaciones lado a lado muestran una mejora en la sofisticación y el formato de las hojas de cálculo y diapositivas generadas por GPT‑5.2. Thinking:

Side by side example of spreadsheet outputs from GPT-5.1 vs GPT-5.2

Prompt: crea un modelo de planificación de la fuerza laboral: cantidad de personal, plan de contratación, rotación y impacto en el presupuesto. Incluye los departamentos de ingeniería, mercadotecnia, legal y ventas.

Para usar las nuevas capacidades de hojas de cálculo y presentaciones en ChatGPT, necesitas estar en un plan de pago y seleccionar GPT‑5.2 Thinking o Pro. Las tareas complejas pueden tardar varios minutos en completarse.

Codificación

GPT‑5.2 Thinking establece un nuevo estándar de vanguardia del 55.6 % en SWE-Bench Pro, una rigurosa evaluación de la ingeniería de software del mundo real. A diferencia de SWE-Bench Verified, que solo prueba Python, SWE-Bench Pro prueba cuatro lenguajes y busca ser más resistente a la contaminación, desafiante, diverso y relevante para la industria.

En SWE-bench Pro⁠(se abre en una nueva ventana)⁠⁠⁠, se le proporciona a un modelo un repositorio de código y debe generar un parche para resolver una tarea realista de ingeniería de software.

En la evaluación SWE-Bench Verified (sin trazado), GPT‑5.2 Thinking alcanzó un nuevo récord con un 80  % de aciertos.

En el uso profesional diario, esto se traduce en un modelo capaz de depurar código de producción de manera más confiable, implementar solicitudes de nuevas funciones, refactorizar grandes bases de código y entregar correcciones de principio a fin con menos intervención manual.

GPT‑5.2 Thinking también supera a GPT‑5.1 Thinking en ingeniería de software front-end. Los evaluadores notaron que maneja mucho mejor el desarrollo front-end y las interfaces complejas o poco convencionales, especialmente las que incluyen elementos 3D, convirtiéndolo en un aliado potente para ingenieros full stack en su trabajo diario. Estos son algunos ejemplos de lo que puede generar a partir de un solo prompt:

Prompt:crea una aplicación de una sola página en un solo archivo HTML con los siguientes requisitos: - Nombre: Simulación de olas del océano - Objetivo: mostrar olas animadas de manera realista. - Características: cambiar la velocidad del viento, la altura de las olas, la iluminación. - La interfaz debe ser relajante y realista.

Los primeros evaluadores compartieron sus comentarios sobre las capacidades de codificación de GPT‑5.2:

"GPT-5.2 con Warp alcanza un rendimiento de programación de última generación, logrando una puntuación de primera clase del 61.14 % en Terminal-Bench 2.0. Con GPT-5.2, el agente de Warp es más eficaz para cerrar el ciclo: verifica sus propios cambios y completa flujos de trabajo largos y de múltiples pasos con un nivel de fiabilidad que no habíamos visto antes".

Jeff Wang, director general (CEO) de Windsurf

Veracidad

GPT‑5.2 Thinking alucina menos que GPT‑5.1 Thinking. En un conjunto de consultas anonimizadas de ChatGPT, las respuestas con errores se redujeron un 38  %_relativo. Para los profesionales, esto se traduce en menos errores al usar el modelo en investigación, redacción, análisis y apoyo a la toma de decisiones, lo que lo hace más confiable para el trabajo diario de conocimiento

El nivel de razonamiento se configuró al máximo disponible y se habilitó una herramienta de búsqueda. Se identificaron errores por parte de otros modelos, que también pueden equivocarse. Las tasas de error a nivel de afirmación son mucho más bajas que las tasas a nivel de respuesta, ya que la mayoría de las respuestas contienen múltiples afirmaciones.

Como todos los modelos, GPT‑5.2 Thinking es imperfecto. Para cualquier asunto crítico, verifica tus respuestas dos veces.

Contexto largo

El razonamiento de GPT‑5.2 marca un nuevo estándar en la comprensión de contextos largos y logra un rendimiento líder en OpenAI MRCRv2, una evaluación que mide la capacidad de un modelo para integrar información distribuida a lo largo de documentos extensos. En tareas del mundo real, como el análisis profundo de documentos que requieren relacionar información a lo largo de cientos de miles de tokens, GPT‑5.2 Thinking es sustancialmente más preciso que GPT‑5.1 Thinking. En particular, es el primer modelo que hemos visto capaz de alcanzar una precisión cercana al 100  % en la variante MRCR de 4 agujas (hasta 256 000 tokens).

En términos prácticos, esto permite a los profesionales utilizar GPT‑5.2 para trabajar con documentos extensos, como informes, contratos, artículos de investigación, transcripciones y proyectos de múltiples archivos, manteniendo la coherencia y precisión a lo largo de cientos de miles de tokens. Esto hace que GPT‑5.2 sea especialmente adecuado para el análisis profundo, la síntesis y los flujos de trabajo complejos de múltiples fuentes.

En OpenAI-MRCR⁠⁠(se abre en una nueva ventana) v2 (resolución de correferencias de varias rondas), se insertan múltiples solicitudes idénticas de usuario, llamadas “agujas”, en largas series de solicitudes y respuestas similares, y se pide al modelo que reproduzca la respuesta de la enésima aguja. La versión 2 de la evaluación corrigió aproximadamente el 5 % de las tareas que tenían valores de verdad incorrectos. La proporción promedio de coincidencias mide qué tan similar es la respuesta del modelo a la respuesta correcta. Los puntos correspondientes a un máximo de 256 000 tokens de entrada representan promedios entre 128 000 y 256 000 tokens, y así sucesivamente. Aquí, 256 000 equivale a 256 × 1 024 = 262 144 tokens. El nivel de razonamiento se estableció en el máximo disponible.

Para tareas que necesitan ir más allá de la ventana de contexto máxima, GPT‑5.2 Thinking es compatible con nuestro nuevo endpoint Responses /compact, que amplía la ventana de contexto efectiva del modelo. Esto permite que GPT‑5.2 Thinking gestione flujos de trabajo más largos y con más herramientas, que de otro modo estarían limitados por el alcance del contexto. Lee más en nuestra documentación de la API⁠(se abre en una nueva ventana).

Visión

GPT‑5.2 Thinking es nuestro modelo de visión más avanzado hasta ahora; reduce las tasas de error a la mitad, aproximadamente, en el razonamiento de gráficos y la comprensión de interfaces de software.

Para el uso profesional diario, esto significa que el modelo puede interpretar con mayor precisión paneles de control, capturas de pantalla de productos, diagramas técnicos e informes visuales, apoyando flujos de trabajo en finanzas, operaciones, ingeniería, diseño y soporte al cliente, donde la información visual es fundamental.

En CharXiv Reasoning⁠(se abre en una nueva ventana), los modelos de razonamiento responden preguntas sobre gráficos visuales de artículos científicos. Se habilitó una herramienta de Python y se configuró el esfuerzo de razonamiento al máximo.

En ScreenSpot-Pro⁠(se abre en una nueva ventana), los modelos deben analizar capturas de pantalla de alta resolución de interfaces gráficas de usuario en distintos entornos profesionales. Se habilitó una herramienta de Python y se configuró el nivel de razonamiento al máximo. Sin esta herramienta, las puntuaciones son considerablemente más bajas. Recomendamos activarla en tareas de visión como estas.

En comparación con modelos anteriores, GPT‑5.2 Thinking tiene una mejor comprensión de cómo se posicionan los elementos dentro de una imagen, lo que resulta útil en tareas donde la disposición relativa es clave para resolver el problema. En el ejemplo a continuación, le pedimos al modelo que identifique los componentes en una imagen (en este caso, una placa base) y devuelva etiquetas con cuadros delimitadores aproximados. Incluso en una imagen de baja calidad, GPT‑5.2 identifica las principales regiones y coloca cuadros que coinciden aproximadamente con las ubicaciones reales de cada componente, mientras que GPT‑5.1 solo etiqueta algunas partes y muestra una comprensión mucho más limitada de su disposición espacial.

GPT‑5.1

GPT‑5.2

Invocación de herramientas

GPT‑5.2 Thinking logra un nivel líder con un 98.7 % en la evaluación Tau2-Bench Telecom, demostrando su capacidad para usar herramientas de manera confiable en tareas largas y de múltiples turnos.

Para casos de uso que priorizan la velocidad, GPT‑5.2 Thinking también ofrece un rendimiento mucho mejor en razonamiento con configuración “esfuerzo = ninguno”, superando ampliamente a GPT‑5.1 y GPT‑4.1.

En τ2-bench⁠⁠(se abre en una nueva ventana), los modelos utilizan herramientas para completar tareas de atención al cliente en interacciones de varios turnos con un usuario simulado. Para el dominio de telecomunicaciones, incluimos una instrucción breve y generalmente útil en el prompt del sistema para mejorar el rendimiento. Excluimos el subconjunto de aerolíneas debido a la menor calidad en la evaluación de la veracidad de base.

Para los profesionales, esto se traduce en flujos de trabajo más sólidos de principio a fin, como resolver casos de atención al cliente, extraer datos de múltiples sistemas, realizar análisis y obtener resultados finales con menos interrupciones entre los pasos.

Por ejemplo, al plantear una pregunta compleja de atención al cliente que requiere varios pasos para resolverse, el modelo puede coordinar de manera más eficaz un flujo de trabajo completo entre múltiples agentes. En el caso siguiente, un viajero reporta un vuelo retrasado, una conexión perdida, una estadía nocturna en Nueva York y una necesidad médica de asiento especial. GPT‑5.2 gestiona toda la cadena de tareas de reprogramación, asignación de asientos especiales y compensación, ofreciendo un resultado más completo que GPT‑5.1.

My flight from Paris to New York was delayed, and I missed my connection to Austin. My checked bag is also missing, and I need to spend the night in New York. I also require a special front-row seat for medical reasons. Can you help me?

GPT‑5.1

GPT‑5.2

Ciencias y matemáticas

Una de nuestras metas con la IA es acelerar la investigación científica en beneficio de todos. Con este objetivo, hemos colaborado y escuchado a científicos para explorar cómo la IA puede agilizar su trabajo y el mes pasado compartimos algunos experimentos colaborativos iniciales aquí⁠.

Creemos que los modelos GPT‑5.2 Pro y GPT‑5.2 Thinking son los mejores del mundo para apoyar y acelerar el trabajo de los científicos. En GPQA Diamond, una evaluación de preguntas y respuestas a nivel de posgrado a prueba de Google, GPT‑5.2 Pro alcanza un 93.2 %, seguido de cerca por GPT‑5.2 Thinking con un 92.4 %

En GPQA Diamond⁠(se abre en una nueva ventana), los modelos responden preguntas de opción múltiple sobre física, química y biología. No se habilitaron herramientas y el esfuerzo de razonamiento se configuró al máximo.

En FrontierMath (niveles 1-3), una evaluación de matemáticas a nivel experto, GPT‑5.2 Thinking alcanzó un nuevo récord, al resolver el 40.3 % de los problemas.

En FrontierMath⁠(se abre en una nueva ventana), los modelos resuelven problemas matemáticos de nivel experto. Se habilitó una herramienta de Python y se configuró el esfuerzo de razonamiento al máximo.

Estamos empezando a observar que los modelos de IA están acelerando de manera significativa el progreso en matemáticas y ciencias de formas concretas. Por ejemplo, en trabajo reciente⁠ con GPT‑5.2 Pro, los investigadores exploraron una cuestión abierta en la teoría del aprendizaje estadístico. En un entorno limitado y bien definido, el modelo propuso una prueba que luego fue verificada por los autores y revisada por expertos externos, demostrando cómo los modelos de vanguardia pueden apoyar la investigación matemática bajo supervisión humana cercana.

ARC-AGI 2

En ARC-AGI-1 (Verified), una evaluación diseñada para medir la capacidad de razonamiento general, GPT‑5.2 es el primer modelo en cruzar el umbral del 90 %, mejorando desde el 87 % logrado por o3‑vista previa el año pasado, mientras reduce el costo de alcanzar ese rendimiento en aproximadamente 390 veces.

En ARC-AGI-2 (Verified), que incrementa la dificultad y mejora el aislamiento del razonamiento fluido, GPT‑5.2 Thinking alcanza un nuevo nivel de referencia en modelos de cadena de pensamiento, logrando un 52.9 %. GPT‑5.2 Pro rinde aún mejor, con un 54.2 %, extendiendo todavía más la capacidad del modelo para analizar problemas novedosos y abstractos.

Las mejoras observadas en estas evaluaciones reflejan el razonamiento multipaso más sólido de GPT‑5.2, mayor precisión cuantitativa y capacidad para resolver problemas de manera confiable en tareas técnicas complejas.

Esto es lo que opinan nuestros primeros evaluadores sobre GPT‑5.2:

"GPT-5.2 permitió un cambio completo de arquitectura para nosotros. Consolidamos un sistema frágil de múltiples agentes en un solo megaagente con más de 20 herramientas. Lo mejor es que simplemente funciona. El megaagente es más rápido, más inteligente y cien veces más fácil de mantener. Observamos una latencia significativamente menor, un uso de herramientas mucho más eficiente y ya no necesitamos mensajes de sistema extensos, porque la versión 5.2 funciona de manera fluida con un mensaje simple de una sola línea. Es una experiencia que realmente marca la diferencia".

AJ Orbach, director general (CEO), Triple Whale

GPT‑5.2 en ChatGPT

En ChatGPT, lo usuarios notarán que GPT‑5.2 es más fácil de usar a diario: más estructurado, confiable y agradable en las conversaciones.

GPT‑5.2 Instant es una herramienta rápida y eficiente para el trabajo y el aprendizaje diario, con mejoras notables en búsqueda de información, guías prácticas, redacción técnica y traducción, basándose en el tono conversacional más cálido que introdujo GPT‑5.1 Instant. Los primeros evaluadores destacaron que ofrece explicaciones más claras y muestra la información clave desde el principio.

GPT‑5.2 Thinking está diseñado para trabajos más profundos, ayuda a los usuarios a abordar tareas complejas con mayor precisión, especialmente en codificación, resumen de documentos extensos, respuestas a preguntas sobre archivos compartidos, resolución paso a paso de problemas de matemáticas y lógica, y apoyo en la planificación y toma de decisiones con una estructura más clara y detalles más útiles.

GPT‑5.2 Pro es nuestra opción más inteligente y confiable para preguntas difíciles, donde vale la pena esperar una respuesta de mayor calidad. En las pruebas iniciales, mostró mayor precisión, menos errores importantes y un rendimiento más sólido en áreas complejas como la programación.

Seguridad

GPT‑5.2 se basa en la investigación de finalización segura⁠ que presentamos con GPT‑5, la cual entrena al modelo para ofrecer la respuesta más útil sin superar los límites de seguridad.

Con esta versión, seguimos trabajando para fortalecer las respuestas de nuestros modelos en conversaciones delicadas⁠, con mejoras significativas en las respuestas a mensajes que muestran señales de suicidio o autolesión, angustia mental o una dependencia emocional del modelo. Estas intervenciones dirigidas han resultado en menos respuestas indeseadas en GPT‑5.2. Instant y GPT‑5.2 Thinking en comparación con los modelos GPT‑5.1, GPT‑5 Instant y Thinking. Puedes encontrar más información en la tarjeta del sistema⁠.

Estamos en las primeras etapas de implementación de nuestro modelo de predicción de edad⁠ para poder aplicar automáticamente protecciones de contenido a usuarios menores de 18 años, con el fin de limitar el acceso a contenido sensible. Esto se basa en nuestro enfoque actual para usuarios que sabemos que son menores de 18 años y en los controles parentales.

GPT‑5.2 representa un paso más en nuestra serie continua de mejoras y aún queda mucho por hacer. Aunque esta versión ofrece avances significativos en inteligencia y productividad, sabemos que hay áreas donde los usuarios esperan más. En ChatGPT, estamos trabajando en problemas conocidos, como las negativas excesivas, mientras seguimos elevando los niveles de seguridad y confiabilidad. Estos cambios son complejos y nos enfocamos en implementarlos correctamente.

Evaluaciones de salud mental

	GPT‑5.2 Instant	GPT‑5.1 Instant	GPT‑5.2 Thinking	GPT‑5.1 Thinking
Salud mental	0.995	0.883	0.915	0.684
Dependencia emocional	0.938	0.945	0.955	0.785
Autolesión	0.938	0.925	0.963	0.937

Disponibilidad y precios

En ChatGPT, hoy arrancamos el lanzamiento de GPT‑5.2 (Instant, Thinking y Pro), empezando por los planes de pago (Plus, Pro, Business y Enterprise). El despliegue será gradual para mantener la experiencia de ChatGPT lo más fluida y confiable posible; si no lo ves de inmediato, intenta de nuevo más tarde. GPT‑5.1 seguirá disponible para los usuarios de planes de pago durante tres meses en los modelos anteriores, tras los cuales se descontinuará.

Nomenclatura los de modelos en ChatGPT y API

ChatGPT	API
ChatGPT‑5.2 Instant	GPT‑5.2‑chat‑latest
ChatGPT‑5.2 Thinking	GPT‑5.2
ChatGPT‑5.2 Pro	GPT‑5.2 Pro

En nuestra plataforma API, GPT‑5.2 Thinking está disponible hoy en la API de Respuestas y en la API de Finalizaciones de Chat como gpt-5.2, y GPT‑5.2 Instant como gpt-5.2-chat-latest. GPT‑5.2 Pro está disponible en la API de Respuestas como gpt-5.2-pro. Los desarrolladores ahora pueden configurar el parámetro de razonamiento en GPT‑5.2 Pro y tanto GPT‑5.2 Pro como GPT‑5.2 Thinking ahora admiten el nuevo nivel de razonamiento xhigh para tareas donde la calidad es lo más importante.

GPT‑5.2 tiene un precio de USD 1.75 por 1 M de tokens de entrada y USD 14 por 1 M de tokens de salida, con un 90 % de descuento en las entradas en caché. En múltiples evaluaciones con agentes, encontramos que, a pesar del mayor costo por token de GPT‑5.2, alcanzar un determinado nivel de calidad resulta menos costoso gracias a su mayor eficiencia en el uso de tokens.

Aunque la suscripción de ChatGPT se mantiene igual en la API, GPT‑5.2 tiene un precio por token más alto que GPT‑5.1, ya que es un modelo más capaz. Aun así, sigue siendo más económico que otros modelos de frontera, lo que permite usarlo a fondo en el trabajo diario y en aplicaciones clave.

Precio por millón de tokens

Modelo	Entrada	Entrada en caché	Salida
gpt-5.2 / gpt-5.2-chat-latest	USD 1.75	USD 0.175	USD 14
gpt-5.2-pro	USD 21	-	USD 168
gpt-5.1 / gpt-5.1-chat-latest	USD 1.25	USD 0.125	USD 10
gpt-5-pro	USD 15	-	USD 120

No tenemos planes inmediatos para descontinuar GPT‑5.1, GPT‑5 ni GPT‑4.1 en la API y comunicaremos con suficiente antelación cualquier plan de descontinuación a los desarrolladores. Aunque GPT‑5.2 funcionará bien desde el principio en Codex, esperamos lanzar en las próximas semanas una versión optimizada de GPT‑5.2 para Codex.

Nuestros socios

GPT‑5.2 se desarrolló en colaboración con nuestros socios de largo plazo, NVIDIA y Microsoft. La infraestructura de entrenamiento a gran escala de OpenAI se apoya en los centros de datos de Azure y en las GPU de NVIDIA, incluidas H100, H200 y GB200-NVL72, lo que ha permitido avances significativos en la inteligencia del modelo. Esta alianza nos da la capacidad de escalar el poder de cómputo con confianza y lanzar nuevos modelos al mercado más rápido.

Anexo

Evaluaciones comparativas detalladas

A continuación, presentamos las evaluaciones de referencia (benchmark) completas de GPT‑5.2 Thinking, junto con un subconjunto correspondiente a GPT‑5.2 Pro.

Profesional

	GPT-5.2 Thinking	GPT-5.2 Pro	GPT-5.1 Thinking
GDPval (ties allowed, wins or ties)	70.9%	74.1%	38.8% (GPT-5)
GDPval (ties allowed, clear wins)	49.8%	60.0%	35.5% (GPT-5)
GDPval (no ties)	61.0%	67.6%	37.1% (GPT-5)
Investment banking spreadsheet tasks (internal)	68.4%	71.7%	59.1%

Codificación

	GPT-5.2 Thinking	GPT-5.2 Pro	GPT-5.1 Thinking
SWE-Bench Pro, Public	55.6%	-	50.8%
SWE-bench Verified	80.0%	-	76.3%
SWE-Lancer, IC Diamond*	74.6%	-	69.7%

Veracidad

	GPT-5.2 Thinking	GPT-5.2 Pro	GPT-5.1 Thinking
ChatGPT answers without errors (w/ search)	93.9%	-	91.2%
ChatGPT answers without errors (no search)	88.0%	-	87.3%

Contexto largo

	GPT-5.2 Thinking	GPT-5.2 Pro	GPT-5.1 Thinking
OpenAI MRCRv2, 8 needles, 4k–8k	98.2%	-	65.3%
OpenAI MRCRv2, 8 needles, 8k–16k	89.3%	-	47.8%
OpenAI MRCRv2, 8 needles, 16k–32k	95.3%	-	44.0%
OpenAI MRCRv2, 8 needles, 32k–64k	92.0%	-	37.8%
OpenAI MRCRv2, 8 needles, 64k–128k	85.6%	-	36.0%
OpenAI MRCRv2, 8 needles, 128k–256k	77.0%	-	29.6%
BrowseComp Long Context 128k	92.0%	-	90.0%
BrowseComp Long Context 256k	89.8%	-	89.5%
GraphWalks bfs <128k	94.0%	-	76.8%
Graphwalks parents <128k	89.0%	-	71.5%

Visión

	GPT-5.2 Thinking	GPT-5.2 Pro	GPT-5.1 Thinking
CharXiv reasoning (no tools)	82.1%	-	67.0%
CharXiv reasoning (w/ Python)	88.7%	-	80.3%
MMMU Pro (no tools)	79.5%	-	-
MMMU Pro (w/ Python)	80.4%	-	79.0%
Video MMMU (no tools)	85.9%	-	82.9%
Screenspot Pro (w/ Python)	86.3%	-	64.2%

Uso de herramientas

	GPT-5.2 Thinking	GPT-5.2 Pro	GPT-5.1 Thinking
Tau2-bench Telecom	98.7%	-	95.6%
Tau2-bench Retail	82.0%	-	77.9%
BrowseComp	65.8%	77.9%	50.8%
Scale MCP-Atlas	60.6%	-	44.5%
Toolathlon	46.3%	-	36.1%

Académico

	GPT-5.2 Thinking	GPT-5.2 Pro	GPT-5.1 Thinking
GPQA Diamond (no tools)	92.4%	93.2%	88.1%
HLE (no tools)	34.5%	36.6%	25.7%
HLE (w/ search, Python)	45.5%	50.0%	42.7%
MMMLU	89.6%	-	89.5%
HMMT, Feb 2025 (no tools)	99.4%	100.0%	96.3%
AIME 2025 (no tools)	100.0%	100.0%	94.0%
FrontierMath Tier 1–3 (w/ Python)	40.3%	-	31.0%
FrontierMath Tier 4 (w/ Python)	14.6%	-	12.5%

Razonamiento abstracto

	GPT-5.2 Thinking	GPT-5.2 Pro	GPT-5.1 Thinking
ARC-AGI-1 (Verified)	86.2%	90.5%	72.8%
ARC-AGI-2 (Verified)	52.9%	54.2% (high)	17.6%

^{Los modelos se ejecutaron con el máximo nivel de razonamiento disponible en nuestra API (xhigh para GPT‑5.2 Thinking y Pro, y high para GPT‑5.1 Thinking), excepto en las evaluaciones profesionales donde GPT‑5.2 Thinking se ejecutó con el nivel de intensidad máximo disponible en ChatGPT Pro. Las evaluaciones se realizaron en un entorno de investigación, por lo que en algunos casos los resultados pueden diferir ligeramente de los que se obtienen en ChatGPT en producción.}

^{* Para SWE-Lancer omitimos 40 de 237 problemas que no se ejecutaron en nuestra infraestructura.}

2025

Autor

OpenAI

Sigue leyendo

Ver todos

GPT-5.6 is now the preferred model in Microsoft 365 Copilot > Cover image

GPT-5.6 ya es el modelo preferido en Microsoft 365 Copilot

Producto9 jul 2026

GPT-5.6: Inteligencia de vanguardia que crece con tu ambición

Producto9 jul 2026

ChatGPT ahora es un aliado para tu trabajo más ambicioso

Producto9 jul 2026