11 de diciembre de 2025

Avances en ciencia y matemáticas con GPT‑5.2

GPT‑5.2 es nuestro modelo más potente hasta ahora para trabajos en matemáticas y ciencias.

Cargando...

Una de nuestras expectativas para la IA avanzada es que impulse la investigación científica en beneficio de todas las personas, ayudando a los equipos a explorar más ideas, evaluarlas con mayor rapidez y convertir los descubrimientos en resultados de impacto.

Durante el último año, hemos colaborado de cerca con especialistas en matemáticas, física, biología e informática para entender dónde la IA puede aportar valor y dónde todavía presenta limitaciones. El mes pasado, publicamos un artículo⁠ que reúne estudios de caso iniciales en matemáticas —incluyendo avances en el campo de matemáticas teóricas— así como en física, biología, ciencias de la computación, astronomía y ciencia de materiales, donde GPT‑5 asistió a distintos equipos de investigación. Estos ejemplos muestran que el modelo ya empieza a contribuir al trabajo científico real. Con GPT‑5.2 vemos que estos avances se vuelven más consistentes y confiables.

Mejor desempeño en tareas donde la precisión es clave

GPT‑5.2 Pro y GPT‑5.2 Thinking son nuestros modelos más fuertes hasta ahora para el trabajo científico y matemático.

El razonamiento matemático sólido es esencial para lograr confiabilidad en el trabajo científico y técnico. Permite que los modelos sigan una lógica de varios pasos, mantengan la coherencia de las cantidades y eviten errores sutiles que pueden acumularse en análisis reales, desde simulaciones y estadísticas hasta pronósticos y modelización. Las mejoras en evaluaciones como FrontierMath no representan una habilidad aislada, sino un razonamiento general más robusto y una mayor capacidad de abstracción, cualidades que se aplican directamente a flujos de trabajo científicos como la programación, el análisis de datos y el diseño experimental.

Estas capacidades también están estrechamente vinculadas al avance hacia la inteligencia general. Un sistema que puede analizar con fiabilidad mediante la abstracción, mantener la coherencia a lo largo de extensas cadenas de razonamiento y generalizar entre distintos dominios demuestra rasgos fundamentales para la IAG: no se trata de trucos para tareas específicas, sino de habilidades de razonamiento amplias y transferibles, valiosas en la ciencia, la ingeniería y la toma de decisiones en el mundo real.

Creemos que los modelos GPT‑5.2 Pro y GPT‑5.2 Thinking son los mejores del mundo para apoyar y acelerar el trabajo de los científicos. En GPQA Diamond, una evaluación de preguntas y respuestas a nivel de posgrado a prueba de Google, GPT‑5.2 Pro alcanza un 93.2 %, seguido de cerca por GPT‑5.2 Thinking con un 92.4 %

En GPQA Diamond⁠(se abre en una nueva ventana), los modelos responden preguntas de opción múltiple sobre física, química y biología. No se habilitaron herramientas y el esfuerzo de razonamiento se configuró al máximo.

En FrontierMath (niveles 1-3), una evaluación de matemáticas a nivel experto, GPT‑5.2 Thinking alcanzó un nuevo récord, resolviendo el 40.3 % de los problemas.

En FrontierMath⁠(se abre en una nueva ventana), los modelos resuelven problemas matemáticos de nivel experto. Se habilitó una herramienta de Python y se configuró el esfuerzo de razonamiento al máximo.

Caso de estudio

GPT‑5.2 is not only strong at graduate-level science problems. We now regularly see our frontier models contributing solutions to previously unsolved—and increasingly subtle—questions in mathematics and the sciences.

In this case study, we describe how GPT‑5.2 Pro helped resolve an open research problem in statistical learning theory, documented in a new paper, On Learning-Curve Monotonicity for Maximum Likelihood Estimators⁠(se abre en una nueva ventana).

The question (“If you collect more data, do your results reliably get better?”) shows up any time you fit a model from data. You can draw a learning curve that tracks average error as you add more examples. In the best case, the curve is monotone. More data means less error, every step of the way. That is the behavior people hope for, and often assume.

But over the last few years, researchers have learned that this intuition can fail. A line of work kicked off by an open problem posed at the Conference on Learning Theory (COLT) in 2019 by Viering, Mey, and Loog showed that the answer is often no. Even very simple, well-behaved toy setups can have non-monotonic learning curves, where adding data increases expected error. That surprise triggered a wave of follow-up papers. They expanded the list of settings where these reversals happen and proposed increasingly elaborate methods designed to restore monotone behavior.

Still, one of the most basic cases remained unresolved. What happens in the cleanest textbook situation, where the statistical model is actually correct and the data follow the familiar bell curve pattern, with a known mean but unknown standard deviation? Researchers already knew that small changes to this setup could break monotonic behavior. But the answer remained unknown in this core case.

Our new paper demonstrates that in this clean setting, intuition prevails: learning is predictably improved by more data, rather than behaving in surprising or unstable ways. What makes this paper unusual is how the proof was obtained. The authors did not work out a strategy and then ask the model to fill in steps. They did not provide intermediate arguments or a proof outline. Instead, they asked GPT‑5.2 Pro to solve the open problem directly, and then carefully verified the proof, including review and validation by external subject-matter experts.

The authors then asked simple follow-up questions to see how far the idea could go. GPT‑5.2 Pro extended the result beyond the original problem to higher dimensional settings and other common statistical models. Throughout, the human role stayed focused on verification and clear writing, rather than supplying mathematical scaffolding.

De cara al futuro

Este resultado indica una dirección prometedora sobre cómo los sistemas de IA pueden apoyar la investigación científica, especialmente en campos con bases teóricas axiomáticas, como las matemáticas y la informática teórica. En estos entornos, los modelos avanzados pueden ayudar a explorar demostraciones, verificar hipótesis e identificar conexiones que, de otro modo, requerirían un esfuerzo humano considerable para descubrir.

Al mismo tiempo, estos sistemas no reemplazan a los investigadores humanos. El juicio experto, la verificación y la comprensión del dominio siguen siendo esenciales. Incluso los modelos más avanzados pueden cometer errores o apoyarse en suposiciones implícitas. Sin embargo, también pueden generar argumentos detallados y estructurados que merecen ser estudiados y refinados por personas. Por ello, avanzar de manera confiable con IA requiere flujos de trabajo que integren validación, transparencia y colaboración en todo el proceso.

Visto como estudio de caso, este resultado muestra un enfoque emergente en la práctica de la investigación. Modelos como GPT‑5.2 pueden servir como herramientas para apoyar el razonamiento matemático y acelerar la exploración en etapas iniciales, mientras que la responsabilidad de la precisión, la interpretación y el contexto recae en los investigadores humanos. Usados con cuidado, estos sistemas pueden agilizar aspectos importantes del trabajo teórico sin reemplazar el papel central del juicio humano en la investigación científica.

Autor

OpenAI

Sigue leyendo

Ver todos

Introducing OpenAI Presence

Producto22 jul 2026

David Vélez y Robin Vince se unen a las juntas de OpenAI

Empresa21 jul 2026

Un cuadro de mando para la era de la IA

Empresa17 jul 2026