Salta al contingut principal
OpenAI

11 de desembre del 2025

PublicacióProducteEmpresa

Impulsant la ciència i les matemàtiques amb GPT‑5.2

GPT‑5.2 és el nostre model més potent fins ara per a treballs de matemàtiques i ciència.

S'està carregant…

Una de les nostres esperances per a una IA potent és que acceleri la recerca científica en benefici de tothom, ajudant els investigadors a explorar més idees, provar-les més ràpid i convertir els descobriments en impacte. 

Durant l’últim any, hem treballat estretament amb científics de les matemàtiques, la física, la biologia i la informàtica per entendre on la IA pot ajudar —i on encara es queda curta. El mes passat, vam publicar un article que recopila estudis de cas inicials de matemàtiques, física, biologia, informàtica, astronomia i ciència dels materials en què GPT‑5 va ajudar investigadors, mostrant com GPT‑5 ja ha començat a contribuir a treball científic real. Amb GPT‑5.2, comencem a veure que aquestes millores esdevenen més consistents i fiables.

Millor rendiment allà on la precisió importa

GPT‑5.2 Pro i GPT‑5.2 Thinking són els nostres models més potents fins ara per al treball científic i matemàtic.

Un fort raonament matemàtic és una base de la fiabilitat en el treball científic i tècnic. Permet als models seguir una lògica de diversos passos, mantenir les quantitats coherents i evitar errors subtils que es poden acumular en anàlisis reals, des de simulacions i estadística fins a predicció i modelització. Les millores en benchmarks com FrontierMath no reflecteixen una habilitat limitada, sinó un raonament general i una abstracció més sòlids, capacitats que es traslladen directament a fluxos de treball científics com la programació, l’anàlisi de dades i el disseny experimental.

Aquestes capacitats també estan estretament vinculades al progrés cap a la intel·ligència general. Un sistema que pot raonar de manera fiable a través de l’abstracció, mantenir la coherència al llarg de llargues cadenes de pensament i generalitzar entre dominis mostra trets que són fonamentals per a l’AGI: no trucs específics d’una tasca, sinó habilitats de raonament àmplies i transferibles que importen en la ciència, l’enginyeria i la presa de decisions al món real.

Creiem que GPT‑5.2 Pro i GPT‑5.2 Thinking són els millors models del món per ajudar i accelerar la feina dels científics. A GPQA Diamond, un benchmark de preguntes i respostes de nivell de postgrau resistent a Google, GPT‑5.2 Pro assoleix el 93,2 %, seguit de prop per GPT‑5.2 Thinking amb el 92,4 %.

A GPQA Diamond(s'obre en una finestra nova), els models responen preguntes de resposta múltiple sobre física, química i biologia. No es va habilitar cap eina i l’esforç de raonament es va establir al màxim.

A FrontierMath (Tier 1–3), una avaluació de matemàtiques de nivell expert, GPT‑5.2 Thinking va establir un nou estat de l’art en resoldre el 40,3 % dels problemes.

A FrontierMath(s'obre en una finestra nova), els models resolen problemes de matemàtiques de nivell expert. Es va habilitar una eina de Python i l’esforç de raonament es va establir al màxim.

Estudi de cas

GPT‑5.2 is not only strong at graduate-level science problems. We now regularly see our frontier models contributing solutions to previously unsolved—and increasingly subtle—questions in mathematics and the sciences.

In this case study, we describe how GPT‑5.2 Pro helped resolve an open research problem in statistical learning theory, documented in a new paper, On Learning-Curve Monotonicity for Maximum Likelihood Estimators(s'obre en una finestra nova).

The question (“If you collect more data, do your results reliably get better?”) shows up any time you fit a model from data. You can draw a learning curve that tracks average error as you add more examples. In the best case, the curve is monotone. More data means less error, every step of the way. That is the behavior people hope for, and often assume.

But over the last few years, researchers have learned that this intuition can fail. A line of work kicked off by an open problem posed at the Conference on Learning Theory (COLT) in 2019 by Viering, Mey, and Loog showed that the answer is often no. Even very simple, well-behaved toy setups can have non-monotonic learning curves, where adding data increases expected error. That surprise triggered a wave of follow-up papers. They expanded the list of settings where these reversals happen and proposed increasingly elaborate methods designed to restore monotone behavior.

Still, one of the most basic cases remained unresolved. What happens in the cleanest textbook situation, where the statistical model is actually correct and the data follow the familiar bell curve pattern, with a known mean but unknown standard deviation? Researchers already knew that small changes to this setup could break monotonic behavior. But the answer remained unknown in this core case.

Our new paper demonstrates that in this clean setting, intuition prevails: learning is predictably improved by more data, rather than behaving in surprising or unstable ways. What makes this paper unusual is how the proof was obtained. The authors did not work out a strategy and then ask the model to fill in steps. They did not provide intermediate arguments or a proof outline. Instead, they asked GPT‑5.2 Pro to solve the open problem directly, and then carefully verified the proof, including review and validation by external subject-matter experts.

The authors then asked simple follow-up questions to see how far the idea could go. GPT‑5.2 Pro extended the result beyond the original problem to higher dimensional settings and other common statistical models. Throughout, the human role stayed focused on verification and clear writing, rather than supplying mathematical scaffolding.

Mirant endavant

Aquest resultat suggereix una direcció útil sobre com els sistemes d’IA poden donar suport a la recerca científica, especialment en dominis amb fonaments teòrics axiomàtics com les matemàtiques i la informàtica teòrica. En contextos com aquests, els models d'avantguarda poden ajudar a explorar demostracions, posar a prova hipòtesis i identificar connexions que, altrament, podrien requerir un esforç humà considerable per descobrir.

Al mateix temps, aquests sistemes no són investigadors independents. El criteri expert, la verificació i la comprensió del domini continuen sent essencials. Fins i tot els models molt capaços poden cometre errors o basar-se en supòsits no expressats. Però també poden produir arguments detallats i estructurats que mereixen un estudi i un refinament humans acurats. Per tant, avançar de manera fiable amb la IA depèn de fluxos de treball que mantinguin fermament la validació, la transparència i la col·laboració dins del procés.

Considerat com a estudi de cas, aquest resultat il·lustra una manera emergent de practicar la recerca. Models com GPT‑5.2 poden servir com a eines per donar suport al raonament matemàtic i accelerar l’exploració en fases inicials, mentre que la responsabilitat de la correcció, la interpretació i el context continua recaient en els investigadors humans. Utilitzats amb cura, aquests sistemes poden ajudar a agilitzar aspectes significatius del treball teòric sense desplaçar el paper central del criteri humà en la investigació científica.