Overslaan naar hoofdinhoud
OpenAI

Vooruitgang in wetenschap en wiskunde met GPT‑5.2

GPT‑5.2 is ons sterkste model tot nu toe voor wiskunde en wetenschap.

Bezig met laden...

Een van onze verwachtingen voor sterke AI is dat het wetenschappelijk onderzoek zal versnellen ten behoeve van iedereen, door onderzoekers te helpen meer ideeën te verkennen, ze sneller te testen en ontdekkingen om te zetten in impact. 

Het afgelopen jaar hebben we nauw samengewerkt met wetenschappers in de wiskunde, natuurkunde, biologie en informatica om te begrijpen waar AI kan helpen en waar het nog tekortschiet. Vorige maand hebben we een paper gepubliceerd dat vroege casestudies verzamelt op het gebied van wiskunde, natuurkunde, biologie, informatica, astronomie en materiaalkunde, waarin GPT‑5 onderzoekers hielp aantonen hoe GPT‑5 al is begonnen bij te dragen aan echt wetenschappelijk werk. Met GPT‑5.2 beginnen we te merken dat die voordelen consistenter en betrouwbaarder worden.

Sterkere prestaties waar precisie van belang is

GPT‑5.2 Pro en GPT‑5.2 Thinking zijn onze sterkste modellen tot nu toe voor wetenschappelijk en wiskundig werk.

Sterke wiskundig redeneervermogens vormen de basis voor betrouwbaarheid in wetenschappelijk en technisch werk. Het stelt modellen in staat om meerstapslogica te volgen, hoeveelheden consistent te houden en subtiele fouten te vermijden die zich kunnen opstapelen in echte analyses, van simulaties en statistieken tot voorspellingen en modellering. Verbeteringen op benchmarks zoals FrontierMath weerspiegelen niet een beperkte vaardigheid, maar sterkere algemene redeneervermogens en abstractie, capaciteiten die direct van toepassing zijn in wetenschappelijke workflows zoals programmeren, gegevensanalyse en experimenteel ontwerp.

Deze capaciteiten zijn ook nauw verbonden met de vooruitgang naar algemene intelligentie. Een systeem dat betrouwbaar kan redeneren door abstractie, consistentie kan behouden over lange gedachteketens en kan generaliseren over domeinen, vertoont eigenschappen die fundamenteel zijn voor AGI: geen taak-specifieke trucs, maar brede, overdraagbare redeneervaardigheden die van belang zijn in de wetenschap, techniek en besluitvorming in de echte wereld.

We zijn ervan overtuigd dat GPT‑5.2 Pro en GPT‑5.2 Thinking de beste modellen zijn om wetenschappers sneller en efficiënter te laten werken. Op GPQA Diamond, een Q&A-benchmark op universitair niveau die niet eenvoudig met Google is op te lossen, zet GPT‑5.2 Pro een score van 93,2% neer, gevolgd door GPT‑5.2 Thinking met een score van 92,4%.

In GPQA Diamond(opent in een nieuw venster) beantwoorden modellen meerkeuzevragen over natuurkunde, scheikunde en biologie. Er waren geen hulpmiddelen ingeschakeld en de redeneringsinspanning was op maximaal ingesteld.

Op FrontierMath (Tier 1–3), een evaluatie van wiskunde op expertniveau, zet GPT‑5.2 Thinking een nieuwe standaard, door 40,3% van de problemen op te lossen.

In FrontierMath(opent in een nieuw venster) lossen modellen wiskundeproblemen op expertniveau op. Een Python-tool is ingeschakeld en de redeneerinspanning is op maximaal gezet.

Casestudy

GPT‑5.2 is not only strong at graduate-level science problems. We now regularly see our frontier models contributing solutions to previously unsolved—and increasingly subtle—questions in mathematics and the sciences.

In this case study, we describe how GPT‑5.2 Pro helped resolve an open research problem in statistical learning theory, documented in a new paper, On Learning-Curve Monotonicity for Maximum Likelihood Estimators(opent in een nieuw venster).

The question (“If you collect more data, do your results reliably get better?”) shows up any time you fit a model from data. You can draw a learning curve that tracks average error as you add more examples. In the best case, the curve is monotone. More data means less error, every step of the way. That is the behavior people hope for, and often assume.

But over the last few years, researchers have learned that this intuition can fail. A line of work kicked off by an open problem posed at the Conference on Learning Theory (COLT) in 2019 by Viering, Mey, and Loog showed that the answer is often no. Even very simple, well-behaved toy setups can have non-monotonic learning curves, where adding data increases expected error. That surprise triggered a wave of follow-up papers. They expanded the list of settings where these reversals happen and proposed increasingly elaborate methods designed to restore monotone behavior.

Still, one of the most basic cases remained unresolved. What happens in the cleanest textbook situation, where the statistical model is actually correct and the data follow the familiar bell curve pattern, with a known mean but unknown standard deviation? Researchers already knew that small changes to this setup could break monotonic behavior. But the answer remained unknown in this core case.

Our new paper demonstrates that in this clean setting, intuition prevails: learning is predictably improved by more data, rather than behaving in surprising or unstable ways. What makes this paper unusual is how the proof was obtained. The authors did not work out a strategy and then ask the model to fill in steps. They did not provide intermediate arguments or a proof outline. Instead, they asked GPT‑5.2 Pro to solve the open problem directly, and then carefully verified the proof, including review and validation by external subject-matter experts.

The authors then asked simple follow-up questions to see how far the idea could go. GPT‑5.2 Pro extended the result beyond the original problem to higher dimensional settings and other common statistical models. Throughout, the human role stayed focused on verification and clear writing, rather than supplying mathematical scaffolding.

Vooruitzicht

Dit resultaat suggereert een nuttige richting voor hoe AI-systemen wetenschappelijk onderzoek ondersteuning kunnen bieden, met name in domeinen met axiomatische theoretische fundamenten zoals wiskunde en theoretische informatica. In omgevingen zoals deze kunnen topmodellen helpen bij het verkennen van bewijzen, het testen van hypothesen en het identificeren van verbanden die anders aanzienlijke menselijke inspanning zouden vergen om te ontdekken.

Tegelijkertijd zijn deze systemen geen onafhankelijke onderzoekers. Deskundig oordeel, verificatie en domeinbegrip blijven essentieel. Zelfs zeer capabele modellen kunnen fouten maken of op onuitgesproken aannames steunen, maar ze kunnen ook gedetailleerde, gestructureerde argumenten produceren die zorgvuldige menselijke studie en verfijning verdienen. Betrouwbare vooruitgang met AI hangt daarom af van workflows die validatie, transparantie en samenwerking stevig in de workflow integreren.

Beschouwd als een casestudy, illustreert dit resultaat een nieuwe manier van onderzoekspraktijk. Modellen zoals GPT‑5.2 kunnen dienen als hulpmiddelen voor het ondersteunen van wiskundig redeneren en het versnellen van vroege verkenningsfasen, terwijl de verantwoordelijkheid voor juistheid, interpretatie en context bij menselijke onderzoekers blijft. Bij zorgvuldig gebruik kunnen dergelijke systemen helpen om belangrijke aspecten van theoretisch werk te stroomlijnen zonder de centrale rol van menselijk oordeel in wetenschappelijk onderzoek te vervangen.