Vooruitgang in wetenschap en wiskunde met GPT‑5.2
GPT‑5.2 is ons sterkste model tot nu toe voor wiskunde en wetenschap.
Een van onze verwachtingen voor sterke AI is dat het wetenschappelijk onderzoek zal versnellen ten behoeve van iedereen, door onderzoekers te helpen meer ideeën te verkennen, ze sneller te testen en ontdekkingen om te zetten in impact.
Het afgelopen jaar hebben we nauw samengewerkt met wetenschappers in de wiskunde, natuurkunde, biologie en informatica om te begrijpen waar AI kan helpen en waar het nog tekortschiet. Vorige maand hebben we een paper gepubliceerd dat vroege casestudies verzamelt op het gebied van wiskunde, natuurkunde, biologie, informatica, astronomie en materiaalkunde, waarin GPT‑5 onderzoekers hielp aantonen hoe GPT‑5 al is begonnen bij te dragen aan echt wetenschappelijk werk. Met GPT‑5.2 beginnen we te merken dat die voordelen consistenter en betrouwbaarder worden.
GPT‑5.2 Pro en GPT‑5.2 Thinking zijn onze sterkste modellen tot nu toe voor wetenschappelijk en wiskundig werk.
Sterke wiskundig redeneervermogens vormen de basis voor betrouwbaarheid in wetenschappelijk en technisch werk. Het stelt modellen in staat om meerstapslogica te volgen, hoeveelheden consistent te houden en subtiele fouten te vermijden die zich kunnen opstapelen in echte analyses, van simulaties en statistieken tot voorspellingen en modellering. Verbeteringen op benchmarks zoals FrontierMath weerspiegelen niet een beperkte vaardigheid, maar sterkere algemene redeneervermogens en abstractie, capaciteiten die direct van toepassing zijn in wetenschappelijke workflows zoals programmeren, gegevensanalyse en experimenteel ontwerp.
Deze capaciteiten zijn ook nauw verbonden met de vooruitgang naar algemene intelligentie. Een systeem dat betrouwbaar kan redeneren door abstractie, consistentie kan behouden over lange gedachteketens en kan generaliseren over domeinen, vertoont eigenschappen die fundamenteel zijn voor AGI: geen taak-specifieke trucs, maar brede, overdraagbare redeneervaardigheden die van belang zijn in de wetenschap, techniek en besluitvorming in de echte wereld.
We zijn ervan overtuigd dat GPT‑5.2 Pro en GPT‑5.2 Thinking de beste modellen zijn om wetenschappers sneller en efficiënter te laten werken. Op GPQA Diamond, een Q&A-benchmark op universitair niveau die niet eenvoudig met Google is op te lossen, zet GPT‑5.2 Pro een score van 93,2% neer, gevolgd door GPT‑5.2 Thinking met een score van 92,4%.
In GPQA Diamond(opent in een nieuw venster) beantwoorden modellen meerkeuzevragen over natuurkunde, scheikunde en biologie. Er waren geen hulpmiddelen ingeschakeld en de redeneringsinspanning was op maximaal ingesteld.
Op FrontierMath (Tier 1–3), een evaluatie van wiskunde op expertniveau, zet GPT‑5.2 Thinking een nieuwe standaard, door 40,3% van de problemen op te lossen.
In FrontierMath(opent in een nieuw venster) lossen modellen wiskundeproblemen op expertniveau op. Een Python-tool is ingeschakeld en de redeneerinspanning is op maximaal gezet.
Casestudy
Dit resultaat suggereert een nuttige richting voor hoe AI-systemen wetenschappelijk onderzoek ondersteuning kunnen bieden, met name in domeinen met axiomatische theoretische fundamenten zoals wiskunde en theoretische informatica. In omgevingen zoals deze kunnen topmodellen helpen bij het verkennen van bewijzen, het testen van hypothesen en het identificeren van verbanden die anders aanzienlijke menselijke inspanning zouden vergen om te ontdekken.
Tegelijkertijd zijn deze systemen geen onafhankelijke onderzoekers. Deskundig oordeel, verificatie en domeinbegrip blijven essentieel. Zelfs zeer capabele modellen kunnen fouten maken of op onuitgesproken aannames steunen, maar ze kunnen ook gedetailleerde, gestructureerde argumenten produceren die zorgvuldige menselijke studie en verfijning verdienen. Betrouwbare vooruitgang met AI hangt daarom af van workflows die validatie, transparantie en samenwerking stevig in de workflow integreren.
Beschouwd als een casestudy, illustreert dit resultaat een nieuwe manier van onderzoekspraktijk. Modellen zoals GPT‑5.2 kunnen dienen als hulpmiddelen voor het ondersteunen van wiskundig redeneren en het versnellen van vroege verkenningsfasen, terwijl de verantwoordelijkheid voor juistheid, interpretatie en context bij menselijke onderzoekers blijft. Bij zorgvuldig gebruik kunnen dergelijke systemen helpen om belangrijke aspecten van theoretisch werk te stroomlijnen zonder de centrale rol van menselijk oordeel in wetenschappelijk onderzoek te vervangen.


