Hopp til hovedinnhold
OpenAI

11. desember 2025

PublikasjonProduktSelskap

Vitenskap og matematikk fremmes med GPT‑5.2

GPT‑5.2 er vår sterkeste modell så langt for matematikk og forskningsarbeid.

Laster inn …

En av våre forhåpninger for sterk KI er at det vil akselerere vitenskapelig forskning til fordel for alle, ved å hjelpe forskere med å utforske flere ideer, teste dem raskere og omgjøre oppdagelser til konkrete resultater. 

I løpet av det siste året har vi jobbet tett med forskere innen matematikk, fysikk, biologi og informatikk for å forstå hvor KI kan bidra, og hvor det fortsatt ikke strekker til. Forrige måned publiserte vi en artikkel som samlet tidlige kasusstudier innen matematikk, fysikk, biologi, informatikk, astronomi og materialvitenskap, der GPT‑5 hjalp forskere med å vise hvordan GPT‑5 allerede har begynt å bidra til virkelig vitenskapelig arbeid. Med GPT‑5.2 begynner vi å se at disse fremskrittene blir mer konsistente og mer pålitelige.

Sterkere ytelse der presisjon er avgjørende

GPT‑5.2 Pro og GPT‑5.2 Thinking er våre hittil sterkeste modeller for vitenskapelig og matematisk arbeid.

Sterk matematisk resonnering er en grunnleggende forutsetning for pålitelighet i vitenskapelig og teknisk arbeid. Det gjør det mulig for modeller å følge flertrinnslogikk, holde tallverdier konsistente og unngå subtile feil som kan forverres i virkelige analyser, fra simuleringer og statistikk til prognoser og modellering. Forbedringer på referansemålinger som FrontierMath reflekterer ikke en smal ferdighet, men sterkere generell resonnering og abstraksjon, kapabiliteter som direkte overføres til vitenskapelige arbeidsflyter som koding, dataanalyse og eksperimentell design.

Disse kapabilitetene er også nært knyttet til fremdriften mot generell intelligens. Et system som kan resonnere pålitelig gjennom abstraksjon, opprettholde konsistens gjennom lange tankerekker og generalisere på tvers av domener, viser egenskaper som er grunnleggende for AGI – kke oppgavespesifikke triks, men brede, overførbare resonneringsferdigheter som er viktige innen vitenskap, ingeniørfag og beslutningstaking i den virkelige verden.

Vi tror at GPT‑5.2 Pro og GPT‑5.2 Thinking er verdens beste modeller for å assistere og akselerere forskere. På GPQA Diamond, en Google-sikker spørsmål og svar-referansemåling på masternivå, GPT‑5.2 Pro 93,2 %, tett fulgt av GPT‑5.2 Thinking på 92,4 %.

I GPQA Diamond(åpnes i et nytt vindu) svarer modeller på flervalgsspørsmål om fysikk, kjemi og biologi. Ingen verktøy var aktivert, og resonnementinnsatsen var satt på maksimum.

FrontierMath (nivå 1–3), en evaluering av matematikk på ekspertnivå, satte GPT‑5.2 Thinking en ny standard for det ypperste ved å løse 40,3 % av oppgavene.

I FrontierMath(åpnes i et nytt vindu) løser modeller matematikkoppgaver på ekspertnivå. Et Python-verktøy var aktivert, og resonneringsinnsatsen var satt på maksimum.

Casestudie

GPT‑5.2 is not only strong at graduate-level science problems. We now regularly see our frontier models contributing solutions to previously unsolved—and increasingly subtle—questions in mathematics and the sciences.

In this case study, we describe how GPT‑5.2 Pro helped resolve an open research problem in statistical learning theory, documented in a new paper, On Learning-Curve Monotonicity for Maximum Likelihood Estimators(åpnes i et nytt vindu).

The question (“If you collect more data, do your results reliably get better?”) shows up any time you fit a model from data. You can draw a learning curve that tracks average error as you add more examples. In the best case, the curve is monotone. More data means less error, every step of the way. That is the behavior people hope for, and often assume.

But over the last few years, researchers have learned that this intuition can fail. A line of work kicked off by an open problem posed at the Conference on Learning Theory (COLT) in 2019 by Viering, Mey, and Loog showed that the answer is often no. Even very simple, well-behaved toy setups can have non-monotonic learning curves, where adding data increases expected error. That surprise triggered a wave of follow-up papers. They expanded the list of settings where these reversals happen and proposed increasingly elaborate methods designed to restore monotone behavior.

Still, one of the most basic cases remained unresolved. What happens in the cleanest textbook situation, where the statistical model is actually correct and the data follow the familiar bell curve pattern, with a known mean but unknown standard deviation? Researchers already knew that small changes to this setup could break monotonic behavior. But the answer remained unknown in this core case.

Our new paper demonstrates that in this clean setting, intuition prevails: learning is predictably improved by more data, rather than behaving in surprising or unstable ways. What makes this paper unusual is how the proof was obtained. The authors did not work out a strategy and then ask the model to fill in steps. They did not provide intermediate arguments or a proof outline. Instead, they asked GPT‑5.2 Pro to solve the open problem directly, and then carefully verified the proof, including review and validation by external subject-matter experts.

The authors then asked simple follow-up questions to see how far the idea could go. GPT‑5.2 Pro extended the result beyond the original problem to higher dimensional settings and other common statistical models. Throughout, the human role stayed focused on verification and clear writing, rather than supplying mathematical scaffolding.

Fremtidsutsikter

Dette resultatet antyder en nyttig retning for hvordan KI-systemer kan støtte vitenskapelig forskning, spesielt i domener med aksiomatiske teoretiske grunnlag som matematikk og teoretisk informatikk. I slike sammenhenger kan banebrytende modeller hjelpe med å utforske bevis, teste hypoteser og identifisere forbindelser som det ellers ville kreve betydelig menneskelig innsats for å avdekke.

Samtidig er disse systemene ikke selvstendige forskere. Ekspertvurdering, verifisering og forståelse av domener er fortsatt viktig. Selv svært kapable modeller kan gjøre feil eller stole på uuttalte antakelser. Men de kan også lage detaljerte, strukturerte argumenter som fortjener grundig menneskelig gjennomgang og forbedring. Pålitelig fremgang med KI avhenger derfor av arbeidsflyter som sikrer at validering, åpenhet og samarbeid forblir en del av prosessen.

Sett som en casestudie, illustrerer dette resultatet en fremvoksende forskningspraksis. Modeller som GPT‑5.2 kan fungere som verktøy for å støtte matematisk resonnement og akselerere tidlig utforskning, mens ansvaret for korrekthet, tolkning og kontekst forblir hos menneskelige forskere. Brukt med omhu kan slike systemer bidra til å effektivisere viktige aspekter av teoretisk arbeid uten å fortrenge den sentrale rollen som menneskelig vurdering har i vitenskapelig forskning.