Gå til hovedindhold
OpenAI

Fremskridt inden for videnskab og matematik med GPT‑5.2

GPT‑5.2 er vores hidtil stærkeste model til matematik og naturvidenskab.

Indlæser ...

Et af vores håb for stærk AI er, at det vil sætte skub i den videnskabelige forskning til gavn for alle og hjælpe forskere med at udforske flere ideer, teste dem hurtigere og omsætte opdagelser til resultater. 

I løbet af det seneste år har vi arbejdet tæt sammen med forskere inden for matematik, fysik, biologi og computervidenskab for at undersøge, hvor AI kan hjælpe – og hvor den stadig ikke er tilstrækkelig. I sidste måned udgav vi en artikel, der samler tidlige casestudier inden for matematik, fysik, biologi, datalogi, astronomi og materialevidenskab, hvor GPT‑5 hjalp forskere med at vise, hvordan GPT‑5 allerede er begyndt at bidrage til reelt videnskabeligt arbejde. Med GPT‑5.2 begynder vi at se, at disse fremskridt bliver mere konsistente og mere pålidelige.

Stærkere ydeevne, hvor præcision er afgørende

GPT‑5.2 Pro og GPT‑5.2 Thinking er vores hidtil stærkeste modeller til videnskabeligt og matematisk arbejde.

Stærk matematisk avanceret tænkning er grundlaget for pålidelighed i videnskabeligt og teknisk arbejde. Det gør det muligt for modeller at følge logik i flere trin, sørge for konsistens i størrelser og undgå diskrete fejl, der kan forværre virkelige analyser – fra simuleringer og statistik til prognoser og modellering. Forbedringer på benchmarks som FrontierMath er ikke udtryk for en snæver færdighed, men for stærkere generel avanceret tænkning og abstraktionsniveau, evner, der overføres direkte til videnskabelige workflows som kodning, dataanalyse og eksperimentelt design.

Disse evner er også tæt forbundet med fremskridt mod generel intelligens. Et system, der pålideligt kan bruge avanceret tænkning, bevare konsistens i lange tankekæder og generalisere på tværs af domæner, udviser træk, der er grundlæggende for AGI – ikke opgavespecifikke tricks, men brede, overførbare evner i avanceret tænkning, der har betydning for videnskab, teknik og beslutningstagning i den virkelige verden.

Vi mener, at GPT‑5.2 Pro og GPT‑5.2 Thinking er verdens bedste model til at hjælpe og accelerere forskere. På GPQA-diamant, en Google-sikker Q&A-benchmark på kandidatniveau, GPT‑5.2 Pro 93,2 %, tæt fulgt af GPT‑5.2 Thinking på 92,4 %.

I GPQA Diamant(åbner i et nyt vindue) besvarer modeller multiple choice-spørgsmål om fysik, kemi og biologi. Der blev ikke aktiveret nogen værktøjer, og avanceret tænkning blev sat til maksimalt niveau.

FrontierMath (Tier 1–3), en evaluering af matematik på ekspertniveau, GPT‑5.2 Thinking satte en ny standard for kunst, ved at løse 40,3 % af problemerne.

I FrontierMath(åbner i et nyt vindue) løser modeller matematiske problemer på ekspertniveau. Et Python-værktøj blev aktiveret, og avanceret tænkning blev indstillet til maksimalt.

Casestudie

GPT‑5.2 is not only strong at graduate-level science problems. We now regularly see our frontier models contributing solutions to previously unsolved—and increasingly subtle—questions in mathematics and the sciences.

In this case study, we describe how GPT‑5.2 Pro helped resolve an open research problem in statistical learning theory, documented in a new paper, On Learning-Curve Monotonicity for Maximum Likelihood Estimators(åbner i et nyt vindue).

The question (“If you collect more data, do your results reliably get better?”) shows up any time you fit a model from data. You can draw a learning curve that tracks average error as you add more examples. In the best case, the curve is monotone. More data means less error, every step of the way. That is the behavior people hope for, and often assume.

But over the last few years, researchers have learned that this intuition can fail. A line of work kicked off by an open problem posed at the Conference on Learning Theory (COLT) in 2019 by Viering, Mey, and Loog showed that the answer is often no. Even very simple, well-behaved toy setups can have non-monotonic learning curves, where adding data increases expected error. That surprise triggered a wave of follow-up papers. They expanded the list of settings where these reversals happen and proposed increasingly elaborate methods designed to restore monotone behavior.

Still, one of the most basic cases remained unresolved. What happens in the cleanest textbook situation, where the statistical model is actually correct and the data follow the familiar bell curve pattern, with a known mean but unknown standard deviation? Researchers already knew that small changes to this setup could break monotonic behavior. But the answer remained unknown in this core case.

Our new paper demonstrates that in this clean setting, intuition prevails: learning is predictably improved by more data, rather than behaving in surprising or unstable ways. What makes this paper unusual is how the proof was obtained. The authors did not work out a strategy and then ask the model to fill in steps. They did not provide intermediate arguments or a proof outline. Instead, they asked GPT‑5.2 Pro to solve the open problem directly, and then carefully verified the proof, including review and validation by external subject-matter experts.

The authors then asked simple follow-up questions to see how far the idea could go. GPT‑5.2 Pro extended the result beyond the original problem to higher dimensional settings and other common statistical models. Throughout, the human role stayed focused on verification and clear writing, rather than supplying mathematical scaffolding.

Fremadrettet

Dette resultat antyder en brugbar retning for, hvordan AI-systemer kan understøtte videnskabelig forskning, især inden for domæner med aksiomatiske teoretiske fundamenter som matematik og teoretisk datalogi. I sådanne sammenhænge kan frontier-modeller hjælpe med at udforske beviser, teste hypoteser og identificere forbindelser, som det ellers ville kræve en betydelig menneskelig indsats at identificere.

Samtidig er disse systemer ikke selvstændige forskere. Ekspertvurdering, verifikation og domæneforståelse forbliver essentielle. Selv meget kompetente modeller kan begå fejl eller basere sig på uoplyste antagelser. Men de kan også producere detaljerede, strukturerede argumenter, som fortjener omhyggelig menneskelig undersøgelse og finpudsning. At gøre pålidelige fremskridt med AI afhænger derfor af workflows, der sikrer validering, gennemsigtighed og samarbejde.

Dette resultat kan ses som et casestudie, der illustrerer en ny form for forskningspraksis. Modeller som GPT‑5.2 kan fungere som værktøjer til at understøtte avanceret tænkning inden for matematik og sætte skub i udforskningen på et tidligt stadie, mens ansvaret for nøjagtighed, fortolkning og kontekst fortsat ligger hos de menneskelige forskere. Hvis de bruges med omhu, kan sådanne systemer hjælpe med at effektivisere vigtige aspekter af det teoretiske arbejde uden at erstatte den centrale rolle, som den menneskelige dømmekraft spiller i videnskabelige undersøgelser.