Gå direkt till huvudinnehåll
OpenAI

Framsteg inom vetenskap och matematik med GPT‑5.2

GPT‑5.2 är vår starkaste modell hittills för matematik och naturvetenskapligt arbete.

Laddar …

En av våra förhoppningar för stark AI är att den ska påskynda vetenskaplig forskning till förmån för alla, hjälpa forskare att utforska fler idéer, testa dem snabbare och omvandla upptäckter till verklig påverkan. 

Under det senaste året har vi arbetat nära med forskare inom matematik, fysik, biologi och datavetenskap för att förstå var AI kan hjälpa till – och var det fortfarande inte räcker till. Förra månaden publicerade vi en artikel som sammanställer tidiga fallstudier inom matematik, fysik, biologi, datavetenskap, astronomi och materialvetenskap där GPT‑5 hjälpte forskare att visa hur GPT‑5 redan har börjat bidra till verkligt vetenskapligt arbete. Med GPT‑5.2 börjar vi se att dessa vinster blir mer konsekventa och mer tillförlitliga.

Starkare prestanda där precision är avgörande

GPT‑5.2 Pro och GPT‑5.2 Thinking är våra starkaste modeller hittills för vetenskapligt och matematiskt arbete.

Starkt matematiskt resonemang är en grund för tillförlitlighet inom vetenskapligt och tekniskt arbete. Det aktiverar modeller att följa flerstegslogik, hålla kvantiteter konsekventa och undvika subtila fel som kan förvärras i verkliga analyser – från simuleringar och statistik till prognoser och modellering. Förbättringar för riktmärken som FrontierMath återspeglar inte en smal färdighet, utan starkare allmänna resonemang och abstraktioner, förmågor som direkt överförs till vetenskapliga arbetsflöden som kodning, dataanalys och experimentell design.

Dessa förmågor är också nära kopplade till framsteg mot allmän intelligens. Ett system som på ett tillförlitligt sätt kan resonera genom abstraktion, upprätthålla konsekvens över långa tankekedjor och generalisera över domäner uppvisar egenskaper som är grundläggande för AGI – inte uppgiftsspecifika knep, utan breda, överförbara resonemangsfärdigheter som är viktiga inom vetenskap, teknik och beslutsfattande i den verkliga världen.

Vi anser att GPT‑5.2 Pro och GPT‑5.2 Thinking är världens bästa modeller för att bistå och accelerera forskare. På GPQA Diamond, ett Google-säkert Q&A-riktmärke på avancerad nivå, GPT‑5.2 Pro 93,2 %, tätt följt av GPT‑5.2 Thinking med 92,4 %.

I GPQA Diamond(öppnas i ett nytt fönster) besvarar modeller flervalsfrågor om fysik, kemi och biologi. Inga verktyg var aktiverade och resonemangsinsatsen var inställd på maximal nivå.

FrontierMath (Tier 1–3), en utvärdering av matematik på expertnivå, GPT‑5.2 Thinking satte en ny standard genom att lösa 40,3 % av problemen.

I FrontierMath(öppnas i ett nytt fönster) löser modeller matematiska problem på expertnivå. Ett Python-verktyg aktiverades och resonemangsinsatsen ställdes in på maximal.

Fallstudie

GPT‑5.2 is not only strong at graduate-level science problems. We now regularly see our frontier models contributing solutions to previously unsolved—and increasingly subtle—questions in mathematics and the sciences.

In this case study, we describe how GPT‑5.2 Pro helped resolve an open research problem in statistical learning theory, documented in a new paper, On Learning-Curve Monotonicity for Maximum Likelihood Estimators(öppnas i ett nytt fönster).

The question (“If you collect more data, do your results reliably get better?”) shows up any time you fit a model from data. You can draw a learning curve that tracks average error as you add more examples. In the best case, the curve is monotone. More data means less error, every step of the way. That is the behavior people hope for, and often assume.

But over the last few years, researchers have learned that this intuition can fail. A line of work kicked off by an open problem posed at the Conference on Learning Theory (COLT) in 2019 by Viering, Mey, and Loog showed that the answer is often no. Even very simple, well-behaved toy setups can have non-monotonic learning curves, where adding data increases expected error. That surprise triggered a wave of follow-up papers. They expanded the list of settings where these reversals happen and proposed increasingly elaborate methods designed to restore monotone behavior.

Still, one of the most basic cases remained unresolved. What happens in the cleanest textbook situation, where the statistical model is actually correct and the data follow the familiar bell curve pattern, with a known mean but unknown standard deviation? Researchers already knew that small changes to this setup could break monotonic behavior. But the answer remained unknown in this core case.

Our new paper demonstrates that in this clean setting, intuition prevails: learning is predictably improved by more data, rather than behaving in surprising or unstable ways. What makes this paper unusual is how the proof was obtained. The authors did not work out a strategy and then ask the model to fill in steps. They did not provide intermediate arguments or a proof outline. Instead, they asked GPT‑5.2 Pro to solve the open problem directly, and then carefully verified the proof, including review and validation by external subject-matter experts.

The authors then asked simple follow-up questions to see how far the idea could go. GPT‑5.2 Pro extended the result beyond the original problem to higher dimensional settings and other common statistical models. Throughout, the human role stayed focused on verification and clear writing, rather than supplying mathematical scaffolding.

En blick in i framtiden

Detta resultat antyder en användbar riktning för hur AI-system kan ge stöd för vetenskaplig forskning, särskilt inom domäner med axiomatiska teoretiska grunder som matematik och teoretisk datavetenskap. I miljöer som dessa kan banbrytande modeller hjälpa till att utforska bevis, testa hypoteser och identifiera samband som annars skulle kräva betydande mänskliga insatser att upptäcka.

Samtidigt är dessa system inte självständiga forskare. Expertbedömning, verifiering och förståelse av domäner förblir avgörande. Även mycket kapabla modeller kan göra misstag eller förlita sig på outtalade antaganden. Men de kan också skapa detaljerade, strukturerade argument som förtjänar noggrann mänsklig granskning och förfining. Att göra tillförlitliga framsteg med AI beror därför på arbetsflöden som säkerställer att validering, transparens och samarbete är en del av processen.

Sett som en fallstudie illustrerar detta resultat ett framväxande forskningssätt. Modeller som GPT‑5.2 kan fungera som verktyg för att stödja matematiskt resonemang och påskynda tidig utforskning, medan ansvaret för korrekthet, tolkning och kontext kvarstår hos mänskliga forskare. Om de används försiktigt kan sådana system hjälpa till att effektivisera viktiga aspekter av teoretiskt arbete utan att ersätta den centrala rollen av mänskligt omdöme i vetenskaplig forskning.