Sari la conținutul principal
OpenAI

11 decembrie 2025

PublicareProdusCompanie

Dezvoltarea științei și matematicii cu GPT‑5.2

GPT‑5.2 este cel mai performant model al nostru de până acum pentru matematică și științe.

Se încarcă…

Una din speranțele noastre pentru o inteligență artificială performantă este aceea că va accelera cercetarea științifică în beneficiul tuturor, ajutând cercetătorii să exploreze mai multe idei, să le testeze mai rapid și să transforme descoperirile în rezultate concrete. 

În ultimul an, am colaborat îndeaproape cu cercetători științifici din matematică, fizică, biologie și informatică pentru a înțelege domeniile în care inteligența artificială poate fi utilă și cele în care încă nu este suficient de performantă. Luna trecută, am publicat un articol care prezintă mai multe studii de caz inițiale în domenii precum matematica, fizica, biologia, informatica, astronomia și știința materialelor, în care GPT‑5 a sprijinit cercetătorii, demonstrând că GPT‑5 a început deja să contribuie la activitatea științifică reală. Cu GPT‑5.2, începem să observăm că aceste câștiguri devin mai consecvente și mai fiabile.

Performanțe mai ridicate în domeniile în care precizia contează

GPT‑5.2 Pro și GPT‑5.2 Thinking sunt cele mai performante modele ale noastre de până acum pentru activitatea științifică și matematică.

Raționamentul matematic solid constituie fundamentul fiabilității în activitatea științifică și tehnică. Le permite modelelor să folosească logica în mai mulți pași, să păstreze coerența cantităților și să evite erorile subtile care se pot agrava în analizele reale — de la simulări și statistici până la prognozare și modelare. Îmbunătățirile înregistrate în testele de performanță precum FrontierMath nu reflectă o abilitate restrânsă, ci o capacitate mai puternică de raționament general și abstractizare, care se aplică direct în fluxurile de lucru științifice, precum programarea, analiza datelor și proiectarea experimentală.

Totodată, aceste capacități sunt strâns legate de evoluția către inteligența generală. Un sistem care poate raționa în mod fiabil prin abstractizare, menține coerența pe parcursul unor lanțuri lungi de gândire și generaliza în diferite domenii prezintă trăsături fundamentale pentru AGI — nu vorbim despre trucuri specifice unei sarcini, ci despre abilități de raționament ample și transferabile, importante în știință, inginerie și în luarea deciziilor în situații reale.

Considerăm că GPT‑5.2 Pro și GPT‑5.2 Thinking sunt cele mai bune modele din lume pentru asistarea și accelerarea activității cercetătorilor științifici. În cadrul GPQA Diamond, un test de performanță cu întrebări și răspunsuri la nivel de studii superioare, imun la căutările pe Google, GPT‑5.2 Pro atinge 93,2%, urmat îndeaproape de GPT‑5.2 Thinking la 92,4%.

În cazul GPQA Diamond(se deschide într-o fereastră nouă), modelele răspund la întrebări cu variante multiple despre fizică, chimie și biologie. Nu au fost activate instrumente, iar efortul de raționament a fost setat la maxim.

În cazul FrontierMath (Nivel 1–3), o evaluare a matematicii la nivel de expert, GPT‑5.2 Thinking a stabilit un nou standard de referință, rezolvând 40,3% din probleme.

În cazul FrontierMath(se deschide într-o fereastră nouă), modelele rezolvă probleme de matematică la nivel de expert. A fost activat un instrument Python și efortul de raționament a fost setat la maxim.

Studiu de caz

GPT‑5.2 is not only strong at graduate-level science problems. We now regularly see our frontier models contributing solutions to previously unsolved—and increasingly subtle—questions in mathematics and the sciences.

In this case study, we describe how GPT‑5.2 Pro helped resolve an open research problem in statistical learning theory, documented in a new paper, On Learning-Curve Monotonicity for Maximum Likelihood Estimators(se deschide într-o fereastră nouă).

The question (“If you collect more data, do your results reliably get better?”) shows up any time you fit a model from data. You can draw a learning curve that tracks average error as you add more examples. In the best case, the curve is monotone. More data means less error, every step of the way. That is the behavior people hope for, and often assume.

But over the last few years, researchers have learned that this intuition can fail. A line of work kicked off by an open problem posed at the Conference on Learning Theory (COLT) in 2019 by Viering, Mey, and Loog showed that the answer is often no. Even very simple, well-behaved toy setups can have non-monotonic learning curves, where adding data increases expected error. That surprise triggered a wave of follow-up papers. They expanded the list of settings where these reversals happen and proposed increasingly elaborate methods designed to restore monotone behavior.

Still, one of the most basic cases remained unresolved. What happens in the cleanest textbook situation, where the statistical model is actually correct and the data follow the familiar bell curve pattern, with a known mean but unknown standard deviation? Researchers already knew that small changes to this setup could break monotonic behavior. But the answer remained unknown in this core case.

Our new paper demonstrates that in this clean setting, intuition prevails: learning is predictably improved by more data, rather than behaving in surprising or unstable ways. What makes this paper unusual is how the proof was obtained. The authors did not work out a strategy and then ask the model to fill in steps. They did not provide intermediate arguments or a proof outline. Instead, they asked GPT‑5.2 Pro to solve the open problem directly, and then carefully verified the proof, including review and validation by external subject-matter experts.

The authors then asked simple follow-up questions to see how far the idea could go. GPT‑5.2 Pro extended the result beyond the original problem to higher dimensional settings and other common statistical models. Throughout, the human role stayed focused on verification and clear writing, rather than supplying mathematical scaffolding.

Privind în viitor

Acest rezultat sugerează o direcție utilă pentru modul în care sistemele de inteligență artificială pot sprijini cercetarea științifică, în special în domenii cu fundamente teoretice axiomatice, precum matematica și informatica teoretică. În astfel de contexte, modelele de frontieră pot ajuta la explorarea demonstrațiilor, testarea ipotezelor și identificarea conexiunilor care, altfel, ar necesita un efort uman considerabil pentru a fi descoperite.

Însă, aceste sisteme nu sunt cercetători independenți. Judecata experților, verificarea și înțelegerea domeniului rămân esențiale. Chiar și modelele foarte performante pot face greșeli sau se pot baza pe presupuneri neexprimate. Însă pot produce și argumente detaliate și structurate, care merită să fie studiate și perfecționate cu atenție de către oameni. Realizarea de progrese fiabile cu ajutorul inteligenței artificiale depinde, așadar, de fluxuri de lucru care mențin validarea, transparența și colaborarea sub control.

Privit ca un studiu de caz, acest rezultat ilustrează un mod emergent de practică de cercetare. Modelele precum GPT‑5.2 pot servi drept instrumente pentru susținerea raționamentului matematic și accelerarea explorării în stadiu incipient, iar responsabilitatea pentru corectitudine, interpretare și context rămâne în continuare în sarcina cercetătorilor umani. Dacă sunt folosite cu atenție, astfel de sisteme pot ajuta la eficientizarea unor aspecte semnificative ale activității teoretice fără a înlocui rolul central al judecății umane în cercetarea științifică.