Preskočiť na hlavný obsah
OpenAI

Pokrok vo vede a matematike s GPT‑5.2

GPT‑5.2 je náš doteraz najsilnejší model na prácu v oblasti matematiky a vedy.

Načítava sa…

Jednou z našich nádejí pre silnú umelú inteligenciu je, že urýchli vedecký výskum na prospech všetkých, pomôže výskumníkom skúmať viac nápadov, rýchlejšie ich testovať a premeniť objavy na dopad. 

Za posledný rok sme úzko spolupracovali s vedcami z oblasti matematiky, fyziky, biológie a informatiky, aby sme pochopili, kde môže umelá inteligencia pomôcť a kde stále zaostáva. Minulý mesiac sme zverejnili štúdiu, ktorá zhromažďuje počiatočné prípadové štúdie z matematiky, fyziky, biológie, informatiky, astronómie a vied o materiáloch, v ktorých GPT‑5 pomohol výskumníkom ukázať, ako GPT‑5 už začal prispievať k reálnej vedeckej práci. S GPT‑5.2 začíname vidieť, že tieto prínosy sa stávajú konzistentnejšími a spoľahlivejšími.

Silnejší výkon tam, kde záleží na presnosti

GPT‑5.2 Pro a GPT‑5.2 Thinking sú naše doteraz najsilnejšie modely pre vedeckú a matematickú prácu.

Silné matematické uvažovanie je základom spoľahlivosti vo vedeckej a technickej práci. Povoľuje modelom sledovať viackrokovú logiku, udržiavať konzistentnosť množstiev a vyhnúť sa jemným chybám, ktoré sa môžu v reálnych analýzach hromadiť – od simulácií a štatistík po prognózovanie a modelovanie. Zlepšenia v referenčných hodnotách, ako je FrontierMath, neodrážajú úzku zručnosť, ale silnejšie všeobecné myslenie a abstrakciu, schopnosti, ktoré sa priamo prenášajú do vedeckých pracovných postupov, ako je kódovanie, analýza údajov a návrh experimentov.

Tieto schopnosti sú tiež úzko spojené s pokrokom smerom k všeobecnej inteligencii. Systém, ktorý dokáže spoľahlivo myslieť prostredníctvom abstrakcie, udržiavať konzistentnosť v dlhých reťazcoch myšlienok a zovšeobecňovať naprieč oblasťami, vykazuje vlastnosti, ktoré sú základom AGI - nie riešenia špecifické pre úlohy, ale široké, prenosné zručnosti v myslení, ktoré sú dôležité v oblasti vedy, inžinierstva a rozhodovania v reálnom svete.

Veríme GPT‑5.2 Pro a GPT‑5.2 Modely Thinking sú najlepšími na svete na pomoc a urýchlenie práce vedcov. Na absolventskom benchmarku GPQA Diamond, odolnom voči vyhľadávaniu na Google, GPT‑5.2 Pro dosahuje 93,2 %, tesne za ním nasleduje GPT‑5.2. Premýšľanie na 92,4 %.

V GPQA Diamond(otvorí sa v novom okne) odpovedajú modely na otázky s výberom z viacerých možností o fyzike, chémii a biológii. Žiadne nástroje neboli povolené a úsilie na myslenie bolo nastavené na maximum.

Na FrontierMath (úroveň 1–3), hodnotenie matematiky na úrovni odborníkov, GPT‑5.2 Thinking dosiahol nový špičkový stav – rieši 40,3 % problémov.

V FrontierMath(otvorí sa v novom okne) modely riešia matematické problémy na úrovni expertov. Bol povolený nástroj v jazyku Python a úsilie na uvažovanie bolo nastavené na maximum.

Prípadová štúdia

GPT‑5.2 is not only strong at graduate-level science problems. We now regularly see our frontier models contributing solutions to previously unsolved—and increasingly subtle—questions in mathematics and the sciences.

In this case study, we describe how GPT‑5.2 Pro helped resolve an open research problem in statistical learning theory, documented in a new paper, On Learning-Curve Monotonicity for Maximum Likelihood Estimators(otvorí sa v novom okne).

The question (“If you collect more data, do your results reliably get better?”) shows up any time you fit a model from data. You can draw a learning curve that tracks average error as you add more examples. In the best case, the curve is monotone. More data means less error, every step of the way. That is the behavior people hope for, and often assume.

But over the last few years, researchers have learned that this intuition can fail. A line of work kicked off by an open problem posed at the Conference on Learning Theory (COLT) in 2019 by Viering, Mey, and Loog showed that the answer is often no. Even very simple, well-behaved toy setups can have non-monotonic learning curves, where adding data increases expected error. That surprise triggered a wave of follow-up papers. They expanded the list of settings where these reversals happen and proposed increasingly elaborate methods designed to restore monotone behavior.

Still, one of the most basic cases remained unresolved. What happens in the cleanest textbook situation, where the statistical model is actually correct and the data follow the familiar bell curve pattern, with a known mean but unknown standard deviation? Researchers already knew that small changes to this setup could break monotonic behavior. But the answer remained unknown in this core case.

Our new paper demonstrates that in this clean setting, intuition prevails: learning is predictably improved by more data, rather than behaving in surprising or unstable ways. What makes this paper unusual is how the proof was obtained. The authors did not work out a strategy and then ask the model to fill in steps. They did not provide intermediate arguments or a proof outline. Instead, they asked GPT‑5.2 Pro to solve the open problem directly, and then carefully verified the proof, including review and validation by external subject-matter experts.

The authors then asked simple follow-up questions to see how far the idea could go. GPT‑5.2 Pro extended the result beyond the original problem to higher dimensional settings and other common statistical models. Throughout, the human role stayed focused on verification and clear writing, rather than supplying mathematical scaffolding.

Pohľad do budúcnosti

Tento výsledok naznačuje užitočný smer, ako môžu systémy umelej inteligencie poskytnúť podporu vedeckému výskumu, najmä v doménach s axiomatickými teoretickými základmi, ako sú matematika a teoretická informatika. V takýchto prostrediach môžu hraničné modely pomôcť skúmať dôkazy, testovať hypotézy a identifikovať súvislosti, ktoré by inak vyžadovali značné úsilie ľudí na odhalenie.

Zároveň tieto systémy nepredstavujú nezávislých výskumníkov. Odborný úsudok, overenie a porozumenie oblasti sú naďalej nevyhnutné. Aj vysoko schopné modely môžu robiť chyby alebo sa spoliehať na nevyslovené predpoklady. Môžu však tiež vytvárať podrobné, štruktúrované argumenty, ktoré si zaslúžia dôkladné štúdium a zdokonalenie ľuďmi. Spoľahlivý pokrok v oblasti umelej inteligencie preto závisí od pracovných postupov, v ktorých je zahrnutá validácia, transparentnosť a spolupráca.

Tento výsledok v zmysle vnímania prípadovej štúdie ilustruje nový spôsob výskumnej praxe. Modely ako GPT‑5.2 môžu slúžiť ako nástroje na podporu matematického uvažovania a urýchlenie počiatočného skúmania, pričom zodpovednosť za správnosť, interpretáciu a kontext zostáva na ľudských výskumníkoch. Pri opatrnom používaní môžu takéto systémy pomôcť zefektívniť významné aspekty teoretickej práce bez toho, aby nahradili ústrednú rolu ľudského úsudku vo vedeckom skúmaní.