Preskočite na glavno vsebino
OpenAI

11. december 2025

ObjavaIzdelekPodjetje

Napredek v znanosti in matematiki z modelom GPT‑5.2

GPT‑5.2 je naš najzmogljivejši model doslej za matematično in znanstveno delo.

Nalaganje …

S prizadevanji za razvoj močne umetne inteligence med drugim upamo, da bo pospešila znanstvene raziskave v korist vseh, pomagala raziskovalcem proučiti več zamisli, jih hitreje preizkusiti in odkritja pretvoriti v dejanski učinek. 

V preteklem letu smo tesno sodelovali z znanstveniki na področjih matematike, fizike, biologije in računalništva, da bi razumeli, kje lahko umetna inteligenca pomaga in kje še vedno zaostaja. Prejšnji mesec smo objavili članek, v katerem so opisane zgodnje študije primerov s področij matematike, fizike, biologije, računalništva, astronomije in znanosti o materialih, pri katerih je model GPT‑5 pomagal raziskovalcem in ki jasno kažejo, kako je GPT‑5 že začel prispevati k resničnemu znanstvenemu delu. Pri modelu GPT‑5.2 začenjamo opažati, da napredek postaja doslednejši in zanesljivejši.

Večja zmogljivost na področjih, kjer je pomembna natančnost

GPT‑5.2 Pro in GPT‑5.2 Thinking sta naša najmočnejša modela doslej za znanstveno in matematično delo.

Močno matematično sklepanje je bistvenega pomena za zanesljivost pri znanstvenem in tehničnem delu. Modelom omogoča, da sledijo večstopenjski logiki, ohranjajo dosledne količine in se izogibajo komaj zaznavnim napakam, ki se lahko nakopičijo pri resničnih analizah – od simulacij in statistike do napovedovanja in modeliranja. Izboljšave pri primerjalnih analizah, kakršna je FrontierMath, ne odražajo spretnosti v ožjem pomenu, pač pa močnejše splošno sklepanje in abstrakcijo, dve sposobnosti, ki se prenašata neposredno v znanstvene delovne tokove, kot so programiranje, analiziranje podatkov in eksperimentalno načrtovanje.

Te zmogljivosti so prav tako tesno povezane z napredkom, ki vodi do nastanka splošne inteligence. Sistem, ki zanesljivo razmišlja in sklepa skozi abstraktnost, ohranja doslednost skozi dolge miselne tokove in poseduje splošno razumevanje različnih področij, izkazuje lastnosti, ki so nepogrešljive za splošno umetno inteligenco (AGI) – ne gre za trike, ki bi delovali pri posameznih nalogah, pač pa za široke, prenosljive spretnosti razmišljanja in sklepanja, ki so pomembne v znanosti, inženirstvu in odločanju v resničnem svetu.

Po našem mnenju sta GPT‑5.2 Pro in GPT‑5.2 Thinking najboljša modela na svetu za podporo in pospeševanje dela znanstvenikov. Pri primerjalni analizi GPQA Diamond, ki vključuje odgovarjanje na vprašanja na podiplomski ravni, kjer odgovorov ni mogoče zlahka najti v Googlu, je model GPT‑5.2 Pro dosegel 93,2 %, tesno pa mu sledi model GPT‑5.2 Thinking z 92,4 %.

Pri primerjalni analizi GPQA Diamond(odpre se v novem oknu) modeli odgovarjajo na vprašanja izbirnega tipa s področij fizike, kemije in biologije. Nobena orodja niso bila omogočena, intenzivnost razmišljanja pa je bila nastavljena na najvišjo raven.

Pri primerjalni analizi FrontierMath (stebri 1–3), kjer se izvaja vrednotenje matematičnih sposobnosti na najvišji ravni, je model GPT‑5.2 Thinking postavil nov mejnik, saj je rešil kar 40,3 % problemov.

Pri primerjalni analizi FrontierMath(odpre se v novem oknu) modeli rešujejo matematične probleme na strokovni ravni. Omogočeno je bilo orodje, napisano v jeziku Python, in intenzivnost razmišljanja je bila nastavljena na najvišjo raven.

Študija primera

GPT‑5.2 is not only strong at graduate-level science problems. We now regularly see our frontier models contributing solutions to previously unsolved—and increasingly subtle—questions in mathematics and the sciences.

In this case study, we describe how GPT‑5.2 Pro helped resolve an open research problem in statistical learning theory, documented in a new paper, On Learning-Curve Monotonicity for Maximum Likelihood Estimators(odpre se v novem oknu).

The question (“If you collect more data, do your results reliably get better?”) shows up any time you fit a model from data. You can draw a learning curve that tracks average error as you add more examples. In the best case, the curve is monotone. More data means less error, every step of the way. That is the behavior people hope for, and often assume.

But over the last few years, researchers have learned that this intuition can fail. A line of work kicked off by an open problem posed at the Conference on Learning Theory (COLT) in 2019 by Viering, Mey, and Loog showed that the answer is often no. Even very simple, well-behaved toy setups can have non-monotonic learning curves, where adding data increases expected error. That surprise triggered a wave of follow-up papers. They expanded the list of settings where these reversals happen and proposed increasingly elaborate methods designed to restore monotone behavior.

Still, one of the most basic cases remained unresolved. What happens in the cleanest textbook situation, where the statistical model is actually correct and the data follow the familiar bell curve pattern, with a known mean but unknown standard deviation? Researchers already knew that small changes to this setup could break monotonic behavior. But the answer remained unknown in this core case.

Our new paper demonstrates that in this clean setting, intuition prevails: learning is predictably improved by more data, rather than behaving in surprising or unstable ways. What makes this paper unusual is how the proof was obtained. The authors did not work out a strategy and then ask the model to fill in steps. They did not provide intermediate arguments or a proof outline. Instead, they asked GPT‑5.2 Pro to solve the open problem directly, and then carefully verified the proof, including review and validation by external subject-matter experts.

The authors then asked simple follow-up questions to see how far the idea could go. GPT‑5.2 Pro extended the result beyond the original problem to higher dimensional settings and other common statistical models. Throughout, the human role stayed focused on verification and clear writing, rather than supplying mathematical scaffolding.

Pogled v prihodnost

Ta rezultat nakazuje koristno smer, kako lahko sistemi umetne inteligence podpirajo znanstvene raziskave, zlasti na področjih z aksiomatično teoretično podlago, kot sta matematika in teoretično računalništvo. V takšnih okoljih lahko najnaprednejši modeli pomagajo pri raziskovanju dokazov, preizkušanju hipotez in prepoznavanju povezav, katerih odkrivanje bi sicer zahtevalo precej človeškega truda.

Hkrati ti sistemi niso neodvisni raziskovalci. Strokovna presoja, preverjanje in razumevanje področja so še naprej bistvenega pomena. Tudi visoko zmogljivi modeli se lahko zmotijo ali se zanašajo na nenavedene predpostavke. Toda lahko ustvarijo tudi podrobne, strukturirane argumente, ki si zaslužijo skrbno človeško proučitev in izpopolnitev. Zanesljivo doseganje napredka z umetno inteligenco je zato odvisno od delovnih tokov, v katera morajo biti tesno vpeti preverjanje, preglednost in sodelovanje.

Ta rezultat – če ga obravnavamo kot študijo primera – ponazarja nov način praktičnega raziskovanja, ki se še razvija. Modeli, kot je GPT‑5.2, lahko služijo kot orodja za podporo matematičnemu razmišljanju in za pospeševanje zgodnje faze raziskovanja, medtem ko so za pravilnost, razlaganje in kontekst še vedno odgovorni človeški raziskovalci. Če se takšni sistemi uporabljajo previdno, lahko pomagajo poenostaviti pomembne vidike teoretičnega dela, ne da bi pri tem izpodrinili osrednjo vlogo človeške presoje v znanstvenem raziskovanju.