Preskočite na glavni sadržaj
OpenAI

11. prosinca 2025.

PublikacijaProizvodTvrtka

Napredovanje znanosti i matematike uz GPT‑5.2

GPT‑5.2 je naš dosad najjači model za rad u matematici i znanosti.

Učitavanje…

Jedna od naših nada za snažnu umjetnu inteligenciju jest da će ubrzati znanstvena istraživanja na korist svima, pomažući istraživačima da istraže više ideja, brže ih testiraju i pretvore otkrića u konkretan utjecaj. 

Tijekom protekle godine, blisko smo surađivali sa znanstvenicima iz područja matematike, fizike, biologije i računalnih znanosti kako bismo razumjeli gdje umjetna inteligencija može pomoći – i gdje još uvijek zaostaje. Prošlog mjeseca smo objavili rad koji prikuplja rane studije slučaja iz matematike, fizike, biologije, računalnih znanosti, astronomije i znanosti o materijalima u kojima je GPT‑5 pomogao istraživačima, pokazujući kako je GPT‑5 već počeo doprinositi stvarnom znanstvenom radu. Uz model GPT‑5.2, počinjemo primjećivati da ti dobici postaju dosljedniji i pouzdaniji.

Jača izvedba tamo gdje je preciznost važna

GPT‑5.2 Pro i GPT‑5.2 Thinking su naši dosad najjači modeli za znanstveni i matematički rad.

Snažno matematičko zaključivanje temelj je pouzdanosti u znanstvenom i tehničkom radu. Omogućuje modelima da slijede višekoračnu logiku, održavaju dosljednost količina i izbjegavaju suptilne pogreške koje se mogu nagomilati u stvarnim analizama – od simulacija i statistike do predviđanja i modeliranja. Poboljšanja na mjerilima poput FrontierMath ne odražavaju usku vještinu, već snažnije opće prosuđivanje i apstrakciju, sposobnosti koje se izravno prenose u znanstvene tijekove rada kao što su kodiranje, analiza podataka i eksperimentalni dizajn.

Te su sposobnosti također usko povezane s napretkom prema općoj inteligenciji. Sustav koji može pouzdano prosuđivati kroz apstrakciju, održavati dosljednost kroz duge lance razmišljanja i generalizirati kroz domene pokazuje osobine koje su temeljne za AGI – ne trikove specifične za zadatke, već široke, prenosive vještine rasuđivanja koje su važne u znanosti, inženjerstvu i donošenju odluka u stvarnom svijetu.

Vjerujemo da su GPT‑5.2 Pro i GPT‑5.2 Thinking najbolji modeli na svijetu za pomoć i ubrzavanje rada znanstvenika. Na GPQA Diamond referentnom testu za pitanja i odgovore na razini diplomskog studija, otpornom na Google pretrage, GPT‑5.2 Pro postiže 93,2 %, a slijedi ga GPT‑5.2 Thinking s 92,4 %.

U GPQA Diamond(otvara se u novom prozoru), modeli odgovaraju na pitanja s višestrukim izborom iz fizike, kemije i biologije. Nijedan alat nije bio omogućen, a napor u prosuđivanju bio je postavljen na maksimum.

Na FrontierMath (Tier 1–3) evaluaciji stručne razine matematike, GPT‑5.2 Thinking je postavio novi standard, riješivši 40,3 % problema.

U FrontierMath(otvara se u novom prozoru), modeli rješavaju matematičke probleme na stručnoj razini. Python alat je bio omogućen, a napor u prosuđivanju postavljen je na maksimum.

Studija slučaja

GPT‑5.2 is not only strong at graduate-level science problems. We now regularly see our frontier models contributing solutions to previously unsolved—and increasingly subtle—questions in mathematics and the sciences.

In this case study, we describe how GPT‑5.2 Pro helped resolve an open research problem in statistical learning theory, documented in a new paper, On Learning-Curve Monotonicity for Maximum Likelihood Estimators(otvara se u novom prozoru).

The question (“If you collect more data, do your results reliably get better?”) shows up any time you fit a model from data. You can draw a learning curve that tracks average error as you add more examples. In the best case, the curve is monotone. More data means less error, every step of the way. That is the behavior people hope for, and often assume.

But over the last few years, researchers have learned that this intuition can fail. A line of work kicked off by an open problem posed at the Conference on Learning Theory (COLT) in 2019 by Viering, Mey, and Loog showed that the answer is often no. Even very simple, well-behaved toy setups can have non-monotonic learning curves, where adding data increases expected error. That surprise triggered a wave of follow-up papers. They expanded the list of settings where these reversals happen and proposed increasingly elaborate methods designed to restore monotone behavior.

Still, one of the most basic cases remained unresolved. What happens in the cleanest textbook situation, where the statistical model is actually correct and the data follow the familiar bell curve pattern, with a known mean but unknown standard deviation? Researchers already knew that small changes to this setup could break monotonic behavior. But the answer remained unknown in this core case.

Our new paper demonstrates that in this clean setting, intuition prevails: learning is predictably improved by more data, rather than behaving in surprising or unstable ways. What makes this paper unusual is how the proof was obtained. The authors did not work out a strategy and then ask the model to fill in steps. They did not provide intermediate arguments or a proof outline. Instead, they asked GPT‑5.2 Pro to solve the open problem directly, and then carefully verified the proof, including review and validation by external subject-matter experts.

The authors then asked simple follow-up questions to see how far the idea could go. GPT‑5.2 Pro extended the result beyond the original problem to higher dimensional settings and other common statistical models. Throughout, the human role stayed focused on verification and clear writing, rather than supplying mathematical scaffolding.

Gledajući naprijed

Ovaj rezultat sugerira korisnu smjernicu o tome kako AI sustavi mogu pružiti podršku znanstvenim istraživanjima, posebno u domenama s aksiomatskim teorijskim temeljima kao što su matematika i teorijska računalna znanost. U ovakvim okruženjima, napredni modeli mogu pomoći u istraživanju dokaza, testiranju hipoteza i identificiranju veza koje bi inače zahtijevale značajan ljudski napor za otkrivanje.

Istovremeno, ti sustavi nisu neovisni istraživači. Stručna prosudba, provjera valjanosti i razumijevanje domene ostaju ključni. Čak i vrlo sposobni modeli mogu činiti pogreške ili se oslanjati na neizrečene pretpostavke. Ali oni također mogu proizvesti detaljne, strukturirane argumente koji zaslužuju pažljivo ljudsko proučavanje i usavršavanje. Postizanje pouzdanog napretka s umjetnom inteligencijom stoga ovisi o radnim procesima koji osiguravaju da validacija, transparentnost i suradnja ostanu čvrsto uključeni.

Promatrano kao studija slučaja, ovaj rezultat ilustrira novi način istraživačke prakse. Modeli poput GPT‑5.2 mogu služiti kao alati za podršku matematičkom zaključivanju i ubrzavanje istraživanja u ranoj fazi, dok odgovornost za točnost, interpretaciju i kontekst ostaje na ljudskim istraživačima. Ako se pažljivo koriste, takvi sustavi mogu pomoći u optimizaciji značajnih aspekata teorijskog rada, a da pritom ne zamijene središnju ulogu ljudske prosudbe u znanstvenom istraživanju.