Ugrás a fő tartalomra
OpenAI

A tudomány és a matematika előmozdítása a GPT‑5.2‑vel

A GPT‑5.2 az eddigi legerősebb modellünk matematikai és tudományos feladatokra.

Betöltés…

Az erős MI-vel kapcsolatos egyik reményünk az, hogy mindenki előnyére felgyorsítja a tudományos kutatást, segítve a kutatókat abban, hogy több ötletet kapjanak, gyorsabban teszteljék őket, és a felfedezéseket gyakorlati eredményekké alakítsák. 

Az elmúlt évben szorosan együtt dolgoztunk a matematika, a fizika, a biológia és az informatika területén dolgozó tudósokkal, hogy megértsük, hol tud segíteni az MI – és hol marad még el az elvárásoktól. A múlt hónapban közzétettünk egy cikket, amely azokat a korai esettanulmányokat foglalja össze a matematika, a fizika, a biológia, a számítástechnika, a csillagászat és az anyagtudomány területéről, amelyekben a GPT‑5 segítette a kutatókat, ezzel is bizonyítva, hogy a GPT‑5 máris hozzájárul a valódi tudományos munkához. A GPT‑5.2 segítségével ezek az előnyök egyre következetesebbé és megbízhatóbbá válnak.

Erősebb teljesítmény ott, ahol a precizitás számít.

A GPT‑5.2 Pro és a GPT‑5.2 Thinking a tudományos és matematikai munkához készült eddigi legerősebb modellünk.

Az erős matematikai következtetési képesség alapvető feltétele a megbízhatóságnak a tudományos és műszaki munkában. Ez teszi lehetővé, hogy a modellek többlépéses logikát kövessenek, következetesen kezeljék a mennyiségeket, és elkerüljék azokat az apró hibákat, amelyek a valós elemzésekben – a szimulációktól kezdve a statisztikákon és az előrejelzéseken át a modellezésig – összeadódhatnak. A FrontierMath-hez hasonló teljesítményteszteken elért javulás nem szűk körű készségeket tükröz, hanem erősebb általános következtetési és absztrakciós képességet, amely közvetlenül átültethető a tudományos munkafolyamatokba, például a kódolásba, az adatelemzésbe és a kísérlettervezésbe.

Ezek a képességek szorosan összefüggnek az általános intelligencia felé való haladással. Egy rendszer, amely megbízhatóan képes absztrakción keresztül érvelni, hosszú gondolatmenetek során is megőrzi a következetességet, és jól általánosít különböző területek között, az AGI alapvető tulajdonságait mutatja – nem feladatspecifikus trükköket, hanem széles körben alkalmazható következtetési képességeket, amelyek a tudományban, a mérnöki munkában és a valós döntéshozatalban egyaránt számítanak.

Úgy gondoljuk, hogy a GPT‑5.2 Pro és a GPT‑5.2 Thinking a legjobb modellek a világon a tudósok támogatására és a munkájuk felgyorsítására. A GPQA Diamond, egy posztgraduális szintű, „Google-biztos” kérdés–válasz (Q&A) teljesítményteszten a GPT‑5.2 Pro 93,2%-os eredményt ér el, amelyet szorosan követ a GPT‑5.2 Thinking 92,4%-os eredménye.

A GPQA Diamond(új ablakban nyílik meg) teszten a modellek feleletválasztós kérdésekre válaszolnak fizikából, kémiából és biológiából. Nem voltak engedélyezve eszközök, és a következtetési erőfeszítés maximumra volt állítva.

A szakértői szintű matematikai tudást értékelő FrontierMath (1–3. szint) teszten a GPT‑5.2 Thinking új rekordot állított fel a feladatok 40,3%-ának megoldásával.

A FrontierMath(új ablakban nyílik meg) teszten a modellek szakértői szintű matematikai feladatokat oldanak meg. Egy Python-eszköz volt engedélyezve, és a következtetési erőfeszítés maximumra volt állítva.

Esettanulmány

GPT‑5.2 is not only strong at graduate-level science problems. We now regularly see our frontier models contributing solutions to previously unsolved—and increasingly subtle—questions in mathematics and the sciences.

In this case study, we describe how GPT‑5.2 Pro helped resolve an open research problem in statistical learning theory, documented in a new paper, On Learning-Curve Monotonicity for Maximum Likelihood Estimators(új ablakban nyílik meg).

The question (“If you collect more data, do your results reliably get better?”) shows up any time you fit a model from data. You can draw a learning curve that tracks average error as you add more examples. In the best case, the curve is monotone. More data means less error, every step of the way. That is the behavior people hope for, and often assume.

But over the last few years, researchers have learned that this intuition can fail. A line of work kicked off by an open problem posed at the Conference on Learning Theory (COLT) in 2019 by Viering, Mey, and Loog showed that the answer is often no. Even very simple, well-behaved toy setups can have non-monotonic learning curves, where adding data increases expected error. That surprise triggered a wave of follow-up papers. They expanded the list of settings where these reversals happen and proposed increasingly elaborate methods designed to restore monotone behavior.

Still, one of the most basic cases remained unresolved. What happens in the cleanest textbook situation, where the statistical model is actually correct and the data follow the familiar bell curve pattern, with a known mean but unknown standard deviation? Researchers already knew that small changes to this setup could break monotonic behavior. But the answer remained unknown in this core case.

Our new paper demonstrates that in this clean setting, intuition prevails: learning is predictably improved by more data, rather than behaving in surprising or unstable ways. What makes this paper unusual is how the proof was obtained. The authors did not work out a strategy and then ask the model to fill in steps. They did not provide intermediate arguments or a proof outline. Instead, they asked GPT‑5.2 Pro to solve the open problem directly, and then carefully verified the proof, including review and validation by external subject-matter experts.

The authors then asked simple follow-up questions to see how far the idea could go. GPT‑5.2 Pro extended the result beyond the original problem to higher dimensional settings and other common statistical models. Throughout, the human role stayed focused on verification and clear writing, rather than supplying mathematical scaffolding.

Előretekintés

Ez az eredmény iránymutatást ad arra nézve, hogy az MI-rendszerek hogyan támogathatják a tudományos kutatást, különösen az olyan területeken, ahol axiomatikus elméleti alapok vannak – ilyen például a matematika és az elméleti informatika. Ilyen környezetben a csúcskategóriás modellek segíthetnek a bizonyítási irányok feltérképezésében, a hipotézisek tesztelésében és olyan összefüggések azonosításában, amelyek feltárása egyébként jelentős emberi erőfeszítéseket igényelne.

Ugyanakkor ezek a rendszerek nem önálló kutatók. A szakértői megítélés, az ellenőrzés és a szaktudás továbbra is elengedhetetlen. Még a nagyon fejlett modellek is tévedhetnek, vagy támaszkodhatnak ki nem mondott feltételezésekre. Ugyanakkor képesek részletes, jól strukturált érveléseket is adni, amelyek alapos emberi vizsgálatot és finomítást igényelnek. A megbízható előrehaladás az MI-vel ezért olyan munkafolyamatoktól függ, amelyekben az ellenőrzés, az átláthatóság és az együttműködés végig központi szerepet kap.

Ha esettanulmányként tekintünk rá, ez az eredmény egy új kutatási módszert mutat be. A GPT‑5.2‑höz hasonló modellek eszközként szolgálhatnak a matematikai érvelés támogatására és a korai fázisú feltáró munka felgyorsítására, miközben a helyesség, az értelmezés és a kontextus felelőssége továbbra is az emberi kutatókra hárul. Körültekintően használva az ilyen rendszerek hozzájárulhatnak az elméleti munka számos fontos részének egyszerűsítéséhez anélkül, hogy háttérbe szorítanák az emberi megítélés központi szerepét a tudományos kutatásban.