11. desember 2025

Að efla vísindi og stærðfræði með GPT‑5.2

GPT‑5.2 er öflugasta líkanið okkar hingað til fyrir stærðfræði og vísindavinnu.

Hleður inn...

Ein af vonum okkar fyrir öfluga gervigreind er að hún muni flýta fyrir vísindarannsóknum til hagsbóta fyrir alla, hjálpa vísindamönnum að kanna fleiri hugmyndir, prófa þær hraðar og breyta uppgötvunum í áhrif.

Á síðasta ári höfum við unnið náið með vísindamönnum í stærðfræði, eðlisfræði, líffræði og tölvunarfræði til að skilja hvar gervigreind getur hjálpað—og hvar hún enn bregst. Í síðasta mánuði birtum við grein⁠ sem safnar saman fyrstu rannsóknartilvikum úr stærðfræði, eðlisfræði, líffræði, tölvunarfræði, stjörnufræði og efnisfræði þar sem GPT‑5 hjálpaði vísindamönnum og sýnir hvernig GPT‑5 hefur þegar byrjað að leggja sitt af mörkum til raunverulegrar vísindavinnu. Með GPT‑5.2 erum við farin að sjá að þessar framfarir verða stöðugri og áreiðanlegri.

Öflugri frammistaða þar sem nákvæmni skiptir máli

GPT‑5.2 Pro og GPT‑5.2 Thinking eru öflugustu líkönin okkar hingað til fyrir vísinda- og stærðfræðivinnu.

Sterk stærðfræðileg röksemdafærsla er undirstaða áreiðanleika í vísindalegri og tæknilegri vinnu. Slíkt gerir líkönum kleift að fylgja margþrepa rökfræði, halda magni stöðugu og forðast lúmskar villur sem geta safnast upp í raunverulegum greiningum—frá hermunum og tölfræði til spágerðar og líkanagerðar. Framfarir á viðmiðum eins og FrontierMath endurspegla ekki þrönga færni, heldur sterkari almenna röksemdafærslu og abstrakt hugsun, færni sem nýtist beint í vísindalegu vinnuflæði eins og forritun, gagnagreiningu og tilraunahönnun.

Þessi færni er einnig nátengdir framförum í átt að almennri greind. Kerfi sem getur áreiðanlega rökstutt í gegnum abstrakt, viðhaldið samræmi yfir langar hugsanakeðjur og alhæft yfir svið, sýnir einkenni sem eru grundvallaratriði fyrir AGI—ekki verkefnissértæk brögð, heldur víðtæk, yfirfæranleg röksemdafærslu færni sem skiptir máli í vísindum, verkfræði og raunverulegum ákvarðanatökum.

Við trúum að GPT‑5.2 Pro og GPT‑5.2 Thinking séu bestu líkön heimsins til að styðja og hraða vísindarannsóknum. Á GPQA Diamond, viðmiðunarprófi á framhaldsstigi sem er ónæmt fyrir Google-leit, nær GPT‑5.2 Pro 93,2%, fylgt fast á eftir af GPT‑5.2. Thinking með 92,4%.

Í GPQA Diamond⁠(opnast í nýjum glugga) svara líkön fjölvalsspurningum um eðlisfræði, efnafræði og líffræði. Engin verkfæri voru virkjuð og rökhugsunarátak var stillt á hámark.

Á FrontierMath (stig 1–3), mat á stærðfræði á sérfræðistigi, setti GPT‑5.2 Thinking nýtt viðmið, leysti 40,3% af vandamálum.

Í FrontierMath⁠(opnast í nýjum glugga) leysa líkön stærðfræðiverkefni á sérfræðistigi. Python-verkfæri var virkjað og röksemdafærsla var stillt á hámark.

Tilviksrannsókn

GPT‑5.2 is not only strong at graduate-level science problems. We now regularly see our frontier models contributing solutions to previously unsolved—and increasingly subtle—questions in mathematics and the sciences.

In this case study, we describe how GPT‑5.2 Pro helped resolve an open research problem in statistical learning theory, documented in a new paper, On Learning-Curve Monotonicity for Maximum Likelihood Estimators⁠(opnast í nýjum glugga).

The question (“If you collect more data, do your results reliably get better?”) shows up any time you fit a model from data. You can draw a learning curve that tracks average error as you add more examples. In the best case, the curve is monotone. More data means less error, every step of the way. That is the behavior people hope for, and often assume.

But over the last few years, researchers have learned that this intuition can fail. A line of work kicked off by an open problem posed at the Conference on Learning Theory (COLT) in 2019 by Viering, Mey, and Loog showed that the answer is often no. Even very simple, well-behaved toy setups can have non-monotonic learning curves, where adding data increases expected error. That surprise triggered a wave of follow-up papers. They expanded the list of settings where these reversals happen and proposed increasingly elaborate methods designed to restore monotone behavior.

Still, one of the most basic cases remained unresolved. What happens in the cleanest textbook situation, where the statistical model is actually correct and the data follow the familiar bell curve pattern, with a known mean but unknown standard deviation? Researchers already knew that small changes to this setup could break monotonic behavior. But the answer remained unknown in this core case.

Our new paper demonstrates that in this clean setting, intuition prevails: learning is predictably improved by more data, rather than behaving in surprising or unstable ways. What makes this paper unusual is how the proof was obtained. The authors did not work out a strategy and then ask the model to fill in steps. They did not provide intermediate arguments or a proof outline. Instead, they asked GPT‑5.2 Pro to solve the open problem directly, and then carefully verified the proof, including review and validation by external subject-matter experts.

The authors then asked simple follow-up questions to see how far the idea could go. GPT‑5.2 Pro extended the result beyond the original problem to higher dimensional settings and other common statistical models. Throughout, the human role stayed focused on verification and clear writing, rather than supplying mathematical scaffolding.

Horft fram á veginn

Þessi niðurstaða bendir til gagnlegrar stefnu um hvernig gervigreindarkerfi geta veitt aðstoð við vísindarannsóknir, sérstaklega á sviðum með fræðilegar undirstöður eins og stærðfræði og fræðileg tölvunarfræði. Í aðstæðum eins og þessum geta frontier-líkön hjálpað til við að kanna sannanir, prófa tilgátur og finna tengsl sem annars myndu krefjast verulegrar mannlegrar vinnu til að afhjúpa.

Á sama tíma eru þessi kerfi ekki sjálfstæðir vísindamenn. Dómgreind sérfræðinga, staðfesting og skilningur á sviði eru enn nauðsynleg. Jafnvel mjög hæf líkön geta gert mistök eða treyst á óskráðar forsendur. En þau geta einnig búið til ítarlegar, skipulegar röksemdafærslur sem verðskulda vandlega mannlega yfirferð og betrumbætur. Að ná áreiðanlegum framförum með gervigreind byggist því á vinnuferlum sem tryggja staðfestingu, gagnsæi og samstarf.

Skoðað sem tilvikarannsókn, sýnir þessi niðurstaða nýjan hátt á rannsóknarvinnu. Líkön eins og GPT‑5.2 geta þjónað sem verkfæri til að styðja stærðfræðilega röksemdafærslu og flýta fyrir fyrstu könnunarstigum, á meðan ábyrgðin á réttmæti, túlkun og samhengi er áfram hjá mannlegum rannsakendum. Ef þau eru notuð af varúð, geta slík kerfi hjálpað til við að straumlínulaga mikilvæga þætti fræðilegs starfs án þess að raska miðlægu hlutverki mannlegrar dómgreindar í vísindarannsóknum.

Höfundur

OpenAI

Haltu áfram að lesa

Skoða allt

How AI is expanding what we do at work > Cover image

How AI is expanding what people do at work

Fyrirtæki27. júl. 2026

Health kynnt til sögunnar í ChatGPT

Vara23. júl. 2026

How news organizations are using AI > Card Image

Hvernig fréttamiðlar nýta gervigreindina í mikilvægum verkefnum

Fyrirtæki22. júl. 2026