Pereiti prie pagrindinio turinio
OpenAI

2025 m. gruodžio 11 d.

PublikacijaProduktasBendrovė

Mokslo ir matematikos pažanga su GPT‑5.2

GPT‑5.2 yra kol kas stipriausias mūsų modelis matematikos ir mokslo darbams.

Įkeliama...

Viena iš mūsų vilčių, siejamų su stipriu DI, yra ta, kad jis paspartins mokslinius tyrimus visų labui, padėdamas tyrėjams nagrinėti daugiau idėjų, greičiau jas tikrinti ir atradimus paversti poveikiu.

Per pastaruosius metus glaudžiai bendradarbiavome su matematikos, fizikos, biologijos ir kompiuterių mokslo mokslininkais, siekdami suprasti, kur DI gali padėti, o kur jam dar trūksta galimybių. Praėjusį mėnesį paskelbėme straipsnį, kuriame surinktos ankstyvos atvejo analizės iš matematikos, fizikos, biologijos, kompiuterių mokslo, astronomijos ir medžiagų mokslo sričių, kur „GPT‑5“ padėjo tyrėjams; tai rodo, kaip „GPT‑5“ jau prisideda prie realaus mokslinio darbo. Naudodami GPT‑5.2, pradedame pastebėti, kad šie laimėjimai tampa nuoseklesni ir patikimesni.

Didesnis našumas ten, kur svarbus tikslumas

„GPT‑5.2 Pro“ ir „GPT‑5.2 Thinking“ yra kol kas stipriausi mūsų modeliai moksliniam ir matematiniam darbui.

Stiprus matematinis samprotavimas yra mokslinio ir techninio darbo patikimumo pagrindas. Jis leidžia modeliams laikytis kelių žingsnių logikos, išlaikyti kiekių nuoseklumą ir vengti smulkių klaidų, kurios gali kauptis atliekant realias analizes – nuo simuliacijų ir statistikos iki prognozavimo ir modeliavimo. Pagerėję rezultatai tokiuose testuose kaip „FrontierMath“ rodo ne siaurą įgūdį, o stipresnį bendrąjį samprotavimą ir abstrakciją – gebėjimus, kurie tiesiogiai perkeliami į tokius mokslinius darbo procesus kaip programavimas, duomenų analizė ir eksperimentų planavimas.

Šie gebėjimai taip pat glaudžiai susiję su pažanga bendrojo intelekto link. Sistema, gebanti patikimai samprotauti pasitelkdama abstrakciją, išlaikyti nuoseklumą ilgose minčių grandinėse ir apibendrinti informaciją įvairiose srityse, demonstruoja savybes, kurios yra AGI pagrindas: tai ne konkrečiai užduočiai skirti triukai, o platūs, pritaikomi protavimo įgūdžiai, svarbūs moksle, inžinerijoje ir priimant sprendimus realiame pasaulyje.

Tikime, kad „GPT‑5.2 Pro“ ir „GPT‑5.2 Thinking“ yra geriausi pasaulyje modeliai, padedantys mokslininkams ir spartinantys jų darbą. GPQA Diamond – magistrantūros lygio „Google“ neįveikiamame klausimų ir atsakymų lyginamajame teste – „GPT‑5.2 Pro“ pasiekia 93,2 proc., o jam iš paskos seka „GPT‑5.2 Thinking“ su 92,4 proc.

Teste „GPQA Diamond“(atsidaro naujame lange) modeliai atsako į klausimus su pasirenkamais atsakymais apie fiziką, chemiją ir biologiją. Įrankiai nebuvo įjungti, o samprotavimo pastangos nustatytos kaip maksimalios.

„FrontierMath“ (1–3 lygiai) – ekspertinio lygio matematikos vertinime – „GPT‑5.2 Thinking“ nustato naują standartą, išspręsdamas 40,3 proc. uždavinių.

Teste „FrontierMath“(atsidaro naujame lange) modeliai sprendžia eksperto lygio matematikos uždavinius. Buvo įjungtas „Python“ įrankis, o samprotavimo pastangos nustatytos kaip maksimalios.

Atvejo analizė

GPT‑5.2 is not only strong at graduate-level science problems. We now regularly see our frontier models contributing solutions to previously unsolved—and increasingly subtle—questions in mathematics and the sciences.

In this case study, we describe how GPT‑5.2 Pro helped resolve an open research problem in statistical learning theory, documented in a new paper, On Learning-Curve Monotonicity for Maximum Likelihood Estimators(atsidaro naujame lange).

The question (“If you collect more data, do your results reliably get better?”) shows up any time you fit a model from data. You can draw a learning curve that tracks average error as you add more examples. In the best case, the curve is monotone. More data means less error, every step of the way. That is the behavior people hope for, and often assume.

But over the last few years, researchers have learned that this intuition can fail. A line of work kicked off by an open problem posed at the Conference on Learning Theory (COLT) in 2019 by Viering, Mey, and Loog showed that the answer is often no. Even very simple, well-behaved toy setups can have non-monotonic learning curves, where adding data increases expected error. That surprise triggered a wave of follow-up papers. They expanded the list of settings where these reversals happen and proposed increasingly elaborate methods designed to restore monotone behavior.

Still, one of the most basic cases remained unresolved. What happens in the cleanest textbook situation, where the statistical model is actually correct and the data follow the familiar bell curve pattern, with a known mean but unknown standard deviation? Researchers already knew that small changes to this setup could break monotonic behavior. But the answer remained unknown in this core case.

Our new paper demonstrates that in this clean setting, intuition prevails: learning is predictably improved by more data, rather than behaving in surprising or unstable ways. What makes this paper unusual is how the proof was obtained. The authors did not work out a strategy and then ask the model to fill in steps. They did not provide intermediate arguments or a proof outline. Instead, they asked GPT‑5.2 Pro to solve the open problem directly, and then carefully verified the proof, including review and validation by external subject-matter experts.

The authors then asked simple follow-up questions to see how far the idea could go. GPT‑5.2 Pro extended the result beyond the original problem to higher dimensional settings and other common statistical models. Throughout, the human role stayed focused on verification and clear writing, rather than supplying mathematical scaffolding.

Ateities perspektyvos

Šis rezultatas rodo naudingą kryptį, kaip DI sistemos gali padėti atlikti mokslinius tyrimus, ypač srityse, turinčiose aksiominius teorinius pagrindus, pavyzdžiui, matematikoje ir teoriniame kompiuterių moksle. Tokiomis aplinkybėmis pažangiausi modeliai gali padėti nagrinėti įrodymus, tikrinti hipotezes ir nustatyti ryšius, kuriems atskleisti kitu atveju prireiktų didelių žmogaus pastangų.

Tuo pat metu šios sistemos nėra nepriklausomi tyrėjai. Ekspertinis vertinimas, patikra ir srities išmanymas išlieka būtini. Net ir labai pajėgūs modeliai gali daryti klaidų arba remtis neišsakytomis prielaidomis. Tačiau jie taip pat gali pateikti išsamius, susistemintus argumentus, vertus kruopščios žmogaus analizės ir tobulinimo. Todėl patikima pažanga naudojantis DI priklauso nuo darbo procesų, kuriuose tvirtai išlaikomas patvirtinimas, skaidrumas ir bendradarbiavimas.

Vertinant kaip atvejo analizę, šis rezultatas iliustruoja atsirandantį tyrimų praktikos būdą. Tokie modeliai kaip GPT‑5.2 gali būti įrankiai, palaikantys matematinį samprotavimą ir spartinantys ankstyvąjį tyrimų etapą, o atsakomybė už teisingumą, interpretavimą ir kontekstą tenka žmonėms tyrėjams. Atsargiai naudojamos tokios sistemos gali padėti supaprastinti svarbius teorinio darbo aspektus, nepakeisdamos pagrindinio žmogaus sprendimo vaidmens moksliniame tyrime.