Aqbeż għall-kontenut prinċipali
OpenAI

11 ta’ Diċembru 2025

PubblikazzjoniProdottKumpanija

Nimxu x-xjenza u l-matematika bil-GPT‑5.2

GPT‑5.2 huwa l-aktar mudell b’saħħtu tagħna s’issa għax-xogħol fil-matematika u x-xjenza.

Qed jillowdja…

Waħda mit-tamiet tagħna għal AI b’saħħitha hija li tħaffef ir-riċerka xjentifika għall-ġid ta’ kulħadd, billi tgħin lir-riċerkaturi jesploraw aktar ideat, jittestjawhom aktar malajr, u jbiddlu skoperti f’impatt.

Matul l-aħħar sena, ħdimna mill-qrib ma’ xjenzati fil-matematika, fil-fiżika, fil-bijoloġija u fix-xjenza tal-kompjuter biex nifhmu fejn l-AI tista’ tgħin—u fejn għadha tonqos. Ix-xahar li għadda, ippubblikajna dokument xjentifiku li jiġbor studji ta’ każijiet bikrija fil-matematika, il-fiżika, il-bijoloġija, ix-xjenza tal-kompjuter, l-astronomija u x-xjenza tal-materjali fejn GPT‑5 għen lir-riċerkaturi, u juri kif GPT‑5 diġà beda jikkontribwixxi għal xogħol xjentifiku reali. Bil-GPT‑5.2, qed nibdew naraw dawn il-kisbiet isiru aktar konsistenti u aktar affidabbli.

Prestazzjoni aktar qawwija fejn il-preċiżjoni tgħodd

GPT‑5.2 Pro u GPT‑5.2 Thinking huma l-aktar mudelli b’saħħithom tagħna s’issa għax-xogħol xjentifiku u matematiku.

Raġunament matematiku b’saħħtu huwa bażi għall-affidabbiltà fix-xogħol xjentifiku u tekniku. Dan jippermetti lill-mudelli jsegwu loġika b’diversi passi, iżommu l-kwantitajiet konsistenti, u jevitaw żbalji sottili li jistgħu jakkumulaw f’analiżijiet reali—minn simulazzjonijiet u statistika sa tbassir u mmudellar. It-titjib fuq benchmarks bħal FrontierMath jirrifletti mhux ħila dejqa, iżda raġunament ġenerali u astrazzjoni aktar b’saħħithom, kapaċitajiet li jgħaddu direttament għal flussi ta’ xogħol xjentifiċi bħall-kodifikazzjoni, l-analiżi tad-data u d-disinn sperimentali.

Dawn il-kapaċitajiet huma wkoll marbuta mill-qrib mal-progress lejn intelliġenza ġenerali. Sistema li tista’ tirraġuna b’mod affidabbli permezz tal-astrazzjoni, iżżomm il-konsistenza tul katini twal ta’ ħsieb, u tiġġeneralizza bejn oqsma differenti qed turi karatteristiċi li huma fundamentali għall-AGI—mhux tricks speċifiċi għal kompitu, iżda ħiliet wesgħin u trasferibbli ta’ raġunament li jgħoddu fix-xjenza, fl-inġinerija u fit-teħid ta’ deċiżjonijiet fid-dinja reali.

Aħna nemmnu li GPT‑5.2 Pro u GPT‑5.2 Thinking huma l-aqwa mudelli fid-dinja biex jgħinu u jħaffu x-xogħol tax-xjenzati. Fuq GPQA Diamond, benchmark ta’ mistoqsijiet u tweġibiet fil-livell postgraduate reżistenti għal Google, GPT‑5.2 Pro jilħaq 93.2%, segwit mill-qrib minn GPT‑5.2 Thinking b’92.4%.

F’GPQA Diamond(jinfetaħ f’tieqa ġdida), il-mudelli jwieġbu mistoqsijiet b’għażla multipla dwar il-fiżika, il-kimika u l-bijoloġija. L-ebda għodda ma kienet attivata u l-isforz ta’ raġunament kien issettjat għall-massimu.

Fuq FrontierMath (Tier 1–3), evalwazzjoni ta’ matematika fil-livell ta’ esperti, GPT‑5.2 Thinking stabbilixxa stat ġdid tal-arti, billi solva 40.3% tal-problemi.

F’FrontierMath(jinfetaħ f’tieqa ġdida), il-mudelli jsolvu problemi ta’ matematika fil-livell ta’ esperti. Għodda Python kienet attivata u l-isforz ta’ raġunament kien issettjat għall-massimu.

Studju ta’ każ

GPT‑5.2 is not only strong at graduate-level science problems. We now regularly see our frontier models contributing solutions to previously unsolved—and increasingly subtle—questions in mathematics and the sciences.

In this case study, we describe how GPT‑5.2 Pro helped resolve an open research problem in statistical learning theory, documented in a new paper, On Learning-Curve Monotonicity for Maximum Likelihood Estimators(jinfetaħ f’tieqa ġdida).

The question (“If you collect more data, do your results reliably get better?”) shows up any time you fit a model from data. You can draw a learning curve that tracks average error as you add more examples. In the best case, the curve is monotone. More data means less error, every step of the way. That is the behavior people hope for, and often assume.

But over the last few years, researchers have learned that this intuition can fail. A line of work kicked off by an open problem posed at the Conference on Learning Theory (COLT) in 2019 by Viering, Mey, and Loog showed that the answer is often no. Even very simple, well-behaved toy setups can have non-monotonic learning curves, where adding data increases expected error. That surprise triggered a wave of follow-up papers. They expanded the list of settings where these reversals happen and proposed increasingly elaborate methods designed to restore monotone behavior.

Still, one of the most basic cases remained unresolved. What happens in the cleanest textbook situation, where the statistical model is actually correct and the data follow the familiar bell curve pattern, with a known mean but unknown standard deviation? Researchers already knew that small changes to this setup could break monotonic behavior. But the answer remained unknown in this core case.

Our new paper demonstrates that in this clean setting, intuition prevails: learning is predictably improved by more data, rather than behaving in surprising or unstable ways. What makes this paper unusual is how the proof was obtained. The authors did not work out a strategy and then ask the model to fill in steps. They did not provide intermediate arguments or a proof outline. Instead, they asked GPT‑5.2 Pro to solve the open problem directly, and then carefully verified the proof, including review and validation by external subject-matter experts.

The authors then asked simple follow-up questions to see how far the idea could go. GPT‑5.2 Pro extended the result beyond the original problem to higher dimensional settings and other common statistical models. Throughout, the human role stayed focused on verification and clear writing, rather than supplying mathematical scaffolding.

Nħarsu ’l quddiem

Dan ir-riżultat jissuġġerixxi direzzjoni utli dwar kif is-sistemi tal-AI jistgħu jappoġġjaw ir-riċerka xjentifika, partikolarment f’oqsma b’pedamenti teoretiċi assjomatiċi bħall-matematika u x-xjenza teoretika tal-kompjuter. F’ambjenti bħal dawn, mudelli fruntiera jistgħu jgħinu jesploraw provi, jittestjaw ipoteżijiet, u jidentifikaw konnessjonijiet li inkella jistgħu jeħtieġu sforz uman sostanzjali biex jinstabu.

Fl-istess ħin, dawn is-sistemi mhumiex riċerkaturi indipendenti. Il-ġudizzju espert, il-verifika u l-fehim tad-dominju jibqgħu essenzjali. Anke mudelli kapaċi ħafna jistgħu jagħmlu żbalji jew jiddependu fuq suppożizzjonijiet mhux iddikjarati. Iżda jistgħu wkoll jipproduċu argumenti dettaljati u strutturati li jistħoqqilhom studju u raffinament uman bir-reqqa. Għalhekk, li jsir progress affidabbli bl-AI jiddependi fuq flussi ta’ xogħol li jżommu l-validazzjoni, it-trasparenza u l-kollaborazzjoni sewwa fiċ-ċiklu.

Meqjus bħala studju ta’ każ, dan ir-riżultat juri mod emerġenti ta’ prattika tar-riċerka. Mudelli bħal GPT‑5.2 jistgħu jservu bħala għodod biex jappoġġjaw ir-raġunament matematiku u jħaffu l-esplorazzjoni fl-istadji bikrija, filwaqt li r-responsabbiltà għall-korrettezza, l-interpretazzjoni u l-kuntest tibqa’ f’idejn ir-riċerkaturi umani. Meta jintużaw bir-reqqa, sistemi bħal dawn jistgħu jgħinu jissimplifikaw aspetti sinifikanti tax-xogħol teoretiku mingħajr ma jissostitwixxu r-rwol ċentrali tal-ġudizzju uman fl-investigazzjoni xjentifika.