11 Desemba 2025

Kuendeleza sayansi na hisabati kwa kutumia GPT‑5.2

GPT‑5.2 ni muundo wetu wenye nguvu zaidi hadi sasa kwa kazi ya hesabu na sayansi.

Inapakia…

Moja ya matumaini yetu kwa AI yenye nguvu ni kwamba itaharakisha utafiti wa kisayansi kwa manufaa ya kila mtu, ikiwasaidia watafiti gundua mawazo zaidi, kuyajaribu haraka, na kubadilisha uvumbuzi kuwa na athari.

Katika mwaka uliopita, tumekuwa tukifanya kazi kwa karibu na wanasayansi katika hisabati, fizikia, baiolojia, na sayansi ya kompyuta ili kuelewa mahali ambapo AI inaweza kusaidia—na mahali ambapo bado inakosa. Mwezi uliopita, tulichapisha karatasi⁠ inayokusanya masomo ya awali katika hisabati, fizikia, biolojia, sayansi ya kompyuta, unajimu, na sayansi ya nyenzo ambapo GPT‑5 ilisaidia watafiti kuonyesha jinsi GPT‑5 tayari imeanza kuchangia katika kazi halisi ya kisayansi. Kwa kutumia GPT‑5.2, tunaanza kuona faida hizo zikizidi kuwa thabiti na za kuaminika zaidi.

Utendaji wenye nguvu ambapo usahihi ni muhimu

GPT‑5.2 Pro na GPT‑5.2 Thinking ni miundo yetu yenye nguvu zaidi hadi sasa kwa kazi za kisayansi na kihisabati.

Hoja thabiti za kihisabati ni msingi wa kutegemewa katika kazi za kisayansi na kiufundi. Inawasha miundo kufuata mantiki ya hatua nyingi, kuweka idadi thabiti, na kuepuka makosa madogo ambayo yanaweza kuongezeka katika uchambuzi halisi—kutoka kwa simulizi na takwimu hadi utabiri na uundaji. Maboresho kwenye viwango kama FrontierMath hayaonyeshi ujuzi finyu, bali yanaonyesha uwezo mkubwa wa kufikiri kwa jumla na dhana, uwezo ambao huingia moja kwa moja katika michakato ya kisayansi kama vile usimbaji, uchambuzi wa data, na usanifu wa majaribio.

Uwezo huu pia umeunganishwa kwa karibu na maendeleo kuelekea akili ya jumla. Mfumo ambao unaweza waza kwa uaminifu kupitia dhana, kudumisha uthabiti katika minyororo mirefu ya mawazo, na kubadilika katika kikoa mbalimbali unaonyesha sifa ambazo ni za msingi kwa AGI—sio mbinu maalum za shughuli, bali ujuzi mpana na unaoweza kuhamishika wa waza ambao ni muhimu katika sayansi, uhandisi, na kufanya maamuzi katika ulimwengu halisi.

Tunaamini GPT‑5.2 Pro na GPT‑5.2 Thinking ni miundo bora zaidi duniani kwa kusaidia na kuharakisha wanasayansi. Kwenye GPQA Diamond, kipimo cha maswali na majibu cha kiwango cha wahitimu kisichoweza kutatuliwa na Google, GPT‑5.2 Pro inapata 93.2%, ikifuatwa kwa karibu na GPT‑5.2 Thinking katika 92.4%.

Katika GPQA Diamond⁠(fungua katika dirisha jipya), miundo inajibu maswali ya chaguo nyingi kuhusu fizikia, kemia, na biolojia. Hakuna zana zilizowashwa na juhudi za uwazaji ziliwekwa kwa kiwango cha juu.

Kwenye FrontierMath (Tier 1–3), tathmini ya hisabati ya kiwango cha mtaalamu, GPT‑5.2 Thinking imeweka kiwango kipya cha sanaa, ikitatua 40.3% ya matatizo.

Katika FrontierMath⁠(fungua katika dirisha jipya), miundo inatatua matatizo ya hisabati ya kiwango cha mtaalamu. Zana ya Python iliwashwa na juhudi za uwazaji ziliwekwa kwa kiwango cha juu.

Suala la Utafiti

GPT‑5.2 is not only strong at graduate-level science problems. We now regularly see our frontier models contributing solutions to previously unsolved—and increasingly subtle—questions in mathematics and the sciences.

In this case study, we describe how GPT‑5.2 Pro helped resolve an open research problem in statistical learning theory, documented in a new paper, On Learning-Curve Monotonicity for Maximum Likelihood Estimators⁠(fungua katika dirisha jipya).

The question (“If you collect more data, do your results reliably get better?”) shows up any time you fit a model from data. You can draw a learning curve that tracks average error as you add more examples. In the best case, the curve is monotone. More data means less error, every step of the way. That is the behavior people hope for, and often assume.

But over the last few years, researchers have learned that this intuition can fail. A line of work kicked off by an open problem posed at the Conference on Learning Theory (COLT) in 2019 by Viering, Mey, and Loog showed that the answer is often no. Even very simple, well-behaved toy setups can have non-monotonic learning curves, where adding data increases expected error. That surprise triggered a wave of follow-up papers. They expanded the list of settings where these reversals happen and proposed increasingly elaborate methods designed to restore monotone behavior.

Still, one of the most basic cases remained unresolved. What happens in the cleanest textbook situation, where the statistical model is actually correct and the data follow the familiar bell curve pattern, with a known mean but unknown standard deviation? Researchers already knew that small changes to this setup could break monotonic behavior. But the answer remained unknown in this core case.

Our new paper demonstrates that in this clean setting, intuition prevails: learning is predictably improved by more data, rather than behaving in surprising or unstable ways. What makes this paper unusual is how the proof was obtained. The authors did not work out a strategy and then ask the model to fill in steps. They did not provide intermediate arguments or a proof outline. Instead, they asked GPT‑5.2 Pro to solve the open problem directly, and then carefully verified the proof, including review and validation by external subject-matter experts.

The authors then asked simple follow-up questions to see how far the idea could go. GPT‑5.2 Pro extended the result beyond the original problem to higher dimensional settings and other common statistical models. Throughout, the human role stayed focused on verification and clear writing, rather than supplying mathematical scaffolding.

Kuangalia mbele

Matokeo haya yanapendekeza mwelekeo muhimu wa jinsi mifumo ya AI inaweza kutoa usaidizi wa utafiti wa kisayansi, hasa katika mikoa yenye misingi ya kinadharia kama vile hisabati na sayansi ya kompyuta ya kinadharia. Katika mazingira kama haya, miundo ya kisasa inaweza kusaidia kugundua uthibitisho, kujaribu nadharia, na kutambua uhusiano ambao vinginevyo ungetumia juhudi kubwa za binadamu kufichua.

Wakati huo huo, mifumo hii si watafiti wa kujitegemea. Uamuzi wa kitaalamu, uthibitishaji, na uelewa wa kikoa unasalia kuwa muhimu. Hata miundo yenye uwezo mkubwa inaweza kufanya makosa au kutegemea dhana ambazo hazijatajwa. Lakini pia wanaweza kutoa hoja za kina na zenye muundo ambazo zinastahili uchunguzi makini wa kibinadamu na uboreshaji. Kupiga hatua za kuaminika na AI kunategemea mitiririko ya kazi inayohakikisha uthibitishaji, uwazi, na ushirikiano viko katika mchakato.

Ikiwa imeangaliwa kama utafiti wa kesi, matokeo haya yanaonyesha njia mpya ya mazoezi ya utafiti. Miundo kama GPT‑5.2 inaweza kutumika kama zana za kusaidia hoja za kihisabati na kuharakisha uchunguzi wa awali, huku jukumu la usahihi, tafsiri, na muktadha likibaki kwa watafiti wa kibinadamu. Ikiwa inatumiwa kwa uangalifu, mifumo kama hiyo inaweza kusaidia kurahisisha vipengele muhimu vya kazi ya nadharia bila kuondoa wajibu kuu la maamuzi ya kibinadamu katika uchunguzi wa kisayansi.

Mwandishi

OpenAI

Endelea kusoma

Tazama zote

How AI is expanding what we do at work > Cover image

Jinsi AI inavyopanua kazi wanazofanya watu

Kampuni27 Jul 2026

Kuzindua Afya katika ChatGPT

Product23 Jul 2026

How news organizations are using AI > Card Image

Jinsi mashirika ya habari yanavyotumia AI kuendeleza dhamira zao

Kampuni22 Jul 2026