Lumaktaw sa pangunahing content
OpenAI

Pagsulong sa agham at matematika gamit ang GPT‑5.2

Ang GPT‑5.2 ang pinakamalakas naming modelo para sa mga gawain sa matematika at agham.

Naglo-load…

Isa sa mga hangarin namin para sa malakas na AI ay ang mapabilis nito ang pananaliksik sa siyensiya para sa kapakinabangan ng lahat, na tumutulong sa mga mananaliksik na galugarin ang mas marami pang ideya, mas mabilis na masubukan ang mga ito, at gawing epekto ang mga natuklasan. 

Sa nakaraang taon, malapit kaming nakipagtulungan sa mga siyentipiko sa larangan ng matematika, pisika, biyolohiya, at computer science para maunawaan kung saan makakatulong ang AI—at kung saan pa ito nagkukulang. Noong nakaraang buwan, nag-publish kami ng paper na naglalaman ng maaagang case study sa matematika, pisika, biyolohiya, computer science, astronomiya, at agham ng materyales kung saan ang GPT‑5 ay tumulong sa mga mananaliksik na ipakita kung paanong nagsimula nang mag-ambag ang GPT‑5 sa aktwal na gawaing siyentipiko. Sa GPT‑5.2, nagsisimula na nating makitang maging mas consistent at mas maaasahan ang mga pag-unlad na iyon.

Mas magandang performance kung saan mahalaga ang katumpakan

Ang GPT‑5.2 Pro at GPT‑5.2 Thinking ang pinakamalakas naming modelo para sa gawaing pang-agham at matematika.

Ang malakas na reasoning sa matematika ay pundasyon ng pagiging maaasahan sa gawaing pang-agham at teknikal. Ine-enable nito ang mga modelo na sumunod sa lohika na may maraming hakbang, panatilihin ang pagkakapare-pareho ng mga dami, at iwasan ang maliliit na pagkakamali na maaaring magpatong-patong sa mga tunay na pagsusuri—mula sa mga simulation at istatistika hanggang sa forecasting at pagmomodelo. Ang mga pagpapahusay sa mga benchmark tulad ng FrontierMath ay hindi nagpapakita ng isang makitid na kasanayan, kundi mas malakas na pangkalahatang reasoning at abstraksyon, mga kakayahan na direktang nagagamit sa mga daloy ng trabaho sa agham tulad ng coding, pagsusuri sa data, at disenyo ng eksperimento.

Ang mga kakayahang ito ay malapit ding konektado sa pag-unlad tungo sa pangkalahatang katalinuhan. Ang isang sistema na maaasahang makapag-reason sa pamamagitan ng abstraksyon, mapanatili ang consistency sa mahabang kadena ng pag-iisip, at makapag-generalize sa iba't ibang domain ay nagpapakita ng mga katangian na pundasyon ng AGI—hindi mga pantiyak na gawain, kundi malawak, naililipat na mga skill sa pangangatwiran na mahalaga sa agham, inhinyeriya, at paggawa ng desisyon sa totoong mundo.

Naniniwala kami na ang GPT‑5.2 Pro at GPT‑5.2 Thinking ay siyang pinakamahusay na mga modelo sa mundo para sa pagtulong at pagpapabilis ng pagsulong ng mga siyentipiko. Sa GPQA Diamond, isang benchmark na antas-graduate na hindi kayang sagutin ng Google, ang GPT‑5.2 Pro ay nakakamit ng 93.2%, na malapit na sinusundan ng GPT‑5.2 Thinking sa 92.4%.

Sa GPQA Diamond(magbubukas sa bagong window), ang mga modelo ay sumasagot ng mga tanong na multiple choice tungkol sa pisika, chemistry, at biyolohiya. Walang naka-enable na tool at itinakda sa maximum ang pagsisikap sa pangangatwiran.

Sa FrontierMath (Tier 1–3), isang pagsusuri ng matematika sa antas ng eksperto, ang GPT‑5.2 Thinking ay nagtakda ng bagong antas ng sining, kung saan nalutas ang 40.3% ng mga problema.

Sa FrontierMath(magbubukas sa bagong window), ang mga modelo ay naglulutas ng mga problema sa matematika na pang-eksperto. Naka-enable ang isang Python tool at itinakda sa maximuma ang pagsisikap sa pangangatwiran.

Case study

GPT‑5.2 is not only strong at graduate-level science problems. We now regularly see our frontier models contributing solutions to previously unsolved—and increasingly subtle—questions in mathematics and the sciences.

In this case study, we describe how GPT‑5.2 Pro helped resolve an open research problem in statistical learning theory, documented in a new paper, On Learning-Curve Monotonicity for Maximum Likelihood Estimators(magbubukas sa bagong window).

The question (“If you collect more data, do your results reliably get better?”) shows up any time you fit a model from data. You can draw a learning curve that tracks average error as you add more examples. In the best case, the curve is monotone. More data means less error, every step of the way. That is the behavior people hope for, and often assume.

But over the last few years, researchers have learned that this intuition can fail. A line of work kicked off by an open problem posed at the Conference on Learning Theory (COLT) in 2019 by Viering, Mey, and Loog showed that the answer is often no. Even very simple, well-behaved toy setups can have non-monotonic learning curves, where adding data increases expected error. That surprise triggered a wave of follow-up papers. They expanded the list of settings where these reversals happen and proposed increasingly elaborate methods designed to restore monotone behavior.

Still, one of the most basic cases remained unresolved. What happens in the cleanest textbook situation, where the statistical model is actually correct and the data follow the familiar bell curve pattern, with a known mean but unknown standard deviation? Researchers already knew that small changes to this setup could break monotonic behavior. But the answer remained unknown in this core case.

Our new paper demonstrates that in this clean setting, intuition prevails: learning is predictably improved by more data, rather than behaving in surprising or unstable ways. What makes this paper unusual is how the proof was obtained. The authors did not work out a strategy and then ask the model to fill in steps. They did not provide intermediate arguments or a proof outline. Instead, they asked GPT‑5.2 Pro to solve the open problem directly, and then carefully verified the proof, including review and validation by external subject-matter experts.

The authors then asked simple follow-up questions to see how far the idea could go. GPT‑5.2 Pro extended the result beyond the original problem to higher dimensional settings and other common statistical models. Throughout, the human role stayed focused on verification and clear writing, rather than supplying mathematical scaffolding.

Pagtingin sa hinaharap

Ang resulta na ito ay nagmumungkahi ng isang kapaki-pakinabang na direksyon kung paano makapagbibigay ng suporta ang mga AI system sa siyentipikong pananaliksik, lalo na sa mga domain na may mga aksiyomatikong teoretikal na pundasyon tulad ng matematika at teoretikal na computer science. Sa mga ganitong setting, ang mga frontier na modelo ay makakatulong na galugarin ang mga patunay, subukan ang mga hypothesis, at tukuyin ang mga koneksyon na maaaring mangailangan ng matinding human effort upang matuklasan.

Kasabay nito, ang mga sistemang ito ay hindi mga independiyenteng mananaliksik. Ang paghusga ng eksperto, beripikasyon, at pag-unawa sa domain ay nananatiling mahalaga. Kahit ang mga napakahusay na modelo ay puwedeng magkamali o umasa sa mga hindi nakasaad na pagpapalagay. Pero kaya rin nilang gumawa ng detalyado at maayos na mga argumento na karapat-dapat sa masusing pag-aaral at pagpapabuti ng tao. Kung gayon, ang paggawa ng maaasahang pag-unlad sa AI ay nakasalalay sa mga workflow kung saan mayroong pagpapatunay, transparency, at pakikipagtulungan.

Tinitingnan bilang isang case study, ang resultang ito ay naglalarawan ng isang umuusbong na mode ng pagsasanay sa pananaliksik. Ang mga modelo tulad ng GPT‑5.2 ay maaaring magsilbing mga kasangkapan para sa pagsuporta sa matematikal na pangangatwiran at pagpapabilis ng maagang yugto ng paggalugad, habang ang responsibilidad para sa katumpakan, interpretasyon, at konteksto ay nananatili sa mga taong mananaliksik. Kung maingat na gagamitin, ang mga ganitong sistema ay maaaring makatulong na mapadali ang mahahalagang aspeto ng teoretikal na gawain nang hindi pinapalitan ang sentral na tungkulin ng paghatol ng tao sa siyentipikong pagsisiyasat.