Pāriet uz galveno saturu
OpenAI

2025. gada 11. decembris

PublikācijaProduktsUzņēmums

Virzot zinātni un matemātiku ar GPT‑5.2

GPT‑5.2 ir mūsu līdz šim spēcīgākais modelis matemātikas un zinātnes darbam.

Notiek ielāde…

Viena no mūsu cerībām spēcīgam MI ir, ka tas paātrinās zinātniskos pētījumus, sniedzot labumu visiem, palīdzot pētniekiem izpētīt vairāk ideju, ātrāk tās pārbaudīt un pārvērst atklājumus par ietekmi. 

Pēdējā gada laikā mēs esam cieši sadarbojušies ar zinātniekiem matemātikā, fizikā, bioloģijā un datorzinātnēs, lai saprastu, kur mākslīgais intelekts var palīdzēt un kur tas joprojām atpaliek. Pagājušajā mēnesī mēs publicējām rakstu, kas apkopo agrīno gadījumu izpēti matemātikā, fizikā, bioloģijā, datorzinātnēs, astronomijā un materiālzinātnēs, kuros GPT‑5 palīdzēja pētniekiem, parādot, kā GPT‑5 jau ir sācis sniegt ieguldījumu reālā zinātniskā darbā. Ar GPT‑5.2 mēs sākam redzēt, ka šie uzlabojumi kļūst arvien konsekventāki un uzticamāki.

Jaudīgāka veiktspēja, kur svarīga ir precizitāte

GPT‑5.2 Pro un GPT‑5.2 Thinking ir mūsu līdz šim spēcīgākie modeļi zinātniskajam un matemātiskajam darbam.

Spēcīga matemātiskā spriestspēja ir pamats uzticamībai zinātniskajā un tehniskajā darbā. Tas ļauj modeļiem sekot daudzpakāpju loģikai, saglabāt daudzumu konsekvenci un izvairīties no smalkām kļūdām, kas var samilzt reālās analīzēs — no simulācijām un statistikas līdz prognozēšanai un modelēšanai. Uzlabojumi tādos kritērijos kā FrontierMath neatspoguļo šauru prasmi, bet gan spēcīgāku vispārējo spriešanu un abstrakciju, spējas, kas tieši pāriet uz zinātniskajām darbplūsmām, piemēram, kodēšanu, datu analīzi un eksperimentālo dizainu.

Šīs spējas ir cieši saistītas ar virzību uz vispārējo intelektu. Sistēma, kas spēj uzticami argumentēt caur abstrakciju, uzturēt konsekvenci garās domu ķēdēs un vispārināt dažādos domēnos, izrāda īpašības, kas ir AGI pamatā — nevis uzdevumam specifiski triki, bet plašas, pārnesamas argumentācijas prasmes, kas ir svarīgas zinātnē, inženierijā un reālās pasaules lēmumu pieņemšanā.

Mēs uzskatām, ka GPT‑5.2 Pro un GPT‑5.2 Thinking ir pasaules labākie modeļi zinātnieku atbalstam un paātrināšanai. Uz GPQA Diamond, augstākā līmeņa Google-izturīgā jautājumu un atbilžu etalonā, GPT‑5.2 Pro sasniedz 93,2%, kam cieši seko GPT‑5.2 Domāšana ir 92,4%.

Programmā GPQA Diamond(atveras jaunā logā) modeļi atbild uz izvēles jautājumiem par fiziku, ķīmiju un bioloģiju. Nekādi rīki netika iespējoti, un argumentācijas intensitāte tika iestatīta uz maksimālo.

Programmā FrontierMath (1.–3. līmenis), tiek veikts ekspertu līmeņa matemātikas novērtējums, GPT‑5.2. Thinking sasniedza jaunu mākslas līmeni, atrisinot 40,3% problēmu.

Programmā FrontierMath(atveras jaunā logā) modeļi risina ekspertu līmeņa matemātikas uzdevumus. Python rīks tika iespējots, un argumentācijas intensitāte tika iestatīta uz maksimālo.

Gadījuma izpēte

GPT‑5.2 is not only strong at graduate-level science problems. We now regularly see our frontier models contributing solutions to previously unsolved—and increasingly subtle—questions in mathematics and the sciences.

In this case study, we describe how GPT‑5.2 Pro helped resolve an open research problem in statistical learning theory, documented in a new paper, On Learning-Curve Monotonicity for Maximum Likelihood Estimators(atveras jaunā logā).

The question (“If you collect more data, do your results reliably get better?”) shows up any time you fit a model from data. You can draw a learning curve that tracks average error as you add more examples. In the best case, the curve is monotone. More data means less error, every step of the way. That is the behavior people hope for, and often assume.

But over the last few years, researchers have learned that this intuition can fail. A line of work kicked off by an open problem posed at the Conference on Learning Theory (COLT) in 2019 by Viering, Mey, and Loog showed that the answer is often no. Even very simple, well-behaved toy setups can have non-monotonic learning curves, where adding data increases expected error. That surprise triggered a wave of follow-up papers. They expanded the list of settings where these reversals happen and proposed increasingly elaborate methods designed to restore monotone behavior.

Still, one of the most basic cases remained unresolved. What happens in the cleanest textbook situation, where the statistical model is actually correct and the data follow the familiar bell curve pattern, with a known mean but unknown standard deviation? Researchers already knew that small changes to this setup could break monotonic behavior. But the answer remained unknown in this core case.

Our new paper demonstrates that in this clean setting, intuition prevails: learning is predictably improved by more data, rather than behaving in surprising or unstable ways. What makes this paper unusual is how the proof was obtained. The authors did not work out a strategy and then ask the model to fill in steps. They did not provide intermediate arguments or a proof outline. Instead, they asked GPT‑5.2 Pro to solve the open problem directly, and then carefully verified the proof, including review and validation by external subject-matter experts.

The authors then asked simple follow-up questions to see how far the idea could go. GPT‑5.2 Pro extended the result beyond the original problem to higher dimensional settings and other common statistical models. Throughout, the human role stayed focused on verification and clear writing, rather than supplying mathematical scaffolding.

Skatoties uz priekšu

Šis rezultāts norāda uz noderīgu virzienu, kā MI sistēmas varētu sniegt atbalstu zinātniskajiem pētījumiem, īpaši domēnos ar aksiomātiskiem teorētiskiem pamatiem, piemēram, matemātikā un teorētiskajā datorzinātnē. Šādos apstākļos robežmodeļi var palīdzēt izpētīt pierādījumus, pārbaudīt hipotēzes un identificēt saiknes, kuru atklāšana citādi prasītu ievērojamas cilvēka pūles.

Tajā pašā laikā šīs sistēmas nav neatkarīgi pētnieki. Ekspertu vērtējums, verifikācija un domēna izpratne joprojām ir būtiskas. Pat ļoti spējīgi modeļi var pieļaut kļūdas vai paļauties uz neizteiktiem pieņēmumiem. Bet tie var arī izveidot detalizētus, strukturētus argumentus, kas ir pelnījuši rūpīgu cilvēka izpēti un pilnveidošanu. Uzticama progresa sasniegšana ar mākslīgo intelektu tādējādi ir atkarīga no darbplūsmām, kas nodrošina validāciju, pārredzamību un sadarbību.

Aplūkots kā gadījuma izpēte, šis rezultāts ilustrē jaunu pētniecības prakses veidu. Modeļi, piemēram, GPT‑5.2, var kalpot kā rīki matemātiskās domāšanas atbalstam un agrīnās izpētes paātrināšanai, kamēr atbildība par pareizību, interpretāciju un kontekstu paliek cilvēku pētnieku ziņā. Ja tās tiek izmantotas uzmanīgi, šādas sistēmas var palīdzēt racionalizēt nozīmīgus teorētiskā darba aspektus, neaizstājot cilvēka sprieduma centrālo lomu zinātniskajā izpētē.