Kalo te përmbajtja kryesore
OpenAI

Avancimi i shkencës dhe i matematikës me GPT‑5.2

GPT‑5.2 është modeli ynë më i fuqishëm deri sot për punë në matematikë dhe shkencë.

Duke ngarkuar…

Një nga shpresat tona për inteligjencën artificiale të fortë është që ajo do të përshpejtojë kërkimet shkencore për përfitimin e të gjithëve, duke ndihmuar studiuesit të eksplorojnë më shumë ide, t'i testojnë më shpejt dhe të kthejnë zbulimet në ndikim. 

Gjatë vitit të kaluar, kemi punuar ngushtë me shkencëtarë në matematikë, fizikë, biologji dhe shkencë kompjuterike për të kuptuar se ku AI mund të ndihmojë—dhe ku ende ka mangësi. Muajin e kaluar, ne publikuam një punim që përmbledh studime të hershme rastesh në matematikë, fizikë, biologji, shkencë kompjuterike, astronomi dhe shkencë materialesh, ku GPT‑5 ndihmoi studiuesit duke treguar se si GPT‑5 ka filluar tashmë të kontribuojë në punën e mirëfilltë shkencore. Me GPT‑5.2, po fillojmë të shohim që këto përfitime po bëhen më të qëndrueshme dhe më të besueshme.

Performancë më e fortë aty ku saktësia ka rëndësi.

GPT‑5.2 Pro dhe GPT‑5.2 Thinking janë modelet tona më të fuqishme deri më tani për punë shkencore dhe matematikore.

Arsyetimi i fortë matematikor është themeli për besueshmëri në punën shkencore dhe teknike. Kjo aktivizon modelet të ndjekin logjikën me shumë hapa, të ruajnë sasinë konsistente dhe të shmangin gabimet e imta që mund të grumbullohen në analiza reale—nga simulimet dhe statistikat deri te parashikimi dhe modelimi. Përmirësimet në standarde si FrontierMath nuk pasqyrojnë një aftësi të ngushtë, por një arsyetim dhe abstragim më të fortë të përgjithshëm, aftësi që kalojnë drejtpërdrejt në flukset e punës shkencore si kodimi, analiza e të dhënave dhe dizajni eksperimental.

Këto aftësi janë gjithashtu të lidhura ngushtë me përparimin drejt inteligjencës së përgjithshme. Një sistem që mund të arsyetojë në mënyrë të besueshme përmes abstraksionit, të ruajë konsistencën në zinxhirë të gjatë mendimesh dhe të përgjithësojë nëpër fusha të ndryshme, po shfaq tipare që janë themelore për AGI—jo truke specifike për detyra, por aftësi të gjera dhe të transferueshme të arsyetimit që kanë rëndësi në shkencë, inxhinieri dhe marrjen e vendimeve në botën reale.

Ne besojmë se GPT‑5.2 Pro dhe GPT‑5.2 Thinking janë modelet më të mira në botë për të ndihmuar dhe përshpejtuar shkencëtarët. Në GPQA Diamond, një standard pyetje-përgjigjesh në nivelin e diplomantëve që është i papërshkueshëm nga Google, GPT‑5.2 Pro arrin 93.2%, i ndjekur nga afër nga GPT‑5.2 Thinking në 92.4%.

GPQA Diamond(hapet në një dritare të re), modelet i përgjigjen pyetjeve me zgjedhje të shumëfishta për fizikë, kimi dhe biologji. Asnjë mjet nuk ishte aktivizuar dhe përpjekja e arsyetimit u vendos në maksimum.

FrontierMath (Niveli 1–3), një vlerësim i matematikës në nivel ekspertësh, GPT‑5.2 Thinking vendosi një standard të ri, duke zgjidhur 40.3% të problemeve.

FrontierMath(hapet në një dritare të re), modele zgjidhin probleme matematike të nivelit ekspert. Një mjet Python u aktivizua dhe përpjekja e arsyetimit u vendos në maksimum.

Studim rasti

GPT‑5.2 is not only strong at graduate-level science problems. We now regularly see our frontier models contributing solutions to previously unsolved—and increasingly subtle—questions in mathematics and the sciences.

In this case study, we describe how GPT‑5.2 Pro helped resolve an open research problem in statistical learning theory, documented in a new paper, On Learning-Curve Monotonicity for Maximum Likelihood Estimators(hapet në një dritare të re).

The question (“If you collect more data, do your results reliably get better?”) shows up any time you fit a model from data. You can draw a learning curve that tracks average error as you add more examples. In the best case, the curve is monotone. More data means less error, every step of the way. That is the behavior people hope for, and often assume.

But over the last few years, researchers have learned that this intuition can fail. A line of work kicked off by an open problem posed at the Conference on Learning Theory (COLT) in 2019 by Viering, Mey, and Loog showed that the answer is often no. Even very simple, well-behaved toy setups can have non-monotonic learning curves, where adding data increases expected error. That surprise triggered a wave of follow-up papers. They expanded the list of settings where these reversals happen and proposed increasingly elaborate methods designed to restore monotone behavior.

Still, one of the most basic cases remained unresolved. What happens in the cleanest textbook situation, where the statistical model is actually correct and the data follow the familiar bell curve pattern, with a known mean but unknown standard deviation? Researchers already knew that small changes to this setup could break monotonic behavior. But the answer remained unknown in this core case.

Our new paper demonstrates that in this clean setting, intuition prevails: learning is predictably improved by more data, rather than behaving in surprising or unstable ways. What makes this paper unusual is how the proof was obtained. The authors did not work out a strategy and then ask the model to fill in steps. They did not provide intermediate arguments or a proof outline. Instead, they asked GPT‑5.2 Pro to solve the open problem directly, and then carefully verified the proof, including review and validation by external subject-matter experts.

The authors then asked simple follow-up questions to see how far the idea could go. GPT‑5.2 Pro extended the result beyond the original problem to higher dimensional settings and other common statistical models. Throughout, the human role stayed focused on verification and clear writing, rather than supplying mathematical scaffolding.

Në të ardhmen

Ky rezultat sugjeron një drejtim të dobishëm për mënyrën se si sistemet AI mund të ofrojnë mbështetje për kërkimin shkencor, veçanërisht në fushat me baza teorike aksiomatike si matematika dhe informatika teorike. Në mjedise si këto, modelet kufitare mund të ndihmojnë në eksplorimin e provave, testimin e hipotezave dhe identifikimin e lidhjeve që përndryshe do të kërkonin përpjekje të konsiderueshme njerëzore për t'u zbuluar.

Në të njëjtën kohë, këto sisteme nuk janë studiues të pavarur. Gjykimi i ekspertëve, verifikimi dhe kuptimi i fushës mbeten thelbësore. Edhe modelet shumë të afta mund të bëjnë gabime ose të mbështeten në supozime të pashprehura. Por ato gjithashtu mund të prodhojnë argumente të detajuara dhe të strukturuara që meritojnë studim dhe përpunim të kujdesshëm nga njerëzit. Përparimi i besueshëm me AI prandaj varet nga ciklet e punës që mbajnë vlefshmërinë, transparencën dhe bashkëpunimin të përfshirë në proces.

I parë si një studim rasti, ky rezultat ilustron një modalitet të ri të praktikës kërkimore. Modelet si GPT‑5.2 mund të shërbejnë si mjete për të mbështetur arsyetimin matematikor dhe për të përshpejtuar eksplorimin në fazat e hershme, ndërsa përgjegjësia për saktësinë, interpretimin dhe kontekstin mbetet te studiuesit njerëzorë. Nëse përdoren me kujdes, sisteme të tilla mund të ndihmojnë në thjeshtimin e aspekteve të rëndësishme të punës teorike pa zëvendësuar rolin qendror të gjykimit njerëzor në kërkimin shkencor.