Пређите на главни садржај
OpenAI

Унапређење науке и математике уз GPT‑5.2

GPT‑5.2 је наш најмоћнији модел до сада за рад у математици и науци.

Учитавање…

Једна од наших нада за снажну вештачку интелигенцију јесте да ће убрзати научна истраживања на добробит свих, помажући истраживачима да истраже више идеја, брже их тестирају и открића претворе у утицај. 

Током протекле године, блиско смо сарађивали са научницима из математике, физике, биологије и информатике да бисмо разумели где AI може да помогне — и где још увек не достиже потребан ниво. Прошлог месеца објавили смо рад који прикупља ране студије случаја из математике, физике, биологије, информатике, астрономије и науке о материјалима, у којима је GPT‑5 помогао истраживачима, показујући како је GPT‑5 већ почео да доприноси стварном научном раду. Са GPT‑5.2, почињемо да видимо да ти помаци постају доследнији и поузданији.

Јачи резултати тамо где је прецизност важна

GPT‑5.2 Pro и GPT‑5.2 Thinking су наши најмоћнији модели до сада за научни и математички рад.

Снажно математичко резоновање је основа поузданости у научном и техничком раду. Оно омогућава моделима да прате вишекорачну логику, одрже доследност количина и избегну суптилне грешке које се могу нагомилати у стварним анализама — од симулација и статистике до предвиђања и моделирања. Побољшања на бенчмарковима као што је FrontierMath не одражавају уску вештину, већ јаче опште резоновање и апстракцију, способности које се директно преносе у научне токове рада као што су програмирање, анализа података и осмишљавање експеримената.

Ове способности су такође уско повезане са напретком ка општој интелигенцији. Систем који може поуздано да резонује кроз апстракцију, одржава доследност кроз дуге низове мишљења и генерализује кроз различите домене показује особине које су темељне за AGI — не трикове специфичне за задатак, већ широке, преносиве вештине резоновања које су важне у науци, инжењерству и доношењу одлука у стварном свету.

Верујемо да су GPT‑5.2 Pro и GPT‑5.2 Thinking најбољи модели на свету за помоћ научницима и убрзавање њиховог рада. На GPQA Diamond, бенчмарку питања и одговора на постдипломском нивоу отпорном на Google претрагу, GPT‑5.2 Pro постиже 93,2%, а одмах иза њега GPT‑5.2 Thinking са 92,4%.

У GPQA Diamond(отвара се у новом прозору), модели одговарају на питања вишеструког избора из физике, хемије и биологије. Ниједан алат није био омогућен, а ниво уложеног резоновања постављен на максимум.

На FrontierMath (Tier 1–3), евалуацији математике на нивоу стручњака, GPT‑5.2 Thinking поставио је нови најсавременији резултат, решивши 40,3% проблема.

У FrontierMath(отвара се у новом прозору), модели решавају математичке проблеме на нивоу стручњака. Python алат је био омогућен, а ниво уложеног резоновања постављен на максимум.

Студија случаја

GPT‑5.2 is not only strong at graduate-level science problems. We now regularly see our frontier models contributing solutions to previously unsolved—and increasingly subtle—questions in mathematics and the sciences.

In this case study, we describe how GPT‑5.2 Pro helped resolve an open research problem in statistical learning theory, documented in a new paper, On Learning-Curve Monotonicity for Maximum Likelihood Estimators(отвара се у новом прозору).

The question (“If you collect more data, do your results reliably get better?”) shows up any time you fit a model from data. You can draw a learning curve that tracks average error as you add more examples. In the best case, the curve is monotone. More data means less error, every step of the way. That is the behavior people hope for, and often assume.

But over the last few years, researchers have learned that this intuition can fail. A line of work kicked off by an open problem posed at the Conference on Learning Theory (COLT) in 2019 by Viering, Mey, and Loog showed that the answer is often no. Even very simple, well-behaved toy setups can have non-monotonic learning curves, where adding data increases expected error. That surprise triggered a wave of follow-up papers. They expanded the list of settings where these reversals happen and proposed increasingly elaborate methods designed to restore monotone behavior.

Still, one of the most basic cases remained unresolved. What happens in the cleanest textbook situation, where the statistical model is actually correct and the data follow the familiar bell curve pattern, with a known mean but unknown standard deviation? Researchers already knew that small changes to this setup could break monotonic behavior. But the answer remained unknown in this core case.

Our new paper demonstrates that in this clean setting, intuition prevails: learning is predictably improved by more data, rather than behaving in surprising or unstable ways. What makes this paper unusual is how the proof was obtained. The authors did not work out a strategy and then ask the model to fill in steps. They did not provide intermediate arguments or a proof outline. Instead, they asked GPT‑5.2 Pro to solve the open problem directly, and then carefully verified the proof, including review and validation by external subject-matter experts.

The authors then asked simple follow-up questions to see how far the idea could go. GPT‑5.2 Pro extended the result beyond the original problem to higher dimensional settings and other common statistical models. Throughout, the human role stayed focused on verification and clear writing, rather than supplying mathematical scaffolding.

Поглед унапред

Овај резултат указује на користан правац у томе како AI системи могу да подрже научна истраживања, посебно у доменима са аксиоматским теоријским основама као што су математика и теоријска информатика. У оваквим окружењима, гранични модели могу помоћи у истраживању доказа, тестирању хипотеза и препознавању веза за чије би откривање иначе био потребан значајан људски труд.

Истовремено, ови системи нису независни истраживачи. Стручно расуђивање, провера и разумевање домена и даље су од суштинског значаја. Чак и веома способни модели могу правити грешке или се ослањати на непоменуте претпоставке. Али могу и да произведу детаљне, структурисане аргументе који заслужују пажљиво људско проучавање и дораду. Зато поуздан напредак уз AI зависи од токова рада који чврсто задржавају валидацију, транспарентност и сарадњу у самом процесу.

Посматран као студија случаја, овај резултат илуструје нови начин истраживачке праксе. Модели као што је GPT‑5.2 могу служити као алати за подршку математичком резоновању и убрзавање истраживања у раној фази, док одговорност за тачност, тумачење и контекст остаје на људским истраживачима. Ако се користе пажљиво, овакви системи могу помоћи да се поједноставе значајни аспекти теоријског рада без потискивања централне улоге људског расуђивања у научном истраживању.