Přeskoč na hlavní obsah
OpenAI

Pokrok ve vědě a matematice s GPT‑5.2

GPT‑5.2 je náš dosud nejsilnější model pro matematiku a vědeckou práci.

Načítání…

Jednou z našich nadějí souvisejících se silnou umělou inteligencí je, že urychlí vědecký výzkum ve prospěch všech a pomůže výzkumným pracovníkům prozkoumat více nápadů, rychleji je otestovat a proměnit své objevy ve výsledky. 

Během uplynulého roku jsme úzce spolupracovali s vědci z oborů matematiky, fyziky, biologie a informatiky, abychom pochopili, kde může umělá inteligence pomoci – a kde stále zaostává. Minulý měsíc jsme zveřejnili článek, který shromažďuje rané případové studie z matematiky, fyziky, biologie, informatiky, astronomie a materiálových věd, ve kterých GPT‑5 výzkumníkům pomohl a ukázal tak, že už začal přispívat ke skutečné vědecké práci. V případě GPT‑5.2 začínáme pozorovat, že tyto přínosy jsou ještě konzistentnější a spolehlivější.

Vyšší výkon tam, kde záleží na přesnosti

GPT‑5.2 Pro a GPT‑5.2 Thinking jsou naše dosud nejsilnější modely pro vědeckou a matematickou práci.

Silné matematické uvažování je základem spolehlivosti ve vědecké a technické práci. Umožňuje modelům sledovat vícekrokovou logiku, udržovat konzistentní údaje a vyhýbat se drobným chybám, které se mohou v reálných analýzách – od simulací a statistik až po prognózování a modelování – vyskytnout. Zlepšení ve srovnávacích testech, jako je FrontierMath, neodráží jen pouhou dovednost, ale silnější obecné uvažování a abstrakci, schopnosti, které se přímo promítají do vědeckých pracovních postupů, jako je programování, analýza dat a návrh experimentů.

Tyto schopnosti také úzce souvisejí s pokrokem v oblasti obecné inteligence. Systém, který dokáže spolehlivě uvažovat pomocí abstrakce, být konzistentní v dlouhých myšlenkových řetězcích a zobecňovat věci napříč oblastmi, vykazuje vlastnosti, které jsou pro AGI základní: nejde o specifické triky pro konkrétní úkol, ale rozsáhlou, přenositelnou schopnost uvažování, která je důležitá pro vědu, techniku a reálné rozhodování.

Věříme, že GPT‑5.2 Pro a GPT‑5.2 Thinking jsou nejlepšími modely na světě pro asistenci a urychlení práce vědců. Ve srovnání GPQA Diamond, s otázkami a odpověďmi na postgraduální úrovni, které nelze obejít prostým vyhledáváním na Googlu dosahuje GPT‑5.2 Pro 93,2 %, těsně následován GPT‑5.2 Thinking s 92,4 %.

V rámci GPQA Diamond(otevře se v novém okně) odpovídají modely na otázky s výběrem z více možností, které se týkají fyziky, chemie a biologie. Nebyly povoleny žádné nástroje a hloubka uvažování byla nastavena na maximum.

V rámci FrontierMath (úroveň 1–3), hodnocení matematiky na úrovni experta, stanovilo GPT‑5.2 Thinking nový standard, když vyřešilo 40,3 % problémů.

V rámci srovnání FrontierMath(otevře se v novém okně) řeší modely matematické problémy na úrovni expertů. Byl povolen nástroj Python a hloubka uvažování byla nastaveno na maximum.

Případová studie

GPT‑5.2 is not only strong at graduate-level science problems. We now regularly see our frontier models contributing solutions to previously unsolved—and increasingly subtle—questions in mathematics and the sciences.

In this case study, we describe how GPT‑5.2 Pro helped resolve an open research problem in statistical learning theory, documented in a new paper, On Learning-Curve Monotonicity for Maximum Likelihood Estimators(otevře se v novém okně).

The question (“If you collect more data, do your results reliably get better?”) shows up any time you fit a model from data. You can draw a learning curve that tracks average error as you add more examples. In the best case, the curve is monotone. More data means less error, every step of the way. That is the behavior people hope for, and often assume.

But over the last few years, researchers have learned that this intuition can fail. A line of work kicked off by an open problem posed at the Conference on Learning Theory (COLT) in 2019 by Viering, Mey, and Loog showed that the answer is often no. Even very simple, well-behaved toy setups can have non-monotonic learning curves, where adding data increases expected error. That surprise triggered a wave of follow-up papers. They expanded the list of settings where these reversals happen and proposed increasingly elaborate methods designed to restore monotone behavior.

Still, one of the most basic cases remained unresolved. What happens in the cleanest textbook situation, where the statistical model is actually correct and the data follow the familiar bell curve pattern, with a known mean but unknown standard deviation? Researchers already knew that small changes to this setup could break monotonic behavior. But the answer remained unknown in this core case.

Our new paper demonstrates that in this clean setting, intuition prevails: learning is predictably improved by more data, rather than behaving in surprising or unstable ways. What makes this paper unusual is how the proof was obtained. The authors did not work out a strategy and then ask the model to fill in steps. They did not provide intermediate arguments or a proof outline. Instead, they asked GPT‑5.2 Pro to solve the open problem directly, and then carefully verified the proof, including review and validation by external subject-matter experts.

The authors then asked simple follow-up questions to see how far the idea could go. GPT‑5.2 Pro extended the result beyond the original problem to higher dimensional settings and other common statistical models. Throughout, the human role stayed focused on verification and clear writing, rather than supplying mathematical scaffolding.

Budoucnost

Tento výsledek naznačuje užitečný směr, jak mohou systémy AI poskytovat podporu vědeckému výzkumu, zejména v oblastech s axiomatickými teoretickými základy, jako je matematika a teoretická informatika. V takovýchto prostředích mohou průkopnické modely pomoci zkoumat důkazy, testovat hypotézy a určovat souvislosti, jejichž odhalení by jinak vyžadovalo značné lidské úsilí.

Zároveň tyto systémy nejsou nezávislými výzkumníky. Odborný úsudek, ověřování a porozumění dané oblasti jsou i nadále nezbytné. I velmi schopné modely mohou dělat chyby nebo se spoléhat na nevyřčené předpoklady. Mohou však také vytvářet podrobné, strukturované argumenty, které si zaslouží pečlivé lidské studium a zdokonalení. Spolehlivý pokrok v oblasti umělé inteligence proto závisí na pracovních postupech, mezi které patří ověřování, transparentnost a spolupráci.

Pokud se na tento výsledek díváme jako na případovou studii, ilustruje nově vznikající způsob výzkumné praxe. Modely jako GPT‑5.2 mohou sloužit jako nástroje pro podporu matematického uvažování a urychlení počátečního průzkumu, zatímco odpovědnost za správnost, interpretaci a kontext zůstává na lidských výzkumnících. Při opatrném použití mohou tyto systémy pomoci zefektivnit významné aspekty teoretické práce, aniž by vytlačily ústřední roli lidského úsudku ve vědeckém zkoumání.