Преминаване към основното съдържание
OpenAI

Напредък в науката и математиката с GPT‑5.2

GPT‑5.2 е нашият най-мощен модел досега за работа в областта на математиката и науката.

Зареждане…

Една от надеждите ни за силния изкуствен интелект е, че той ще ускори научните изследвания в полза на всички, като помага на изследователите да проучват повече идеи, да ги тестват по-бързо и да правят реален принос с откритията си. 

През изминалата година работихме в тясно сътрудничество с учени от областите на математиката, физиката, биологията и компютърните науки, за да разберем къде ИИ може да помогне и къде все още има недостатъци. Миналия месец ние публикувахме статия, която събира ранни казуси от математиката, физиката, биологията, компютърните науки, астрономията и материалознанието, в които GPT‑5 помогна на изследователите, показвайки как GPT‑5 вече е започнал да допринася за реалната научна работа. С GPT‑5.2 започваме да виждаме как тези подобрения стават по-последователни и по-надеждни.

По-силна производителност там, където прецизността е от значение

GPT‑5.2 Pro и GPT‑5.2 Thinking са нашите най-силни модели досега за научна и математическа работа.

Силното математическо разсъждение е в основата на надеждната научна и техническа работа. Това позволява на моделите да следват многоетапна логика, да поддържат количествата последователни и да избягват фини грешки, които могат да се натрупат в реални анализи – от симулации и статистика до прогнозиране и моделиране. Подобренията в еталони като FrontierMath отразяват не тесни умения, а по-силно общо разсъждаване и абстракция, способности, които се пренасят директно в научни работни процеси като програмиране, анализ на данни и експериментален дизайн.

Тези възможности също са тясно свързани с напредъка към обща интелигентност. Система, която може надеждно да разсъждава чрез абстракция, да поддържа последователност в дълги вериги от мисли и да обобщава в различни сфери, проявява черти, които са основополагащи за AGI — не специфични за задачи трикове, а широки, преносими умения за разсъждаване, които имат значение в науката, инженерството и вземането на решения в реалния свят.

Смятаме, че GPT‑5.2 Pro и GPT‑5.2 Thinking са най-добрите в света модели за подпомагане и ускоряване на учените. На GPQA Diamond, еталон за въпроси и отговори на ниво завършено образование, устойчив на търсене в Google, GPT‑5.2 Pro постига 93,2%, следван отблизо от GPT‑5.2 Thinking с 92,4%.

В GPQA Diamond(отваря се в нов прозорец) моделите отговарят на въпроси с избор между няколко отговора по физика, химия и биология. Не бяха активирани никакви инструменти и усилието за разсъждаване беше зададено на максимум.

На FrontierMath (Tier 1–3), се извършва оценка на математиката на експертно ниво, GPT‑5.2 Thinking постави нов стандарт, решавайки 40,3% от задачите.

Във FrontierMath(отваря се в нов прозорец) моделите решават задачи по математика на експертно ниво. Инструмент на Python беше активиран и усилието за разсъждаване беше зададено на максимум.

Казус

GPT‑5.2 is not only strong at graduate-level science problems. We now regularly see our frontier models contributing solutions to previously unsolved—and increasingly subtle—questions in mathematics and the sciences.

In this case study, we describe how GPT‑5.2 Pro helped resolve an open research problem in statistical learning theory, documented in a new paper, On Learning-Curve Monotonicity for Maximum Likelihood Estimators(отваря се в нов прозорец).

The question (“If you collect more data, do your results reliably get better?”) shows up any time you fit a model from data. You can draw a learning curve that tracks average error as you add more examples. In the best case, the curve is monotone. More data means less error, every step of the way. That is the behavior people hope for, and often assume.

But over the last few years, researchers have learned that this intuition can fail. A line of work kicked off by an open problem posed at the Conference on Learning Theory (COLT) in 2019 by Viering, Mey, and Loog showed that the answer is often no. Even very simple, well-behaved toy setups can have non-monotonic learning curves, where adding data increases expected error. That surprise triggered a wave of follow-up papers. They expanded the list of settings where these reversals happen and proposed increasingly elaborate methods designed to restore monotone behavior.

Still, one of the most basic cases remained unresolved. What happens in the cleanest textbook situation, where the statistical model is actually correct and the data follow the familiar bell curve pattern, with a known mean but unknown standard deviation? Researchers already knew that small changes to this setup could break monotonic behavior. But the answer remained unknown in this core case.

Our new paper demonstrates that in this clean setting, intuition prevails: learning is predictably improved by more data, rather than behaving in surprising or unstable ways. What makes this paper unusual is how the proof was obtained. The authors did not work out a strategy and then ask the model to fill in steps. They did not provide intermediate arguments or a proof outline. Instead, they asked GPT‑5.2 Pro to solve the open problem directly, and then carefully verified the proof, including review and validation by external subject-matter experts.

The authors then asked simple follow-up questions to see how far the idea could go. GPT‑5.2 Pro extended the result beyond the original problem to higher dimensional settings and other common statistical models. Throughout, the human role stayed focused on verification and clear writing, rather than supplying mathematical scaffolding.

Поглед напред

Този резултат предлага полезна насока за това как ИИ системите могат да поддържат научните изследвания, особено в сфери с аксиоматични теоретични основи като математиката и теоретичната компютърна наука. В такива условия авангардните модели могат да помогнат за изследване на доказателства, тестване на хипотези и идентифициране на връзки, които иначе биха изисквали значителни човешки усилия за разкриване.

В същото време тези системи не са независими изследователи. Експертната преценка, проверката и разбирането на сферата остават от съществено значение. Дори и много способни модели могат да правят грешки или да разчитат на неизказани предположения. Но те също могат да създават подробни, структурирани аргументи, които заслужават внимателно човешко проучване и усъвършенстване. Постигането на надежден напредък с изкуствения интелект зависи от работни процеси, които поддържат проверката, прозрачността и сътрудничеството в процеса.

Разглеждан като казус, този резултат илюстрира нововъзникващ модел на изследователска практика. Модели като GPT‑5.2 могат да служат като инструменти за подпомагане на математическото разсъждение и ускоряване на ранния етап на проучване, докато отговорността за коректността, интерпретацията и контекста остава на човешките изследователи. Ако се използват внимателно, такива системи могат да помогнат за рационализиране на значителни аспекти на теоретичната работа, без да изместват централната роля на човешката преценка в научното изследване.