Переход к основному контенту
OpenAI

Продвижение науки и математики с GPT‑5.2

GPT‑5.2 — наша самая мощная модель для математических и научных задач.

Загрузка…

Одна из наших надежд, что сильный ИИ ускорит научные исследования на благо всех, помогая исследователям изучать больше идей, быстрее их проверять и превращать открытия в значимые результаты. 

В течение прошлого года мы тесно сотрудничали с учеными в области математики, физики, биологии и компьютерных наук, чтобы понять, где ИИ может помочь, а где он всё еще не справляется. В прошлом месяце мы опубликовали статью, в которой собраны ранние исследования по математике, физике, биологии, информатике, астрономии и материаловедению, в которых GPT‑5 помогал исследователям, показывая, как GPT‑5 уже начал вносить вклад в реальную научную работу. С GPT‑5.2 мы начинаем замечать, что эти улучшения становятся более стабильными и надёжными.

Улучшенная производительность там, где важна точность

GPT‑5.2 Pro и GPT‑5.2 Thinking — наши самые мощные модели на сегодняшний день для научной и математической работы.

Надежные математические рассуждения — основа надежных результатов в научной и технической работе. Это позволяет моделям следовать многоэтапной логике, сохранять согласованность количеств и избегать тонких ошибок, которые могут накапливаться в реальных анализах — от симуляций и статистики до прогнозирования и моделирования. Улучшения в таких тестах, как FrontierMath, отражают не узкий навык, а более сильные общие способности к рассуждению и абстракции, которые непосредственно переносятся в научные рабочие процессы, такие как программирование, анализ данных и проектирование экспериментов.

Эти возможности также тесно связаны с прогрессом на пути к общему искусственному интеллекту (AGI). Система, которая может надежно рассуждать на уровне абстракций, поддерживать последовательность в длинных цепочках размышлений и обобщать в разных областях, демонстрирует черты, которые являются основополагающими для AGI — не узкоспециализированные «трюки под задачу», а широкие, переносимые навыки рассуждения, которые важны в науке, инженерии и принятии решений в реальном мире.

Мы верим, что GPT‑5.2 Pro и GPT‑5.2 Thinking — лучшие в мире модели для помощи учёным и ускорения их работы. На GPQA Diamond, Google-proof Q&A бенчмарке выпускного уровня, GPT‑5.2 Pro достигает 93,2 %, за ним следует GPT‑5.2 Thinking на уровне 92,4 %.

В GPQA Diamond(открывается в новом окне) модели отвечают на вопросы с несколькими вариантами ответов по физике, химии и биологии. Никакие инструменты не были включены, а усилие на рассуждение было установлено на максимальный уровень.

На FrontierMath (уровни 1–3) — оценка экспертного уровня по математике, GPT‑5.2 Thinking установил новый стандарт, решив 40,3 % задач.

В FrontierMath(открывается в новом окне) модели решают задачи по математике экспертного уровня. Инструмент на Python был включён, а усилие на рассуждение установлено на максимум.

Пример исследования

GPT‑5.2 is not only strong at graduate-level science problems. We now regularly see our frontier models contributing solutions to previously unsolved—and increasingly subtle—questions in mathematics and the sciences.

In this case study, we describe how GPT‑5.2 Pro helped resolve an open research problem in statistical learning theory, documented in a new paper, On Learning-Curve Monotonicity for Maximum Likelihood Estimators(открывается в новом окне).

The question (“If you collect more data, do your results reliably get better?”) shows up any time you fit a model from data. You can draw a learning curve that tracks average error as you add more examples. In the best case, the curve is monotone. More data means less error, every step of the way. That is the behavior people hope for, and often assume.

But over the last few years, researchers have learned that this intuition can fail. A line of work kicked off by an open problem posed at the Conference on Learning Theory (COLT) in 2019 by Viering, Mey, and Loog showed that the answer is often no. Even very simple, well-behaved toy setups can have non-monotonic learning curves, where adding data increases expected error. That surprise triggered a wave of follow-up papers. They expanded the list of settings where these reversals happen and proposed increasingly elaborate methods designed to restore monotone behavior.

Still, one of the most basic cases remained unresolved. What happens in the cleanest textbook situation, where the statistical model is actually correct and the data follow the familiar bell curve pattern, with a known mean but unknown standard deviation? Researchers already knew that small changes to this setup could break monotonic behavior. But the answer remained unknown in this core case.

Our new paper demonstrates that in this clean setting, intuition prevails: learning is predictably improved by more data, rather than behaving in surprising or unstable ways. What makes this paper unusual is how the proof was obtained. The authors did not work out a strategy and then ask the model to fill in steps. They did not provide intermediate arguments or a proof outline. Instead, they asked GPT‑5.2 Pro to solve the open problem directly, and then carefully verified the proof, including review and validation by external subject-matter experts.

The authors then asked simple follow-up questions to see how far the idea could go. GPT‑5.2 Pro extended the result beyond the original problem to higher dimensional settings and other common statistical models. Throughout, the human role stayed focused on verification and clear writing, rather than supplying mathematical scaffolding.

Планы на будущее

Этот результат указывает на полезное направление для поддержки научных исследований системами ИИ, особенно в областях с аксиоматическими теоретическими основами, таких как математика и теоретическая информатика. В таких условиях передовые модели могут помочь изучать доказательства, проверять гипотезы и выявлять связи, которые в противном случае потребовали бы для обнаружения значительных усилий человека.

В то же время эти системы не являются независимыми исследователями. Экспертное мнение, проверка и понимание домена остаются важными. Даже высокоразвитые модели могут совершать ошибки или полагаться на неявные предположения. Но они также могут создавать детализированные, структурированные аргументы, которые заслуживают внимательного изучения и доработки человеком. Надежный прогресс в области ИИ зависит от рабочих процессов, которые обеспечивают валидацию, прозрачность и сотрудничество.

Рассматриваемый как пример исследования, этот результат иллюстрирует новый подход в исследовательской практике. Модели, такие как GPT‑5.2, могут служить инструментами для поддержки математического мышления и ускорения начального этапа исследования, в то время как ответственность за правильность, интерпретацию и контекст остается за исследователями. При осторожном использовании такие системы могут помочь оптимизировать значительные аспекты теоретической работы, не вытесняя центральную роль человеческого суждения в научных исследованиях.