Продвижение науки и математики с GPT‑5.2
GPT‑5.2 — наша самая мощная модель для математических и научных задач.
Одна из наших надежд, что сильный ИИ ускорит научные исследования на благо всех, помогая исследователям изучать больше идей, быстрее их проверять и превращать открытия в значимые результаты.
В течение прошлого года мы тесно сотрудничали с учеными в области математики, физики, биологии и компьютерных наук, чтобы понять, где ИИ может помочь, а где он всё еще не справляется. В прошлом месяце мы опубликовали статью, в которой собраны ранние исследования по математике, физике, биологии, информатике, астрономии и материаловедению, в которых GPT‑5 помогал исследователям, показывая, как GPT‑5 уже начал вносить вклад в реальную научную работу. С GPT‑5.2 мы начинаем замечать, что эти улучшения становятся более стабильными и надёжными.
GPT‑5.2 Pro и GPT‑5.2 Thinking — наши самые мощные модели на сегодняшний день для научной и математической работы.
Надежные математические рассуждения — основа надежных результатов в научной и технической работе. Это позволяет моделям следовать многоэтапной логике, сохранять согласованность количеств и избегать тонких ошибок, которые могут накапливаться в реальных анализах — от симуляций и статистики до прогнозирования и моделирования. Улучшения в таких тестах, как FrontierMath, отражают не узкий навык, а более сильные общие способности к рассуждению и абстракции, которые непосредственно переносятся в научные рабочие процессы, такие как программирование, анализ данных и проектирование экспериментов.
Эти возможности также тесно связаны с прогрессом на пути к общему искусственному интеллекту (AGI). Система, которая может надежно рассуждать на уровне абстракций, поддерживать последовательность в длинных цепочках размышлений и обобщать в разных областях, демонстрирует черты, которые являются основополагающими для AGI — не узкоспециализированные «трюки под задачу», а широкие, переносимые навыки рассуждения, которые важны в науке, инженерии и принятии решений в реальном мире.
Мы верим, что GPT‑5.2 Pro и GPT‑5.2 Thinking — лучшие в мире модели для помощи учёным и ускорения их работы. На GPQA Diamond, Google-proof Q&A бенчмарке выпускного уровня, GPT‑5.2 Pro достигает 93,2 %, за ним следует GPT‑5.2 Thinking на уровне 92,4 %.
В GPQA Diamond(открывается в новом окне) модели отвечают на вопросы с несколькими вариантами ответов по физике, химии и биологии. Никакие инструменты не были включены, а усилие на рассуждение было установлено на максимальный уровень.
На FrontierMath (уровни 1–3) — оценка экспертного уровня по математике, GPT‑5.2 Thinking установил новый стандарт, решив 40,3 % задач.
В FrontierMath(открывается в новом окне) модели решают задачи по математике экспертного уровня. Инструмент на Python был включён, а усилие на рассуждение установлено на максимум.
Пример исследования
Этот результат указывает на полезное направление для поддержки научных исследований системами ИИ, особенно в областях с аксиоматическими теоретическими основами, таких как математика и теоретическая информатика. В таких условиях передовые модели могут помочь изучать доказательства, проверять гипотезы и выявлять связи, которые в противном случае потребовали бы для обнаружения значительных усилий человека.
В то же время эти системы не являются независимыми исследователями. Экспертное мнение, проверка и понимание домена остаются важными. Даже высокоразвитые модели могут совершать ошибки или полагаться на неявные предположения. Но они также могут создавать детализированные, структурированные аргументы, которые заслуживают внимательного изучения и доработки человеком. Надежный прогресс в области ИИ зависит от рабочих процессов, которые обеспечивают валидацию, прозрачность и сотрудничество.
Рассматриваемый как пример исследования, этот результат иллюстрирует новый подход в исследовательской практике. Модели, такие как GPT‑5.2, могут служить инструментами для поддержки математического мышления и ускорения начального этапа исследования, в то время как ответственность за правильность, интерпретацию и контекст остается за исследователями. При осторожном использовании такие системы могут помочь оптимизировать значительные аспекты теоретической работы, не вытесняя центральную роль человеческого суждения в научных исследованиях.


