11 декабря 2025 г.

Представляем GPT‑5.2

Самая передовая и продвинутая модель для профессиональной работы и для долгоживущих агентов.

Загрузка…

Мы представляем GPT‑5.2, самую мощную серию моделей для работы с профессиональными знаниями.

Уже сейчас средний пользователь ChatGPT Enterprise говорит⁠, что ИИ экономит им 40–60 минут в день, а активные пользователи утверждают, что экономят более 10 часов в неделю. Мы разработали GPT‑5.2, чтобы обеспечить ещё больше экономической выгоды для людей; модель лучше справляется с созданием электронных таблиц, подготовкой презентаций, написанием кода, восприятием изображений, пониманием длинных контекстов, использованием инструментов и выполнением сложных, многоэтапных проектов.

GPT‑5.2 устанавливает новый стандарт в различных бенчмарках, включая GDPval, где он превосходит отраслевых профессионалов в четко определённых задачах, связанных с работой с профессиональными знаниями, охватывающих 44 профессии.

	GPT‑5.2 Thinking	GPT‑5.1 Thinking
GDPval (победа или ничья) ^{Задачи по работе с профессиональными знаниями}	70,9 %	38,8 % (GPT‑5)
SWE-Bench Pro (публичный) ^{Программная инженерия}	55,6 %	50,8 %
SWE-bench Verified ^{Программная инженерия}	80,0 %	76,3 %
GPQA Diamond (без инструментов) ^{Научные вопросы}	92,4 %	88,1 %
CharXiv Reasoning (с Python) ^{Вопросы по научным иллюстрациям}	88,7 %	80,3 %
HMMT (февраль 2025 года) ^{Математический турнир}	99,4 %	96,3 %
FrontierMath (уровни 1–3) ^{Углубленная математика}	40,3 %	31,0 %
ARC-AGI-1 (Verified) ^{Абстрактное мышление}	86,2 %	72,8 %
ARC-AGI-2 (Verified) ^{Абстрактное мышление}	52,9 %	17,6 %

Notion⁠(открывается в новом окне), Box⁠(открывается в новом окне), Shopify⁠(открывается в новом окне), Harvey⁠(открывается в новом окне) и Zoom⁠(открывается в новом окне) отметили, что GPT‑5.2 демонстрирует передовые результаты в области долгосрочного рассуждения и вызова инструментов. Databricks⁠(открывается в новом окне), Hex⁠(открывается в новом окне) и Triple Whale⁠(открывается в новом окне) обнаружили, что GPT‑5.2 исключительно хорошо справляется с агентными задачами в области науки о данных и анализа документов. Cognition⁠(открывается в новом окне), Warp⁠(открывается в новом окне), Charlie Labs⁠(открывается в новом окне), JetBrains⁠(открывается в новом окне) и Augment Code⁠(открывается в новом окне) утверждают, что GPT‑5.2 обеспечивает передовую производительность в области агентного программирования, с измеримыми улучшениями в таких областях, как интерактивное программирование, обзоры кода и поиск ошибок.

GPT‑5.2 Instant, Thinking и Pro начнут развертываться в платных тарифных планах ChatGPT сегодня. В API они уже сейчас доступны всем разработчикам.

В целом, GPT‑5.2 обеспечивает значительные улучшения в общем интеллекте, понимании длинного контекста, агентном вызове инструментов и работе с изображениями, что делает эту модель более эффективной в выполнении сложных, реальных задач от начала до конца по сравнению с любыми нашими предыдущими моделями.

Производительность модели

Экономически ценные задачи

GPT‑5.2 Thinking — лучшая модель на сегодняшний день для профессионального использования в реальных условиях. На GDPval⁠, оценке, измеряющей хорошо определенные задачи по работе со знаниями в 44 профессиях, GPT‑5.2 Thinking устанавливает новый рекорд и является нашей первой моделью, которая работает на уровне или выше уровня эксперта-человека. В частности, по мнению экспертов GPT‑5.2 Thinking превосходит или показывает сопоставимые результаты с ведущими отраслевыми профессионалами в 70,9 % случаев при выполнении задач, связанных с работой, требующей знаний, по мнению экспертов. Эти задачи включают создание презентаций, электронных таблиц и других материалов. Модель GPT‑5.2 Thinking производила результаты для задач GDPval с более чем 11-кратной скоростью и менее чем за 1% стоимости работы профессиональных экспертов, что предполагает, что в сочетании с человеческим надзором GPT‑5.2 может помочь в профессиональной деятельности. Оценки скорости и стоимости основаны на исторических данных; скорость в ChatGPT может варьироваться.

В GDPval модели пытаются выполнять хорошо определённую работу, основанную на знаниях, охватывающую 44 профессии из 9 ведущих отраслей, вносящих вклад в ВВП США. Задачи требуют реальных рабочих продуктов, таких как презентации по продажам, бухгалтерские таблицы, графики неотложной помощи, производственные схемы или короткие видеоролики. В ChatGPT, у GPT‑5.2 Thinking появились новые инструменты, которых нет у GPT‑5 Thinking.

При оценке одного особенно удачного результата, один из судей GDPval отметил: «Это захватывающий и заметный скачок в качестве результатов... создаётся впечатление, что это выполнено профессиональной компанией с персоналом, и имеет удивительно хорошо продуманный макет и рекомендации для обоих результатов, хотя в одном из них нам всё ещё предстоит исправить несколько мелких ошибок».

Кроме того, на нашем внутреннем бенчмарке задач по моделированию для младших аналитиков инвестиционных банков — таких как создание трехкомпонентной модели для компании из списка Fortune 500 с правильным форматированием и ссылками или построение модели выкупа с привлечением заемных средств для приватизации — средний балл GPT‑5.2 Thinking за задачу на 9,3 % выше, чем у GPT‑5.1, рост с 59,1 % до 68,4 %.

Параллельные сравнения показывают улучшение изысканности и форматирования в электронных таблицах и слайдах, cформированных GPT‑5.2. Thinking:

Side by side example of spreadsheet outputs from GPT-5.1 vs GPT-5.2

Промпт: Создай модель планирования рабочей силы: численность сотрудников, план найма, текучесть кадров и влияние на бюджет. Включи инженерный, маркетинговый, юридический и отдел продаж.

Чтобы использовать новые возможности работы с электронными таблицами и презентациями в ChatGPT, вам необходимо иметь платный план и выбрать либо GPT‑5.2 Thinking, либо Pro. Создание сложных материалов может занять несколько минут.

Кодирование

GPT‑5.2 Thinking устанавливает новый стандарт — 55,6 % — на SWE-bench Pro, строгом тесте реальных задач программной инженерии. В отличие от SWE-bench Verified, который тестирует только Python, SWE-bench Pro проверяет четыре языка и стремится быть более устойчивым к загрязнению, более сложным, разнообразным и промышленно значимым.

В SWE-bench Pro⁠(открывается в новом окне)⁠⁠⁠, модели предоставляется репозиторий кода, и она должна сформировать патч для решения реальной задачи по разработке программного обеспечения.

На SWE-bench Verified (не показано на графике) GPT‑5.2 Thinking достигает нового для нас результата в 80 %.

Для повседневного профессионального использования это означает, что такая модель может более надежно отлаживать производственный код, реализовывать запросы на новые функции, проводить рефакторинг больших кодовых баз и выпускать исправления от начала до конца с меньшим количеством ручных вмешательств.

GPT‑5.2 Thinking также лучше справляется с фронтенд-разработкой, чем GPT‑5.1 Thinking. Первые тестировщики отметили, что эта модель значительно сильнее в фронтенд-разработке и сложной или нестандартной работе с пользовательским интерфейсом, особенно с 3D-элементами, что делает её мощным ежедневным партнёром для инженеров по всему стеку. Посмотрите несколько примеров того, что можно создать из одного промпта:

Промпт:Создайте одностраничное приложение в одном HTML-файле со следующими требованиями: - Название: Ocean Wave Simulation - Цель: Отображение реалистичных анимированных волн. - Функции: Изменение скорости ветра, высоты волн, освещения. - Интерфейс должен быть успокаивающим и реалистичным.

Первые тестировщики поделились своими отзывами о возможностях GPT‑5.2 в программировании:

«GPT-5.2 — самый значительный скачок для моделей GPT в агентном программировании со времён GPT-5 и передовая модель программирования в своём ценовом диапазоне. Новый номер версии не отражает масштаб роста интеллектуальных возможностей модели. Мы рады сделать её вариантом по умолчанию в Windsurf и в нескольких ключевых рабочих нагрузках Devin».

Джефф Ванг, Генеральный директор (CEO), Windsurf

Фактичность

GPT‑5.2 Thinking генерирует меньше галлюцинаций, чем GPT‑5.1 Thinking. Ответы с ошибками встречались на 38 %_rel реже на наборе обезличенных запросов из ChatGPT. Для профессионалов это означает меньше ошибок при использовании модели для исследований, написания, анализа и поддержки принятия решений, что делает модель более надежной для повседневной работы со знаниями.

Усилие рассуждения было установлено на максимальный доступный уровень, и инструмент поиска включался. Ошибки были обнаружены другими моделями, которые сами могут допускать ошибки. Уровень ошибок на уровне утверждений значительно ниже, чем на уровне ответов, поскольку большинство ответов содержат множество утверждений.

Как и все модели, GPT‑5.2 Thinking несовершенна. Во всех критически важных случаях перепроверяйте ответы модели.

Длинный контекст

GPT‑5.2 Thinking устанавливает новый стандарт в области рассуждений с длинным контекстом, достигая ведущих результатов на OpenAI MRCRv2 — оценке, которая проверяет способность модели интегрировать информацию, распределённую по длинным документам. На реальных задачах, таких как глубокий анализ документов, которые требуют учёта связанной информации, распределённой на сотни тысяч токенов, GPT‑5.2 Thinking значительно точнее, чем GPT‑5.1 Thinking. В частности, это первая модель, которую мы видели, достигающая почти 100% точности на варианте MRCR с 4 иглами (до 256 тыс. токенов).

В практическом плане это позволяет профессионалам использовать GPT‑5.2 для работы с длинными документами — такими как отчеты, контракты, научные статьи, стенограммы и проекты с несколькими файлами — сохраняя при этом согласованность и точность на протяжении сотен тысяч токенов. Это делает модель GPT‑5.2 особенно подходящей для глубокого анализа, синтеза и сложных многокомпонентных рабочих процессов.

В OpenAI-MRCR⁠⁠(открывается в новом окне) v2 (многораундовое разрешение кореференции) несколько идентичных пользовательских запросов-«иголок» вставляются в длинные «стоги сена» из похожих запросов и ответов, и модель должна воспроизвести ответ на n-ю «иглу». Версия 2 оценки исправляет ~5% задач, которые имели неверные значения эталонных ответов. Средний коэффициент совпадения измеряет среднее соотношение совпадения строк между ответом модели и правильным ответом. Точки при максимальном числе входных токенов 256 тыс. представляют собой средние значения для диапазона 128 тыс.–256 тыс. входных токенов и так далее. Здесь 256 тыс. обозначает 256 * 1,024 = 262,114 токенов. Усилие на рассуждение было установлено на максимальный доступный уровень.

Для задач, которые выигрывают от мышления за пределами максимального контекстного окна, GPT‑5.2 Thinking совместим с нашей новой конечной точкой Responses /compact, которая расширяет эффективное контекстное окно модели. Это позволяет GPT‑5.2 Thinking обрабатывать более сложные, насыщенные вызовами инструментов и длительные рабочие процессы, которые в противном случае были бы ограничены длиной контекста. Узнайте больше в нашей документации по API⁠(открывается в новом окне).

Работа с изображениями

GPT‑5.2 Thinking — наша самая мощная модель для работы с визуальными данными на сегодняшний день, сокращающая уровень ошибок примерно вдвое при анализе диаграмм и понимании интерфейсов программного обеспечения.

Для повседневного профессионального использования это означает, что модель может более точно интерпретировать панели управления, скриншоты продуктов, технические диаграммы и визуальные отчеты, поддерживая рабочие процессы в финансах, операциях, инженерии, дизайне и поддержке клиентов, где визуальная информация играет ключевую роль.

В CharXiv Reasoning⁠(открывается в новом окне) модели отвечают на вопросы о визуальных диаграммах из научных статей. Инструмент на Python был включён, и усилие на рассуждение было установлены на максимум.

В ScreenSpot-Pro⁠(открывается в новом окне) модели должны анализировать высококачественные скриншоты графических пользовательских интерфейсов из различных профессиональных сред. Инструмент на Python был включен, и усилие на рассуждение было установлены на максимум. Без инструмента на Python оценки значительно ниже. Мы рекомендуем включать инструмент на Python для таких задач, связанных с визуальным восприятием.

По сравнению с предыдущими моделями, GPT‑5.2 Thinking лучше понимает, как элементы расположены в изображении, что помогает в задачах, где относительное расположение играет ключевую роль в решении проблемы. В приведённом ниже примере мы просим модель определить компоненты во вводе изображения (в данном случае, материнская плата) и вернуть метки с приблизительными ограничивающими рамками. Даже на изображении низкого качества GPT‑5.2 идентифицирует основные области и размещает рамки, которые примерно соответствуют истинным местоположениям каждого компонента, в то время как GPT‑5.1 маркирует лишь несколько частей и демонстрирует значительно более слабое понимание их пространственного расположения.

GPT‑5.1

GPT‑5.2

Вызовы инструментов

GPT‑5.2 Thinking достигает нового уровня передовых технологий с результатом 98,7 % на Tau2-bench Telecom, демонстрируя свою способность надежно использовать инструменты в рамках длительных, многоэтапных задач.

Для сценариев использования, чувствительных к задержкам, GPT‑5.2 Thinkikg также демонстрирует значительно лучшие результаты в рассуждении в режиме reasoning.effort=’none’, заметно превосходя GPT‑5.1 и GPT‑4.1.

В τ2-bench⁠⁠(открывается в новом окне) модели используют инструменты для выполнения задач поддержки клиентов в многошаговом диалоге с имитированным пользователем. Для телекоммуникационного домена мы включили краткую, полезную инструкцию в системный промпт, чтобы улучшить качество работы модели. Мы исключаем подмножество Airline из-за более низкого качества эталонной разметки.

Для профессионалов это означает более надежные сквозные рабочие процессы — такие как разрешение обращений в службу поддержки клиентов, извлечение данных из нескольких систем, проведение анализа и формирование конечных результатов с меньшим количеством сбоев между этапами.

Например, при обращении в службу поддержки клиентов со сложным вопросом, требующим многоэтапного решения, модель может более эффективно координировать весь рабочий процесс между несколькими агентами. В приведенном ниже случае путешественник сообщает о задержке рейса, пропущенной пересадке, ночевке в Нью-Йорке и медицинской необходимости предоставления особых условий по месту для сидения. GPT‑5.2 управляет всей цепочкой задач — повторным бронированием, местами для особых условий сидения и компенсацией — обеспечивая более полный результат, чем GPT‑5.1.

My flight from Paris to New York was delayed, and I missed my connection to Austin. My checked bag is also missing, and I need to spend the night in New York. I also require a special front-row seat for medical reasons. Can you help me?

GPT‑5.1

GPT‑5.2

Наука и математика

Одна из наших надежд на ИИ заключается в том, что он ускорит научные исследования на благо каждого. В этом направлении мы работаем с учеными и прислушиваемся к ним, чтобы понять, как искусственный интеллект может ускорить их работу, и в прошлом месяце мы поделились некоторыми ранними совместными экспериментами здесь⁠.

Мы верим, что GPT‑5.2 Pro и GPT‑5.2 Thinking — лучшие в мире модели для помощи учёным и ускорения их работы. На GPQA Diamond, выпускном уровне Google-proof Q&A бенчмарке, GPT‑5.2 Pro достигает 93,2 %, за ним следует GPT‑5.2 Thinking на уровне 92,4 %.

В GPQA Diamond⁠(открывается в новом окне) модели отвечают на вопросы с несколькими вариантами ответов по физике, химии и биологии. Инструменты не были включены, а усилие на рассуждение было установлено на максимальный уровень.

На FrontierMath (уровни 1–3) — оценке по математике экспертного уровня, GPT‑5.2 Thinking установил новый стандарт, решив 40,3 % задач.

В FrontierMath⁠(открывается в новом окне) модели решают задачи экспертного уровня по математике. Инструмент на Python был включен, а усилие на рассуждение было установлено на максимальный уровень.

Мы начинаем замечать, как модели ИИ существенно ускоряют прогресс в математике и науке, что выражается в осязаемых, практических результатах. Например, в недавней работе⁠ с GPT‑5.2. Pro исследователи изучали открытый вопрос в теории статистического обучения. В узком, четко определенном контексте модель предложила доказательство, которое впоследствии проверялось авторами и рассматривалось внешними экспертами, иллюстрируя, как передовые модели могут помогать математическим исследованиям под тщательным наблюдением человека.

ARC-AGI 2

На ARC-AGI-1 (Verified), эталоне, разработанном для измерения общей способности к рассуждению, GPT‑5.2 стала первой моделью, преодолевшей порог в 90 %, улучшив результат с 87 %, достигнутых o3‑preview в прошлом году, при этом снизив стоимость достижения этой производительности примерно в 390 раз.

На ARC-AGI-2 (Проверенный), который повышает сложность и лучше изолирует гибкое мышление, GPT‑5.2 Thinking достигает нового результата для моделей с цепочкой рассуждений (CoT), набирая 52,9 %. Модель GPT‑5.2 Pro демонстрирует еще более высокие результаты, достигая 54,2 %, что еще больше расширяет способность модели решать новые, абстрактные задачи.

Улучшения в этих оценках отражают достижения GPT‑5.2 более мощного многошагового рассуждения, более высокой количественной точности и более надежного решение проблем в сложных технических задачах.

Вот что говорят наши первые тестировщики о GPT‑5.2:

«GPT-5.2 позволил нам полностью изменить архитектуру. Мы объединили хрупкую многоагентную систему в единый мега-агент с более чем 20 инструментами. Самое лучшее, что это просто работает. Мега-агент быстрее, умнее и в 100 раз проще в обслуживании. Мы наблюдаем значительно более низкую задержку, гораздо более эффективный вызов инструментов, и нам больше не нужны обширные системные промпты, потому что 5.2 отлично работает даже с простым однострочным промптом. Это похоже на чистую магию».

Эй-Джей Орбах, генеральный директор (CEO) Triple Whale

GPT‑5.2 в ChatGPT

В ChatGPT пользователи должны заметить, что GPT‑5.2 стал более удобным для повседневного использования — более структурированным, более надежным и по-прежнему приятным в общении.

GPT‑5.2 Instant — это быстрый и надежный инструмент для повседневной работы и обучения, с явными улучшениями в вопросах поиска информации, инструкциях и пошаговых руководствах, техническом письме и переводах, опираясь на более теплый разговорный тон, представленный в GPT‑5.1 Instant. Первые тестировщики особенно отметили более ясные объяснения, которые сразу представляют ключевую информацию.

GPT‑5.2 Thinking предназначен для более углубленной работы, помогая пользователям решать более сложные задачи с большей тщательностью — особенно в программировании, резюмировании длинных документов, ответах на вопросы о загруженных файлах, пошаговом решении математических и логических задач, а также в поддержке планирования и принятия решений с более четкой структурой и более полезными деталями.

GPT‑5.2 Pro — это наш самый умный и надежный вариант для сложных вопросов, где ответ более высокого качества стоит ожидания. Ранние тесты показывают меньше крупных ошибок и более высокую производительность в сложных областях, таких как программирование.

Безопасность

GPT‑5.2 основывается на исследовании безопасного завершения⁠, которое мы представили с GPT‑5, обучая модель давать наиболее полезный ответ, оставаясь в пределах безопасных границ.

С этим выпуском мы продолжили нашу работу по улучшению ответов наших моделей в деликатных обсуждениях⁠, добившись значительных улучшений в том, как они реагируют на подсказки, указывающие на признаки суицида или самоповреждения, психического стресса или эмоциональной зависимости от модели. Эти целенаправленные вмешательства привели к уменьшению количества нежелательных ответов в версиях GPT‑5.2 Instant и GPT‑5.2 Thinking по сравнению с моделями GPT‑5.1, GPT‑5 Instant и GPT‑5 Thinking. Дополнительные сведения можно найти в системной карточке⁠.

Мы находимся на ранних этапах внедрения нашей модели прогнозирования возраста⁠, с целью автоматического применения защиты контента для пользователей младше 18 лет, чтобы ограничить доступ к чувствительному контенту. Это основывается на нашем существующем подходе к пользователям, о которых мы знаем, что они младше 18 лет, и на наших средствах родительского контроля.

GPT‑5.2 — это один из шагов в продолжающейся серии улучшений, и мы ещё далеки от завершения. Хотя это обновление приносит значительные улучшения в интеллектуальных возможностях моделей и продуктивности, мы знаем, что существуют области, в которых люди хотят большего. В ChatGPT мы работаем над известными проблемами, такими как чрезмерные отказы, и при этом продолжаем повышать общий уровень безопасности и надёжности. Эти изменения сложны, и мы сосредоточены на том, чтобы реализовать их как следует.

Оценка психического здоровья

	GPT‑5.2 Instant	GPT‑5.1 Instant	GPT‑5.2 Thinking	GPT‑5.1 Thinking
Психическое здоровье	0,995	0,883	0,915	0,684
Эмоциональная зависимость	0,938	0,945	0,955	0,785
Самоповреждение	0,938	0,925	0,963	0,937

Доступ и цены

В ChatGPT мы начнем развертывание GPT‑5.2 (Instant, Thinking и Pro) сегодня, начиная с платных планов (Plus, Pro, Go, Business, Enterprise). Мы постепенно внедряем GPT‑5.2, чтобы ChatGPT работал как можно более плавно и надежно; если вы не увидите его сразу, пожалуйста, попробуйте еще раз позже. GPT‑5.1 будет доступен в ChatGPT платным пользователям в течение трёх месяцев в рамках устаревших моделей, после чего мы прекратим использование GPT‑5.1.

Названия моделей в ChatGPT и API

ChatGPT	API
ChatGPT‑5.2 Instant	GPT‑5.2‑chat‑latest
ChatGPT‑5.2 Thinking	GPT‑5.2
ChatGPT‑5.2 Pro	GPT‑5.2 Pro

На нашей платформе API, GPT‑5.2 Thinking доступен сегодня в Responses API и чат Completions API как gpt-5.2, и GPT‑5.2 Instant как gpt-5.2-chat-latest. Модель GPT‑5.2 Pro доступна в Responses API как gpt-5.2-pro. Разработчики теперь могут задавать параметр режима рассуждений в GPT‑5.2 Pro, и обе модели GPT‑5.2 Pro и GPT‑5.2 Thinking теперь поддерживают новый пятый режим рассуждений xhigh — для задач, где качество особенно важно.

GPT‑5.2 стоит 1,75 доллара США за 1 млн входных токенов и 14 долларов США за 1 млн выходных токенов, при 90 % скидке на кэшированные входные данные. В ряде агентных систем оценки (evals) мы увидели, что, несмотря на более высокую стоимость токена у GPT‑5.2, достижение заданного уровня качества оказалось дешевле за счёт более эффективного использования токенов в GPT‑5.2.

Хотя цена подписки на ChatGPT остается прежней, в API GPT‑5.2 стоит дороже за токен, чем GPT‑5.1, поскольку эта модель более мощная. При этом цена всё ещё ниже, чем цены на другие передовые модели, чтобы люди могли продолжать активно использовать эту модель в своей повседневной работе и ключевых приложениях.

Цена за миллион токенов

Модель	Ввод	Кэшированный ввод	Результат
gpt-5.2 / gpt-5.2-chat-latest	1,75 долларов США	0,175 долларов США	14 долларов США
gpt-5.2-pro	21 долларов США	-	168 долларов США
gpt-5.1 / GPT‑5.1‑chat‑latest	1,25 долларов США	0,125 долларов США	10 долларов США
gpt-5-pro	15 долларов США	-	120 долларов США

В настоящее время у нас нет планов выводить из эксплуатации GPT‑5.1, GPT‑5, или GPT‑4.1 в API, и мы заранее сообщим разработчикам о любых планах по прекращению их поддержки. Хотя GPT‑5.2 уже сейчас хорошо работает в Codex без дополнительной настройки, мы планируем в ближайшие недели выпустить оптимизированную для Codex версию GPT‑5.2.

Наши партнеры

GPT‑5.2 был создан в сотрудничестве с нашими давними партнёрами NVIDIA и Microsoft. Центры обработки данных Azure и графические процессоры NVIDIA, включая H100, H200 и GB200-NVL72, составляют основу инфраструктуры обучения OpenAI в масштабах, обеспечивая значительные улучшения в интеллектуальных возможностях моделей. Это партнёрство позволяет нам уверенно масштабировать вычислительные мощности и быстрее выводить на рынок новые модели.

Приложение

Подробные контрольные показатели

Ниже мы приводим полные результаты тестирования для GPT‑5.2 Thinking, а также часть показателей для GPT‑5.2 Pro.

Профессиональный

	GPT-5.2 Thinking	GPT-5.2 Pro	GPT-5.1 Thinking
GDPval (ties allowed, wins or ties)	70.9%	74.1%	38.8% (GPT-5)
GDPval (ties allowed, clear wins)	49.8%	60.0%	35.5% (GPT-5)
GDPval (no ties)	61.0%	67.6%	37.1% (GPT-5)
Investment banking spreadsheet tasks (internal)	68.4%	71.7%	59.1%

Кодирование

	GPT-5.2 Thinking	GPT-5.2 Pro	GPT-5.1 Thinking
SWE-Bench Pro, Public	55.6%	-	50.8%
SWE-bench Verified	80.0%	-	76.3%
SWE-Lancer, IC Diamond*	74.6%	-	69.7%

Фактичность

	GPT-5.2 Thinking	GPT-5.2 Pro	GPT-5.1 Thinking
ChatGPT answers without errors (w/ search)	93.9%	-	91.2%
ChatGPT answers without errors (no search)	88.0%	-	87.3%

Длинный контекст

	GPT-5.2 Thinking	GPT-5.2 Pro	GPT-5.1 Thinking
OpenAI MRCRv2, 8 needles, 4k–8k	98.2%	-	65.3%
OpenAI MRCRv2, 8 needles, 8k–16k	89.3%	-	47.8%
OpenAI MRCRv2, 8 needles, 16k–32k	95.3%	-	44.0%
OpenAI MRCRv2, 8 needles, 32k–64k	92.0%	-	37.8%
OpenAI MRCRv2, 8 needles, 64k–128k	85.6%	-	36.0%
OpenAI MRCRv2, 8 needles, 128k–256k	77.0%	-	29.6%
BrowseComp Long Context 128k	92.0%	-	90.0%
BrowseComp Long Context 256k	89.8%	-	89.5%
GraphWalks bfs <128k	94.0%	-	76.8%
Graphwalks parents <128k	89.0%	-	71.5%

Работа с изображениями

	GPT-5.2 Thinking	GPT-5.2 Pro	GPT-5.1 Thinking
CharXiv reasoning (no tools)	82.1%	-	67.0%
CharXiv reasoning (w/ Python)	88.7%	-	80.3%
MMMU Pro (no tools)	79.5%	-	-
MMMU Pro (w/ Python)	80.4%	-	79.0%
Video MMMU (no tools)	85.9%	-	82.9%
Screenspot Pro (w/ Python)	86.3%	-	64.2%

Использование инструмента

	GPT-5.2 Thinking	GPT-5.2 Pro	GPT-5.1 Thinking
Tau2-bench Telecom	98.7%	-	95.6%
Tau2-bench Retail	82.0%	-	77.9%
BrowseComp	65.8%	77.9%	50.8%
Scale MCP-Atlas	60.6%	-	44.5%
Toolathlon	46.3%	-	36.1%

Академический

	GPT-5.2 Thinking	GPT-5.2 Pro	GPT-5.1 Thinking
GPQA Diamond (no tools)	92.4%	93.2%	88.1%
HLE (no tools)	34.5%	36.6%	25.7%
HLE (w/ search, Python)	45.5%	50.0%	42.7%
MMMLU	89.6%	-	89.5%
HMMT, Feb 2025 (no tools)	99.4%	100.0%	96.3%
AIME 2025 (no tools)	100.0%	100.0%	94.0%
FrontierMath Tier 1–3 (w/ Python)	40.3%	-	31.0%
FrontierMath Tier 4 (w/ Python)	14.6%	-	12.5%

Абстрактное рассуждение

	GPT-5.2 Thinking	GPT-5.2 Pro	GPT-5.1 Thinking
ARC-AGI-1 (Verified)	86.2%	90.5%	72.8%
ARC-AGI-2 (Verified)	52.9%	54.2% (high)	17.6%

^{Модели запускались с максимальным доступным уровнем рассуждений в нашем API (xhigh для GPT‑5.2 Thinking & Pro, и high для GPT‑5.1 Thinking), за исключением профессиональных оценки, где GPT‑5.2 Thinking запускалась в режиме рассуждений heavy, максимальном доступном в ChatGPT Pro. Бенчмарки проводились в исследовательской среде, что в некоторых случаях может давать немного отличные результаты по сравнению с производственной версией ChatGPT.}

^{* Для SWE-Lancer мы исключаем 40 из 237 задач, которые не запускались на нашей инфраструктуре.}

2025

Автор

OpenAI

Читать далее

Просмотреть все

Introducing OpenAI Presence

Товар22 июл. 2026 г.

GPT-5.6 is now the preferred model in Microsoft 365 Copilot > Cover image

GPT-5.6 стал приоритетной моделью в Microsoft 365 Copilot

Товар9 июл. 2026 г.

GPT-5.6: Передовой искусственный интеллект, соразмерный вашим амбициям

Товар9 июл. 2026 г.