23 апреля 2026 г.

Представляем GPT‑5.5

Новый класс интеллекта для реальной работы

Загрузка…

Обновление от 24 апреля 2026 года: GPT‑5.5 и GPT‑5.5 Pro теперь доступны в API. Системная карточка также была обновлена: в ней описаны применяемые дополнительные меры защиты.

Мы выпускаем GPT‑5.5 — нашу самую умную и интуитивно понятную в использовании модель на сегодняшний день и следующий шаг к новому способу работы за компьютером.

GPT‑5.5 быстрее понимает, что вы пытаетесь сделать, и может взять на себя больше работы. Она превосходно справляется с написанием и отладкой кода, поиском информации в интернете, анализом данных, созданием документов и электронных таблиц, работой с программным обеспечением и переходом между инструментами до тех пор, пока задача не будет выполнена. Вместо того чтобы тщательно контролировать каждый шаг, вы можете дать GPT‑5.5 нечетко сформулированную составную задачу и доверить ей планирование, использование инструментов, проверку своей работы, работу в условиях неоднозначности и продолжение выполнения задачи.

Особенно заметный прогресс наблюдается в агентном программировании, использовании компьютера, интеллектуальной работе и ранних этапах научных исследований — в областях, где прогресс зависит от рассуждений в рамках контекста и выполнения действий во времени. GPT‑5.5 обеспечивает этот скачок в интеллекте без ущерба для скорости: более крупные и более мощные модели часто медленнее в работе, но GPT‑5.5 соответствует GPT‑5.4 по задержке на токен в реальных условиях эксплуатации, демонстрируя при этом значительно более высокий уровень интеллекта. Он также использует значительно меньше токенов для выполнения тех же задач Codex, что делает его не только более эффективным, но и более функциональным.

Мы выпускаем GPT‑5.5 с самым надежным на сегодняшний день набором мер защиты, разработанным для снижения риска злоупотреблений при сохранении доступа для полезной работы. Перед выпуском мы оценили эту модель по всему нашему набору систем обеспечения безопасности и готовности, работали с внутренними и внешними специалистами по тестированию на уязвимости, добавили целевое тестирование передовых возможностей в области кибербезопасности и биологии, а также собрали отзывы о реальных сценариях использования почти от 200 доверенных партнеров с ранним доступом.

Сегодня GPT‑5.5 становится доступен пользователям Plus, Pro, Business и Enterprise в ChatGPT и Codex, а GPT‑5.5 Pro становится доступен пользователям Pro, Business и Enterprise в ChatGPT. Развертывания API требуют различных мер защиты, и мы тесно сотрудничаем с партнёрами и клиентами по вопросам требований к безопасности и защищённости для предоставления API в широком масштабе. Совсем скоро мы добавим GPT‑5.5 и GPT‑5.5 Pro в API.

	GPT‑5.5	GPT‑5.4	GPT‑5.5 Pro	GPT‑5.4 Pro	Claude Opus 4.7	Gemini 3.1 Pro
Terminal-Bench 2.0	82.7%	75,1 %	-	-	69,4 %	68,5 %
Expert-SWE (внутренний)	73,1 %	68,5 %	-	-	-	-
GDPval (победы или ничьи)	84,9%	83.0%	82,3 %	82,0%	80,3 %	67,3 %
OSWorld-Verified	78,7 %	75,0 %	-	-	78,0 %	-
Toolathlon	55,6 %	54,6%	-	-	-	48,8 %
BrowseComp	84,4 %	82.7%	90,1 %	89,3%	79,3%	85,9 %
FrontierMath уровни 1–3	51,7 %	47,6%	52,4 %	50,0%	43,8%	36,9 %
FrontierMath уровень 4	35,4 %	27,1%	39,6 %	38,0%	22,9 %	16,7 %
CyberGym	81,8 %	79,0 %	-	-	73,1 %	-

Возможности модели

OpenAI создает глобальную инфраструктуру для агентного ИИ, делая возможным для людей и компаний по всему миру решать рабочие задачи с помощью ИИ. За последний год мы наблюдали, как ИИ значительно ускорил разработку программного обеспечения. С GPT‑5.5 в Codex и ChatGPT это же преобразование начинает распространяться на научные исследования и более широкий круг задач, которые люди выполняют на компьютерах.

Во всех этих областях GPT‑5.5 не просто умнее — она также эффективнее решает задачи, часто достигая результатов более высокого качества при меньшем числе токенов и повторных попыток. На Coding Index от Artificial Analysis GPT‑5.5 демонстрирует SOTA-уровень интеллектуальных возможностей при вдвое меньшей стоимости по сравнению с конкурирующими передовыми моделями для программирования.

Artificial Analysis Intelligence Index⁠(открывается в новом окне) — это взвешенное среднее 10 оценок, проведённых внешней организацией: AA-LCR, AA-Omniscience, CritPt, GDPval-AA, GPQA Diamond, Humanity’s Last Exam, IFBench, SciCode, Terminal-Bench Hard, τ²-Bench Telecom.

Агентное кодирование

GPT‑5.5 — наша самая мощная на сегодняшний день модель агентного программирования. На Terminal-Bench 2.0, который тестирует сложные рабочие процессы командной строки, требующие планирования, итеративной доработки и координации инструментов, она достигает передовой точности 82,7%. В SWE-Bench Pro, который оценивает решение реальных GitHub issues, она достигает 58,6%, решая больше задач от начала до конца за один проход, чем предыдущие модели. В Expert-SWE, нашей внутренней передовой системе оценки (eval) для долгосрочных задач программирования с медианной оценкой времени выполнения человеком в 20 часов, GPT‑5.5 также превосходит GPT‑5.4.

Во всех трех оценках GPT‑5.5 превосходит GPT‑5.4 по результатам, при этом используя меньше токенов.

Сильные стороны модели в программировании особенно ярко проявляются в Codex, где она может брать на себя инженерные задачи — от реализации и рефакторинга до отладки, тестирования и валидации. Раннее тестирование показывает, что GPT‑5.5 лучше справляется с теми аспектами поведения, от которых зависит реальная инженерная работа: удерживает контекст в рамках крупных систем, выполняет рассуждения при неоднозначных сбоях, проверяет предположения с помощью инструментов и последовательно вносит изменения в связанную кодовую базу.

Отображаемая траектория использует векторные данные NASA/JPL Horizons для созвездия Орион, Луны и Солнца с масштабированием отображения для улучшения читаемости.

Промпт: [attached image] Implement this as a new app using webgl and vite using real data from the artemis II mission. Make sure to test the app thoroughly until it is fully functional and looks like the app in the picture. Pay close attention to the rendering of the planets and fly paths. I want to be able to interact with the 3D rendering. Ensure it has realistic orbital mechanics.

Помимо сравнительных показателей, первые тестировщики отметили, что GPT‑5.5 демонстрирует более сильную способность понимать устройство системы: почему что-то не работает, куда нужно внести исправление и что ещё в кодовой базе это затронет.

«Первая модель программирования, которой я пользовался, с по-настоящему ясным концептуальным пониманием».

Дэн Шиппер, основатель и генеральный директор Every, описал GPT‑5.5 как «первую модель для программирования, которой я пользовался, с по-настоящему ясным концептуальным пониманием».

После запуска приложения он несколько дней устранял проблему, возникшую после запуска, прежде чем подключил одного из своих лучших инженеров, чтобы переписать часть системы. Чтобы протестировать GPT‑5.5, он фактически откатил ситуацию назад: могла ли модель, посмотрев на неисправное состояние, воспроизвести тот же вариант переработки, на котором инженер в итоге остановился? GPT‑5.4 не могла. GPT‑5.5 смогла.

«Искренне кажется, будто я работаю с высшим разумом, и почти возникает чувство уважения».

Пьетро Ширано, генеральный директор MagicPath, отметил аналогичный скачок, когда GPT‑5.5 объединила ветку с сотнями изменений во фронтенде и рефакторинге с основной веткой, которая тоже существенно изменилась, завершив работу с одним примером примерно за 20 минут.

Ведущие инженеры, тестировавшие модель, заявили, что GPT‑5.5 заметно превосходила GPT‑5.4 и Claude Opus 4.7 в задачах, требующих рассуждений и автономности, заранее выявляя проблемы и предсказывая потребности в тестировании и проверке без явных указаний. В одном случае инженер поручил модели переработать архитектуру системы комментариев в совместном markdown-редакторе и, вернувшись, обнаружил стек из 12 diff, который был почти готов. Другие говорили, что им потребовалось на удивление мало исправлений при реализации и что они больше доверяли планам GPT‑5.5 по сравнению с GPT‑5.4.

Один из инженеров NVIDIA, получивший ранний доступ к модели, даже сказал: «Потеря доступа к GPT‑5.5 ощущается так, как будто мне ампутировали конечность».

«GPT-5.5 заметно умнее и настойчивее, чем GPT-5.4, с более высокой производительностью при программировании и более надёжным использованием инструментов. Она не отвлекается от задачи значительно дольше, не прекращая работу раньше времени, что особенно важно для сложных, длительных задач, которые наши пользователи делегируют Cursor».

— Майкл Труэлл, сооснователь и CEO, Cursor

Задачи, связанные с профессиональными знаниями

Те же сильные стороны, благодаря которым GPT‑5.5 отлично подходит для программирования, также делают его мощным инструментом для повседневной работы за компьютером. Поскольку модель лучше понимает намерения, она может более естественно проходить полный цикл интеллектуальной работы: находить информацию, понимать, что важно, использовать инструменты, проверять результат и превращать исходный материал во что-то полезное.

В Codex GPT‑5.5 лучше справляется с созданием документов, электронных таблиц и презентаций, чем GPT‑5.4. Альфа-тестеры сообщили, что она превзошла предыдущие модели в таких задачах, как исследование операций, моделирование в электронных таблицах и преобразование неструктурированных бизнес-данных в планы. В сочетании с навыками использования компьютера у Codex GPT‑5.5 приближает нас к ощущению, что модель действительно может пользоваться компьютером вместе с вами: видеть, что происходит на экране, нажимать, печатать, перемещаться по интерфейсам и точно переключаться между инструментами.

Команды OpenAI уже используют эти сильные стороны в реальных рабочих процессах. Сегодня более 85% сотрудников компании используют Codex еженедельно в самых разных функциях, включая разработку ПО, финансы, коммуникации, маркетинг, анализ данных и управление продуктом. В Comms команда использовала GPT‑5.5 в Codex, чтобы проанализировать данные по запросам на выступления за шесть месяцев, разработать систему оценки и управления рисками и проверить автоматизированного агента Slack, чтобы запросы с низким уровнем риска могли обрабатываться автоматически, а запросы с более высоким уровнем риска по-прежнему направлялись на проверку человеком. В финансовом подразделении команда использовала Codex для проверки 24 771 налоговой формы K-1 общим объёмом 71 637 страниц, с использованием рабочего процесса, исключавшего персональные данные, что помогло команде выполнить эту задачу на две недели быстрее, чем годом ранее. В команде, отвечающей за стратегию вывода на рынок, один сотрудник автоматизировал создание еженедельных бизнес-отчетов, что позволило экономить 5–10 часов в неделю.

В ChatGPT GPT‑5.5 Thinking открывает доступ к более быстрой помощи в решении более сложных задач, предлагая более продуманные и лаконичные ответы, которые помогают эффективнее справляться со сложной работой. Она превосходно справляется с профессиональными задачами, такими как программирование, исследования, синтез информации и анализ, а также задачи, связанные с большим количеством документов, особенно при использовании плагинов.

В GPT‑5.5 Pro первые тестировщики отмечают значительный шаг вперед как в сложности, так и в качестве задач, за которые может браться ChatGPT, а также снижение задержки, что делает его гораздо более практичным для ресурсоемких задач. По сравнению с GPT‑5.4 Pro тестировщики отметили, что ответы GPT‑5.5 Pro были значительно более всесторонними, структурированными, точными, релевантными и полезными, а также показали особенно высокие результаты в бизнесе, юридических задачах, образовании и науке о данных.

GPT‑5.5 демонстрирует передовые (SOTA) результаты на нескольких бенчмарках, которые отражают этот тип работы. В бенчмарке GDPval⁠⁠, который проверяет способность агентов выполнять чётко заданные задачи, связанные с профессиональными знаниями, в 44 профессиях, GPT‑5.5 набирает 84,9 %. На OSWorld-Verified, который оценивает, может ли модель самостоятельно работать в реальных компьютерных средах, она достигает 78,7 %. А на Tau2-bench Telecom, который тестирует сложные сценарии рабочих процессов клиентского сервиса, она достигает 98,0 % без настройки промпта. GPT‑5.5 также демонстрирует высокие результаты на других бенчмарках, связанных с интеллектуальной работой: 60,0 % на FinanceAgent, 88,5 % на внутренних задачах по моделированию в инвестиционном банкинге и 54,1 % на OfficeQA Pro.

Tau2-bench Telecom запускался без настройки промпта (и с GPT‑4.1 в качестве пользовательской модели). GPT‑5.5 лучше понимает суть задачи и эффективнее использует токены, чем её предшественники.

«GPT-5.5 обеспечивает стабильную производительность, необходимую для ресурсоемких задач. Созданная и развернутая на системах NVIDIA GB200 NVL72, модель позволяет нашим командам выпускать сквозные функции на основе промптов на естественном языке, сокращать время отладки с дней до часов и превращать недели экспериментов в прогресс, достигнутый за одну ночь, в сложных кодовых базах. Это не просто более быстрое написание кода — это новый способ работы, который помогает людям работать на принципиально иной скорости».

— Джастин Бойтано, вице-президент по корпоративному ИИ в NVIDIA

Научные исследования

GPT‑5.5 также демонстрирует улучшения в научно-технических исследовательских процессах, которые требуют больше, чем просто ответа на сложный вопрос. Исследователям необходимо изучить идею, собрать доказательства, проверить предположения, интерпретировать результаты и решить, что попробовать дальше. GPT‑5.5 лучше справляется с прохождением этого цикла, чем другие модели.

Примечательно, что GPT‑5.5 демонстрирует явное улучшение по сравнению с GPT‑5.4 на GeneBench⁠(открывается в новом окне), новом оценочном наборе, посвященном многоэтапному анализу научных данных в генетике и количественной биологии. Эти задачи требуют, чтобы модели анализировали потенциально неоднозначные или содержащие ошибки данные при минимальном объёме руководящих указаний, учитывали реалистичные препятствия, такие как скрытые вмешивающиеся факторы или сбои QC, и корректно применяли и интерпретировали современные статистические методы. Производительность модели особенно впечатляет, если учесть, что здешние задачи часто соответствуют многодневным проектам для научных экспертов.

Аналогично, в тесте BixBench⁠(открывается в новом окне), разработанном на основе реальных задач биоинформатики и анализа данных, GPT‑5.5 продемонстрировала лучшие результаты среди моделей с опубликованными показателями. Научные возможности модели теперь достаточно сильны, чтобы существенно ускорять прогресс на передовых рубежах биомедицинских исследований в качестве полноправного со-учёного.

В другом примере внутренняя версия GPT‑5.5 со специальной со специальной тестовой средой/обвязкой (harness) помогла открыть новое доказательство⁠(открывается в новом окне) о числах Рамсея, одном из центральных объектов комбинаторики. Комбинаторика изучает, как сочетаются дискретные объекты: графы, сети, множества и шаблоны. Числа Рамсея, грубо говоря, задаются вопросом о том, какого размера должна быть сеть, чтобы в ней обязательно возникла некоторая упорядоченность. Результаты в этой области встречаются редко и часто сопряжены с техническими трудностями. В этом случае GPT‑5.5 нашла доказательство давнего асимптотического утверждения о внедиагональных числах Рамсея, впоследствии формально проверенного в Lean. Результат представляет собой конкретный пример того, как GPT‑5.5 вносит вклад не только в виде кода или объяснений, но и в виде неожиданного и полезного математического обоснования в ключевой области исследований.

Первые тестировщики использовали GPT‑5.5 Pro в ChatGPT не столько как механизм ответов с одним примером, сколько как партнера по исследовательской работе: критикуя рукописи в несколько проходов, проводя стресс-тестирование технических аргументов, предлагая варианты анализа и работая с кодом, заметками и контекстом из PDF-файлов. Общая нить заключается в том, что GPT‑5.5 лучше помогает исследователям переходить от вопроса к эксперименту и результату.

Дерья Унутмаз, профессор иммунологии и исследователь Лаборатории геномной медицины имени Джексона, использовал GPT‑5.5 Pro для анализа набора данных по экспрессии генов, включающего 62 образца и почти 28 000 генов, подготовив подробный исследовательский отчет, который не только суммировал результаты, но и помог выявить ключевые вопросы и важные выводы — работу, которая, по его словам, заняла бы у его команды месяцы.

Бартoш Наскренцкий, доцент математики Университета имени Адама Мицкевича в Познани (Польша), использовал GPT‑5.5 в Codex, чтобы за 11 минут по одному промпту создать приложение по алгебраической геометрии, визуализирующее пересечение квадратичных поверхностей и преобразующее полученную кривую в модель Вейерштрасса.

Позже он дополнил приложение более стабильной визуализацией сингулярностей и точными коэффициентами, которые можно повторно использовать в дальнейшей работе. Для него более существенное изменение заключается в том, что Codex теперь может помогать реализовывать пользовательские рабочие процессы для математической визуализации и компьютерной алгебры, которые ранее требовали специализированных инструментов. В совокупности эти примеры показывают, как GPT‑5.5 превращает замыслы экспертов в работающие исследовательские инструменты и аналитические материалы.

Автор: Бартoш Наскренцкий⁠(открывается в новом окне)

Промпт: # Algebraic geometry surface intersection

Make an app which draws two quadratic surfaces and colors in red the intersection curve. Use computational Riemann-Roch theorem to convert this into Weierstrass curve.

## Main window

Two tinted surfaces with a slightly transparent shading, high quality rendering intersect along a red colored algebraic curve

Rotation with mouses in both directions, full pinch mechanism for zoom, haptic press to show the little menu with sliders for changing the coefficients of each surface; detection via Z-buffor level

## Side right window

Short Weierstrass equation (over Q or quadratic field extension) computed on the go via effective Riemann-Roch theorem formulas

## Ambient mode where all the controls are hidden and the user can admire the beauty of the shapes

## Specs

App is running in the browser, light-weight implementation with full stack newest libraries, portable, deployable

## Docs

Git repo, journal, plan (Markdown files)

«Невероятно вдохновляет использовать новую модель GPT-5.5 от OpenAI в нашей тестовой среде, поручать ей анализ огромных биохимических наборов данных для прогнозирования результатов применения лекарств у людей, а затем видеть, как она обеспечивает значительный прирост точности в наших самых сложных оценках в области разработки лекарств. Если OpenAI продолжит в том же духе, основы разработки лекарств изменятся к концу года».

— Брэндон Уайт, сооснователь и генеральный директор компании Axiom Bio

Эффективность вывода нового поколения

Чтобы обеспечить работу GPT‑5.5 при задержке на уровне GPT‑5.4, потребовалось переосмыслить инференс как интегрированную систему, а не набор разрозненных оптимизаций. GPT‑5.5 был совместно спроектирован, обучен и развернут на системах NVIDIA GB200 и GB300 NVL72. Codex и GPT‑5.5 сыграли ключевую роль в достижении целевых показателей производительности. Codex помог команде быстрее переходить от идеи к реализации, которую можно оценивать по бенчмаркам, намечать подходы, выстраивать эксперименты и определять, какие оптимизации заслуживают более глубоких вложений. Модель GPT‑5.5 помогла выявить и внедрить ключевые улучшения в самом стеке. Проще говоря, она помогла улучшить инфраструктуру, которая её обслуживает.

Одним из таких улучшений были балансировка нагрузки и эвристики разбиения. До GPT‑5.5 мы разбивали запросы на ускорителе на фиксированное количество частей, чтобы равномерно распределять нагрузку между вычислительными ядрами и обеспечивать возможность выполнения больших и маленьких запросов на одном и том же GPU. Однако заранее заданное количество статических блоков не является оптимальным для всех типов трафика. Чтобы эффективнее использовать графические процессоры, Codex проанализировал данные о шаблонах производственного трафика за несколько недель и разработал специальные эвристические алгоритмы, чтобы оптимально распределять и балансировать нагрузку. Эта работа оказала непропорционально большое влияние, увеличив скорость генерации токенов более чем на 20 %.

Развивая кибербезопасность ради общей безопасности

Подготовка мира к появлению моделей, которые очень хорошо справляются с поиском и устранением уязвимостей безопасности, требует командных усилий и того, чтобы вся экосистема активно работала над укреплением устойчивости, опираясь на демократизацию доступа к моделям и итеративное развертывание для новой эры киберзащиты⁠.

Передовые модели становятся всё более способными в сфере кибербезопасности. Эти возможности получат широкое распространение, и мы считаем, что лучший путь развития — это обеспечить, чтобы их можно было использовать для ускорения киберзащиты и укрепления экосистемы.

GPT‑5.5 — это небольшой, но важный шаг на пути к ИИ, способному решать некоторые из самых сложных мировых задач, таких как кибербезопасность. С выпуском GPT‑5.2 в декабре мы проактивно внедрили необходимые меры защиты в сфере кибербезопасности⁠, чтобы ограничить возможные злоупотребления в киберсфере с использованием наших моделей; теперь с GPT‑5.5 мы внедряем более строгие классификаторы для выявления потенциальных киберрисков, что поначалу может раздражать некоторых пользователей, пока мы постепенно их настраиваем.

На протяжении многих лет мы выделяли кибербезопасность как отдельную категорию в нашей Программе готовности⁠(открывается в новом окне): по мере того как наши модели постепенно совершенствовались, мы итеративно разрабатывали и настраивали меры по снижению рисков, чтобы иметь возможность ответственно выпускать модели со значимыми возможностями в области кибербезопасности.

Мы внедряем передовые в отрасли меры защиты для такого уровня возможностей в области кибербезопасностий. В прошлом году мы впервые внедрили меры защиты, специфичные для кибербезопасности, с выпуском GPT‑5.2⁠(открывается в новом окне), и с тех пор продолжили тестировать, совершенствовать и развивать их в последующих развертываниях. Для GPT‑5.5 мы разработали более строгие меры контроля в отношении деятельности с повышенным уровнем риска, чувствительных киберзапросов, а также добавили меры защиты от повторяющихся злоупотреблений. Широкий доступ обеспечивается благодаря нашим инвестициям в безопасность моделей, аутентифицированное использование и мониторинг недопустимого использования. В течение нескольких месяцев мы работали с внешними экспертами, чтобы разрабатывать, тестировать и совершенствовать надежность этих мер безопасности. С GPT‑5.5 мы помогаем разработчикам без труда защищать свой код, одновременно усиливая контроль над киберпроцессами, которые злоумышленники с наибольшей вероятностью могут использовать для причинения вреда.
Мы расширяем доступ, чтобы повысить эффективность киберзащиты на всех уровнях. Мы предоставляем доступ к нашим моделям с меньшими ограничениями в сфере кибербезопасности через Trusted Access for Cyber⁠, начиная с Codex, который включает расширенный доступ к продвинутым возможностям GPT‑5.5 в области кибербезопасности с меньшим количеством ограничений для верифицированных пользователей, соответствующих определенным сигналам доверия⁠(открывается в новом окне) на момент запуска. Организации, отвечающие за защиту критически важной инфраструктуры⁠, могут подать заявку на получение доступа к кибер-ориентированным моделям, таким как GPT‑5.4‑Cyber, при условии соблюдения строгих требований безопасности для использования этих моделей в целях защиты своих внутренних систем. Это предоставляет широкому кругу проверенных специалистов по защите более мощные инструменты для законной работы в сфере безопасности с меньшими излишними препятствиями, чтобы обеспечить демократизацию доступа к важным защитным возможностям. Пользователи могут подать заявку на получение доверенного доступа на chatgpt.com/cyber⁠(открывается в новом окне), чтобы сократить количество лишних отказов при использовании GPT‑5.5 для подтвержденной защитной работы.
Мы сотрудничаем с государственными партнерами, чтобы помочь защитить критически важную инфраструктуру в интересах общества. Вместе мы изучаем, как передовой ИИ может поддерживать оборонительную работу доверенных должностных лиц, отвечающих за системы, на которые полагаются люди, — от цифровых систем, защищающих важные данные налогоплательщиков, до электросетей и водоснабжения в местных сообществах.

Мы рассматриваем биологические и химические возможности, а также возможности в области кибербезопасности GPT‑5.5 как высокие в рамках нашей Программы готовности⁠(открывается в новом окне). Хотя GPT‑5.5 не достигла критического уровня возможностей в области кибербезопасности, наши оценки и тестирование показали, что ее возможности в области кибербезопасности находятся на более высоком уровне по сравнению с GPT‑5.4.

Кроме того, GPT‑5.5 прошла наш полный процесс обеспечения безопасности и управления перед выпуском, включая оценки готовности, предметно-ориентированное тестирование, новые целевые оценки продвинутых возможностей в области биологии и кибербезопасности, а также тщательное тестирование с привлечением внешних экспертов. Мы делимся дополнительными сведениями в системной карточке GPT‑5.5⁠(открывается в новом окне).

Эта работа отражает наш более широкий подход к устойчивости ИИ, который, как мы считаем, необходим по мере развития возможностей модели. Мы хотим, чтобы мощный ИИ был доступен тем, кто использует его для защиты систем, институтов и общества. Реалистичный путь — это доверенный доступ, надёжные меры защиты, которые масштабируются по мере роста возможностей, а также операционные возможности для выявления серьёзных случаев злоупотребления и реагирования на них.

Доступ и цены

В ChatGPT GPT‑5.5 Thinking доступна пользователям Plus, Pro, Business и Enterprise. GPT‑5.5 Pro, созданная для еще более сложных вопросов и более точной работы, доступна пользователям Pro, Business и Enterprise.

В Codex GPT‑5.5 доступен в планах Plus, Pro, Business, Enterprise, Edu и Go с контекстным окном 400K. GPT‑5.5 также доступна в режиме Fast, генерируя токен в 1,5 раза быстрее при стоимости в 2,5 раза выше.

Для разработчиков API модель gpt-5.5 скоро станет доступна в API Responses и Chat Completions API по цене 5 долларов США за 1 млн входных токенов и 30 долларов США за 1 млн выходных токенов, с контекстным окном в 1 млн токенов. Тарификация Batch и Flex доступна по ставке вдвое ниже стандартной ставки API, а приоритетная обработка доступна по ставке в 2,5 раза выше стандартной ставки API. Мы также выпустим gpt-5.5-pro в API для ещё более высокой точности. Стоимость составит 30 долларов США за 1 млн входных токенов и 180 долларов США за 1 млн выходных токенов. См. страницу с ценами⁠ для получения полной информации.

Хотя модель GPT‑5.5 стоит дороже, чем GPT‑5.4, она и умнее, и гораздо экономичнее в использовании токенов. В Codex мы тщательно настроили пользовательский опыт так, чтобы GPT‑5.5 обеспечивала лучшие результаты с меньшим количеством токенов, чем GPT‑5.4, для большинства пользователей, при этом сохраняя щедрые лимиты использования на всех уровнях подписки.

Оценки

Программирование

Оценка	GPT‑5.5	GPT‑5.4	GPT‑5.5 Pro	GPT‑5.4 Pro	Claude Opus 4.7	Gemini 3.1 Pro
SWE-Bench Pro (Public) *	58,6 %	57,7 %	-	-	64,3%	54,2 %
Terminal-Bench 2.0	82.7%	75,1 %	-	-	69,4 %	68,5 %
Expert-SWE (внутренний)	73,1 %	68,5 %	-	-	-	-

^*^{Лаборатории отметили}^{признаки запоминания}⁠(открывается в новом окне)^{в этой системе оценки}

Профессиональный

Оценка	GPT‑5.5	GPT‑5.4	GPT‑5.5 Pro	GPT‑5.4 Pro	Claude Opus 4.7	Gemini 3.1 Pro
GDPval (победы или ничьи)	84,9%	83.0%	82,3 %	82,0%	80,3 %	67,3 %
FinanceAgent v1.1	60,0 %	56,0%	-	61,5%	64,4 %	59,7 %
Задачи по финансовому моделированию в инвестиционном банкинге (внутренние)	88,5 %	87,3%	88,6 %	83,6%	-	-
OfficeQA Pro	54,1 %	53,2 %	-	-	43,6%	18,1 %

Работа с компьютером и зрение

Оценка	GPT‑5.5	GPT‑5.4	GPT‑5.5 Pro	GPT‑5.4 Pro	Claude Opus 4.7	Gemini 3.1 Pro
OSWorld-Verified	78,7 %	75,0 %	-	-	78,0 %	-
MMMU Pro (без инструментов)	81,2%	81,2%	-	-	-	80,5 %
MMMU Pro (с инструментами)	83,2 %	82,1%	-	-	-	-

Использование инструментов

Оценка	GPT‑5.5	GPT‑5.4	GPT‑5.5 Pro	GPT‑5.4 Pro	Claude Opus 4.7	Gemini 3.1 Pro
BrowseComp	84,4 %	82.7%	90,1 %	89,3%	79,3%	85,9 %
MCP Atlas**	75,3 %	70,6 %	-	-	79,1 %	78,2 %
Toolathlon	55,6 %	54,6%	-	-	-	48,8 %
Tau2-bench Telecom*** (исходный промпт)	98,0 %	92,8%	-	-	-	-

^{** MCP Atlas: результаты от Scale AI после последнего обновления за апрель 2026 года.
*** Tau2-bench Telecom: результаты для 5.5 и 5.4 с исходными промптами, то есть без корректировки промптов. Сюда не включены результаты других лабораторий, которые оценивались с корректировками промпта.}

Академический

Оценка	GPT‑5.5	GPT‑5.4	GPT‑5.5 Pro	GPT‑5.4 Pro	Claude Opus 4.7	Gemini 3.1 Pro
GeneBench	25,0 %	19,0 %	33,2 %	25,6 %	-	-
FrontierMath уровни 1–3	51,7 %	47,6%	52,4 %	50,0%	43,8%	36,9 %
FrontierMath уровень 4	35,4 %	27,1%	39,6 %	38,0%	22,9 %	16,7 %
BixBench	80,5 %	74,0%	-	-	-	-
GPQA Diamond	93,6 %	92,8%	-	94,4%	94,2 %	94,3%
Humanity's Last Exam (без инструментов)	41,4 %	39,8%	43,1 %	42,7%	46,9 %	44,4 %
Humanity's Last Exam (с инструментами)	52,2 %	52,1 %	57,2%	58,7%	54,7 %	51,4 %

Кибербезопасность

Оценка	GPT‑5.5	GPT‑5.4	GPT‑5.5 Pro	GPT‑5.4 Pro	Claude Opus 4.7	Gemini 3.1 Pro
Задачи CTF-соревнований (внутренние)	88,1 %	83,7 %	-	-	-	-
CyberGym	81,8 %	79,0 %	-	-	73,1 %	-

^{**** Расширение самых сложных CTF, используемых в системных карточках, с добавлением сложных задач.}

Длинный контекст

Оценка	GPT‑5.5	GPT‑5.4	GPT‑5.5 Pro	GPT‑5.4 Pro	Claude Opus 4.7	Gemini 3.1 Pro
Graphwalks BFS 256 тыс. F1	73,7 %	62,5 %	-	-	76,9 %	-
Graphwalks BFS 1 млн F1	45,4%	9,4 %	-	-	41,2 % (Opus 4.6)	-
Graphwalks parents 256 тыс. F1	90,1 %	82,8 %	-	-	93,6 %	-
Graphwalks parents 1 млн. F1	58,5 %	44,4 %	-	-	72,0 % (Opus 4.6)	-
OpenAI MRCR v2 8-needle 4 тыс.–8 тыс.	98,1 %	97,3%	-	-	-	-
OpenAI MRCR v2 8-needle 8 тыс.–16 тыс.	93,0%	91,4%	-	-	-	-
OpenAI MRCR v2 8-needle 16 тыс.–32 тыс.	96,5 %	97,2%	-	-	-	-
OpenAI MRCR v2 8-needle 32 тыс.–64 тыс.	90,0 %	90,5%	-	-	-	-
OpenAI MRCR v2 8-needle 64 тыс.–128 тыс.	83,1 %	86,0%	-	-	-	-
OpenAI MRCR v2 8-needle 128 тыс.–256 тыс.	87,5 %	79,3%	-	-	59,2 %	-
OpenAI MRCR v2 8-needle 256 тыс.–512 тыс.	81,5%	57,5%	-	-	-	-
OpenAI MRCR v2 8-needle 512 тыс.–1 млн	74,0%	36,6%	-	-	32,2 %	-

Абстрактное рассуждение

Оценка	GPT‑5.5	GPT‑5.4	GPT‑5.5 Pro	GPT‑5.4 Pro	Claude Opus 4.7	Gemini 3.1 Pro
ARC-AGI-1 (Проверенный)	95,0 %	93,7%	-	94,5%	93, 5%	98,0 %
ARC-AGI-2 (Проверенный)	85,0 %	73,3%	-	83,3%	75,8 %	77,1 %

Оценки GPT запускались при усилии на рассуждения «xhigh» и проводились в исследовательской среде, поэтому в некоторых случаях результаты могут немного отличаться от результатов ChatGPT в продуктивной среде.