Сегодня мы выпускаем GPT‑5.4 в ChatGPT (как GPT‑5.4 Thinking), API и Codex. Это наша самая мощная и эффективная передовая модель для профессиональной работы. Мы также выпускаем GPT‑5.4 Pro в ChatGPT и API для тех, кому нужна максимальная производительность при выполнении сложных задач.
GPT‑5.4 объединяет лучшие из наших недавних достижений в области рассуждений, программирования и агентных рабочих процессов в одной передовой модели. Она включает в себя ведущие в отрасли возможности программирования GPT‑5.3‑Codex, одновременно улучшая то, как модель работает с инструментами, программными средами и профессиональными задачами, связанными с электронными таблицами, презентациями и документами. В результате получается модель, которая точно, эффективно и быстро справляется со сложной реальной работой, выдавая то, о чём вы попросили, с меньшим количеством уточнений.
В ChatGPT, GPT‑5.4 Thinking теперь может заранее предоставить план своих рассуждений, чтобы вы могли скорректировать курс по ходу ответа в процессе работы, и получить итоговый результат, который точнее соответствует вашим потребностям, без дополнительных запросов. GPT‑5.4 Thinking также улучшает глубокие веб-исследования, особенно для очень специфических запросов, при этом лучше сохраняя контекст для вопросов, которые требуют более длительного размышления. Вместе эти улучшения означают более качественные ответы, которые выдаются быстрее и остаются актуальными для текущей задачи.
В Codex и API GPT‑5.4 — первая универсальная модель, которую мы выпустили, с нативными передовыми возможностями использования компьютера, позволяющими агентам управлять компьютером и выполнять сложные рабочие процессы в разных приложениях. Она поддерживает до 1M токенов контекста, позволяя агентам планировать, выполнять и проверять задачи на длинных временных промежутках. GPT‑5.4 также улучшает работу моделей в больших экосистемах инструментов и коннекторов благодаря поиску инструментов, помогая агентам быстрее находить и использовать нужные инструменты без ущерба для интеллекта. Наконец, GPT‑5.4 — наша самая эффективная по токенам модель рассуждений на сегодняшний день, использующая значительно меньше токенов для решения задач по сравнению с GPT‑5.2, что приводит к снижению расхода токенов и более высокой скорости.
Вместе с достижениями в области общих рассуждений, программирования и задач, связанных с профессиональными знаниями, GPT‑5.4 обеспечивает более надёжных агентов, более быстрые рабочие процессы для разработчиков и более высокое качество результатов в ChatGPT, API и Codex.
GPT‑5.4 | GPT‑5.3‑Codex | GPT‑5.2 | |
GDPval (победы или ничьи) | 83.0% | 70,9 % | 70,9 % |
SWE-Bench Pro (Public) | 57,7 % | 56,8 % | 55,6 % |
OSWorld-Verified | 75,0 % | 74.0%* | 47,3% |
Toolathlon | 54,6% | 51.9 % | 46.3% |
BrowseComp | 82.7% | 77,3 % | 65,8 % |
*Ранее сообщалось как 64.7%. GPT‑5.3‑Codex достигает 74.0% благодаря недавно добавленному параметру API, который сохраняет исходное разрешение изображения.
Опираясь на возможности GPT‑5.2 в области общих рассуждений, GPT‑5.4 обеспечивает ещё более стабильные и отточенные результаты в реальных задачах, которые важны для профессионалов.
В бенчмарке GDPval, который проверяет способность агентов выполнять чётко заданные задачи, связанные с профессиональными знаниями, в 44 профессиях, GPT‑5.4 устанавливает новый стандарт, соответствуя или превосходя отраслевых специалистов в 83,0% сравнений, по сравнению с 71,0% у GPT‑5.2.
В GDPval модели пытаются выполнять хорошо определённую работу, основанную на знаниях, охватывающую 44 профессии из 9 ведущих отраслей, вносящих вклад в ВВП США. Задачи требуют реальных рабочих продуктов, таких как презентации по продажам, бухгалтерские таблицы, графики неотложной помощи, производственные схемы или короткие видеоролики. Режим рассуждений был установлен на xhigh для GPT‑5.4 и heavy для GPT‑5.2 (немного более низкий уровень в ChatGPT.)
«GPT-5.4 — лучшая модель, которую мы когда-либо пробовали. Теперь она занимает первое место в таблице лидеров нашего бенчмарка APEX-Agents, который измеряет производительность модели для работы в сфере профессиональных услуг. Она отлично справляется с созданием долгосрочных результатов, таких как презентации, финансовые модели и юридический анализ, обеспечивая максимальную производительность при более высокой скорости работы и меньшей стоимости, чем у конкурирующих передовых моделей».
Мы уделили особое внимание улучшению возможностей GPT‑5.4 создавать и редактировать таблицы, презентации и документы. На нашем внутреннем бенчмарке задач моделирования в электронных таблицах, которые мог бы выполнять младший аналитик инвестиционного банка, GPT‑5.4 достигает среднего результата 87,5 %, по сравнению с 68,4 % для GPT‑5.2. В наборе промптов для оценки презентаций люди-оценщики в 68,0 % случаев предпочли презентации от GPT‑5.4 по сравнению с GPT‑5.2 благодаря более сильной эстетике, большему визуальному разнообразию и более эффективному использованию генерации изображений.

Документы были сгенерированы при установленном усилии на рассуждения xhigh
Вы можете попробовать эти возможности в ChatGPT, используя GPT‑5.4 Thinking или Pro. Если вы являетесь клиентом Enterprise, мы рекомендуем использовать наши недавно выпущенные плагины ChatGPT для Excel и Google Sheets(открывается в новом окне), которые также были запущены сегодня. Мы также обновили наши навыки работы с электронными таблицами(открывается в новом окне) и навыки для презентаций(открывается в новом окне), доступные в Codex и в API.
Чтобы сделать GPT‑5.4 лучше в решении реальных задач, мы продолжили снижать уровень галлюцинаций и ошибок. GPT‑5.4 — наша самая точная с точки зрения фактов модель на сегодняшний день: на наборе обезличенных промптов, где пользователи отмечали фактические ошибки, у GPT‑5.4 отдельные утверждения на 33 % реже оказываются ложными, а её полные ответы на 18 % реже содержат какие-либо ошибки по сравнению с GPT‑5.2.
«GPT-5.4 задает новую планку для юридической работы с большим количеством документов. В нашей оценке BigLaw Bench модель набрала 91%. По сравнению с другими моделями GPT-5.4 в настоящее время лучше справляется со структурированием сложного транзакционного анализа, сохранением точности на протяжении объемных контрактов и предоставлением высокого уровня детализации, который требуется практикующим юристам».
GPT‑5.4 — наша первая универсальная модель с нативными возможностями работы с компьютером и знаменует собой значительный шаг вперед как для разработчиков, так и для агентов. Это лучшая модель, доступная в настоящее время, для разработчиков, создающих агентов, которые выполняют реальные задачи на веб-сайтах и в программных системах.
Мы разработали GPT‑5.4 так, чтобы модель обеспечивала высокую производительность в широком круге сценариев работы с компьютером. Она отлично пишет код для управления компьютером через библиотеки вроде Playwright, а также может отдавать команды мыши и клавиатуры на основе скриншотов. Поведение можно настраивать с помощью сообщений разработчика, то есть разработчики могут корректировать поведение под конкретные сценарии использования. Разработчики могут даже настраивать безопасное поведение модели под разные уровни допустимого риска, задавая пользовательские политики подтверждения.
Производительность и гибкость модели отражаются в результатах бенчмарков, которые оценивают использование компьютера в различных условиях. На OSWorld-Verified, который оценивает способность модели ориентироваться в среде рабочего стола с помощью скриншотов и действий с клавиатурой/мышью, GPT‑5.4 достигает передового показателя 75,0 % успешности, значительно превышающего показатель GPT‑5.2 47,3 %, и превосходя человеческий результат на уровне 72,4 %.1
На WebArena-Verified, который тестирует использование браузера, GPT‑5.4 достигает лидирующего показателя успешности 67,3% при использовании как взаимодействия на основе DOM, так и взаимодействия на основе скриншотов, по сравнению с 65,4% у GPT‑5.2. В тесте Online-Mind2Web, который также проверяет использование браузера, GPT‑5.4 достигает показателя успешности 92,8%, используя только наблюдения на основе скриншотов, улучшая результат по сравнению с режимом агента ChatGPT Atlas, который достигает показателя успешности 70.9%.
Передача управления (для ожидания ответов инструментов) — это момент, когда ассистент передаёт управление, чтобы дождаться ответов инструментов. Если 3 инструмента вызываются параллельно, а затем ещё 3 вызываются параллельно, количество передач управления будет равно 2. Передачи управления — лучший индикатор задержки, чем вызовы инструментов, потому что отражают преимущества параллелизации.
GPT‑5.4 интерпретирует скриншоты интерфейса браузера и взаимодействует с элементами пользовательского интерфейса, выполняя клики по координатам, чтобы отправлять электронные письма и создавать события в календаре.
Улучшенные возможности использования компьютера в GPT‑5.4 основаны на улучшенных возможностях общего визуального восприятия модели. В MMMU-Pro, тесте визуального понимания и рассуждения модели, GPT‑5.4 достигает показателя успешности 81.2% без использования инструментов, улучшая результат GPT‑5.2— 79.5%. Улучшенное визуальное восприятие также приводит к более эффективному разбору документов. В OmniDocBench GPT‑5.4 без режима рассуждений достигает средней ошибки (измеренной нормализованным расстоянием редактирования между предсказанием модели и эталонным значением) 0,109, улучшив показатель GPT‑5.2 с 0,140.
MMMUPro запускался при режиме рассуждений xhigh. OmniDocBench запускался при режиме рассуждений none, чтобы отразить низкую стоимость и низкую задержку.
Мы также улучшаем визуальное понимание детализированных изображений высокого разрешения, где важна полная точность передачи. Начиная с GPT‑5.4, мы вводим уровень original детализации входного изображения(открывается в новом окне), который поддерживает восприятие с полной точностью до 10,24 млн суммарных пикселей или максимального размера 6000 пикселей — в зависимости от того, что меньше; уровень high детализации входного изображения теперь поддерживает до 2,56 млн суммарных пикселей или максимального размера 2048 пикселей. В ходе раннего тестирования с пользователями API мы наблюдали значительный рост точности локализации, понимания изображений и кликовой точности при использовании original или high detail.
«В наших оценках, где измеряется эффективность использования компьютера на ~30 тыс. порталов HOA и по налогу на недвижимость, GPT-5.4 достигла показателя успешности 95 % с первой попытки и 100 % — в пределах трёх попыток, по сравнению с ~73–79 % у предыдущих моделей CUA. Кроме того, она завершала сеансы примерно в ~3 раза быстрее, используя примерно на ~70 % меньше токенов, что существенно повышает надёжность и экономическую эффективность при масштабировании».
В API разработчики могут получить доступ к этим возможностям с помощью обновлённого инструмента computer. Пожалуйста, ознакомьтесь с нашей обновлённой документацией(открывается в новом окне) для получения рекомендаций по передовым практикам.
GPT‑5.4 объединяет сильные стороны программирования GPT‑5.3‑Codex с передовыми возможностями для задач, связанных с профессиональными знаниями, и работы с компьютером — особенно важными при длительных задачах, где модель может использовать инструменты, выполнять итерации и продвигать работу дальше с меньшим ручным вмешательством. Она соответствует или превосходит GPT‑5.3‑Codex на SWE-Bench Pro, при этом обеспечивая более низкую задержку при разных уровнях усилий на рассуждения.
Мы оцениваем задержку, анализируя поведение моделей в рабочей среде и моделируя это офлайн. Оценка задержки учитывает длительность вызовов инструментов (время выполнения кода), выходные токены и входные токены. Задержка в реальных условиях может сильно различаться и зависит от множества факторов, которые мы не моделируем. Усилия на рассуждения были повышены с none до xhigh.
При включении /fast mode в Codex обеспечивается до 1.5x более высокая скорость токенов с GPT‑5.4. Это та же модель и тот же интеллект, просто быстрее. Это означает, что пользователи могут переходить от задач по программированию к итерациям и отладке, оставаясь в потоке. Разработчики могут получить доступ к GPT‑5.4 с той же высокой скоростью через API, используя приоритетную обработку(открывается в новом окне).
В ходе оценки и внутреннего тестирования мы обнаружили, что GPT‑5.4 превосходно справляется со сложными фронтенд-задачами, обеспечивая заметно более эстетичные и более функциональные результаты, чем любые модели, которые мы запускали ранее.
В качестве демонстрации улучшенных возможностей модели по использованию компьютера и программированию, работающих в тандеме, мы также выпускаем экспериментальный навык Codex под названием «Playwright (Interactive)(открывается в новом окне)». Это позволяет Codex визуально отлаживать веб- и Electron-приложения; его даже можно использовать для тестирования приложения, которое создаётся, по мере его создания.
Игра-симулятор тематического парка, созданная с помощью GPT‑5.4 из одного слегка заданного промпта, с использованием Playwright Interactive для плейтестинга в браузере и генерации изображений для изометрического набора ассетов. Симуляция включает прокладку дорожек по тайловой сетке, строительство аттракционов и декораций, поиск пути гостями, очереди и циклы работы аттракционов; показатели парка — деньги, количество гостей, уровень счастья, чистота и рейтинг — растут или падают в зависимости от того, насколько удачно устроена планировка и как на неё реагируют гости. Playwright использовался для автоматизации браузерных плейтестов: парк строился и расширялся, дорожки и аттракционы размещались и удалялись, проверялась навигация камеры, а также корректность обновления гостей, очередей, состояний аттракционов и метрик интерфейса в течение нескольких раундов игры.
Промпт: Use $playwright-interactive and $imagegen. Create an interactive isometric theme park simulation game that I can build and navigate in the browser. Use imagegen to establish the overall visual vision and generate the game’s assets, including rides, paths, terrain, trees, water, food stalls, decorations, buildings, icons, and UI illustrations. The world should feel cohesive, polished, and visually rich, with a premium art direction that works well from an isometric perspective. Let me place and remove paths, add attractions, position scenery, and move around the park smoothly while monitoring guest activity, ride status, and park growth. Include believable guest movement, simple park management systems like money, cleanliness, queueing, and happiness, and make the experience feel playful, clear, and complete rather than like a rough prototype. Prioritize charm, readability, and strong game feel over realism.
When play testing, be sure to build and expand a park through several rounds of play, verify that placement and navigation work smoothly, confirm that guests react to the park layout and attractions, and ensure the visuals, UI, and interactions feel stable and cohesive.
«Наши инженеры считают GPT-5.4 более естественной и уверенной, чем предыдущие модели. Она справляется с неоднозначными задачами, не сомневаясь в себе, и активно распараллеливает работу, чтобы всё двигалось вперёд».
В GPT‑5.4 мы значительно улучшили то, как модели работают с внешними инструментами. Агенты теперь могут работать в более широких экосистемах инструментов, надежнее выбирать подходящие инструменты и выполнять многоэтапные рабочие процессы с меньшими затратами и задержкой.
В API GPT‑5.4 представляет поиск инструментов(открывается в новом окне), который позволяет моделям эффективно работать при наличии большого количества инструментов.
Раньше, когда модели давали доступ к инструментам, их описания сразу включали в промпт. Для систем с большим количеством инструментов это может добавлять тысячи — или даже десятки тысяч — токенов к каждому запросу, увеличивая стоимость, замедляя ответы и перегружая контекст информацией, которую модель может так и не использовать.
При использовании поиска инструментов GPT‑5.4 вместо этого получает компактный список доступных инструментов и возможность поиска по ним. Когда модели нужно использовать инструмент, она может найти определение этого инструмента и добавить его к разговору в этот момент.
Этот подход значительно сокращает количество токенов, необходимых для рабочих процессов с активным использованием инструментов, и сохраняет кэш, делая запросы быстрее и дешевле. Это также позволяет агентам надежно работать с гораздо более крупными экосистемами инструментов. Для MCP-серверов, которые могут содержать десятки тысяч токенов определений инструментов, прирост эффективности может быть существенным.
Чтобы продемонстрировать прирост эффективности, мы оценили 250 задач из бенчмарка Scale’s MCP Atlas(открывается в новом окне) при включенных всех 36 серверах MCP в двух режимах: (1) предоставление каждой функции MCP напрямую в контексте модели и (2) когда все серверы MCP скрыты за поиском инструментов. Конфигурация поиска инструментов сократила общее использование токенов на 47% при сохранении той же точности.
Примеры подсчёта токенов получены на основе усреднения по 250 задачам из публичного набора данных MCP-Atlas.
GPT‑5.4 также улучшает вызов инструментов, делая его более точным и эффективным при принятии решений о том, когда и как использовать инструменты во время рассуждений, особенно в API. По сравнению с GPT‑5.2, он достигает более высокой точности за меньшее число шагов на Toolathlon — бенчмарке, который проверяет, насколько хорошо ИИ-агенты могут использовать реальные инструменты и API для выполнения многоэтапных задач. Например, агенту нужно читать электронные письма, извлекать вложения с заданиями, загружать их, оценивать и записывать результаты в электронную таблицу.
Передача управления (для ожидания ответов инструментов) — это момент, когда ассистент передаёт управление, чтобы дождаться ответов инструментов. Если 3 инструмента вызываются параллельно, а затем ещё 3 вызываются параллельно, количество передач управления будет равно 2. Передачи управления — лучший индикатор задержки, чем вызовы инструментов, потому что отражают преимущества параллелизации.
Для сценариев использования, чувствительных к задержкам, где предпочтителен режим рассуждений «None», GPT‑5.4 дополнительно улучшает показатели по сравнению со своими предшественниками.
В τ2-bench(открывается в новом окне), модель должна использовать инструменты для выполнения задачи обслуживания клиентов, где может присутствовать имитированный пользователь, способный взаимодействовать и совершать действия, влияющие на состояние среды. Режим рассуждений был установлен на None.
GPT‑5.4 лучше справляется с агентным поиском в интернете. В BrowseComp, показателе того, насколько хорошо ИИ-агенты могут настойчиво просматривать веб, чтобы находить труднодоступную информацию, GPT‑5.4 опережает GPT‑5.2 на 17 %abs, и GPT‑5.4 Pro устанавливает новый стандарт — 89,3 %.
На практике это означает, что GPT‑5.4 Thinking лучше справляется с ответами на вопросы, которые требуют собрать воедино информацию из множества источников в Интернете. Он может более настойчиво выполнять поиск в несколько раундов, чтобы выявить наиболее релевантные источники, особенно для вопросов типа «иголка в стоге сена», и синтезировать их в четкий, хорошо обоснованный ответ.
В BrowseComp мы использовали чёрный список поиска: из оценки исключались веб-сайты, содержащие ответы бенчмарка, чтобы предотвратить загрязнение данных и честно измерить качество. GPT‑5.4 измеряли позже, чем GPT‑5.2, поэтому результаты отражают изменения в модели, нашей поисковой системе и в самом интернете. GPT‑5.4 тестировали с более длинным обновлённым чёрным списком. Модели используют инструмент поиска ChatGPT, который может иметь небольшие отличия от поиска API.
«GPT-5.4 xhigh — это новый стандарт для многоэтапного использования инструментов. Zapier проводит одни из самых строгих в отрасли бенчмарков по использованию инструментов, тестируя модели на сотнях продвинутых реальных рабочих процессов. GPT-5.4 завершила работу там, где предыдущие модели сдались — самая настойчивая модель на сегодняшний день».
Аналогично тому, как Codex описывает свой подход, когда начинает работу, GPT‑5.4 Thinking в ChatGPT теперь будет предварять свои ответы вступлением для более длинных и сложных запросов. Вы также можете добавить инструкции или скорректировать направление ответа в процессе. Это упрощает направление модели к точному результату, который вам нужен, без необходимости начинать заново или требовать нескольких дополнительных этапов. Эта функция уже доступна на chatgpt.com(открывается в новом окне) и в приложении для Android, скоро появится в приложении для iOS.
Модель также может дольше думать над сложными задачами, сохраняя более сильную осведомлённость о более ранних этапах в разговоре. Это позволяет ей обрабатывать более длинные рабочие процессы и более сложные промпты, сохраняя при этом связность и релевантность ответов на всём протяжении.
Видео ускорено в демонстрационных целях.
За последние месяцы мы продолжали улучшать меры защиты, которые внедрили вместе с GPT‑5.3‑Codex, одновременно готовя GPT‑5.4 к развертыванию. Аналогично GPT‑5.3‑Codex, мы рассматриваем GPT‑5.4 как высокую киберспособность в рамках нашей Программы готовности и развертываем её с соответствующими мерами защиты, как указано в системной карточке. К ним относятся расширенный стек кибербезопасности, включая системы мониторинга, средства контроля доверенного доступа и асинхронную блокировку запросов с более высоким уровнем риска для клиентов на поверхностях с нулевым хранением данных (ZDR), наряду с продолжающимися инвестициями в более широкую экосистему безопасности.
Поскольку возможности в области кибербезопасности по своей природе являются технологиями двойного назначения, мы придерживаемся принципа предосторожности при развертывании, продолжая при этом настраивать наши политики и классификаторы. Для некоторых клиентов на поверхностях ZDR блокировка на уровне запросов остается частью нашего стека мер смягчения киберрисков; поскольку классификаторы все еще совершенствуются, по мере дальнейшего улучшения этих защитных механизмов возможны некоторые ложноположительные срабатывания. Эти обновления призваны улучшить работу мер защиты на практике, в том числе сократить лишние отказы и избыточные оговорки в ответах, при этом сохраняя надёжную защиту от неправомерного использования.
Мы продолжили наши исследования безопасности, посвященные отслеживаемости цепочки рассуждений (CoT), чтобы лучше понять, как модель рассуждает, и помочь выявлять потенциальное неправильное поведение. В рамках этой работы мы представляем новую оценку с открытым исходным кодом, управляемость CoT, измеряющую, могут ли модели намеренно запутывать свои рассуждения, чтобы уклоняться от мониторинга. Мы обнаружили, что способность GPT‑5.4 Thinking контролировать свой CoT низка, что является положительным свойством с точки зрения безопасности, указывая на то, что модель не обладает способностью скрывать свои рассуждения и что мониторинг CoT остаётся эффективным инструментом обеспечения безопасности.
С сегодняшнего дня GPT‑5.4 постепенно становится доступен в ChatGPT и Codex. В API GPT‑5.4 теперь доступна как gpt-5.4. GPT‑5.4 Pro также доступна в API как gpt-5.4-pro для разработчиков, которым нужна максимальная производительность при выполнении самых сложных задач.
В ChatGPT, GPT‑5.4 Thinking доступна пользователям ChatGPT Plus, Team и Pro начиная с сегодняшнего дня и заменяет GPT‑5.2 Thinking. GPT‑5.2 Thinking будет доступна платным пользователям в соответствующем меню в разделе устаревших моделей ещё три месяца, после чего 5 июня 2026 года модель будет выведена из использования. Пользователи планов Enterprise и Edu могут включить ранний доступ в настройках администратора. GPT‑5.4 Pro доступна в тарифных планах Pro и Enterprise. Контекстные окна(открывается в новом окне) в ChatGPT для GPT‑5.4 Thinking остается без изменений по сравнению с GPT‑5.2 Thinking.
GPT‑5.4 — наша первая основная модель рассуждений, которая объединяет передовые возможности программирования GPT‑5.3‑codex и постепенно внедряется в ChatGPT, API и Codex. Мы назвали её GPT‑5.4, чтобы подчеркнуть этот скачок и упростить выбор между моделями в Codex. Со временем наши модели Instant и Thinking будут развиваться с разной скоростью.
GPT‑5.4 в Codex включает экспериментальную поддержку окна контекста 1 млн. Разработчики могут попробовать это, настроив model_context_window и model_auto_compact_token_limit. Запросы, превышающие стандартное контекстное окно 272 тыс., учитываются в лимитах использования по ставке 2x от обычной.
В API GPT‑5.4 стоит дороже за токен, чем GPT‑5.2, что отражает его улучшенные возможности, при этом более высокая эффективность по токенам помогает сократить их общее число, требуемое для многих задач. Тарификация Batch и Flex доступна по ставке вдвое ниже стандартной ставки API, а приоритетная обработка доступна по ставке вдвое выше стандартной ставки API.
API модель | Цена за входные токены | Цена кэшированных входных токенов | Цена за выходные токены |
gpt-5.2 | 1,75 долларов США / M токенов | 0,175 долларов США / M токенов | 14 долларов США / M токенов |
gpt-5.4 | 2,50 долларов США / M токенов | 0,25 долларов США / M токенов | 15 долларов США / M токенов |
gpt-5.2-pro | 21 долларов США / M токенов | - | 168 долларов США / млн токенов |
gpt-5.4-pro | 30 долларов США / M токенов | - | 180 долларов США / млн токенов |
Профессиональный
Оценка | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
GDPval | 83.0% | 82,0% | 70,9 % | 70,9 % | 74,1% |
FinanceAgent v1.1 | 56,0% | 61,5% | 54,0% | 59,5% | — |
Задачи по финансовому моделированию в инвестиционном банкинге (внутренние) | 87,3% | 83,6% | 79,3% | 68,4% | 71,7% |
OfficeQA | 68,1% | — | 65,1% | 63,1% | — |
Кодирование
Оценка | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
SWE-Bench Pro (Public) | 57,7 % | — | 56,8 % | 55,6 % | — |
Terminal-Bench 2.0 | 75,1 % | — | 77,3 % | 62,2 % | — |
Работа с компьютером и зрение
Оценка | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
OSWorld-Verified | 75,0 % | — | 74,0% | 47,3% | — |
MMMU Pro (без инструментов) | 81,2% | — | — | 79,5% | — |
MMMU Pro (с инструментами) | 82,1% | — | — | 80,4% | — |
Использование инструментов
Оценка | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
BrowseComp | 82.7% | 89,3% | 77,3 % | 65,8 % | 77,9 % |
MCP Atlas | 67,2% | — | — | 60,6% | — |
Toolathlon | 54,6% | — | 51.9 % | 45,7% | — |
Tau2-bench Telecom | 98,9 % | — | — | 98,7% | — |
Академический
Оценка | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
Передовые научные исследования | 33,0% | 36,7% | — | 25,2% | — |
FrontierMath уровни 1–3 | 47,6% | — | — | 40.7% | — |
FrontierMath уровень 4 | 27,1% | 38,0% | — | 18,8% | 31,3% |
GPQA Diamond | 92,8% | 94,4% | 92,6 % | 92,4 % | 93,2 % |
Humanity's Last Exam (без инструментов) | 39,8% | 42,7% | — | 34,5% | 36,6% |
Humanity's Last Exam (с инструментами) | 52,1 % | 58,7% | — | 45,5% | 50,0% |
Длинный контекст
Оценка | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
Graphwalks: родительские узлы, 0–128 тыс. | 93,0% | — | — | 94,0 % | — |
Обходы графа BFS 256K–1M | 21,4% | — | — | — | — |
Graphwalks: родительские узлы, 0–128 тыс. (точность) | 89,8% | — | — | 89,0% | — |
Graphwalks: родительские узлы, 256K–1M (точность) | 32,4% | — | — | — | — |
OpenAI MRCR v2 8-needle 4 тыс.–8 тыс. | 97,3% | — | — | 98,2% | — |
OpenAI MRCR v2 8-needle 8 тыс.–16 тыс. | 91,4% | — | — | 89,3% | — |
OpenAI MRCR v2 8-needle 16 тыс.–32 тыс. | 97,2% | — | — | 95,3% | — |
OpenAI MRCR v2 8-needle 32 тыс.–64 тыс. | 90,5% | — | — | 92,0% | — |
OpenAI MRCR v2 8-needle 64 тыс.–128 тыс. | 86,0% | — | — | 85,6% | — |
OpenAI MRCR v2 8-needle 128 тыс.–256 тыс. | 79,3% | — | — | 77,0% | — |
OpenAI MRCR v2 8-needle 256 тыс.–512 тыс. | 57,5% | — | — | — | — |
OpenAI MRCR v2 8-needle 512 тыс.–1 млн. | 36,6% | — | — | — | — |
Абстрактное рассуждение
Оценка | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
ARC-AGI-1 (Проверенный) | 93,7% | 94,5% | — | 86,2 % | 90,5% |
ARC-AGI-2 (Проверенный) | 73,3% | 83,3% | — | 52,9 % | 54,2% (high) |
Оценки без рассуждений
Оценка | GPT‑5.4 | GPT‑5.2 | GPT‑4.1 |
OmniDocBench (нормализованное расстояние редактирования) | 0,109 | 0,140 | — |
Tau2-bench Telecom | 64,3% | 57,2% | 43,6% |
Оценки запускались при усилии на рассуждения «xhigh», за исключением случаев, когда указано иное. Бенчмарки проводились в исследовательской среде, поэтому в некоторых случаях результаты могут немного отличаться от результатов ChatGPT в продуктивной среде.
Автор
Сноски
1 Результаты человека, о которых сообщается в OSWorld: «Бенчмаркинг мультимодальных агентов для открытых задач в реальных компьютерных средах»(открывается в новом окне).


