Сьогодні ми оголошуємо про реліз GPT‑5.4 у ChatGPT (у вигляді GPT‑5.4 Thinking), API та Codex. Це наша найпотужніша та найефективніша передова модель для професійної роботи. Ми також випускаємо GPT‑5.4 Pro у ChatGPT та API для користувачів, яким потрібна максимальна продуктивність при виконанні складних завдань.
GPT‑5.4 об’єднує найкращі досягнення в міркуваннях, програмуванні та агентних робочих процесах у єдину передову модель. Він поєднує провідні можливості програмування GPT‑5.3‑Codex, покращуючи роботу моделі з інструментами, програмними середовищами та професійними завданнями, зокрема при роботі з електронними таблицями, презентаціями та документами. Результатом є модель, яка дозволяє виконувати складну реальну роботу точно, ефективно та результативно, надаючи відповідь на ваш запит із меншою кількістю уточнень.
Тепер GPT‑5.4 Thinking у ChatGPT здатен заздалегідь надати план свого мислення, аби ви могли скоригувати напрямок роботи під час відповіді, поки модель працює, і отримати фінальний результат, який точніше відповідає вашим потребам, без необхідності додаткових уточнень. GPT‑5.4 Thinking також покращує дослідження глибинної Мережі, особливо для дуже специфічних запитів, водночас краще зберігаючи контекст для запитань, що потребують більш тривалого обмірковування. Разом ці покращення забезпечують відповіді вищої якості, які надходять швидше та залишаються актуальними для поточного завдання.
У Codex і API GPT‑5.4 — це перша модель загального призначення, яку ми випустили з вбудованими, найсучаснішими можливостями роботи з комп'ютером, що дозволяє агентам керувати пристроями та виконувати складні робочі процеси в різних програмах. Модель підтримує до 1 млн токенів контексту, що дозволяє агентам планувати, виконувати та перевіряти завдання протягом тривалих часових проміжків. GPT‑5.4 також покращує роботу моделей у великих екосистемах інструментів і конекторів завдяки пошуку інструментів, що допомагає агентам ефективніше знаходити й використовувати потрібні інструменти без необхідності жертвувати інтелектуальними можливостями. GPT‑5.4 — це наша найефективніша за використанням токенів модель міркування на сьогодні, яка використовує значно менше токенів для розв’язання проблем порівняно з GPT‑5.2, що забезпечує менше використання токенів і вищу швидкість.
Разом із прогресом у загальних міркуваннях, програмуванні та професійній інтелектуальній роботі GPT‑5.4 забезпечує надійніших агентів, швидші робочі процеси для розробників і вищу якість результатів у ChatGPT, the API та Codex.
GPT‑5.4 | GPT‑5.3‑Codex | GPT‑5.2 | |
GDPval (перемоги або нічиї) | 83,0% | 70,9% | 70,9% |
SWE-Bench Pro (Public) | 57,7% | 56,8% | 55,6% |
OSWorld Verified | 75,0% | 74,0%* | 47,3% |
Toolathlon | 54,6% | 51,9% | 46,3% |
BrowseComp | 82,7% | 77,3% | 65,8% |
*Раніше повідомлялося про 64,7%. GPT‑5.3‑Codex досягає 74,0% завдяки новому параметру API, який зберігає оригінальну роздільну здатність зображення.
Спираючись на загальні можливості міркування GPT‑5.2, GPT‑5.4 забезпечує ще більш послідовні та відшліфовані результати в реалістичних завданнях, що зазвичай виконуються спеціалістами.
У GDPval, оцінці, що перевіряє здатність агентів виконувати чітко визначені завдання в межах інтелектуальної роботи в 44 професіях, GPT‑5.4 встановив новий стандарт, у 83,0% порівнянь виконавши завдання на рівні з фахівцями індустрії або навіть перевершивши їх (аналогічний показник для GPT‑5.2 — 71,0%).
У GDPval моделі намагаються виконати чітко визначені завдання, засновані на знаннях у 44 професіях із 9 провідних галузей, що роблять найбільший внесок у ВВП США. Завдання вимагають наявності реальних робочих продуктів, таких як презентації з продажу, бухгалтерські електронні таблиці, графіки невідкладної допомоги, виробничі діаграми або короткі відео. Рівень зусиль міркування було встановлено на xhigh для GPT‑5.4 та heavy для GPT‑5.2 (дещо нижчий рівень у ChatGPT).
«GPT-5.4 — найкраща модель, яку ми коли-небудь тестували. Наразі вона очолює таблицю лідерів у нашому бенчмарку APEX-Agents, який вимірює продуктивність моделі для роботи у сфері професійних послуг. Вона чудово підходить для тривалого створення результатів — презентацій та фінансових моделей, проведення юридичного аналізу, — забезпечуючи найвищу продуктивність і водночас працюючи швидше та з нижчою вартістю, ніж конкурентні передові моделі.»
Ми приділили особливу увагу вдосконаленню можливості GPT‑5.4 створювати та редагувати електронні таблиці, презентації та документи. За нашим внутрішнім бенчмарком завдань із моделювання електронних таблиць, які міг би виконати молодший аналітик інвестиційного банкінгу, GPT‑5.4 досягає середнього результату 87,5%, порівняно з 68,4% для GPT‑5.2. У наборі запитів для оцінювання презентацій люди-оцінювачі в 68,0% випадків віддавали перевагу презентаціям від GPT‑5.4, а не презентаціям від GPT‑5.2, в основному за рахунок кращої естетики, більшої візуальної різноманітності та ефективнішої генерації зображень.

Документи було згенеровано із зусиллям міркування на рівні xhigh
Із цими можливостями ви вже можете ознайомитися в ChatGPT через GPT‑5.4 Thinking та Pro. Якщо ви є корпоративним клієнтом, рекомендуємо використовувати наші нещодавно випущені плагіни ChatGPT для Excel і Google Таблиць(відкривається у новому вікні), запуск яких також відбувся сьогодні. Ми також оновили наші навички роботи з електронними таблицями(відкривається у новому вікні) та презентаціями(відкривається у новому вікні) (доступно в Codex та API).
Для покращення продуктивності GPT‑5.4 в реальній роботі ми продовжили просуватися в напрямку зниження рівня галюцинацій і помилок. GPT‑5.4 — наша найбільш інформативна модель на сьогодні: на наборі анонімних запитів, у яких користувачі позначали фактичні помилки, окремі твердження GPT‑5.4 були хибними на 33% рідше, а її повні відповіді на 18% рідше містили будь-які помилки, порівняно з GPT‑5.2.
«GPT-5.4 встановлює нову планку для юридичної роботи з великим обсягом документів. У рамках оцінки BigLaw Bench eval він набрав 91%. Порівняно з іншими моделями, GPT-5.4 наразі краще справляється зі структуруванням складного аналізу операцій, збереженням точності впродовж тривалої роботи з контрактами й наданням високого рівня деталізації, якого потребують юристи.»
GPT‑5.4 — наша перша модель загального призначення з нативними можливостями використання комп'ютера, яка є важливим кроком уперед як для розробників, так і для агентів. Це найкраща модель, доступна наразі для розробників, які створюють агентів, що виконують реальні завдання на вебсайтах і в програмних системах.
GPT‑5.4 був розроблений таким чином, аби він забезпечував високу продуктивність у широкому спектрі робочих навантажень із використанням комп’ютера. Він відмінно пише код для керування комп’ютерами за допомогою бібліотек на кшталт Playwright, а також надсилає команди миші та клавіатури у відповідь на знімки екрана. Поведінкою моделі можна керувати за допомогою повідомлень від розробника, тобто розробники можуть налаштовувати поведінку відповідно до конкретних сценаріїв використання. Розробники можуть навіть налаштовувати поведінку безпеки моделі відповідно до різних рівнів толерантності до ризику, задаючи спеціальні політики підтвердження дій.
Продуктивність і гнучкість моделі відображаються у бенчмарках, які тестують використання комп’ютера в різних умовах. В OSWorld-Verified, що оцінює здатність моделі орієнтуватися в середовищі робочого столу за допомогою скриншотів і дій клавіатурою/мишею, GPT‑5.4 демонструє найкращий результат — 75,0% успішності, що значно перевищує рівень GPT‑5.2 — 47,3%, та перевершуючи людські показники — 72,4%.1
У WebArena-Verified, бенчмарку, який тестує використання браузера, GPT‑5.4 досягає провідного показника успішності 67,3% при взаємодії на основі DOM і знімків екрана, порівняно з 65,4% у GPT‑5.2. В Online-Mind2Web, що також перевіряє використання браузера, GPT‑5.4 досягає рівня успішності 92,8%, використовуючи лише спостереження на основі знімків екрана, що покращує надійність порівняно з ChatGPT Atlas у режимі агента, який досягає рівня успішності в 84,0%.
Цикл очікування інструмента — це коли асистент переходить у стан очікування, щоб отримати відповіді інструментів. Якщо спочатку паралельно викликано 3 інструменти, а потім паралельно викликано ще 3 інструменти, кількість циклів очікування буде 2. Цикли очікування інструментів є точнішим показником затримки відповіді, ніж кількість викликів інструментів, оскільки вони відображають переваги паралелізації.
GPT‑5.4 інтерпретує скріншоти інтерфейсу браузера та взаємодіє з елементами інтерфейсу користувача через кліки за координатами, щоб надсилати електронні листи та планувати подію в календарі.
Покращене використання ПК моделлю GPT‑5.4 ґрунтується на покращених можливостях загального візуального сприйняття моделі. У тесті MMMU-Pro, що оцінює візуальне розуміння та міркування моделі, GPT‑5.4 досягає показника успішності 81,2% без використання інструментів, що є покращенням порівняно з показником GPT‑5.2 у 79,5%. Покращене візуальне сприйняття також дає кращі можливості аналізу документів. В OmniDocBench GPT‑5.4 без зусиль міркування досягає середньої похибки (що вимірюється за нормалізованою відстанню редагування між прогнозом моделі та еталонним значенням) в 0,109, що є покращенням порівняно з 0,140 у GPT‑5.2.
MMMUPro було запущено з максимальним зусиллям міркування (xhigh). OmniDocBench було запущено без зусиль міркування (none), щоб забезпечити низьку вартість і мінімальну затримку.
Ми також покращили візуальне розуміння для зображень із високою роздільною здатністю, де важлива абсолютна точність. Починаючи з GPT‑5.4, ми впроваджуємо рівень оригінальної деталізації вхідного зображення(відкривається у новому вікні), який підтримує сприйняття з повним збереженням якості до 10,24 млн пікселів загалом або максимального розміру 6000 пікселів, залежно від того, яке значення менше; рівень високої деталізації вхідного зображення тепер підтримує до 2,56 млн пікселів загалом або максимальний розмір у 2048 пікселів. На етапі раннього тестування з користувачами API ми спостерігали значні покращення в можливостях локалізації, розумінні зображень і точності кліків під час використання оригіналу зображення або його високої деталізації.
«У наших внутрішніх оцінках, що вимірюють продуктивність використання комп’ютера на ~30K порталах HOA та розрахунку податку на нерухомість, GPT-5.4 досяг показника успішності 95% з першої спроби та 100% — протягом трьох спроб, порівняно з ~73–79% у попередніх CUA-моделях. Крім того, він завершував сеанси приблизно втричі швидше, використовуючи при цьому приблизно на ~70% менше токенів, суттєво підвищуючи надійність та економічну ефективність у великому масштабі.»
В API розробники можуть отримати доступ до цих можливостей за допомогою оновленого інструмента computer tool. Із рекомендованими методиками роботи ви можете ознайомитися в оновленій документації(відкривається у новому вікні).
GPT‑5.4 поєднує сильні сторони GPT‑5.3‑Codex у програмуванні з провідними можливостями для роботи зі знаннями та використання ПК, що найбільш важливо для довготривалих завдань, де модель може використовувати інструменти, ітерувати та просувати роботу далі з меншим обсягом ручного втручання. Вона показує рівень, аналогічний або кращий за GPT‑5.3‑Codex, у SWE-Bench Pro, водночас демонструючи нижчу затримку відповіді для різних рівнів міркування.
Ми оцінюємо затримку відповіді, аналізуючи поведінку наших моделей у виробничому середовищі, і моделюючи це офлайн. Оцінка затримки враховує тривалість виклику інструмента (час виконання коду), токени вибірки та вхідні токени. Затримка відповіді в реальних умовах може суттєво відрізнятися та залежить від багатьох чинників, не врахованих у нашій симуляції. Зусилля міркування було підвищено з none до xhigh.
Увімкнений /fast mode у Codex забезпечує до 1,5x більшу швидкість застосування токенів із GPT‑5.4. Це та сама модель і той самий інтелект — тільки швидше. Це означає, що користувачі можуть переключатися між завданнями з програмування, ітераціями та налагодженням, залишаючись у робочому потоці. Розробники можуть отримати доступ до GPT‑5.4 з тими самими високими швидкостями через API, використовуючи Priority Processing(відкривається у новому вікні).
Під час оцінювання та внутрішнього тестування ми виявили, що GPT‑5.4 чудово справляється зі складними фронтенд-завданнями, забезпечуючи помітно більш естетичні та функціональні результати, ніж будь-які моделі, які ми запускали раніше.
Як демонстрацію покращених можливостей моделі щодо використання комп’ютера та програмування, що працюють у тандемі, ми також випускаємо експериментальну навичку Codex під назвою «Playwright (Interactive)(відкривається у новому вікні)». Це дає змогу Codex візуально налагоджувати веб- і Electron-застосунки; його навіть можна використовувати для тестування застосунку, який він створює, у процесі його створення.
Симулятор тематичного парку, створений за допомогою GPT‑5.4 з одного мало специфікованого запиту, із використанням Playwright Interactive для ігрового тестування в браузері та генерації зображень для ізометричного набору ресурсів. Симуляція включає розміщення доріжок, викладених плиткою, будівництво атракціонів і декорацій, відстеження руху гостей, черги та цикли атракціонів. Показники парку, такі як гроші, кількість гостей, щастя, чистота та рейтинг, змінюються залежно від ефективності планування та реакції гостей. Playwright використовувався для автоматизації браузерних ігрових тестів, зокрема для будівництва та розширення парку, розміщення й видалення доріжок і атракціонів, перевірки навігації камери та підтвердження, що гості, черги, стани атракціонів і метрики інтерфейсу оновлюються коректно протягом кількох раундів гри.
Запит: Використовуючи $playwright-interactive і $imagegen, створи інтерактивну ізометричну симуляційну гру про тематичний парк, яку можна розробити та переглянути в браузері. Використовуй imagegen, щоб сформувати загальне візуальне бачення та згенерувати ресурси гри, зокрема атракціони, доріжки, рельєф, дерева, воду, кіоски з їжею, декорації, будівлі, іконки та ілюстрації інтерфейсу. Світ має відчуватися цілісним, відполірованим і візуально насиченим, із преміальним оформленням, що добре працює з ізометричною перспективою. Дай змогу розміщувати й прибирати доріжки, додавати атракціони, розставляти декорації та плавно пересуватися парком, одночасно відстежуючи активність гостей, стан атракціонів і зростання парку. Додай правдоподібний рух гостей, прості системи керування парком на кшталт метрик доходу, чистоти, черг і щастя гостей, і зроби так, щоб досвід був цікавим, зрозумілим і завершеним, а не схожим на сирий прототип. Надавай пріоритет чарівності, читабельності та сильному відчуттю гри над реалізмом.
Під час плейтестингу побудуй і розширюй парк протягом кількох раундів гри; перевір, що розміщення та навігація працюють плавно, підтвердь, що гості реагують на зміни планування парку та атракціонів, і переконайся, що візуальні елементи, інтерфейс та взаємодії виглядають стабільними й цілісними.
«Наші інженери назвали GPT-5.4 більш природною та впевненішою за попередні моделі. Вона вирішує неоднозначні проблеми без найменших сумнівів і активно паралелізує роботу, аби все продовжувало рухатися вперед.»
Із GPT‑5.4 ми суттєво покращили те, як моделі працюють із зовнішніми інструментами. Агенти тепер можуть працювати в ширших екосистемах інструментів, надійніше обирати потрібні інструменти та виконувати багатокрокові робочі процеси з нижчою вартістю й затримкою.
В API GPT‑5.4 представляє пошук інструментів(відкривається у новому вікні), що дозволяє моделям ефективно працювати, коли їм надано багато інструментів.
Раніше, коли моделі надавали інструменти, усі визначення інструментів включалися в запит заздалегідь. Для систем із багатьма інструментами це може додати тисячі (або навіть десятки тисяч) токенів до кожного запиту, збільшуючи вартість, уповільнюючи відповіді та перевантажуючи контекст інформацією, яку модель може ніколи не використати.
Із пошуком інструментів GPT‑5.4 натомість отримує полегшений список доступних інструментів разом із можливістю пошуку. Коли моделі потрібно скористатися інструментом, вона може знайти визначення цього інструмента та додати його до розмови в потрібний момент.
Такий підхід суттєво зменшує кількість токенів, потрібних для робочих процесів із великою кількістю інструментів, і зберігає кеш, роблячи запити швидшими й дешевшими. Це також дає змогу агентам надійно працювати зі значно більшими екосистемами інструментів. Для серверів MCP, які можуть містити десятки тисяч токенів визначень інструментів, приріст продуктивності може бути суттєвим.
Аби продемонструвати приріст продуктивності, ми оцінили 250 завдань із бенчмарку Scale’s MCP Atlas(відкривається у новому вікні) з усіма 36 MCP-серверами, увімкненими у двох режимах: (1) надання доступу до кожної функції MCP безпосередньо в контексті моделі, і (2) розміщення всіх MCP-серверів за пошуком інструментів. Конфігурація пошуку інструментів зменшила загальне використання токенів на 47% за збереження тієї ж точності.
Прикладні підрахунки токенів отримано шляхом усереднення 250 завдань у публічному датасеті MCP-Atlas.
GPT‑5.4 також покращує виклик інструментів, роблячи його точнішим і ефективнішим під час ухвалення рішень про те, коли і як використовувати інструменти під час міркування, особливо в API. Порівняно з GPT‑5.2, модель досягла вищої точності за меншу кількість ходів у Toolathlon — бенчмарку, який перевіряє, наскільки добре ШІ-агенти можуть використовувати реальні інструменти та API для виконання багатокрокових завдань. Наприклад, агенту потрібно читати електронні листи, витягувати вкладення із завданнями, завантажувати їх, оцінювати та записувати результати в електронну таблицю.
Цикл очікування інструмента — це коли асистент переходить у стан очікування, щоб отримати відповіді інструментів. Якщо спочатку паралельно викликано 3 інструменти, а потім паралельно викликано ще 3 інструменти, кількість циклів очікування буде 2. Цикли очікування інструментів є точнішим показником затримки відповіді, ніж кількість викликів інструментів, оскільки вони відображають переваги паралелізації.
Для сценаріїв використання, чутливих до затримок, де надається перевага зусиллям у міркуваннях на рівні None, GPT‑5.4 додатково перевершує своїх попередників.
У τ2-bench(відкривається у новому вікні) модель повинна використовувати інструменти для виконання завдання з обслуговування клієнтів, де може бути симульований користувач, який здатний спілкуватися та здійснювати дії щодо стану світу. Зусилля міркування було встановлено на None.
GPT‑5.4 краще справляється з агентним пошуком у мережі. У BrowseComp, який тестує те, наскільки добре ШІ-агенти можуть тривало переглядати веб-сторінки для пошуку важкодоступної інформації, GPT‑5.4 перевершив GPT‑5.2 на 17%abs, а GPT‑5.4 Pro встановив новий стандарт у 89,3%.
На практиці це означає, що GPT‑5.4 Thinking краще відповідає на запитання, що потребують узагальнення інформації з багатьох джерел в Інтернеті. Модель може наполегливіше виконувати пошук упродовж кількох раундів, щоб визначити найрелевантніші джерела, особливо для запитань типу «голка в копиці сіна», і синтезувати їх у чітку, добре обґрунтовану відповідь.
У BrowseComp при пошуку ми використовували чорний список, що виключає з оцінювання вебсайти, які містять відповіді на бенчмарк, аби запобігти забрудненню даних і забезпечити чесну оцінку продуктивності. GPT‑5.4 пройшов оцінювання пізніше, ніж GPT‑5.2, тож результати відображають зміни в моделі, нашій пошуковій системі та стані мережі. GPT‑5.4 було протестовано з довшим, оновленим чорним списком. Моделі використовують інструмент пошуку ChatGPT, який може мати незначні відмінності від пошуку в API.
«GPT-5.4 xhigh — це новий рівень досконалості для багатокрокового використання інструментів. Zapier проводить одні з найретельніших у галузі тестів використання інструментів, тестуючи моделі на сотнях просунутих реальних робочих процесів. GPT-5.4 завершувала роботу там, де попередні моделі вже здавалися: це найбільш наполеглива модель на сьогодні.»
Подібно до того, як Codex окреслює свій підхід, коли починає роботу, GPT‑5.4 Thinking у ChatGPT тепер окреслюватиме хід своєї роботи у вступі для довших та складніших запитів. Ви також можете додати інструкції або скоригувати напрям відповіді під час її формування. Це полегшує спрямування моделі до точного результату, якого ви хочете досягти, без потреби починати спочатку та не вимагаючи кількох додаткових етапів. Ця функція вже доступна на chatgpt.com(відкривається у новому вікні) і в застосунку для Android; у застосунку для iOS вона з’явиться незабаром.
Модель також може довше міркувати над складними завданнями, зберігаючи кращу обізнаність про попередні кроки в розмові. Це дає змогу обробляти довші робочі процеси та складніші запити, зберігаючи відповіді зв'язними й релевантними протягом усього часу.
Відео було прискорено для ілюстративних цілей.
Протягом останніх місяців ми продовжували вдосконалювати заходи безпеки, запроваджені з GPT‑5.3‑Codex, одночасно готуючи до розгортання GPT‑5.4. Подібно до GPT‑5.3‑Codex, ми розглядаємо GPT‑5.4 як систему з високим рівнем кіберможливостей у межах нашої рамкової системи готовності та розгортаємо її з відповідними заходами захисту, як зазначено в картці системи. До них належать розширений стек кібербезпеки, зокрема системи моніторингу, надійні засоби контролю доступу та асинхронне блокування запитів підвищеного ризику для клієнтів на платформах із нульовим збереженням даних (ZDR), паралельно з постійними інвестиціями в ширшу екосистему безпеки.
Оскільки можливості у сфері кібербезпеки за своєю природою мають подвійне призначення, ми дотримуємося превентивного підходу до впровадження, водночас продовжуючи налаштовувати наші політики та класифікатори. Для певних клієнтів на платформах із ZDR блокування на рівні запиту й надалі залишається частиною нашого стека заходів пом'якшення кіберризиків; оскільки класифікатори все ще вдосконалюються, у міру подальшого вдосконалення цих заходів безпеки подекуди можуть траплятися хибні спрацьовування. Ці оновлення спрямовані на те, щоб покращити роботу заходів захисту на практиці, зокрема зменшити кількість хибних відмов і надмірно обережних відповідей із застереженнями, водночас зберігаючи надійний захист від зловживань.
Ми продовжили наші дослідження безпеки щодо відстежуваності ланцюжка міркувань (CoT), щоб краще зрозуміти, як моделі міркують, і допомогти виявляти патерни потенційної неправильної поведінки. У межах цієї роботи ми представляємо нове оцінювання з відкритим вихідним кодом, CoT controllability, яке вимірює, чи можуть моделі навмисно заплутувати свої міркування, щоб уникати моніторингу. Ми виявили, що здатність GPT‑5.4 Thinking контролювати свій CoT є низькою, що є позитивною властивістю для безпеки, і свідчить про те, що модель не має здатності приховувати свої міркування та що моніторинг CoT залишається ефективним інструментом безпеки.
Відсьогодні GPT‑5.4 поступово стає доступним у ChatGPT та Codex. В API GPT‑5.4 доступна вже зараз як gpt-5.4. GPT‑5.4 Pro також доступна в API як gpt-5.4-pro для розробників, яким потрібна максимальна продуктивність при виконанні найскладніших завдань.
У ChatGPT GPT‑5.4 Thinking стає доступним відсьогодні для користувачів ChatGPT Plus, Team і Pro, замінюючи GPT‑5.2 Thinking. GPT‑5.2 Thinking залишатиметься доступним для платних користувачів протягом трьох місяців у списку попередніх моделей, після чого його буде виведено з експлуатації 5 червня 2026 року. Користувачі планів Enterprise та Edu можуть активувати ранній доступ через налаштування адміністратора. GPT‑5.4 Pro доступний у планах Pro та Enterprise. Контекстні вікна(відкривається у новому вікні) у ChatGPT для GPT‑5.4 Thinking залишаються без змін у порівнянні з GPT‑5.2 Thinking.
GPT‑5.4 — наша перша основна модель міркування, що включає передові можливості програмування GPT‑5.3‑codex, і вона стає доступною в ChatGPT, API та Codex. Ми називаємо це GPT‑5.4, аби відобразити цей стрибок і спростити вибір між моделями під час використання Codex. Із часом є вірогідність того, що наші моделі Instant і моделі Thinking розвиватимуться з різною швидкістю.
GPT‑5.4 у Codex в експериментальному режимі підтримує контекстне вікно на 1M. Розробники можуть спробувати цей режим, налаштувавши model_context_window і model_auto_compact_token_limit. Запити, що перевищують місткість стандартного контекстного вікна на 272K, зараховуються до лімітів використання за подвійним тарифом.
В API GPT‑5.4 має вищу ціну за токен, ніж GPT‑5.2: ціна відображає покращені можливості моделі, у той час як вища ефективність токенів допомагає зменшити загальну кількість токенів, потрібних для багатьох завдань. Ціни Batch і Flex доступні за половину стандартного тарифу API, тоді як Priority Processing доступний за подвійним стандартним тарифом API.
Модель API | Ціна за вхідні токени | Ціна кешованого введення | Ціна вихідних даних |
gpt-5.2 | 1,75 дол. США / млн токенів | 0,175 дол. США / млн токенів | 14 дол. США / млн токенів |
gpt-5.4 | 2,50 дол. США / млн токенів | 0,25 дол. США / млн токенів | 15 дол. США / млн токенів |
gpt-5.2-pro | 21 дол. США / млн токенів | - | 168 дол. США / млн токенів |
gpt-5.4-pro | 30 дол. США / млн токенів | - | 180 дол. США / млн токенів |
Професійний
Оцінка | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
GDPval | 83,0% | 82,0% | 70,9% | 70,9% | 74,1% |
FinanceAgent v1.1 | 56,0% | 61,5% | 54,0% | 59,5% | — |
Завдання з моделювання в інвестиційному банкінгу (внутрішнє) | 87,3% | 83,6% | 79,3% | 68,4% | 71,7% |
OfficeQA | 68,1% | — | 65,1% | 63,1% | — |
Програмування
Оцінка | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
SWE-Bench Pro (Public) | 57,7% | — | 56,8% | 55,6% | — |
Terminal-Bench 2.0 | 75,1% | — | 77,3% | 62,2% | — |
Використання комп'ютера та візуал
Оцінка | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
OSWorld Verified | 75,0% | — | 74,0% | 47,3% | — |
MMMU Pro (без інструментів) | 81,2% | — | — | 79,5% | — |
MMMU Pro (з інструментами) | 82,1% | — | — | 80,4% | — |
Використання інструментів
Оцінка | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
BrowseComp | 82,7% | 89,3% | 77,3% | 65,8% | 77,9 % |
MCP Atlas | 67,2% | — | — | 60,6% | — |
Toolathlon | 54,6% | — | 51,9% | 45,7% | — |
Tau2-bench Telecom | 98,9% | — | — | 98,7% | — |
Академічність
Оцінка | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
Передові наукові дослідження | 33,0% | 36,7% | — | 25,2% | — |
FrontierMath, рівень 1–3 | 47,6% | — | — | 40,7% | — |
FrontierMath, рівень 4 | 27,1% | 38,0% | — | 18,8% | 31,3% |
GPQA Diamond | 92,8% | 94,4% | 92,6% | 92,4% | 93,2% |
Humanity's Last Exam (без інструментів) | 39,8% | 42,7% | — | 34,5% | 36,6% |
Humanity's Last Exam (з інструментами) | 52,1% | 58,7% | — | 45,5% | 50,0% |
Розширений контекст
Оцінка | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
Graphwalks BFS 0K–128K | 93,0% | — | — | 94,0 % | — |
Graphwalks BFS 256K–1M | 21,4% | — | — | — | — |
Батьківські вузли Graphwalks 0–128K (точність) | 89,8% | — | — | 89,0% | — |
Батьківські вузли Graphwalks 256K–1M (точність) | 32,4% | — | — | — | — |
OpenAI MRCR v2 8-needle 4K–8K | 97,3% | — | — | 98,2% | — |
OpenAI MRCR v2 8-needle 8K–16K | 91,4% | — | — | 89,3% | — |
OpenAI MRCR v2 8-needle 16K–32K | 97,2% | — | — | 95,3% | — |
OpenAI MRCR v2 8-needle 32K–64K | 90,5% | — | — | 92,0% | — |
OpenAI MRCR v2 8-needle 64K–128K | 86,0% | — | — | 85,6% | — |
OpenAI MRCR v2 8-needle 128K–256K | 79,3% | — | — | 77,0% | — |
OpenAI MRCR v2 8-needle 256K–512K | 57,5% | — | — | — | — |
OpenAI MRCR v2 8-needle 512K–1M | 36,6% | — | — | — | — |
Абстрактне мислення
Оцінка | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
ARC-AGI-1 (Verified) | 93,7% | 94,5% | — | 86,2% | 90,5% |
ARC-AGI-2 (Verified) | 73,3% | 83,3% | — | 52,9% | 54,2% (high) |
Evals без міркування
Оцінка | GPT‑5.4 | GPT‑5.2 | GPT‑4.1 |
OmniDocBench (нормалізована відстань редагування) | 0,109 | 0,140 | — |
Tau2-bench Telecom | 64,3% | 57,2% | 43,6% |
Оцінювання було запущено із зусиллям міркування на рівні xhigh (за винятком випадків, де зазначено інше). Тестування проводилося в дослідницькому середовищі, яке в деяких випадках може давати дещо відмінні результати порівняно з роботою ChatGPT у продакшні.
Автор
Виноски
1 Показники продуктивності людини наведено в OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments(відкривається у новому вікні).


