5 март 2026 г.

Представяме Ви GPT‑5.4!

Създаден за професионална работа

Зареждане…

Днес пускаме GPT‑5.4 в ChatGPT (като GPT‑5.4) Thinking), API и Codex. Това е нашият най-способен и най-ефективен авангарден модел за професионална работа. Също така пускаме GPT‑5.4 Pro в ChatGPT и API за хората, които искат максимална производителност при сложни задачи.

GPT‑5.4 обединява най-доброто от нашите скорошни постижения в структурираното анализиране, кодирането и агентните работни процеси в един единствен авангарден модел. Той включва водещите в индустрията възможности за кодиране на GPT‑5.3‑Codex⁠, като същевременно подобрява начина, по който моделът работи с различни инструменти, софтуерни среди и професионални задачи, включващи електронни таблици, презентации и документи. Резултатът е модел, който изпълнява сложна реална работа точно, ефективно и ефикасно – предоставяйки това, което сте поискали, с по-малко уточнения.

В ChatGPT, GPT‑5.4 Thinking вече може да предоставя предварителен план на своите разсъждения, така че можете да коригирате посоката по средата на отговора, докато работи, и да стигнете до краен резултат, който е по-тясно съгласуван с това, от което се нуждаете, без допълнителни обмени. GPT‑5.4 Thinking също така подобрява проучванията в дълбоката мрежа, особено за силно специфични заявки, като същевременно по-добре запазва контекста за въпроси, които изискват по-дълго мислене. Заедно тези подобрения предоставят по-качествени отговори, които пристигат по-бързо и остават уместни за текущата задача.

В Codex и API, GPT‑5.4 е първият модел с общо предназначение, който сме пуснали, с вградени, най-съвременни възможности за работа с компютър, което позволява на агентите да работят с компютри и да изпълняват сложни работни потоци в различни приложения. Той поддържа до 1 млн. токени контекст, което позволява на агентите да планират, изпълняват и проверяват задачи в дълги времеви хоризонти. GPT‑5.4 също така подобрява начина, по който моделите работят в големи екосистеми от инструменти и конектори с търсене на инструменти, като помага на агентите да намират и използват правилните инструменти по-ефективно, без да жертват интелигентността. Накрая, досега GPT‑5.4 е нашият най-ефективен по отношение на токените модел със структурирано анализиране , който използва значително по-малко токени за решаване на проблеми в сравнение с GPT‑5.2, което води до по-ниска употреба на токени и по-високи скорости.

Заедно с напредъка в общото структурирано анализиране, кодирането и професионалия интелектуален труд, GPT‑5.4 захранва по-надеждни агенти, по-бързи работни процеси за разработчици и по-висококачествени резултати в ChatGPT, API и Codex.

	GPT‑5.4	GPT‑5.3‑Codex	GPT‑5.2
GDPval (победи или равенства)	83,0%	70,9%	70,9%
SWE-Bench Pro (публично)	57,7%	56,8%	55,6%
OSWorld-Verified	75,0%	74,0%*	47,3%
Toolathlon	54,6%	51,9%	46,3%
BrowseComp	82,7%	77,3%	65,8%

*Преди е отчетено като 64,7%. GPT‑5.3‑Codex постига 74,0% с нововъведен параметър на API, който запазва оригиналната резолюция на изображението.

Интелектуален труд

Надграждайки върху общите възможности за структурирано анализиране на GPT‑5.2, GPT‑5.4 предоставя още по-последователни и изпипани резултати при реални задачи, които имат значение за професионалистите.

На GDPval⁠, която тества способностите на агентите да изпълняват добре конкретизиран интелектуален труд в 44 професии, GPT‑5.4 поставя нов стандарт, като се изравнява с или надминава професионалистите в индустрията в 83,0% от сравненията, в сравнение с 71,0% за GPT‑5.2.

В GDPval моделите се опитват да изпълнят добре конкретизиран интелектуален труд, обхващащ 44 професии от 9-те водещи индустрии, допринасящи за БВП на САЩ. Задачите изискват реални работни продукти, като например презентации за продажби, счетоводни електронни таблици, графици за спешна помощ, производствени диаграми или кратки видеоклипове. Усилието за структурирано анализиране беше зададено на много високо (xhigh) за GPT‑5.4 и тежко (heavy) за GPT‑5.2 (налично на малко по-ниско ниво в ChatGPT).

„GPT-5.4 е най-добрият модел, който някога сме пробвали. Вече е на върха на класацията в нашия еталон APEX-Agents, който измерва представянето на модела при работа в сферата на професионалните услуги. Той се отличава в създаването на дългосрочни резултати като презентационни слайдове, финансови модели и правен анализ, като осигурява най-висока производителност, докато работи по-бързо и на по-ниска цена от конкурентните авангардни модели.”

— Брендан Фууди, главен изпълнителен директор в Mercor

Поставихме особен акцент върху подобряването на възможността на GPT‑5.4 за създаване и редактиране на електронни таблици, презентации и документи. На нашия вътрешен еталон за задачи за моделиране на електронни таблици, които един младши анализатор в инвестиционното банкиране би могъл да изпълнява, GPT‑5.4 постига среден резултат от 87,5%, в сравнение с 68,4% за GPT‑5.2. При набор от подкани за оценка на презентации човешки оценители предпочетоха презентациите от GPT‑5.4 в 68,0% от случаите пред тези от GPT‑5.2 поради по-силна естетика, по-голямо визуално разнообразие и по-ефективно използване на генериране на изображения.

Пример със съпоставка на изходните данни в електронни таблици от GPT-5.2 vs GPT-5.4

Документите бяха генерирани с усилие за структурирано анализиране, зададено на много високо (xhigh)

Можете да изпробвате тези възможности в ChatGPT с помощта на GPT‑5.4 Thinking или Pro. Ако сте клиент на Enterprise, препоръчваме да използвате нашите новоиздадени плъгини на ChatGPT за Excel и Google Sheets⁠(отваря се в нов прозорец), които също бяха пуснати днес. Също така актуализирахме нашите умения за работа с електронни таблици⁠(отваря се в нов прозорец) и умения за презентации⁠(отваря се в нов прозорец), налични в Codex и API.

За да направим GPT‑5.4 по-добър в работата в реални условия, продължихме напредъка си в намаляването на халюцинациите и грешките. GPT‑5.4 е нашият най-фактически достоверен модел досега – при набор от деидентифицирани подкани, при които потребителите отбелязаха фактически грешки, отделните твърдения са с 33% относително по-малко вероятно да са грешни, а пълните отговори са с 18% относително по-малко вероятно да съдържат каквито и да е грешки в сравнение с GPT‑5.2.

„GPT-5.4 поставя нов стандарт за правна работа с много документи. При оценката ни BigLaw Bench той постигна 91%. В сравнение с други модели, GPT-5.4 в момента е по-добър в структурирането на сложен транзакционен анализ, поддържането на точност в дълги договори и предоставянето на високото ниво на детайлност, което правните специалисти изискват.“

— Нико Групен, ръководител „Приложни изследвания“ в Harvey

Използване на компютър и зрение

GPT‑5.4 е нашият първи модел с общо предназначение с вградени възможности за използване на компютър и бележи значителна стъпка напред както за разработчиците, така и за агентите. Това е най-добрият модел, наличен в момента, за разработчици, които изграждат агенти, изпълняващи реални задачи в различни уебсайтове и софтуерни системи.

Проектирахме GPT‑5.4 така, че да осигурява висока производителност при широк спектър от натоварвания за използване на компютър. Той е отличен в писането на код за управление на компютри чрез библиотеки като Playwright, както и в издаването на команди за мишка и клавиатура в отговор на екранни снимки. Поведението му може да се управлява чрез съобщения на разработчиците, което означава, че те могат да го коригират, за да отговаря на конкретни случаи на употреба. Разработчиците могат дори да конфигурират безопасното поведение на модела, за да отговаря на различни нива на толерантност към риск, като задават персонализирани правила за потвърждение.

Производителността и гъвкавостта на модела се отразяват в еталони, които тестват използването на компютър в различни среди. На OSWorld-Verified, който измерва способността на модела да се ориентира в настолен компютър чрез екранни снимки и действия с клавиатура/мишка, GPT‑5.4 постига 75,0% – най-съвременен процент на успеваемост, далеч надхвърлящ този на GPT‑5.2 от 47,3%, и надминавайки човешката производителност при 72,4%.¹

На WebArena-Verified, който тества използването на браузър, GPT‑5.4 постига водеща успеваемост от 67,3% при използване както на взаимодействие, базирано на DOM, така и на взаимодействие, базирано на екранни снимки, в сравнение с 65,4% за GPT‑5.2. В Online-Mind2Web, който също тества използването на браузър, GPT‑5.4 постига 92,8% успеваемост, използвайки само наблюдения, базирани на екранни снимки, като прави подобрение спрямо агентен режим на ChatGPT Atlas, който постига успеваемост от 70,9%.

Резултатът за интрумент е моментът, когато асистентът изчаква отговори от инструменти. Ако 3 инструмента бъдат заявени паралелно, последвани от още 3 инструмента, заявени паралелно, броят на резултатът би бил 2. Резултатите на инструменти са по-добър прокси показател за забавяне от заявките за инструменти, защото отразяват ползите от успоредна работа.

GPT‑5.4 интерпретира екранни снимки на интерфейс на браузър и взаимодейства с елементи на потребителския интерфейс чрез кликване, базирано на координати, за да изпраща имейли и да насрочва събитие в календара.

Подобреното умения на GPT‑5.4 за използване на компютър са изградени върху подобрените общи възможности на модела за визуално възприятие. На MMMU-Pro, тест за визуалното разбиране и структурирано анализиране на един модел, GPT‑5.4 постига 81,2% успеваемост без употреба на инструменти – подобрение спрямо това на GPT‑5.2 от 79,5%. Подобреното визуално възприятие се изразява и в по-добри възможности за анализ на документи. В OmniDocBench, без усилие за структурирано анализиране, GPT‑5.4 постига средна грешка (измерено чрез нормализирано разстояние за редакция между прогнозата на модела и истинската стойност) от 0.109, подобрена спрямо 0.140 на GPT‑5.2.

MMMUPro беше изпълнен с усилие за структурирано анализиране, зададено на xhigh. OmniDocBench беше изпълнено с усилие за структурирано анализиране, зададено на none, за да отрази нискобюджетна производителност с ниска латентност.

Също така подобряваме визуалното разбиране за плътни изображения с висока разделителна способност, при които пълната достоверност е от значение. Започвайки с GPT‑5.4, въвеждаме ниво за входяща детайлност⁠(отваря се в нов прозорец) на оригиналното изображение, което поддържа възприятие с пълна достоверност до общо 10,24 мил. пиксела или максимално измерение от 6000 пиксела, което от двете е по-ниско; нивото за висока детайлност на входящото изображение вече поддържа до общо 2,56 мил. пиксела или максимално измерение от 2048 пиксела. При ранно тестване с потребители на API наблюдавахме значителни подобрения в способността за локализация, разбирането на изображения и точността на кликванията при използване на оригинална или висока детайлност.

„В нашите оценки, измерващи производителността при използване на компютър в около 30 хил. портала за HOA и данък върху имотите, GPT-5.4 постигна 95% успеваемост от първия опит и 100% в рамките на три опита, в сравнение с около 73 – 79% при предишни CUA модели. Освен това завършваше сесиите около 3 пъти по-бързо, като използваше около 70% по-малко токени, което съществено подобрява надеждността и разходната ефективност в мащаб.“

— Дод Фрейзър, главен изпълнителен директор на Mainstay

В API разработчиците могат да получат достъп до тези възможности, използвайки актуализирания компютърен инструмент. Моля, вижте нашата актуализирана документация⁠(отваря се в нов прозорец) за най-добрите препоръчителни практики.

Програмиране

GPT‑5.4 съчетава силните страни на GPT‑5.3‑Codex в кодирането с водещи възможности за интелектуален труд и използване на компютър, които са най-важни при по-дългосрочни задачи, при които моделът може да използва инструменти, да прави итерации и да придвижва работата напред с по-малко ръчна намеса. Той е наравно с GPT‑5.3‑Codex или го превъзхожда на SWE-Bench Pro, като същевременно има по-ниско забавяне при различни нива на структурирано анализиране.

Оценяваме забавянето, като разглеждаме поведението на нашите модели в производствена среда и го симулираме офлайн. Оценката за забавянето отчита продължителността на заявката на инструмента (време за изпълнение на кода), извадените токени и входящите токени. Забавянето в реални случаи може да варира значително и зависи от много фактори, които не са обхванати в нашата симулация. Усилията за структурирано анализиране бяха повишени от нулеви (none) до много високи (xhigh).

Когато е включен, /fast mode в Codex осигурява до 1,5 пъти по-висока скорост на токените с GPT‑5.4. Това е същият модел и същият интелект, просто по-бърз. Това означава, че потребителите могат да преминават през задачи по кодиране, итерации и отстраняване на грешки, като същевременно поддържат темпото. Разработчиците могат да получат достъп до GPT‑5.4 със същите бързи скорости чрез API, като използват приоритетна обработка⁠(отваря се в нов прозорец).

При оценка и вътрешни тестове установихме, че GPT‑5.4 се отличава при сложни фронтенд задачи, с осезаемо по-естетични и по-функционални резултати от всички модели, които сме пускали досега.

Като демонстрация на подобрените възможности на модела за използване на компютър и кодиране, работещи в тандем, също така пускаме експериментално умение Codex, наречено „Playwright (Interactive)⁠(отваря се в нов прозорец)“. Това позволява на Codex визуално да отстранява грешки в приложения в мрежата и в Electron; може дори да се използва за тестване на приложение, което изгражда, в процеса на изграждането му.

Симулационна игра за увеселителен парк, създадена с GPT‑5.4 от една единствена леко специфицирана подкана, използвайки Playwright Interactive за плейтестинг в браузъра и генериране на изображение за изометричния набор от ресурси. Симулацията включва поставяне на пътеки върху плочки, изграждане на атракциони и декори, намиране на път от посетителите, редене на опашки и редуване на атракционите, докато паркови показатели като пари, брой посетители, щастие, чистота и рейтинг се повишават или понижават в зависимост от това как се представя парка и как посетителите реагират на него. Playwright беше използван за автоматизиране на браузърни плейтестове чрез изграждане и разширяване на парка, поставяне и премахване на пътеки и атракциони, проверка на навигацията на камерата и потвърждаване, че гостите, опашките, състоянията на атракциите и показателите на потребителския интерфейс се актуализират правилно в рамките на няколко рунда на играта.

Подкана: Използвай $playwright-interactive и $imagegen. Създай интерактивна изометрична симулационна игра за увеселителен парк, която мога да изграждам и да навигирам в браузъра. Използвай imagegen, за да зададеш цялостната визуална визия и да генерираш ресурсите на играта, включително атракциони, алеи, терен, дървета, вода, щандове за храна, декорации, сгради, икони и илюстрации за потребителския интерфейс. Светът трябва да се усеща цялостен, изпипан и визуално богат, с превъзходна арт режисура, която работи добре от изометрична перспектива. Позволи ми да поставям и премахвам алеи, да добавям атракции, да позиционирам декори и да се придвижвам плавно из парка, като наблюдавам активността на посетителите, статуса на атракционите и растежа на парка. Включи правдоподобно движение на посетителите, прости системи за управление на парка като пари, чистота, опашки и щастие, и направи изживяването да се усеща игриво, ясно и завършено, а не като груб прототип. Дай приоритет на чара, четимостта и силното усещане от играта пред реализма.

Когато тестваш играта, не забравяй да изградиш и разшириш парка през няколко рунда игра, да провериш, че разполагането и навигацията работят плавно, да потвърдиш, че гостите реагират на оформлението на парка и атракциите, и да се увериш, че визуализациите, потребителския интерфейс и взаимодействията изглеждат стабилни и последователни.

„Нашите инженери намират GPT-5.4 за по-естествен и по-уверен от предишните модели . Той се справя с нееднозначни проблеми, без да се съмнява в себе си, и проактивно изпълнява паралелни задачи, за да поддържа работата в движение.”

– Лий Робинсън, вицепрезидент по обучението на разработчици в Cursor

Използване на инструменти

При GPT‑5.4 значително подобрихме начина, по който моделите работят с външни инструменти. Агентите вече могат да работят в по-големи екосистеми от инструменти, да избират правилните инструменти по-надеждно и да изпълняват многоетапни работни процеси с по-ниска цена и по-малко забавяне.

Търсене на инструменти

В API, GPT‑5.4 въвежда търсене на инструменти⁠(отваря се в нов прозорец), което позволява на моделите да работят ефективно, когато им се предоставят много инструменти.

Преди, когато на модел се предоставяха инструменти, всички дефиниции на инструменти бяха включени в подкана предварително. За системи с много инструменти това може да добави хиляди – или дори десетки хиляди – токени към всяка заявка, като увеличи разходите, забави отговорите и претовари контекста с информация, която моделът може никога да не използва.

При търсене на инструменти GPT‑5.4 вместо това получава олекотен списък с налични инструменти заедно с възможност за търсене на инструменти. Когато моделът трябва да използва инструмент, той може да потърси дефиницията на този инструмент и да я добави към разговора в този момент.

Този подход драстично намалява броя на токените, необходими за работни процеси с много инструменти, и запазва кеша, като прави заявките по-бързи и по-евтини. Това също така позволява на агентите да работят надеждно с много по-големи екосистеми от инструменти. За MCP сървъри, които може да съдържат десетки хиляди токени с дефиниции на инструменти, повишаването на ефективността може да бъде значително.

За да демонстрираме повишаването на ефективността, оценихме 250 задачи от еталона MCP Atlas⁠(отваря се в нов прозорец) на Scale с активирани всички 36 MCP сървъра в два режима: (1) излагане на всяка MCP функция директно в контекста на модела и (2) поставяне на всички MCP сървъри в режим на търсене на инструменти. Конфигурацията за търсене на инструменти намали общото използване на токени с 47%, като същевременно постигна същата точност.

Примерните бройки токени са изчислени чрез осредняване на 250 задачи в публичния набор от данни MCP-Atlas.

Агентна заявка за инструмент

GPT‑5.4 също така подобрява заявките за инструменти, като го прави по-точни и по-ефективни при решаването кога и как да използва инструменти по време на структурирано анализиране, особено в API. В сравнение с GPT‑5.2, той постига по-висока точност с по-малко на брой ходове на Toolathlon, еталон, който тества колко добре ИИ агентите могат да използват инструменти и API от реалния свят, за да изпълняват многоетапни задачи. Например агентът трябва да чете имейли, да извлича прикачени файлове за задания, да ги качва, да ги оценява и да записва резултатите в електронна таблица.

За чувствителни към забавяне случаи на употреба, при които се предпочита „Нулево“ усилие за структурирано анализиране, GPT‑5.4 отбелязва допълнително подобрение спрямо своите предшественици.

В τ2-bench⁠⁠(отваря се в нов прозорец), моделът трябва да използва инструменти, за да изпълни задача за обслужване на клиенти, където може да има симулиран потребител, който може да общува и да предприема действия по отношение на състоянието на света. Усилието за структурирано анализиране беше зададено на нулево (None).

Подобрено търсене в мрежата

GPT‑5.4 е по-добър в агентното търсене в мрежата. В BrowseComp измерване на това колко добре интелигентните агенти могат да сърфират в мрежата без прекъсване, за да намират трудна за откриване информация, GPT‑5.4 показва 17% _{абсолютно подобрение} в сравнение с GPT‑5.2, а GPT‑5.4 Pro поставя нов стандарт от 89,3%.

На практика това означава, че GPT‑5.4 Thinking е по-силен при отговаряне на въпроси, които изискват събиране на информация от много източници в интернет. Той може по-упорито да търси в рамките на множество кръгове, за да идентифицира най-уместните източници, особено при въпроси тип „игла в копа сено“, и да ги синтезира в ясен, добре обоснован отговор.

В BrowseComp използвахме списък за блокиране при търсене, който изключва уебсайтове от оценяването, съдържащи отговори на еталона, за да предотвратим компрометиране и да осигурим справедлива мярка за ефективност. GPT‑5.4 беше измерен на по-късна дата от GPT‑5.2, така че резултатите да отразяват промените в модела, нашата система за търсене и състоянието на интернет. GPT‑5.4 беше тестван с по-дълъг, актуализиран списък за блокиране. Моделите използват инструмента за търсене на ChatGPT, който може да се различава леко спрямо търсенето в API.

„GPT-5.4 xhigh е новото съвременно ниво за многоетапно използване на инструменти. Zapier провежда някои от най-строгите еталони за използване на инструменти в индустрията, като тества модели в стотици напреднали работни процеси от реалния свят. GPT-5.4 завърши работата там, където предишните модели се отказаха – най-упоритият модел до момента.”

— Уейд, главен изпълнителен директор на Zapier

Управляемост

По същия начин, както Codex очертава своя подход при започване на работа, GPT‑5.4 Thinking на ChatGPT вече ще обобщава работата си с увод за по-дълги и сложни заявки. Можете също така да добавите указания или да коригирате посоката му по средата на отговора. Това улеснява напътстването на модела към желания резултат, без да започвате отначало или да са необходими допълнителни стъпки. Тази функция е достъпна сега на chatgpt.com⁠(отваря се в нов прозорец) и в приложението за Android, а скоро ще бъде налична и в приложението за iOS.

Моделът може също така да мисли по-дълго върху трудни задачи, като същевременно запазва по-силна осъзнатост за по-ранните стъпки в разговора. Това му позволява да се справя с по-дълги работни потоци и по-сложни подкани, като същевременно запазва отговорите последователни и уместни през цялото време.

Това видео е ускорено с илюстративна цел.

Безопасност

През последните месеци продължихме да подобряваме предпазните мерки, които въведохме с GPT‑5.3‑Codex, като същевременно подготвяхме GPT‑5.4 за внедряване. Подобно на GPT‑5.3‑Codex, ние третираме GPT‑5.4 като висока киберспособност в рамките на нашата Рамка за готовност и го внедряваме със съответните защити, както е документирано в картата на системата⁠. Тези защити включват разширен стек за киберсигурност, включително системи за мониторинг, контроли за доверен достъп и асинхронно блокиране на заявки с по-висок риск за клиенти на повърхности с нулево задържане на данни (ZDR), наред с текущи инвестиции в по-широката екосистема за сигурност.

Тъй като способностите за киберсигурност по своята същност са с двойна употреба, имаме предпазлив подход към внедряването, като същевременно продължаваме да калибрираме нашите политики и класификатори. За определени клиенти на ZDR повърхности, блокирането на ниво заявка остава част от нашия набор от мерки за смекчаване на киберриска. Тъй като класификаторите все още се подобряват, е възможно да възникнат някои фалшиви положителни резултати, докато продължаваме да усъвършенстваме тези предпазни мерки. Тези актуализации имат за цел да подобрят начина, по който предпазните мерки работят на практика, включително да намалят ненужните откази и прекалено обременените с уговорки отговори, като същевременно запазят силните защити срещу злоупотреба.

Продължихме нашите проучвания относно безопасността при наблюдаемостта на логическо мислене (CoT), за да разберем по-добре как моделите разсъждават и да помогнем за откриването на потенциално неправомерно поведение. Като част от тази работа представяме нова оценка с отворен код, управляемост на логическо мислене⁠, която измерва дали моделите могат умишлено да замъгляват своето структурирано анализиране, за да избегнат наблюдение. Установяваме, че способността на GPT‑5.4 Thinking да контролира своето логическо мислене е ниска, което е положително за безопасността, и което предполага, че моделът няма способността да скрива своето структурирано анализиране и че наблюдението на логическото мислене остава ефективен инструмент за безопасност.

Наличност и ценообразуване

GPT‑5.4 започва да се разпространява постепенно днес в ChatGPT и Codex. В API, GPT‑5.4 вече е наличен като gpt-5.4. GPT‑5.4 Pro е наличен и в API като gpt-5.4-pro за разработчици, които се нуждаят от максимална производителност при най-сложните задачи.

В ChatGPT, GPT‑5.4 Thinking е наличен от днес за потребителите на ChatGPT Plus, Team и Pro, като заменя GPT‑5.2 Thinking. GPT‑5.2 Thinking ще остане достъпен за платените потребители за три месеца в опцията за избор на модел в секцията за стари модели, след което ще прекратим поддръжката му на 5 юни 2026 г. Потребителите с планове Enterprise и Edu могат да активират ранен достъп чрез администраторските настройки. GPT‑5.4 Pro е наличен за плановете Pro и Enterprise. Контекстни прозорци⁠(отваря се в нов прозорец) в ChatGPT за GPT‑5.4 Thinking остават непроменени от GPT‑5.2 Thinking.

GPT‑5.4 е нашият първи основен модел със структурирано анализиране, който включва авангардните възможности за кодиране на GPT‑5.3‑codex и който се разпространява в ChatGPT, API и Codex. Наричаме го GPT‑5.4, за да отразим този скок и да опростим избора между модели при използване на Codex. С течение на времето можете да очаквате нашите модели Instant и Thinking да се развиват с различна скорост.

GPT‑5.4 в Codex включва експериментална поддръжка за контекстен прозорец от 1 мил. Разработчиците могат да изпробват това, като конфигурират model_context_window и model_auto_compact_token_limit. Заявките, които надвишават стандартния контекстуален прозорец от 272 хил., се отчитат към ограниченията на използването с 2 пъти по-висока от нормалната ставка.

В API GPT‑5.4 е с по-висока цена на токен в сравнение с GPT‑5.2, за да отрази подобрените си възможности, докато по-голямата му ефективност на токените помага да се намали общият брой токени, необходими за много задачи. Ценообразуването за Batch и Flex е налично на половината от стандартната тарифа за API, докато приоритетната обработка е налична на два пъти стандартната тарифа за API.

Модел API	Цена за входящи данни	Цена за кеширани входящи данни	Цена за изходящи данни
gpt-5.2	$1,75 / мил. токени	0,175 USD / мил. токени	$14 / мил. токени
gpt-5.4	$2,50 / мил. токени	$0,25 / мил. токени	$15 / мил. токени
gpt-5.2-pro	$21 / мил. токени	-	$168 / мил. токени
gpt-5.4-pro	$30 / мил. токени	-	$180 / мил. токени

Оценки

Професионално

Оценка	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
GDPval	83,0%	82,0%	70,9%	70,9%	74,1%
FinanceAgent v1.1	56,0%	61,5%	54,0%	59,5%	—
Задачи за моделиране в инвестиционното банкиране (Вътрешни)	87,3%	83,6%	79,3%	68,4%	71,7%
OfficeQA	68,1%	—	65,1%	63,1%	—

Кодиране

Оценка	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
SWE-Bench Pro (публично)	57,7%	—	56,8%	55,6%	—
Terminal-Bench 2.0	75,1%	—	77,3%	62,2%	—

Използване на компютър и зрение

Оценка	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
OSWorld-Verified	75,0%	—	74,0%	47,3%	—
MMMU Pro (без инструменти)	81,2%	—	—	79,5%	—
MMMU Pro (с инструменти)	82,1%	—	—	80,4%	—

Използване на инструменти

Оценка	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
BrowseComp	82,7%	89,3%	77,3%	65,8%	77.9%
MCP Atlas	67,2%	—	—	60,6%	—
Toolathlon	54,6%	—	51,9%	45,7%	—
Tau2-bench Telecom	98,9%	—	—	98,7%	—

Академично

Оценка	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
Авангардни научни изследвания	33,0%	36,7%	—	25,2%	—
FrontierMath ниво 1–3	47,6%	—	—	40,7%	—
FrontierMath ниво 4	27,1%	38,0%	—	18,8%	31,3%
GPQA Diamond	92,8%	94,4%	92,6%	92,4%	93,2%
Последният изпит на човечеството (без инструменти)	39,8%	42,7%	—	34,5%	36,6%
„Последният изпит на човечеството“ (с инструменти)	52,1%	58,7%	—	45,5%	50,0%

Дълъг контекст

Оценка	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
Graphwalks BFS 0K–128K	93,0%	—	—	94.0%	—
Graphwalks BFS 256K–1M	21,4%	—	—	—	—
Graphwalks родители 0–128K (точност)	89,8%	—	—	89,0%	—
Graphwalks родители 256K–1M (точност)	32,4%	—	—	—	—
OpenAI MRCR v2 8-needle 4K–8K	97,3%	—	—	98.2%	—
OpenAI MRCR v2 8-needle 8K–16K	91,4%	—	—	89,3%	—
OpenAI MRCR v2 8-needle 16K–32K	97,2%	—	—	95,3%	—
OpenAI MRCR v2 8-needle 32K–64K	90,5%	—	—	92,0%	—
OpenAI MRCR v2 8-needle 64K–128K	86,0%	—	—	85,6%	—
OpenAI MRCR v2 8-needle 128K–256K	79,3%	—	—	77,0%	—
OpenAI MRCR v2 8-needle 256K–512K	57,5%	—	—	—	—
OpenAI MRCR v2 8-needle 512K–1M	36,6%	—	—	—	—

Абстрактно разсъждаване

Оценка	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
ARC-AGI-1 (Потвърдено)	93,7%	94,5%	—	86,2%	90,5%
ARC-AGI-2 (Потвърдено)	73,3%	83,3%	—	52,9%	54,2% (високо)

Оценки без структурирано анализиране

Оценка	GPT‑5.4 (няма)	GPT‑5.2 (няма)	GPT‑4.1
OmniDocBench (нормализирано разстояние за редакция)	0,109	0,140	—
Tau2-bench Telecom	64,3%	57,2%	43,6%

Оценките бяха направени със структурирано анализиране, зададено на много високо (xhigh), освен ако не е посочено друго. Еталоните бяха проведени в изследователска среда, което може да предостави леко различен резултат в сравнение с производствения ChatGPT в някои случаи.