Прескокни до главната содржина
OpenAI

Претставување на GPT‑5.4

Дизајнирано за професионална работа

Се вчитува...

Денес, го објавуваме GPT‑5.4 во ChatGPT (како GPT‑5.4 Thinking), API и Codex. Тоа е нашиот најспособен и најефикасен граничен модел за професионална работа. Исто така, го објавуваме GPT‑5.4 Pro во ChatGPT и API, за луѓе кои сакаат максимални перформанси за сложени задачи.

GPT‑5.4 ги обединува најдобрите од нашите неодамнешни напредувања во расудувањето, кодирањето и работни текови на агенти во еден граничен модел. Ги вклучува водечките во индустријата способности за кодирање на GPT‑5.3‑Codex додека го подобрува начинот на кој моделот работи низ алатки, софтверски средини и професионални задачи што вклучуваат табеларни пресметки, презентации и документи. Резултатот е модел што прецизно, ефективно и ефикасно завршува сложена вистинска работа - испорачувајќи го она што го побара со помалку препукувања.

Во ChatGPT, GPT‑5.4 Размислувањето сега може однапред да обезбеди план за своето размислување, за да можете да ја приспособите насоката среде одговорот додека работи, и да стигнете до конечен резултат што е подобро усогласен со вашите потреби без дополнителни кругови. GPT‑5.4 Thinking исто така го подобрува истражувањето на длабокиот веб, особено за многу специфични барања, додека подобро го одржува контекстот за прашања што бараат подолго размислување. Заедно, овие подобрувања значат одговори со повисок квалитет што пристигнуваат побрзо и остануваат релевантни за задачата.

Во Codex и API, GPT‑5.4 е првиот модел за општа намена што сме го објавиле со изворни, најсовремени способности за користење компјутер, овозможувајќи им на агентите да управуваат со компјутери и да извршуваат сложени работни текови низ апликации. Поддржува до 1M токени контекст, овозможувајќи им на агентите да планираат, извршуваат и проверуваат задачи на долги временски хоризонти. GPT‑5.4 исто така го подобрува начинот на кој моделите работат низ големи екосистеми од алатки и конектори со пребарување на алатки, помагајќи им на агентите да ги пронајдат и користат вистинските алатки поефикасно без да се жртвува интелигенцијата. Конечно, GPT‑5.4 е нашиот најефикасен модел за токени со расудување досега, користејќи значително помалку токени за решавање проблеми во споредба со GPT‑5.2‑што се преведува во намалена употреба на токени и поголеми брзини.

Заедно со напредокот во општото расудување, кодирањето и професионалната работа со знаење, GPT‑5.4 овозможува посигурни агенти, побрзи работни текови за програмерите и излези со повисок квалитет преку ChatGPT, API и Codex.


GPT‑5.4 

GPT‑5.3‑Codex

GPT‑5.2

GDPval (победи или нерешени резултати)

83,0 %

70,9%

70,9%

SWE-Bench Pro (Public)

57,7 %

56,8 %

55,6%

OSWorld Verified

75.0%

74,0 %* 

47,3 %

Toolathlon

54,6 %

51,9 %

46.3%

BrowseComp

82,7 %

77,3 %

65,8 %

*Претходно пријавено како 64,7 %. GPT‑5.3‑Codex постигнува 74.0% со новововеден API параметар што ја зачувува оригиналната резолуција на сликата.

Работа со знаење

Надоврзувајќи се на општите способности за расудување на GPT‑5.2, GPT‑5.4 испорачува уште поконзистентни и попрецизирани резултати на задачи во реалноста што им се важни на професионалците.

На GDPval, евалуација која ги тестира способностите на агентите да произведуваат добро специфицирана работа со знаење низ 44 професии, GPT‑5.4 постигнува ново најсовремено достигнување, изедначувајќи се или надминувајќи ги индустриските професионалци во 83.0% од споредбите, во споредба со 71.0% за GPT‑5.2.

Во GDPval, моделите прават обиди со добро дефинирана работа со знаење која опфаќа 44 професии од врвните 9 индустрии кои придонесуваат за БДП на САД. Задачите бараат реални работни производи, како што се продажни презентации, сметководствени табели, распореди за итна медицинска помош, производствени дијаграми или кратки видеа. Напорот за расудување беше поставен на xhigh за GPT‑5.4 и heavy за GPT‑5.2 (на малку пониско ниво во ChatGPT).

„GPT-5.4 е најдобриот модел што некогаш сме го пробале. Сега е на врвот на табелата на лидери на нашиот APEX-Agents репер, кој ја мери изведбата на моделот за работа во професионални услуги. Се истакнува во создавањето испораки со долг временски хоризонт, како што се презентациски слајдови, финансиски модели и правна анализа, обезбедувајќи врвни перформанси додека работи побрзо и со пониска цена од конкурентските гранични модели.
- Брендан Фуди, главен извршен директор во Mercor

Ставивме посебен акцент на подобрување на GPT‑5.4, можност за креирање и уредување електронски табели, презентации и документи. На нашиот интерен репер за задачи за моделирање на електронски табели што би можел да ги извршува помлад аналитичар за инвестициско банкарство, GPT‑5.4 постигнува просечен резултат од 87,5 %, во споредба со 68,4 % за GPT‑5.2. На збир од промптови за евалуација на презентации, човечките оценувачи ги претпочитаа презентациите од GPT‑5.4 68,0 % од времето во однос на оние од GPT‑5.2 поради посилна естетика, поголема визуелна разновидност и поефикасна употреба на генерирање модели.

Паралелен пример на излези од електронска табела од GPT-5.2 наспроти GPT-5.4

Документите беа генерирани со напор за расудување поставен на xhigh

Можете да ги пробате овие можности во ChatGPT користејќи GPT‑5.4 Thinking или Pro. Ако сте Enterprise клиент, препорачуваме да ги користите нашите новообјавени приклучоци ChatGPT за Excel и Google Sheets(се отвора во нов прозорец), кои исто така беа лансирани денес. Исто така, ги ажуриравме нашите вештини за работа со електронски табели(се отвора во нов прозорец) и вештини за презентации(се отвора во нов прозорец) достапни во Codex и во API-то.

За да го направиме GPT‑5.4 подобар во реална работа, продолживме со нашиот напредок во намалувањето на халуцинациите и грешките. GPT‑5.4 е нашиот најфактичен модел досега: на збир од де-идентификувани промптови каде што корисниците означија фактички грешки, поединечните тврдења на GPT‑5.4’s имаат 33% помала веројатност да бидат неточни, а нејзините целосни одговори имаат 18% помала веројатност да содржат какви било грешки, во однос на GPT‑5.2.

“GPT-5.4 поставува нов стандард за правна работа со многу документи. На нашата евалуација BigLaw Bench, постигна 91%. Во споредба со другите модели, GPT-5.4 моментално е подобар во структурирање на сложена трансакциска анализа, одржување точност низ долги договори и испорачување на високото ниво на деталност што го бараат правните практичари.”
- Нико Групен, раководител на применето истражување во Harvey

Користење компјутер и визија

GPT‑5.4 е нашиот прв модел за општа намена со вградени способности за користење на компјутер и претставува голем чекор напред и за програмерите и за агентите. Тоа е најдобриот модел што моментално им е достапен на програмерите кои градат агенти што извршуваат реални задачи низ веб-страници и софтверски системи.

Го дизајниравме GPT‑5.4 да има високи перформанси низ широк спектар на работни оптоварувања за користење на компјутер. Одличен е во пишување код за управување со компјутери преку библиотеки како Playwright, како и во издавање команди за глушец и тастатура како одговор на снимки од екранот. Неговото однесување може да се насочува преку пораки за програмери, што значи дека програмерите можат да го прилагодат однесувањето за да одговара на конкретни случаи на употреба. Програмерите на софтвер можат дури и да го конфигурираат безбедносното однесување на моделот за да одговара на различни нивоа на толеранција на ризик со наведување прилагодени политики за потврда.

Перформансите и флексибилноста на моделот се рефлектираат низ репери што ја тестираат употребата на компјутер во различни поставки. На OSWorld-Verified, што ја мери способноста на еден модел да се движи во десктоп-околина преку слики од екранот и дејства со тастатура/глушец, GPT‑5.4 постигнува најсовремен 75,0% стапка на успешност, далеку надминувајќи ја на GPT‑5.2’s 47,3%, и надминувајќи ги човечките перформанси на 72,4%.1

На WebArena-Verified, кој го тестира користењето на прелистувачот, GPT‑5.4 постигнува водечка стапка на успех од 67,3% кога користи и интеракција водена од DOM и од слики од екранот, во споредба со 65,4% на GPT‑5.2. На Online-Mind2Web, кој исто така ја тестира употребата на прелистувачот, GPT‑5.4 постигнува 92,8 % стапка на успех користејќи само набљудувања базирани на снимки од екранот, подобрувајќи го режимот на агент на ChatGPT Atlas, кој постигнува стапка на успех од 70,9 %.

Повлекување на алатка е кога асистентот се повлекува за да чека одговори од алатките. Ако 3 алатки се повикаат паралелно, по што следуваат уште 3 алатки повикани паралелно, бројот на повлекувања би бил 2. Повлекувањата на алатките се подобар показател за латентност од повиците за алатки бидејќи ги одразуваат придобивките од паралелизацијата.

GPT‑5.4 интерпретира снимки од екранот на интерфејс на прелистувач и комуницира со елементи на корисничкиот интерфејс преку кликање базирано на координати за да испраќа е-пошта и да закаже настан во календар.

Подобреното користење на компјутер на GPT‑5.4 е изградено врз подобрените способности за општа визуелна перцепција на моделот. На MMMU-Pro, тест на визуелното разбирање и расудување на еден модел, GPT‑5.4 постигнува стапка на успех од 81,2% без употреба на алатки, подобрување во однос на GPT‑5.2 со 79,5%. Подобрената визуелна перцепција исто така води до подобри способности за анализирање на документи. На OmniDocBench, GPT‑5.4 без напор за расудување постигнува просечна грешка (мерена со нормализирано растојание на уредување помеѓу предвидувањето на моделот и основната вистина) од 0.109, подобрено од 0.140 на GPT‑5.2.

MMMUPro беше извршен со напор за расудување поставен на xhigh. OmniDocBench беше извршен со напор за расудување поставен на none, за да се одразат перформанси со ниска цена и ниска латентност.

Исто така го подобруваме визуелното разбирање за густи слики со висока резолуција каде што е важна целосната визуелна верност. Почнувајќи од GPT‑5.4, Воведуваме ниво на оригинални влезни детали(се отвора во нов прозорец) на слика кое поддржува перцепција со целосна верност до 10,24 милиони вкупни пиксели или 6000 пиксели максимална димензија, кое и да е пониско; нивото на високи влезни детали на слика сега поддржува до 2,56 милиони вкупни пиксели или 2048 пиксели максимална димензија. За време на раното тестирање со корисници на API, забележавме значителни подобрувања во способноста за локализација, разбирањето на слики и точноста на кликнување при користење на original или high детали.

„Во нашите евалуации што ги мерат перформансите за користење на компјутер низ ~30 илјади HOA и портали за данок на имот, GPT-5.4 постигна 95% стапка на успех при првиот обид и 100% во рамките на три обиди, во споредба со ~73-79% со претходните CUA модели. Исто така, ги заврши сесиите приближно ~3x побрзо, додека користеше приближно ~70% помалку токени, материјално подобрувајќи ја доверливоста и трошочната ефикасност во голем обем."
- Дод Фрејзер, главен извршен директор во Mainstay

Во API, програмерите на софтвер можат да пристапат до овие можности користејќи ја ажурираната компјутерска алатка. Ве молиме погледнете ја нашата ажурирана документација(се отвора во нов прозорец) за препорачани најдобри практики.

Coding

GPT‑5.4 ги комбинира предностите за кодирање на GPT‑5.3‑Codex со водечки способности за работа со знаење и користење на компјутер, кои се најважни за долготрајни задачи каде што моделот може да користи алатки, да повторува и да ја унапредува работата со помалку рачна интервенција. Се совпаѓа или го надминува GPT‑5.3‑Codex на SWE-Bench Pro, притоа обезбедувајќи пониска латентност во процесите на расудување.

Ја проценуваме латентноста со тоа што го разгледуваме продукциското однесување на нашите модели и го симулираме ова офлајн. Проценката на латентноста го зема предвид времетраењето на повикот на алатката (време на извршување на кодот), семплираните токени и влезните токени. Латентноста во реалноста може значително да варира и зависи од многу фактори што не се опфатени во нашата симулација. Напорите за расудување беа префрлени од none на xhigh.

Кога е вклучено, /fast mode во Codex испорачува до 1.5x побрза брзина на токени соGPT‑5.4. Тоа е истиот модел и истата интелигенција, само побрзо. Тоа значи дека корисниците можат да се движат низ задачи за кодирање, итерација и отстранување грешки додека остануваат во тек. Програмерите можат да пристапат до GPT‑5.4 со истите брзи брзини преку API со користење на приоритетна обработка(се отвора во нов прозорец).

Во евалуација и внатрешно тестирање откривме дека GPT‑5.4 се истакнува во сложени frontend задачи, со забележливо поестетски и пофункционални резултати од кој било модел што сме го вовеле претходно.

Како демонстрација на подобрените способности на моделот за користење на компјутер и кодирање што работат во тандем, исто така објавуваме експериментална Codex вештина наречена “Playwright (Interactive)(се отвора во нов прозорец)”. Ова му овозможува на Codex визуелно да отстранува грешки во веб и Electron апликации; може дури и да се користи за тестирање на апликација што ја изработува, додека ја изработува.

Симулациска игра за забавен парк направена со GPT‑5.4 од еден единствен лесно специфициран промпт, користејќи Playwright Interactive за тестирање на играњето во прелистувач и генерирање модели за изометрискиот збир ресурси. Симулацијата вклучува поставување патеки на плочки, изградба на атракции и сценографија, пронаоѓање патеки од страна на гостите, чекање во ред и циклуси на атракциите, додека метриките на паркот како пари, број на гости, среќа, чистота и рејтинг растат или паѓаат врз основа на тоа како се покажува распоредот и како гостите реагираат на него. Playwright се користеше за автоматизирање на тестови во прелистувачот преку градење и проширување на паркот, поставување и отстранување патеки и атракции, проверка на навигацијата на камерата и потврдување дека гостите, редиците, состојбите на возењата и метриките на корисничкиот интерфејс се ажурираа правилно во текот на неколку рунди на играње.

Промпт: Користи $playwright-interactive и $imagegen. Креирај интерактивна изометриска симулациска игра за забавен парк што можам да ја изградам и да се движам низ неа во прелистувачот. Користи imagegen за да ја поставиш целокупната визуелна визија и да ги генерираш ресурсите на играта, вклучувајќи возења, патеки, терен, дрвја, вода, штандови за храна, декорации, згради, икони и UI илустрации. Светот треба да делува кохезивно, исполирано и визуелно богато, со премиум уметничка насока што функционира добро од изометриска перспектива. Дозволи ми да поставувам и отстранувам патеки, да додадам атракции, да позиционирам сценографија и да се движам низ паркот мазно додека ја следам активноста на гостите, статусот на возењата и растот на паркот. Вклучи уверливо движење на гостите, едноставни системи за управување со паркот како пари, чистота, редици и среќа, и направи искуството да делува разиграно, јасно и комплетно наместо како груб прототип. Дај приоритет на шарм, читливост и силно чувство на играта пред реализам. 

Кога правиш тестирање преку играње, погрижи се да изградиш и прошириш парк низ неколку рунди играње, провери дека поставувањето и навигацијата функционираат мазно, потврди дека гостите реагираат на распоредот на паркот и атракциите, и осигури се дека визуелните елементи, интерфејсот и интеракциите делуваат стабилно и кохезивно.

„Нашите инженери сметаат дека GPT-5.4 е поприроден и посигурен од претходните модели. Работи низ двосмислени проблеми без да се преиспитува, и е проактивен во паралелизирањето на работата за да продолжи напред.”
- Ли Робинсон, потпретседател за образование за програмери во Cursor

Употреба на алатки

Со GPT‑5.4, значително го подобривме начинот на кој моделите работат со надворешни алатки. Агентите сега можат да работат низ поголеми екосистеми на алатки, посигурно да ги избираат вистинските алатки и да завршуваат работни процеси во повеќе чекори со пониска цена и латентност.

Пребарување на алатки

Во API, GPT‑5.4 воведува пребарување на алатки(се отвора во нов прозорец), што им овозможува на моделите да работат ефикасно кога им се дадени повеќе алатки.

Претходно, кога на модел му беа дадени алатки, сите дефиниции на алатки беа вклучени во промптот однапред. За системи со многу алатки, ова би можело да додаде илјадници - или дури десетици илјади - токени на секое барање, зголемувајќи ги трошоците, забавувајќи ги одговорите и преполнувајќи го контекстот со информации што моделот можеби никогаш нема да ги користи.

Со пребарување на алатки, GPT‑5.4 наместо тоа добива лесен список на достапни алатки заедно со можност за пребарување на алатки. Кога моделот треба да користи алатка, може да ја побара дефиницијата на таа алатка и да ја додаде во разговорот во тој момент.

Овој пристап драматично го намалува бројот на токени потребни за работни текови со многу алатки и го зачувува кешот, правејќи ги барањата побрзи и поевтини. Исто така, им овозможува на агентите сигурно да работат со многу поголеми екосистеми на алатки. За MCP сервери што може да содржат десетици илјади токени од дефиниции на алатки, добивките во ефикасноста може да бидат значителни.

За да ги демонстрираме придобивките во ефикасноста, оценивме 250 задачи од Scale’s MCP Atlas(се отвора во нов прозорец) репер со сите 36 MCP сервери овозможени во два режима: (1) изложување на секоја MCP функција директно во контекстот на моделот, и (2) поставување на сите MCP сервери зад пребарување на алатки. Конфигурацијата за пребарување на алатки ја намали вкупната употреба на токени за 47 %, додека ја постигна истата точност.

Примерните броеви на токени доаѓаат од просек од 250 задачи во јавниот датасет MCP-Atlas.

Агентско повикување алатки

GPT‑5.4 исто така го подобрува повикувањето на алатки, правејќи го попрецизно и поефикасно кога одлучува кога и како да користи алатки за време на расудување, особено во API.  Во споредба со GPT‑5.2, постигнува повисока точност во помалку чекори на Toolathlon, репер што тестира колку добро агентите со вештачка интелигенција можат да користат алатки и API од реалноста за да завршат повеќечекорни задачи. На пример, на еден агент му треба да чита е-пошта, да ги извлекува прилозите од задачите, да ги поставува, да ги оценува и да ги евидентира резултатите во електронска табела.

Повлекување на алатка е кога асистентот се повлекува за да чека одговори од алатките. Ако 3 алатки се повикаат паралелно, по што следуваат уште 3 алатки повикани паралелно, бројот на повлекувања би бил 2. Повлекувањата на алатките се подобар показател за латентност од повиците за алатки бидејќи ги одразуваат придобивките од паралелизацијата.

За случаи на употреба чувствителни на латентност каде што се претпочита напор за расудување од None, GPT‑5.4 дополнително се подобрува во однос на своите претходници.

Во τ2-bench⁠(се отвора во нов прозорец), моделот мора да користи алатки за да изврши задача за корисничка поддршка, каде што може да има симулиран корисник кој може да комуницира и да презема дејства врз состојбата на светот. Напорот за расудување беше поставен на None.

Подобрено пребарување на интернет

GPT‑5.4 е подобар во агентското веб пребарување. На BrowseComp, мерка за тоа колку добро AI агентите можат упорно да го пребаруваат вебот за да пронајдат тешко достапни информации, GPT‑5.4 скокнува за 17%abs над GPT‑5.2, и GPT‑5.4 Pro поставува нов најсовремен репер од 89.3%.

Во практика, ова значи GPT‑5.4 Thinking е посилен во одговарање на прашања што бараат собирање информации од многу извори на интернет. Може поупорно да пребарува низ повеќе рунди за да ги идентификува најрелевантните извори, особено за прашања од типот “needle-in-a-haystack”, и да ги синтетизира во јасен, добро образложен одговор.

Во BrowseComp, користевме блок-листа за пребарување што исклучува веб-страници што содржат одговори од реперот од евалуацијата за да спречиме контаминација и да обезбедиме фер мерка на перформансите. GPT‑5.4 беше измерен на подоцнежен датум од GPT‑5.2, така што оценките ги одразуваат промените во моделот, нашиот систем за пребарување и состојбата на интернетот. GPT‑5.4 беше тестиран со подолга, ажурирана блок-листа. Моделите ја користат алатката за пребарување на ChatGPT, која може да има мали разлики во однос на API пребарувањето.

“GPT-5.4 xhigh е нова најсовремена состојба за повеќечекорно користење алатки. Zapier спроведува некои од најригорозните репери за користење алатки во индустријата, тестирајќи модели низ стотици напредни работни процеси од реалниот свет. GPT-5.4 ја заврши работата таму каде што претходните модели се откажаа - најупорниот модел досега.”
- Вејд, главен извршен директор на Zapier

Управувачка способност

Слично на тоа како Codex го опишува својот пристап кога почнува да работи, GPT‑5.4 Размислувањето во ChatGPT сега ќе ја опишува својата работа со вовед за подолги, посложени барања. Можете исто така да додадете упатства или да ја приспособите неговата насока среде одговор. Ова го олеснува насочувањето на моделот кон точниот исход што го сакате без да почнувате одново или да барате повеќе дополнителни кругови. Оваа функција е достапна сега на chatgpt.com(се отвора во нов прозорец) и во апликацијата за Android, а наскоро ќе биде достапна и во апликацијата за iOS.

Моделот може и да размислува подолго за тешки задачи, додека одржува посилна свесност за претходните чекори во разговорот. Ова му овозможува да ракува со подолги работни процеси и посложени промптови, притоа одржувајќи ги одговорите кохерентни и релевантни во текот на целиот процес.

Ова видео е забрзано за илустративни цели.

Безбедност

Во последните месеци, продолживме да ги подобруваме заштитните мерки што ги воведовме со GPT‑5.3‑Codex, додека го подготвувавме GPT‑5.4 за пуштање во употреба. Слично на GPT‑5.3‑Codex, го третираме GPT‑5.4 како висока сајберспособност според нашата Рамка за подготвеност, и го распоредуваме со соодветните заштитни мерки како што е документирано во системска картичка. Тие вклучуваат проширен пакет сајбер безбедносни мерки, вклучувајќи системи за следење, доверливи контроли на пристап и асинхроно блокирање за барања со повисок ризик за клиенти на површини со нула задржување на податоци (ZDR), заедно со континуирани инвестиции во поширокиот безбедносен екосистем.

Бидејќи способностите за сајбербезбедност по својата природа се со двојна употреба, ние одржуваме претпазлив пристап кон распоредувањето, додека продолжуваме да ги прилагодуваме нашите политики и класификатори. За одредени клиенти на ZDR површини, блокирањето на ниво на барање останува дел од нашиот пакет мерки за ублажување на сајбер ризик; бидејќи класификаторите сè уште се подобруваат, може да се појават некои лажни позитиви додека продолжуваме да ги усовршуваме овие заштитни мерки. Овие ажурирања имаат за цел да го подобрат начинот на кој заштитните мерки функционираат во практика, вклучително и намалување на непотребните одбивања и претерано оградените одговори, додека се зачувуваат силни заштити против злоупотреба.

Продолживме со нашето истражување за безбедноста на можноста за следење на синџир на размислување (CoT) за подобро да разбереме како расудуваат моделите и да помогнеме да се открие потенцијално неправилно однесување. Како дел од оваа работа, воведуваме нова евалуација со отворен код, контролабилност на CoT, која мери дали моделите можат намерно да го затскријат своето расудување за да избегнат следење. Сметаме дека GPT‑5.4 Способноста на Thinking да го контролира својот CoT е ниска, што е позитивно својство за безбедност, што сугерира дека моделот нема способност да го скрие своето расудување и дека следењето со CoT останува ефикасна алатка за безбедност.

Достапност и цени

GPT‑5.4 се воведува постепено денес низ ChatGPT и Codex. Во API, GPT‑5.4 е достапен сега како gpt-5.4. GPT‑5.4 Pro е исто така достапен во API како gpt-5.4-pro за програмери на софтвер на кои им се потребни максимални перформанси за најсложените задачи.

Во ChatGPT, GPT‑5.4 Thinking е достапно од денес за корисниците на ChatGPT Plus, Team и Pro, заменувајќи го GPT‑5.2 Thinking. GPT‑5.2 Thinking ќе остане достапен за платени корисници три месеци во избирачот на моделот под делот Стари модели, по што ќе биде укинат на 5 јуни 2026 г. Оние на Enterprise и Edu плановите можат да овозможат ран пристап преку администраторските поставки. GPT‑5.4 Pro е достапен за плановите Pro и Enterprise. Контекстни прозорци(се отвора во нов прозорец) во ChatGPT за GPT‑5.4 Размислувањето останува непроменето од GPT‑5.2 Thinking.

GPT‑5.4 е нашиот прв главен модел со расудување што ги вклучува гранични способности за кодирање на GPT‑5.3‑codex и тоа се воведува низ ChatGPT, API и Codex. Го нарекуваме GPT‑5.4 за да го одразиме тој скок и за да го поедноставиме изборот помеѓу моделите при користење на Codex. Со текот на времето, можете да очекувате нашите Instant модели и Thinking модели да се развиваат со различна брзина.

GPT‑5.4 во Codex вклучува експериментална поддршка за контекстниот прозорец од 1 милион. Програмерите на софтвер можат да го пробаат ова со конфигурирање на model_context_window и model_auto_compact_token_limit. Барањата што го надминуваат стандардниот контекстуален прозорец од 272 илјади се сметаат кон ограничувањата за користење со 2x од нормалната стапка.

Во API, GPT‑5.4 е ценет повисоко по токен од GPT‑5.2 за да се одразат неговите подобрени можности, додека неговата поголема ефикасност на токените помага да се намали вкупниот број на токени потребни за многу задачи. Цените за Batch и Flex се достапни по половина од стандардната API тарифа, додека Приоритетната обработка е достапна по двојно од стандардната API тарифа.

API модел

Цена за внесување

Цена за кеширан влез

Цена за резултат

gpt-5.2

$1.75 / M токени

$0.175 / M токени

$14 / M токени

gpt-5.4

$2.50 / M токени

$0.25 / M токени

$15 / M токени

gpt-5.2-pro

$21 / M токени

-

$168 / M токени

gpt-5.4-pro

$30 / M токени

-

$180 / M токени

Проценки

Професионално

Проценка

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3-Codex

GPT‑5.2

GPT‑5.2
Pro

GDPval

83,0 %

82,0 %

70,9%

70,9%

74,1 %

FinanceAgent v1.1

56,0%

61,5%

54,0 %

59,5%

Задачи за моделирање за инвестициско банкарство (Интерно)

87,3%

83,6 %

79,3%

68,4%

71,7%

OfficeQA

68,1 %

65,1 %

63,1 %

Coding

Проценка

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3-Codex

GPT‑5.2

GPT‑5.2
Pro

SWE-Bench Pro (Public)

57,7 %

56,8 %

55,6%

Terminal-Bench 2.0

75,1%

77,3 %

62,2 %

Користење компјутер и визија

Проценка

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3-Codex

GPT‑5.2

GPT‑5.2
Pro

OSWorld Verified

75.0%

74,0 %

47,3 %

MMMU Pro (без алатки)

81,2 %

79,5%

MMMU Pro (со алатки)

82,1 %

80,4%

Употреба на алатки

Проценка

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3-Codex

GPT‑5.2

GPT‑5.2
Pro

BrowseComp

82,7 %

89,3%

77,3 %

65,8 %

77,9%

MCP Atlas

67,2 %

60,6%

Toolathlon

54,6 %

51,9 %

45,7 %

Tau2-bench Telecom

98,9%

98,7 %

Академско

Проценка

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3-Codex

GPT‑5.2

GPT‑5.2
Pro

Гранични научни истражувања

33,0 %

36,7%

25,2 %

FrontierMath Ниво 1-3

47,6 %

40,7%

FrontierMath Ниво 4

27,1 %

38,0%

18,8 %

31,3 %

GPQA Diamond

92,8%

94,4 %

92,6 %

92,4%

93,2%

Последниот испит на човештвото (без алатки)

39,8 %

42,7 %

34,5 %

36,6 %

Последниот испит на човештвото (со алатки)

52,1%

58,7 %

45,5 %

50,0 %

Долг контекст

Проценка

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3-Codex

GPT‑5.2

GPT‑5.2
Pro

Graphwalks BFS 0-128 илјади

93,0 %

94.0%

Graphwalks BFS 256 илјади - 1 милион

21,4%

Graphwalks родители 0 - 128 илјади (точност)

89,8%

89,0%

Graphwalks родители 256 илјади - 1 милион (точност)

32,4 %

OpenAI MRCR v2 8-игли 4 - 8 илјади

97,3%

98,2 %

OpenAI MRCR v2 8-игли 8 - 16 илјади

91,4 %

89,3%

OpenAI MRCR v2 8 игли 16 - 32 илјади

97,2 %

95,3 %

OpenAI MRCR v2 8 игли 32 - 64 илјади

90,5 %

92,0 %

OpenAI MRCR v2 8-игли 64 - 128 илјади

86,0 %

85,6 %

OpenAI MRCR v2 8 игли 128 - 256 илјади

79,3%

77,0 %

OpenAI MRCR v2 8-игли 256 - 512 илјади

57,5 %

OpenAI MRCR v2 8 игли 512 илјади - 1 милион

36,6 %

Апстрактно расудување

Проценка

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3-Codex

GPT‑5.2

GPT‑5.2
Pro

ARC-AGI-1 (потврдено)

93,7 %

94,5 %

86,2%

90,5 %

ARC-AGI-2 (потврдено)

73,3 %

83,3 %

52,9%

54,2 % (високо)

Проценки без расудување

Проценка

GPT‑5.4
(нема)

GPT‑5.2
(none)

GPT‑4.1

OmniDocBench (нормализирано растојание на уредување)

0,109

0,140

Tau2-bench Telecom

64,3 %

57,2 %

43,6 %

Евалуациите беа извршени со напор за расудување поставен на xhigh, освен каде што е поинаку наведено. Реперите беа спроведени во истражувачка средина, што може да даде малку поинаков резултат од производната верзија на ChatGPT во некои случаи.

Автор

OpenAI