Přeskoč na hlavní obsah
OpenAI

5. března 2026

ProduktVydání

Představujeme GPT‑5.4

Navrženo pro profesionální práci.

Načítání…

Dnes vydáváme GPT‑5.4 v aplikacích ChatGPT (jako GPT‑5.4 Thinking), API a Codex. Je to náš nejschopnější a nejefektivnější špičkový model pro profesionální práci. Současně vydáváme GPT‑5.4 Pro v ChatGPT a v API pro všechny,kdo chtějí maximální výkon při složitých úlohách.

GPT‑5.4 spojuje to nejlepší z našich nedávných pokroků v uvažování, kódování a agentních pracovních postupech do jednoho průkopnického modelu. Zahrnuje špičkové programovací schopnosti GPT‑5.3‑Codex a zároveň zlepšuje fungování modelu v nástrojích, softwarových prostředích a profesionálních úkolech zahrnujících tabulky, prezentace a dokumenty. Výsledkem je model, který přesně, efektivně a účinně zvládne složitou skutečnou práci a splní tvé požadavky s menším úsilím.

V ChatGPT teď model GPT‑5.4 Thinking předem dokáže poskytnout plán svého přemýšlení, takže můžeš upravit směr během odpovědi, zatímco pracuje, a dosáhnout bez dalších tahů finálního výstupu, který je lépe sladěný s tím, co potřebuješ. Model GPT‑5.4 Thinking také zlepšuje hluboký výzkum webu, zejména u vysoce specifických dotazů, a zároveň lépe udržuje kontext u otázek, které vyžadují delší přemýšlení. Tato vylepšení znamenají kvalitnější odpovědi, které jsou poskytovány rychleji a zůstávají relevantní pro daný úkol.

V Codexu a rozhraní API je GPT‑5.4 prvním námi vydaným univerzálním modelem s nativními, špičkovými dovednostmi práce s počítačem, a umožňuje tak agentům ovládat počítače a provádět složité pracovní postupy napříč aplikacemi. Podporuje až milion 000 tokenů kontextu, a umožňuje tak agentům plánovat, provádět a ověřovat úkoly v dlouhých časových horizontech. GPT‑5.4 také zlepšuje funkčnost modelů v rámci rozsáhlých ekosystémů nástrojů a konektorů díky vyhledávání nástrojů. Agenti tak mohou efektivněji najít a používat správné nástroje, aniž by to ovlivnilo jejich inteligenci. A konečně, GPT‑5.4 je náš dosud nejefektivnější model s uvažováním , který k řešení problémů používá výrazně méně tokenů ve srovnání s GPT‑5.2, což se promítá do nižšího využití tokenů a vyšší rychlosti.

Spolu s pokroky v oblasti obecného uvažování, kódování a odborné práce se znalostmi umožňuje GPT‑5.4 spolehlivější agenty, rychlejší vývojářské pracovní postupy a kvalitnější výstupy v rámci ChatGPT, API a Codex.


GPT‑5.4 

GPT‑5.3‑Codex

GPT‑5.2

GDPval (výhry nebo remízy)

83,0 %

70,9 %

70,9 %

SWE-Bench Pro (veřejná verze)

57,7 %

56,8 %

55,6 %

OSWorld-Verified

75,0 %

74,0 %* 

47,3 %

Toolathlon

54,6 %

51,9 %

46,3 %

BrowseComp

82,7 %

77,3 %

65,8 %

*Dříve uvedeno jako 64,7 %. GPT‑5.3‑Codex dosahuje 74,0 % díky nově zavedenému parametru API, který zachovává původní rozlišení obrázku.

Práce se znalostmi

Na základě obecných schopností GPT‑5.2 uvažovat přináší GPT‑5.4 ještě konzistentnější a propracovanější výsledky při reálných úlohách, na kterých profesionálům záleží.

V rámci hodnocení GDPval, které testuje schopnosti agentů nabídnout dobře specifikovanou práci se znalostmi v rámci 44 povolání, dosahuje GPT‑5.4 nového špičkového výsledku a v 83,0 % srovnání se vyrovná nebo překoná odborníky z praxe. Pro srovnání u GPT‑5.2 to bylo 71,0 % .

V GDPval se modely snaží o dobře specifikovanou práci se znalostmi, která pokrývá 44 povolání z 9 hlavních odvětví přispívajících k HDP USA. Úkoly vyžadují skutečné pracovní produkty, jako jsou prodejní prezentace, účetní tabulky, rozvrhy urgentní péče, výrobní diagramy nebo krátká videa. Hloubka uvažování byla nastavena na xhigh pro GPT‑5.4 a heavy pro GPT‑5.2 (o něco nižší úroveň v ChatGPT).

Zaměřili jsme se zejména na vylepšení schopnosti modelu GPT‑5.4 vytvářet a upravovat tabulky, prezentace a dokumenty. V interním srovnávacím testování modelování tabulek, které by mohl dělat juniorní analytik investičního bankovnictví, dosahuje GPT‑5.4 průměrného skóre 87,5 % (ve srovnání s 68,4 % u GPT‑5.2). V sadě promptů pro hodnocení prezentací lidští hodnotitelé upřednostnili prezentace z GPT‑5.4 v 68,0 % případů před těmi z GPT‑5.2. Důvodem byl lepší vzhled, větší vizuální rozmanitost a efektivnější využití generování obrázků.

Příklad výstupů tabulek z GPT-5.2 a GPT-5.4 vedle sebe

Dokumenty byly vygenerovány s hloubkou uvažování nastavenou na hodnotu xhigh.

Tyto funkce si můžeš vyzkoušet v ChatGPT pomocí GPT‑5.4 Thinking nebo Pro. Pokud jsi zákazníkem Enterprise, doporučujeme používat naše nově vydané pluginy ChatGPT pro Excel a Google Sheets, které jsou součástí OpenAI pro finanční služby a které byly spuštěny také dnes. Také jsme aktualizovali naše dovednosti pro práci s tabulkami a prezentacemi dostupné v Codexu a v rozhraní API.

Aby byl model GPT‑5.4 lepší v reálné práci, zlepšovali jsme i nadále snižování halucinací a chyb. GPT‑5.4 je náš dosud nejfaktičtější model: na sadě deidentifikovaných promptů, u kterých uživatelé označili faktické chyby, je u jednotlivých tvrzení modelu GPT‑5.4 o 33 % menší pravděpodobnost, že budou nepravdivá. U jejích úplných odpovědí je v porovnání s GPT‑5.2 o 18 % menší pravděpodobnost, že budou obsahovat jakékoli chyby.

„GPT-5.4 je nejlepší model, jaký jsme kdy vyzkoušeli. Nyní je na vrcholu žebříčku v našem benchmarku APEX-Agents, který měří výkon modelu při práci v oblasti profesionálních služeb. Vyniká při vytváření dlouhodobých výstupů, jako jsou prezentace, finanční modely a právní analýzy, a poskytuje špičkový výkon, přičemž běží rychleji a za nižší náklady než konkurenční průkopnické modely.“
– Brendan Foody, generální ředitel společnosti Mercor

Používání počítače a počítačové vidění

GPT‑5.4 je náš první univerzální model s nativními schopnostmi používání počítače a představuje významný krok vpřed pro vývojáře i agenty. Je to nejlepší model, který je v současnosti k dispozici pro vývojáře, kteří vytvářejí agenty plnící skutečné úkoly v rámci webů a softwarových systémů.

Navrhli jsme GPT‑5.4 tak, aby byl výkonný napříč širokou škálou úloh souvisejících s používáním počítače. Je vynikající v psaní kódu pro ovládání počítačů pomocí knihoven, jako je Playwright, a také ve vydávání příkazů myši a klávesnice v reakci na snímky obrazovky. Jeho chování lze řídit prostřednictvím zpráv pro vývojáře, což znamená, že vývojáři mohou upravit chování tak, aby vyhovovalo konkrétnímu použití. Vývojáři mohou dokonce zadáním vlastních zásad potvrzování nakonfigurovat bezpečnostní chování modelu tak, aby vyhovovalo různým úrovním tolerance vůči riziku.

Výkon a flexibilita modelu se odrážejí v různých benchmarcích které testují používání počítače v různých prostředích. V OSWorld-Verified, který měří schopnost modelu orientovat se v prostředí pracovní plochy prostřednictvím snímků obrazovky a akcí klávesnice/myši, dosahuje GPT‑5.4 špičkové úspěšnosti 75,0 %, a výrazně tak překračuje 47,3% úspěšnosti modelu GPT‑5.2 a překonává lidský výkon, který je na úrovni 72,4 %.1

V testu WebArena-Verified, který testuje používání prohlížeče, dosahuje GPT‑5.4 špičkové úspěšnosti 67,3 % při použití interakce řízené jak DOM, tak snímky obrazovky, ve srovnání s 65,4 % u GPT‑5.2. Ve srovnávacím hodnocení Online-Mind2Web, které také testuje používání prohlížeče, dosahuje GPT‑5.4 úspěšnosti 92,8 % pouze s využitím pozorování založených na snímcích obrazovky, a zlepšil tak spolehlivost ve srovnán se staršími systémy, jako je režim agenta v ChatGPT Atlas, který dosahuje úspěšnosti 84,0 %.

Předání řízení nástroje nastane, když se pozastaví asistent, aby počkal na výsledky nástrojů. Pokud jsou 3 nástroje volány paralelně a poté jsou paralelně volány další 3 nástroje, počet předání řízení by byl 2. Předání řízení nástrojů jsou lepším proxy ukazatelem latence než volání nástrojů, protože odrážejí přínosy paralelizace.

Vylepšené používání počítače u modelu GPT‑5.4 je postaveno na tom, že má model vylepšené schopnosti obecného vizuálního vnímání. V testu MMMU-Pro, který hodnotí vizuální porozumění a uvažování modelu, dosahuje model GPT‑5.4 81,2 % úspěšnosti bez použití nástrojů, což je zlepšení oproti modelu GPT‑5.2, který dosáhl úspěšnosti 79,5 %. Model při překročení výkonu GPT‑5.2 v tomto benchmarku využívá na uvažování pouze zlomek token. Vylepšené vizuální vnímání se také promítá do lepších schopností analýzy dokumentů. Ve srovnání OmniDocBench dosahuje GPT‑5.4 průměrné chyby (měřené normalizovanou editační vzdáleností mezi predikcí modelu a referenčním řešením) 0,109, což je zlepšení oproti 0,140 v případě GPT‑5.2.

MMMUPro byl spuštěn s hloubkou uvažování nastavenou na xhigh. OmniDocBench byl spuštěn s hloubkou uvažování nastavenou na none tak, aby odrážel nízkonákladový výkon s nízkou latencí.

Zároveň zlepšujeme vizuální porozumění u hustých obrázků s vysokým rozlišením, kde záleží na naprosté vizuální věrnosti. Počínaje modelem GPT‑5.4 zavádíme úroveň vstupních detailů(otevře se v novém okně) původního obrázku, která podporuje vnímání v plné věrnosti až do 10M celkových pixelů nebo rozlišení 6k (podle toho, co je nižší). Vysoká úroveň detailů vstupního obrazu nyní také nativně podporuje hodnotu 2,56 milionů celkových pixelů nebo maximální rozměru 2048 pixelů (podle toho, která hodnota je nižší). Během raných testů s uživateli rozhraní API jsme zaznamenali výrazné zlepšení schopností lokalizace, porozumění obrázkům a přesnosti kliknutí při použití původního nastavení nebo vysokých detailů.

V rozhraní API mají vývojáři přístup k těmto funkcím pomocí aktualizovaného nástroje. Doporučené osvědčené postupy najdeš v naší aktualizované dokumentaci(otevře se v novém okně) .

Programování

GPT‑5.4 kombinuje silné stránky GPT‑5.3‑Codex v kódování se špičkovými schopnostmi práce se znalostmi a používání počítače, které jsou klíčové u dlouhodobějších úloh, kde model může používat nástroje, iterovat a posouvat práci dál s menší potřebou manuálních zásahů. V hodnocení SWE-Bench Pro dosahuje stejného nebo lepšího výkonu než GPT‑5.3‑Codex a zároveň má nižší latenci v rámci různých úrovní uvažování.

Latenci odhadujeme na základě chování našich modelů v produkčním prostředí a jeho simulací offline. Odhad latence zohledňuje dobu trvání volání nástroje (doba provádění kódu), vzorkované tokeny a vstupní tokeny. Latence v reálném světě se může výrazně lišit a závisí na mnoha faktorech, které naše simulace nezachycuje. Hloubka uvažování byla zvýšena z none na xhigh.

Když je režim /fast v Codexu zapnutý, poskytuje až 1,8krát rychlejší výkon v rámci všech podporovaných modelů, včetně GPT‑5.4. Je to stejný model a stejná inteligence, jen rychlejší. To znamená, že uživatelé mohou provádět úkoly kódování, iterací a ladění, aniž by museli opustit plynulý pracovní proces. Vývojáři mohou získat přístup ke GPT‑5.4 se stejnou vysokou rychlostí prostřednictvím rozhraní API s využitím přednostního zpracování(otevře se v novém okně).

Při hodnocení a interním testování jsme zjistili, že GPT‑5.4 vyniká v komplexních frontendových úlohách a má znatelně estetičtější a funkčnějšími výsledky než jakékoli modely, které jsme dříve uvedli na trh.

Jako ukázku souhry vylepšených počítačových a kódovacích schopností modelu vydáváme také experimentální dovednost v Kodexu(otevře se v novém okně) s názvem „Playwright (interaktivní)“. Ta Codexu umožňuje vizuálně ladit webové aplikace a aplikace Electron; lze ji dokonce použít k testování vytvářené během jejího vytváření.

Používání nástrojů

V modelu GPT‑5.4 jsme výrazně zlepšili to, jak modely pracují s externími nástroji. Agenti nyní mohou fungovat v rámci větších nástrojových ekosystémů, spolehlivěji vybírat správné nástroje a dokončovat vícekrokové pracovní postupy s nižšími náklady a latencí.

Vyhledávání nástrojů

Model GPT‑5.4 zavádí v API vyhledávání nástrojů, které umožňuje modelům pracovat efektivně, když mají k dispozici mnoho nástrojů.

Dříve, když model obdržel nástroje, byly všechny definice nástrojů zahrnuty předem do promptu. U systémů s mnoha nástroji to mohlo ke každému požadavku přidat tisíce nebo dokonce desítky tisíc tokenů, zvýšit náklady, zpomalit odpovědi a zahltit kontext informacemi, které model možná nikdy nevyužije.

Díky vyhledávání nástrojů dostane model GPT‑5.4 zjednodušený seznam dostupných nástrojů spolu s možností jejich vyhledávání. Když model potřebuje použít nástroj, může vyhledat jeho definici a v daném okamžiku ho přidat do konverzace.

Tento přístup dramaticky snižuje počet tokenů potřebných pro pracovní postupy náročné na nástroje a zachovává mezipaměť, takže jsou požadavky rychlejší a levnější. Umožňuje také agentům spolehlivě pracovat s mnohem většími nástrojovými ekosystémy. U serverů MCP, které mohou obsahovat desítky tisíc tokenů s definicemi nástrojů, se může jednat o zásadní zvýšení efektivity.

Abychom demonstrovali nárůst efektivity, vyhodnotili jsme 250 úloh z benchmarku Scale’s MCP Atlas(otevře se v novém okně) se všemi 36 servery MCP povolenými ve dvou režimech: (1) vystavení všech funkcí MCP přímo v kontextu modelu a (2) umístění všech serverů MCP za vyhledávání nástrojů. Konfigurace vyhledávání nástrojů snížila při zachování stejné přesnosti celkové využití tokenů o 47 %.

[Graf úspor tokenů]

Dokumentaci k API pro vyhledávání nástrojů najdeš zde.

Agentní volání nástroje

Model GPT‑5.4 také vylepšuje volání nástrojů, díky čemuž je přesnější a efektivnější při rozhodování o tom, kdy a jak nástroje během uvažování používat, zejména v rozhraní API.  Ve srovnání s GPT‑5.2 dosahuje vyšší přesnosti s menším počtem tahů v benchmarku Toolathlon, který testuje, jak dobře dokážou AI agenti používat nástroje a API z reálného světa k dokončení vícekrokových úkolů. Agent například potřebuje číst e-maily, extrahovat přílohy k úkolu, nahrát je, oznámkovat je a zaznamenat výsledky do tabulky.

Předání řízení nástroje nastane, když se pozastaví asistent, aby počkal na výsledky nástrojů. Pokud jsou 3 nástroje volány paralelně a poté jsou paralelně volány další 3 nástroje, počet předání řízení by byl 2. Předání řízení nástrojů jsou lepším proxy ukazatelem latence než volání nástrojů, protože odrážejí přínosy paralelizace.

V případech použití, které jsou citlivé na latenci a kde je preferováno uvažování s hloubkou None, představuje model GPT‑5.4 další zlepšení svých předchůdců.

V benchmarku τ2-bench⁠(otevře se v novém okně) musí model používat nástroje k tomu, aby provedl úkoly zákaznického servisu, ve které se může nacházet simulovaný uživatel, který může komunikovat a provádět reálné akce. Hloubka uvažování bylo nastaveno na None.

Vylepšené webové vyhledávání

Model GPT‑5.4 je lepší v agentním vyhledávání na webu. Ve srovnání BrowseComp, které měří, jak dobře dokážou agenti AI vytrvale procházet web a najít obtížně dohledatelné informace, překonává model GPT‑5.4 model GPT‑5.2 absolutně o 17 % a model GPT‑5.4 Pro dosahuje nové špičkové úrovně 89,3 %.

V praxi to znamená, že GPT‑5.4 Thinking je lepší v odpovídání na otázky, které vyžadují skládání informací dohromady z mnoha zdrojů na webu. Dokáže vytrvaleji vyhledávat napříč více tahy, a tímto způsobem identifikovat nejrelevantnější zdroje, zejména u otázek typu „jehla v kupce sena“, a syntetizovat je do jasné, dobře odůvodněné odpovědi.

V BrowseComp jsme použili seznam blokovaných vyhledávání, který z hodnocení vylučoval webové stránky obsahující benchmarkové odpovědi, abychom zabránili kontaminaci a zajistili spravedlivé měření výkonu. GPT‑5.4 byl měřen později než GPT‑5.2, aby skóre odráželo změny v modelu, našem vyhledávacím systému a stavu internetu. GPT‑5.4 byl testován s delším, aktualizovaným seznamem blokovaných položek. Modely používají nástroj pro vyhledávání ChatGPT, který se může mírně lišit od vyhledávání v API.

Ovladatelnost

Podobně jako Codex nastiňuje svůj přístup na začátku své práce, popisuje nyní i model GPT‑5.4 Thinking v ChatGPT svou práci úvodem u delších a složitějších dotazů. Můžeš také v průběhu přidat pokyny nebo upravit nasměrování odpovědi. Díky tomu je snazší nasměrovat model ke kýženému přesnému výsledku, aniž by bylo nutné začínat znovu a bez potřeby několika dalších kroků. Tato funkce je nyní k dispozici na chatgpt.com(otevře se v novém okně) a v aplikaci pro Android. Brzy bude k dispozici i v aplikaci pro iOS.

Model může také u obtížných úloh přemýšlet déle a zároveň si zachovat silnější povědomí o dřívějších krocích v konverzaci. To mu umožňuje zvládat delší pracovní postupy a složitější prompty a zároveň udržovat odpovědi soudržné a relevantní po celou dobu.

Toto video bylo zrychleno pro ilustrační účely.

Bezpečnost

V posledních měsících jsme i nadále zlepšovali ochranná opatření, která jsme zavedli v modelu GPT‑5.3‑Codex, a zároveň jsme připravovali nasazení modelu GPT‑5.4. Podobně jako u modelu GPT‑5.3‑Codex považujeme GPT‑5.4 v rámci našeho rámce připravenosti za vysoce schopný v oblasti kybernetických schopností a nasazujeme ho s odpovídajícími ochrannými opatřeními, která jsou zdokumentována v kartě systému. Patří sem rozšířený balík kybernetických bezpečnostních opatření, monitorovací systémy, důvěryhodné řízení přístupu a směrování nebo blokování rizikovějších požadavků pro určité zákazníky, spolu s průběžnými investicemi do širšího bezpečnostního ekosystému.

Protože kybernetické bezpečnostní funkce mají ze své podstaty dvojí využití, zachováváme při jejich nasazování preventivní přístup a zároveň neustále kalibrujeme naše zásady a klasifikátory. Pro některé zákazníky zůstává blokování na úrovni požadavků součástí našeho balíčku pro zmírňování kybernetických rizik. Vzhledem k tomu, že klasifikátory se stále vylepšují, může tím, že tyto ochranné prvky dále zdokonalujeme, dojít k falešně pozitivním výsledkům. Cílem těchto aktualizací je zlepšit fungování ochranných opatření v praxi, včetně omezení zbytečných odmítnutí a příliš opatrných odpovědí plných výhrad, a zároveň zachovat silnou ochranu proti zneužití.

Pokračovali jsme v našem výzkumu bezpečnosti monitorovatelnosti myšlenkového řetězce (CoT), abychom lépe pochopili, jak modely uvažují, a pomohli odhalit potenciální nesprávné chování. V rámci této práce představujeme nové open-source hodnocení, ovladatelnost CoT, které měří, zda modely mohou záměrně zamlžovat své uvažování, aby se vyhnuly monitorování. Zjistili jsme, že schopnost modelu GPT‑5.4 Thinking ovládat svůj řetězec myšlenek je nízká, což je z hlediska bezpečnosti pozitivní vlastnost a naznačuje, že model není schopný skrývat své uvažování a že sledování řetězce myšlenek zůstává účinným bezpečnostním nástrojem.

Dostupnost a cenová politika

Model GPT‑5.4 se ode dneška postupně zavádí v ChatGPT a Codexu.  V rozhraní API je nyní GPT‑5.4 k dispozici jako gpt-5.4. Model GPT‑5.4 Pro je také dostupný v rozhraní API jako gpt-5.4-pro pro vývojáře, kteří potřebují maximální výkon při nejsložitějších úkolech.

V ChatGPT je model GPT‑5.4 Thinking od dnešního dne k dispozici uživatelům ChatGPT Plus, Team a Pro. Uživatelé s plány Enterprise a Edu mohou povolit předběžný přístup v nastavení správce. Model GPT‑5.4 Pro je k dispozici v plánech Pro a Enterprise.

GPT‑5.4 je náš první hlavní model s uvažováním, který zahrnuje průkopnické schopnosti kódování modelu gpt-5.3-codex a který se zavádí v rámci ChatGPT, API a Codexu. Nazýváme ho GPT‑5.4, aby to odráželo ten skok a aby se zjednodušila volba mezi modely při používání Codexu. Postupem času lze očekávat, že se naše modely Instant a Thinking budou vyvíjet různou rychlostí.

V rozhraní API je u GPT‑5.4 stanovena vyšší cena za token než u GPT‑5.2 tak, aby odrážela jeho vylepšené schopnosti, zatímco jeho vyšší efektivita tokenů pomáhá snížit celkový počet tokenů potřebných pro mnoho úloh. Ceny pro Batch a Flex jsou k dispozici za polovinu standardní sazby API, zatímco prioritní zpracování je k dispozici za dvojnásobek standardní sazby API.

model API

Vstupní cena

Cena za vstup uložený do mezipaměti

Cena výstupu

gpt-5.2

1,75 USD / milion tokenů

0,175 USD / milion tokenů

14 USD / milion tokenů

gpt-5.4

2,50 USD / milion tokenů

0,25 USD / milion tokenů

15 USD / milion tokenů

gpt-5.2-pro

21 USD / milion tokenů

-

168 USD / milion tokenů

gpt-5.4-pro

30 USD / milion tokenů

-

180 USD / milion tokenů

Hodnocení

Srovnání byla provedena s hloubkou uvažování nastavenou na xhigh (s výjimkou GPT‑5.2 na GDPval). Srovnávací testy byly provedeny ve výzkumném prostředí, které může v některých případech poskytovat mírně odlišné výstupy než ChatGPT v produkčním prostředí.

[tabulka]