Preskočiť na hlavný obsah
OpenAI

5. marca 2026

ProduktVydanie

Predstavujeme GPT‑5.4

Navrhnuté pre profesionálnu prácu

Načítava sa…

Dnes uvádzame GPT‑5.4 v ChatGPT (ako GPT‑5.4 Thinking), API a Codex. Je to náš najschopnejší a najefektívnejší prelomový model na profesionálnu prácu. Zároveň uvádzame GPT‑5.4 Pro v ChatGPT a v API pre ľudí, ktorí chcú maximálny výkon pri komplexných úlohách.

GPT‑5.4 spája to najlepšie z našich nedávnych pokrokov v uvažovaní, kódovaní a agentických pracovných postupoch do jedného prelomového modelu. Zahŕňa špičkové možnosti kódovania v odvetví v GPT‑5.3‑Codex a zároveň zlepšuje fungovanie modelu naprieč nástrojmi, softvérovými prostrediami a profesionálnymi úlohami zahŕňajúcimi tabuľky, prezentácie a dokumenty. Výsledkom je model, ktorý presne, účinne a efektívne zvláda komplexnú skutočnú prácu a dodáva to, o čo ste požiadali, s menším množstvom dohadovania.

V ChatGPT, GPT‑5.4 Thinking teraz dokáže vopred poskytnúť plán svojho premýšľania, takže môžeš upraviť smer uprostred odpovede počas toho, ako pracuje, a dospieť k finálnemu výstupu, ktorý je bližšie zosúladený s tým, čo potrebuješ, bez ďalších kôl. GPT‑5.4 Thinking tiež zlepšuje výskum na hlbokom webe, najmä pri veľmi špecifických dotazoch, pričom lepšie udržiava kontext pri otázkach, ktoré si vyžadujú dlhšie premýšľanie. Tieto vylepšenia spolu znamenajú kvalitnejšie odpovede, ktoré prichádzajú rýchlejšie a zostávajú relevantné pre danú úlohu.

V Codexe a v API je GPT‑5.4 prvým modelom na všeobecné použitie, ktorý sme vydali s natívnymi, najmodernejšími schopnosťami používania počítača, čo umožňuje agentom ovládať počítače a vykonávať komplexné pracovné postupy naprieč aplikáciami. Podporuje až 1 miliónov tokenov kontextu, čo umožňuje agentom plánovať, vykonávať a overovať úlohy v dlhých časových horizontoch. GPT‑5.4 tiež zlepšuje, ako modely fungujú naprieč veľkými ekosystémami nástrojov a konektorov pomocou tool search, čím pomáha agentom efektívnejšie nájsť a používať správne nástroje bez toho, aby sa obetovala inteligencia. Napokon, GPT‑5.4 je náš doteraz najefektívnejší uvažovací model z hľadiska tokenov , ktorý na riešenie problémov používa výrazne menej tokenov v porovnaní s GPT‑5.2, čo sa premieta do nižšej spotreby tokenov a vyššej rýchlosti.

Spolu s pokrokmi v oblasti všeobecného uvažovania, kódovania a profesionálnej znalostnej práce umožňuje GPT‑5.4 spoľahlivejších agentov, rýchlejšie pracovné postupy vývojárov a vyššiu kvalitu výstupov v rámci ChatGPT, API a Codexu.


GPT‑5.4 

GPT‑5.3‑Codex

GPT‑5.2

GDPval (víťazstvá alebo remízy)

83,0 %

70,9 %

70,9 %

SWE-Bench Pro (Public)

57,7 %

56,8 %

55,6 %

OSWorld-Verified

75,0 %

74,0 %*

47,3 %

Toolathlon

54,6 %

51,9 %

46,3 %

BrowseComp

82,7 %

77,3 %

65,8 %

*Predtým vykázané ako 64,7 %. GPT‑5.3‑Codex dosahuje 74,0 % vďaka novo zavedenému parametru API, ktorý zachováva pôvodné rozlíšenie obrázka.

Práca so znalosťami

Na základe všeobecných schopností uvažovania GPT‑5.2 prináša GPT‑5.4 ešte konzistentnejšie a prepracovanejšie výsledky pri reálnych úlohách, na ktorých profesionálom záleží.

Pri GDPval – hodnotení, ktoré testuje schopnosti agentov vykonávať dobre špecifikovanú znalostnú prácu naprieč 44 povolaniami, GPT‑5.4 dosahuje nový štandard, pričom sa vyrovnáva alebo prekonáva odborníkov z odvetvia v 83,0 % v porovnaní oproti 71,0 % pre GPT‑5.2.

V GDPval sa modely pokúšajú o dobre špecifikovanú znalostnú prácu, ktorá zahŕňa 44 povolaní z 9 hlavných odvetví prispievajúcich k GDP Spojených štátov amerických. Úlohy vyžadujú skutočné pracovné produkty, ako sú predajné prezentácie, účtovné tabuľky, rozvrhy urgentnej starostlivosti, výrobné diagramy alebo krátke videá. Úsilie o uvažovanie bolo nastavené na „xhigh“ pre GPT‑5.4 a „heavy“ pre GPT‑5.2 (o niečo nižšia úroveň v ChatGPT).

„GPT-5.4 je najlepší model, aký sme kedy vyskúšali. Teraz je na vrchole rebríčka v našom benchmarku APEX-Agents, ktorý meria výkonnosť modelu pri práci v oblasti profesionálnych služieb. Vyniká pri vytváraní výstupov s dlhodobým horizontom, ako sú prezentácie, finančné modely a právna analýza, pričom poskytuje špičkový výkon a zároveň beží rýchlejšie a za nižšie náklady než prelomové konkurenčné modely.”
– Brendan Foody, výkonný riaditeľ spoločnosti Mercor

Osobitne sa zameriavame na zlepšovanie schopností GPT‑5.4 vytvárať a upravovať tabuľky, prezentácie a dokumenty. Na internom benchmarku úloh modelovania v tabuľkových procesoroch, ktoré by mohol robiť junior analytik investičného bankovníctva, GPT‑5.4 dosahuje priemerné skóre 87,5 % oproti 68,4 % pre GPT‑5.2. V rámci súboru príkazov na hodnotenie prezentácií ľudskí hodnotitelia uprednostnili prezentácie z GPT‑5.4 v 68,0 % prípadov pred tými z GPT‑5.2 vďaka lepšej estetike, väčšej vizuálnej rozmanitosti a efektívnejšiemu využitiu generovania obrázkov.

Príklad výstupov tabuľky z GPT-5.2 oproti GPT-5.4 vedľa seba

Dokumenty boli vygenerované s úsilím o uvažovanie nastaveným na xhigh

Tieto možnosti si môžeš vyskúšať v ChatGPT pomocou GPT‑5.4 Thinking alebo Pro. Ak si zákazníkom Enterprise, odporúčame ti používať naše novo vydané doplnky ChatGPT pre Excel a Google Sheets(otvorí sa v novom okne), ktoré boli dnes tiež spustené. Aktualizovali sme aj naše zručnosti v práci s tabuľkami(otvorí sa v novom okne) a prezentačné zručnosti(otvorí sa v novom okne), ktoré sú dostupné v Codexe a v rozhraní API.

Aby sme vytvorili lepšie GPT‑5.4 pri práci v reálnom svete, pokračovali sme v našom pokroku pri znižovaní halucinácií a chýb. GPT‑5.4 je náš doteraz najfaktickejší model: v súbore deidentifikovaných podnetov, pri ktorých používatelia označili faktické chyby, majú jednotlivé Jednotlivé tvrdenia sú o 33 % menej pravdepodobné, že budú nepravdivé, a jeho celé odpovede sú o 18 % menej pravdepodobné, že budú obsahovať akékoľvek chyby v porovnaní s GPT‑5.2.

„GPT-5.4 nastavuje novú latku pre právnu prácu s veľkým objemom dokumentov. V našom hodnotení BigLaw Bench dosiahol 91 %. V porovnaní s inými modelmi je GPT-5.4 v súčasnosti lepší v štruktúrovaní komplexnej transakčnej analýzy, udržiavaní presnosti naprieč rozsiahlymi zmluvami a poskytovaní vysokej úrovne detailu, ktorú právni odborníci vyžadujú.”
– Niko Grupen, vedúci aplikovaného výskumu, spoločnosť Harvey

Používanie počítača a videnie

GPT‑5.4 je náš prvý model na všeobecné použitie s natívnymi schopnosťami používania počítača a predstavuje významný krok vpred pre vývojárov aj agentov. Je to najlepší model, ktorý je v súčasnosti k dispozícii pre vývojárov vytvárajúcich agentov, ktorí dokončujú skutočné úlohy naprieč webovými stránkami a softvérovými systémami.

Navrhli sme GPT‑5.4 tak, aby podával vysoký výkon v širokej škále pracovných záťaží pri používaní počítača. Vyniká v písaní kódu na ovládanie počítačov prostredníctvom knižníc, ako je Playwright, ako aj vo vydávaní príkazov myši a klávesnice v reakcii na snímky obrazovky. Jeho správanie je možné riadiť prostredníctvom správ vývojára, čo znamená, že vývojári môžu upraviť správanie tak, aby vyhovovalo konkrétnym prípadom použitia. Vývojári môžu dokonca nakonfigurovať bezpečnostné správanie modelu tak, aby vyhovovalo rôznym úrovniam tolerancie rizika, a to určením vlastných politík potvrdzovania.

Výkon a flexibilita modelu sa odrážajú naprieč benchmarkmi, ktoré testujú používanie počítača v rôznych prostrediach. V OSWorld-Verified, ktorý meria schopnosť modelu navigovať v prostredí pracovnej plochy prostredníctvom snímok obrazovky a akcií klávesnice/myši, GPT‑5.4 dosahuje prelomovú 75,0 % mieru úspešnosti, ktorá ďaleko presahuje tú, ktorú dosahuje GPT‑5.2 – 47,3 %, a prekonáva ľudský výkon na úrovni 72,4 %.1

Vo WebArena-Verified, ktorý testuje používanie prehliadača, GPT‑5.4 dosahuje vedúcu mieru úspešnosti 67,3 % pri použití interakcie riadenej DOM aj snímkami obrazovky, v porovnaní s 65,4 % pri GPT‑5.2. V benchmarku Online-Mind2Web, ktorý tiež testuje používanie prehliadača, GPT‑5.4 dosahuje 92,8 % mieru úspešnosti pri použití iba pozorovaní založených na snímkach obrazovky, čím zlepšuje oproti režimu Agent Mode v ChatGPT Atlas, ktorý dosahuje mieru úspešnosti 70,9 %.

Ustúpenie nástroju je, keď asistent ustúpi, aby počkal na odpovede nástrojov. Ak sa 3 nástroje získavajú paralelne, po ktorých nasledujú ďalšie 3 nástroje získavané paralelne, počet výnosov by bol 2. Výnosy nástrojov sú lepším proxy ukazovateľom latencie než získavania nástrojov, pretože odrážajú výhody paralelizácie.

GPT‑5.4 interpretuje snímky obrazovky rozhrania prehliadača a pracuje s prvkami používateľského rozhrania prostredníctvom klikania na základe súradníc, aby odosielal e-maily a plánoval udalosti v kalendári.

Vylepšené používanie počítača v GPT‑5.4 je založené na vylepšených schopnostiach všeobecného vizuálneho vnímania modelu. Na MMMU-Pro, teste vizuálneho porozumenia a uvažovania modelu, GPT‑5.4 dosahuje 81,2 % mieru úspešnosti bez použitia nástrojov, čo je zlepšenie oproti GPT‑5.2 . 79,5 %. Zlepšené vizuálne vnímanie sa premieta aj do lepších schopností spracovávať dokumenty. V OmniDocBench dosahuje GPT‑5.4 bez úsilia o uvažovanie priemernú chybu (meranú normalizovanou editačnou vzdialenosťou medzi predikciou modelu a referenčnou hodnotou) 0,109, čo je zlepšenie oproti 0,140 pre GPT‑5.2.

MMMUPro bol spustený s úsilím o uvažovanie nastaveným na veľmi vysokú úroveň. OmniDocBench bol spustený s úsilím pri uvažovaní nastaveným na žiadnu úroveň, aby odrážal nízkonákladový výkon s nízkou latenciou.

Zlepšujeme aj vizuálne porozumenie pre husté obrázky s vysokým rozlíšením, kde je dôležitá plná vernosť. Počnúc GPT‑5.4, zavádzame úroveň original detailu vstupu(otvorí sa v novom okne) pre obrázok, ktorá podporuje vnímanie s plnou vernosťou až do 10,24 mil. celkových pixelov alebo maximálneho rozmeru 6000 pixelov, podľa toho, čo je nižšie; úroveň high detailu vstupu z obrázka teraz podporuje až do 2,56 mil. celkových pixelov alebo maximálny rozmer 2048 pixelov. Počas počiatočného testovania s používateľmi rozhrania API sme spozorovali výrazné zlepšenia v schopnosti lokalizácie, porozumení obrázkom a presnosti kliknutí pri použití úrovne detailu original alebo high.

„V našich hodnoteniach, ktoré merajú výkon pri používaní počítača v približne 30 tis. portáloch HOA a portáloch pre daň z nehnuteľností, GPT-5.4 dosiahol 95 % mieru úspešnosti na prvý pokus a 100 % do troch pokusov, v porovnaní s asi 73 až 79 % pri predchádzajúcich modeloch CUA. Zároveň dokončil relácie približne 3x rýchlejšie, pričom použil približne o 70 % menej tokenov, čím výrazne zlepšil spoľahlivosť a nákladovú efektívnosť vo veľkom rozsahu."
– Dod Fraser, výkonný riaditeľ spoločnosti Mainstay

V rozhraní API môžu vývojári pristupovať k týmto funkciám pomocou aktualizovaného nástroja computer. Pozri si našu aktualizovanú dokumentáciu(otvorí sa v novom okne) pre odporúčané osvedčené postupy.

Programovanie

GPT‑5.4 kombinuje silné stránky kódovania GPT‑5.3‑Codex so špičkovými schopnosťami znalostnej práce a používania počítača, ktoré sú najdôležitejšie pri dlhodobejších úlohách, kde model môže používať nástroje, iterovať a posúvať prácu ďalej s menšou potrebou manuálneho zásahu. Na SWE-Bench Pro sa vyrovnáva alebo prekonáva GPT‑5.3‑Codex, pričom má nižšiu latenciu naprieč úrovňami uvažovania.

Latenciu odhadujeme tak, že sa pozeráme na produkčné správanie našich modelov a simulujeme to offline. Odhad latencie zohľadňuje trvanie volania nástroja (čas vykonávania kódu), vzorkované tokeny a vstupné tokeny. Latencia v reálnom svete sa môže výrazne líšiť a závisí od mnohých faktorov, ktoré naša simulácia nezachytáva. Úsilie o uvažovanie bolo zvýšené z minimálneho na maximálne.

Keď je zapnutý režim /fast mode v Codexe, poskytuje až 1,5× rýchlejšiu rýchlosť tokenov s GPT‑5.4. Je to ten istý model a tá istá inteligencia, len je to rýchlejšie. To znamená, že používatelia sa môžu posúvať cez programátorské úlohy, iteráciu a ladenie, pričom zostávajú v pracovnom tempe. Vývojári môžu získať prístup k GPT‑5.4 pri rovnako vysokých rýchlostiach prostredníctvom rozhrania API použitím prioritného spracovania(otvorí sa v novom okne).

V hodnoteniach a internom testovaní sme zistili, že GPT‑5.4 vyniká pri zložitých frontendových úlohách, pričom prináša viditeľne estetickejšie a funkčnejšie výsledky než akékoľvek modely, ktoré sme doteraz uviedli.

Ako ukážku toho, ako vylepšené schopnosti modelu v oblasti používania počítača a kódovania fungujú v tandeme, vydávame aj experimentálnu zručnosť Codex s názvom „Playwright (Interactive)(otvorí sa v novom okne)“. To umožňuje Codexu vizuálne debugovať webové a Electron aplikácie; dá sa to dokonca použiť na testovanie aplikácie, ktorú vytvára, počas jej vytvárania.

Simulačná hra zábavného parku vytvorená pomocou GPT‑5.4 z jedného ľahko špecifikovaného príkazu, s použitím Playwright Interactive na testovanie hrania v prehliadači a generovanie obrázkov pre izometrickú sadu prvkov. Simulácia zahŕňa umiestňovanie trás na základe dlaždíc, výstavbu atrakcií a scenérie, hľadanie ciest návštevníkmi, státie v radoch a cykly atrakcií, zatiaľ čo metriky parku, ako sú peniaze, počet návštevníkov, spokojnosť, čistota a hodnotenie, stúpajú alebo klesajú podľa toho, ako sa darí rozloženiu a ako naň návštevníci reagujú. Playwright sa použil na automatizáciu prehliadačových herných testov vytváraním a rozširovaním parku, umiestňovaním a odstraňovaním chodníkov a atrakcií, kontrolou navigácie kamery a overovaním, že hostia, rady, stavy jázd a metriky používateľského rozhrania sa počas niekoľkých kôl hrania správne aktualizovali.

Príkaz: Použi $playwright-interactive a $imagegen. Vytvor interaktívnu izometrickú simulačnú hru o zábavnom parku, ktorú môžeš v prehliadači stavať a prechádzať sa v nej. Použi imagegen na stanovenie celkovej vizuálnej vízie a vygenerovanie herných aktív vrátane atrakcií, chodníkov, terénu, stromov, vody, stánkov s jedlom, dekorácií, budov, ikon a ilustrácií používateľského rozhrania. Svet by mal pôsobiť súdržne, uhladene a vizuálne bohato, s prémiovým art direction, ktorý funguje dobre z izometrickej perspektívy. Umožni umiestňovať a odstraňovať chodníky, pridávať atrakcie, rozmiestňovať scenériu a plynulo sa pohybovať po parku, pričom budeš sledovať aktivitu návštevníkov, stav atrakcií a rast parku. Zahrň uveriteľný pohyb návštevníkov, jednoduché systémy správy parku, ako sú peniaze, čistota, radenie do radov a spokojnosť, a postaraj sa, aby zážitok pôsobil hravo, zrozumiteľne a kompletne, nie ako hrubý prototyp. Uprednostni šarm, čitateľnosť a silný herný pocit pred realizmom. 

Pri play testovaní nezabudni počas niekoľkých kôl hry vybudovať a rozšíriť park, overiť, že umiestňovanie a navigácia fungujú plynulo, potvrdiť, že hostia reagujú na rozloženie parku a atrakcie, a zabezpečiť, že vizuály, používateľské rozhranie a interakcie pôsobia stabilne a súdržne.

„Naši inžinieri považujú model GPT-5.4 za prirodzenejší a asertívnejší než predchádzajúce modely . Prechádza nejednoznačnými problémami bez toho, aby o sebe pochyboval, a proaktívne rozdeľuje prácu súbežne, aby sa veci hýbali ďalej.”
– Lee Robinson, viceprezident pre vzdelávanie vývojárov v spoločnosti Cursor

Používanie nástrojov

S GPT‑5.4 sme výrazne zlepšili spôsob, akým modely pracujú s externými nástrojmi. Agenti teraz dokážu fungovať naprieč väčšími ekosystémami nástrojov, spoľahlivejšie vyberať správne nástroje a dokončovať viacstupňové pracovné postupy s nižšími nákladmi a latenciou.

Hľadanie nástrojov

V API GPT‑5.4 sa zavádza vyhľadávanie nástrojov(otvorí sa v novom okne), ktoré umožňuje modelom pracovať efektívne, keď dostanú veľa nástrojov.

Predtým, keď mal model k dispozícii nástroje, všetky definície nástrojov boli zahrnuté v príkaze vopred. V systémoch s mnohými nástrojmi by to mohlo ku každej požiadavke pridať tisíce – alebo dokonca desaťtisíce – tokenov, čím by sa zvýšili náklady, spomalili odpovede a zaplnil kontext informáciami, ktoré model možno nikdy nepoužije.

Pri vyhľadávaní nástrojov GPT‑5.4 namiesto toho dostane odľahčený zoznam dostupných nástrojov spolu s možnosťou vyhľadávania nástrojov. Keď model potrebuje použiť nástroj, môže vyhľadať definíciu tohto nástroja a v danom momente ju pripojiť ku konverzácii.

Tento prístup dramaticky znižuje počet tokenov potrebných pre pracovné postupy náročné na nástroje a zachováva cache, vďaka čomu sú požiadavky rýchlejšie a lacnejšie. Umožňuje tiež agentom spoľahlivo pracovať s oveľa väčšími ekosystémami nástrojov. V prípade serverov MCP, ktoré môžu obsahovať desiatky tisíc tokenov definícií nástrojov, môžu byť prínosy z hľadiska efektivity značné.

Na demonštráciu nárastu efektivity sme vyhodnotili 250 úloh z benchmarku Scale’s MCP Atlas(otvorí sa v novom okne) so všetkými 36 servermi MCP povolenými v dvoch režimoch: 1) sprístupnenie každej funkcie MCP priamo v kontexte modelu a 2) umiestnenie všetkých serverov MCP za vyhľadávanie nástrojov. Konfigurácia vyhľadávania nástrojov znížila celkové používanie tokenov o 47 % pri dosiahnutí rovnakej presnosti.

Príklady počtov tokenov pochádzajú z priemerovania 250 úloh vo verejnom datasete MCP-Atlas.

Agentné volanie nástrojov

GPT‑5.4 tiež zlepšuje vyvolávanie nástrojov, vďaka čomu je presnejšie a efektívnejšie pri rozhodovaní o tom, kedy a ako používať nástroje počas uvažovania, najmä v API.  V porovnaní s GPT‑5.2 dosahuje vyššiu presnosť v menšom počte ťahov v benchmarku Toolathlon, ktorý testuje, ako dobre dokážu agenti umelej inteligencie používať nástroje a rozhrania API z reálneho sveta na dokončenie viacstupňových úloh. Napríklad agent si potrebuje prečítať e-maily, extrahovať prílohy k zadaniam, nahrať ich, ohodnotiť ich a zaznamenať výsledky do tabuľky.

Ustúpenie nástroju je, keď asistent ustúpi, aby počkal na odpovede nástrojov. Ak sa 3 nástroje získavajú paralelne, po ktorých nasledujú ďalšie 3 nástroje získavané paralelne, počet výnosov by bol 2. Výnosy nástrojov sú lepším proxy ukazovateľom latencie než získavania nástrojov, pretože odrážajú výhody paralelizácie.

Pre prípady použitia citlivé na latenciu, pri ktorých sa uprednostňuje minimálne úsilie pri uvažovaní, GPT‑5.4 ďalej zlepšuje svoje schopnosti oproti svojim predchodcom.

Pri teste τ2-bench⁠(otvorí sa v novom okne) musí model používať nástroje na splnenie úlohy zákazníckeho servisu, kde môže byť simulovaný používateľ, ktorý dokáže komunikovať a vykonávať akcie týkajúce sa stavu sveta. Úsilie na uvažovanie bolo nastavené na žiadne.

Vylepšené vyhľadávanie na webe

GPT‑5.4 je lepší v agentnom vyhľadávaní na webe. V BrowseComp, meraní toho, ako dobre dokážu agenti AI vytrvalo prehliadať web a nájsť ťažko dohľadateľné informácie, GPT‑5.4 prekonáva GPT‑5.2 o 17 %abs a GPT‑5.4 Pro dosahuje nový špičkový stav 89,3 %.

V praxi to znamená, že GPT‑5.4 Thinking je lepší v odpovedaní na otázky, ktoré vyžadujú zhromaždenie informácií z mnohých zdrojov na webe. Dokáže vytrvalejšie vyhľadávať naprieč viacerými kolami, aby identifikoval najrelevantnejšie zdroje, najmä pri otázkach typu „ihla v kope sena“, a zosyntetizovať ich do jasnej, dobre odôvodnenej odpovede.

V BrowseComp sme použili blokovací zoznam vyhľadávania, ktorý vylučuje webové stránky obsahujúce odpovede na benchmarky z hodnotenia, aby sme predišli kontaminácii a zabezpečili spravodlivé meranie výkonnosti. GPT‑5.4 bol meraný neskôr ako GPT‑5.2, aby skóre odrážalo zmeny v modeli, našom vyhľadávacom systéme a stave internetu. GPT‑5.4 bol testovaný s dlhším aktualizovaným zoznamom blokovaných položiek. Modely používajú nástroj vyhľadávania ChatGPT, ktorý môže mať malé rozdiely oproti vyhľadávaniu v API.

“GPT-5.4 xhigh je nový špičkový stav pre viacstupňové používanie nástrojov. Zapier prevádzkuje niektoré z najprísnejších benchmarkov používania nástrojov v odvetví, pričom testuje modely naprieč stovkami pokročilých pracovných postupov z reálneho sveta. GPT-5.4 dokončil aj takú prácu, pri ktorej to predchádzajúce modely vzdali – je to doteraz najvytrvalejší model.”
– Wade, výkonný riaditeľ spoločnosti Zapier

Možnosť riadenia

Podobne ako Codex načrtáva svoj prístup, keď začne pracovať, GPT‑5.4 Thinking v ChatGPT – teraz pri dlhších zložitejších dotazoch na úvod načrtne svoju prácu. Môžeš tiež pridať pokyny alebo upraviť jeho smerovanie uprostred odpovede. Vďaka tomu je jednoduchšie nasmerovať model k presnému výsledku, ktorý chceš, bez toho, aby si musel/-a začínať odznova alebo vyžadovať viacero ďalších ťahov. Táto funkcia je teraz k dispozícii na chatgpt.com(otvorí sa v novom okne) a v aplikácii pre Android. Čoskoro bude dostupná aj v aplikácii pre iOS.

Model môže pri náročných úlohách aj premýšľať dlhšie, pričom si zachováva lepšie povedomie o skorších krokoch v konverzácii. To mu umožňuje zvládať dlhšie pracovné postupy a zložitejšie príkazy, pričom si zachováva koherentné a relevantné odpovede počas celého procesu.

Toto video bolo zrýchlené na ciele ilustrácie.

Bezpečnosť

Za posledné mesiace sme naďalej zlepšovali ochranné opatrenia, ktoré sme zaviedli s GPT‑5.3‑Codex, a zároveň pripravovali GPT‑5.4 na nasadenie. Podobne ako pri GPT‑5.3‑Codex považujeme GPT‑5.4 v našom Rámci pripravenosti za model s vysokou úrovňou kybernetických spôsobilostí a nasadzujeme ho so zodpovedajúcimi ochrannými opatreniami, ako je zdokumentované v systémovej karte. Tieto opatrenia zahŕňajú rozšírený balík kybernetickej bezpečnosti, vrátane monitorovacích systémov, dôveryhodného riadenia prístupu a asynchrónneho blokovania žiadostí s vyšším rizikom pre zákazníkov na povrchoch s nulovým uchovávaním údajov (Zero Data Retention, ZDR), spolu s priebežnými investíciami do širšieho bezpečnostného ekosystému.

Keďže schopnosti v oblasti kybernetickej bezpečnosti majú vo svojej podstate dvojité využitie, zachovávame preventívny prístup k nasadeniu a zároveň naďalej kalibrujeme naše zásady a klasifikátory. Pre určitých zákazníkov na povrchoch ZDR zostáva blokovanie na úrovni požiadaviek súčasťou nášho súboru opatrení na zmiernenie kybernetických rizík; keďže klasifikátory sa stále zlepšujú, môžu sa vyskytnúť niektoré falošne pozitívne výsledky, kým budeme tieto bezpečnostné opatrenia naďalej zdokonaľovať. Cieľom týchto aktualizácií je zlepšiť fungovanie záruk v praxi, vrátane zníženia zbytočných odmietnutí a príliš opatrných odpovedí plných výhrad, pričom sa zachová silná ochrana pred zneužitím.

Pokračovali sme v našom bezpečnostnom výskume monitorovateľnosti reťazenia myšlienok (CoT), aby sme lepšie porozumeli tomu, ako modely uvažujú, a pomohli odhaliť potenciálne nesprávne správanie. V rámci tejto práce predstavujeme nové open-source hodnotenie, CoT controllability,  ktoré meria, či modely dokážu zámerne zahmlievať svoje uvažovanie, aby sa vyhli monitorovaniu. Zistili sme, že schopnosť GPT‑5.4 Thinking ovládať svoje CoT je nízka, čo je pozitívna vlastnosť z hľadiska bezpečnosti a naznačuje to, že model nemá schopnosť skrývať svoje uvažovanie a že monitorovanie CoT zostáva účinným bezpečnostným nástrojom.

Dostupnosť a ceny

GPT‑5.4 sa dnes postupne zavádza v ChatGPT a Codex. V API je teraz GPT‑5.4 k dispozícii ako gpt-5.4. GPT‑5.4 Pro je dostupný aj v API ako gpt-5.4-pro pre vývojárov, ktorí potrebujú maximálny výkon pri najzložitejších úlohách.

V ChatGPT, GPT‑5.4 Od dnešného dňa je Thinking k dispozícii používateľom ChatGPT Plus, Team a Pro, pričom nahrádza GPT‑5.2 Thinking. GPT‑5.2 Thinking zostane k dispozícii plateným používateľom na tri mesiace v ponuke modelov v sekcii Legacy Models, a potom bude vyradený 5. júna 2026. Používatelia s plánmi Enterprise a Edu môžu povoliť predbežný prístup v nastaveniach správcu. GPT‑5.4 Pro je k dispozícii v rámci taríf Pro a Enterprise. Kontextové okná(otvorí sa v novom okne) v ChatGPT pre GPT‑5.4 Thinking zostáva nezmenené z GPT‑5.2 Thinking.

GPT‑5.4 je náš prvý hlavný uvažovací model, ktorý zahŕňa prelomové schopnosti kódovania GPT‑5.3‑codex a ktorý sa zavádza naprieč ChatGPT, API a Codex. Nazývame to GPT‑5.4, aby to odrážalo tento skok a aby sa zjednodušila voľba medzi modelmi pri používaní Codex. Postupom času môžeš očakávať, že naše modely Instant a modely Thinking sa budú vyvíjať rôznou rýchlosťou.

GPT‑5.4 v Codex zahŕňa experimentálnu podporu pre kontextové okno 1 mil. Vývojári si to môžu vyskúšať nakonfigurovaním model_context_window a model_auto_compact_token_limit. Požiadavky, ktoré prekročia štandardné kontextové okno 272 tis., sa započítavajú do limitov používania 2x bežnou sadzbou.

V API je GPT‑5.4 drahší za token ako GPT‑5.2, aby odrážal jeho vylepšené schopnosti, zatiaľ čo jeho väčšia efektivita tokenov pomáha znížiť celkový počet tokenov potrebných na mnohé úlohy. Ceny pre Batch a Flex sú k dispozícii za polovicu štandardnej sadzby rozhrania API, zatiaľ čo Prioritné spracovanie je k dispozícii za dvojnásobok štandardnej sadzby rozhrania API.

Model API

Vstupná cena

Cena za vstup uložený do vyrovnávacej pamäte

Cena za výstup

gpt-5.2

1,75 USD / milión tokenov

0,175 USD / milión tokenov

14 USD / milión tokenov

gpt-5.4

2.50 USD / milión tokenov

0,25 USD / milión tokenov

15 USD / milión tokenov

gpt-5.2-pro

21 USD / milión tokenov

-

168 USD / milión tokenov

gpt-5.4-pro

30 USD / milión tokenov

-

180 USD / milión tokenov

Vyhodnotenia

Professional

Hodnotenie

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3-Codex

GPT‑5.2

GPT‑5.2
Pro

GDPval

83,0 %

82,0 %

70,9 %

70,9 %

74,1 %

FinanceAgent v1.1

56,0 %

61,5 %

54,0 %

59,5 %

Úlohy modelovania investičného bankovníctva (Interné)

87,3 %

83,6 %

79,3 %

68,4 %

71,7 %

OfficeQA

68,1 %

65,1 %

63,1 %

Programovanie

Hodnotenie

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3-Codex

GPT‑5.2

GPT‑5.2
Pro

SWE-Bench Pro (Public)

57,7 %

56,8 %

55,6 %

Terminal-Bench 2.0

75,1 %

77,3 %

62,2 %

Používanie počítača a videnie

Hodnotenie

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3-Codex

GPT‑5.2

GPT‑5.2
Pro

OSWorld-Verified

75,0 %

74,0 %

47,3 %

MMMU Pro (bez nástrojov)

81,2 %

79,5 %

MMMU Pro (s nástrojmi)

82,1 %

80,4 %

Používanie nástrojov

Hodnotenie

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3-Codex

GPT‑5.2

GPT‑5.2
Pro

BrowseComp

82,7 %

89,3 %

77,3 %

65,8 %

77,9 %

MCP Atlas

67,2 %

60,6 %

Toolathlon

54,6 %

51,9 %

45,7 %

Tau2-bench Telecom

98,9 %

98,7 %

Akademický

Hodnotenie

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3-Codex

GPT‑5.2

GPT‑5.2
Pro

Prelomový vedecký výskum

33,0 %

36,7 %

25,2 %

FrontierMath úroveň 1–3

47,6 %

40,7 %

FrontierMath úroveň 4

27,1 %

38,0 %

18,8 %

31,3 %

GPQA Diamond

92,8 %

94,4 %

92,6 %

92,4 %

93,2 %

Posledná skúška ľudstva (bez nástrojov)

39,8 %

42,7 %

34,5 %

36,6 %

Posledná skúška ľudstva (s nástrojmi)

52,1 %

58,7 %

45,5 %

50,0 %

Dlhý kontext

Hodnotenie

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3-Codex

GPT‑5.2

GPT‑5.2
Pro

Prechody grafom BFS 0 tis.–128 tis.

93,0 %

94,0%

Graphwalks BFS 256 tis.–1 mil.

21,4 %

Graphwalks parents –128 tis. (presnosť)

89,8 %

89,0 %

Graphwalks parents 256 tis.–1 mil. (presnosť)

32,4 %

OpenAI MRCR v2 8 ihiel 4 tis.–8 tis.

97,3 %

98,2 %

OpenAI MRCR v2 8 ihiel 8 tis.–16 tis.

91,4 %

89,3 %

OpenAI MRCR v2 8 ihiel 16 tis.–32 tis.

97,2 %

95,3 %

OpenAI MRCR v2 8 ihiel 32 tis.–64 tis.

90,5 %

92,0 %

OpenAI MRCR v2 8 ihiel 64 tis.–128 tis.

86,0 %

85,6 %

OpenAI MRCR v2 8 ihiel 128 tis.–256 tis.

79,3 %

77,0 %

OpenAI MRCR v2 8 ihiel 256 tis.–512 tis.

57,5 %

OpenAI MRCR v2 8 ihiel 512 tis.–1 mil.

36,6 %

Abstraktné myslenie

Hodnotenie

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3-Codex

GPT‑5.2

GPT‑5.2
Pro

ARC-AGI-1 (Overené)

93,7 %

94,5 %

86,2 %

90,5%

ARC-AGI-2 (Overené)

73.3%

83,3%

52,9 %

54,2 % (vysoké)

Hodnotenia bez uvažovania

Hodnotenie

GPT‑5.4
(žiadna)

GPT‑5.2
(žiadna)

GPT‑4.1

OmniDocBench (normalizovaná editačná vzdialenosť)

0,109

0,140

Tau2-bench Telecom

64,3 %

57,2 %

43,6 %

Evaly boli spustené s úsilím o uvažovanie nastaveným na xhigh, okrem prípadov, kde je uvedené inak. Benchmarky boli vykonané vo výskumnom prostredí, čo môže v niektorých prípadoch poskytnúť mierne odlišný výstup od produkčného ChatGPT.