5. marec 2026

Predstavljamo GPT‑5.4

Zasnovano za strokovno delo

Nalaganje …

Danes predstavljamo GPT‑5.4 v ChatGPT‑ju (kot GPT‑5.4 Thinking), API in Codex. To je naš najzmogljivejši in najučinkovitejši prelomni model za profesionalno delo. Prav tako predstavljamo GPT‑5.4 Pro za ChatGPT in API za uporabnike, ki želijo največjo zmogljivost pri zahtevnih nalogah.

GPT‑5.4 združuje najboljše napredke v sklepanju, generiranju kode in agentskih delovnih tokovih v en napredni model. Vključuje vodilne zmogljivosti GPT‑5.3‑Codex⁠ pri generiranju kode, hkrati pa izboljšuje delovanje modela z orodji, programskimi okolji in strokovnimi nalogami, ki vključujejo preglednice, predstavitve in dokumente. Rezultat je model, ki kompleksno delo opravi natančno, učinkovito in s poudarkom na produktivnosti – zagotavlja zahtevano z manj ponavljanja.

V ChatGPT‑ju lahko GPT‑5.4 Thinking lahko zdaj vnaprej poda načrt svojega razmišljanja, tako da lahko med odgovorom prilagodite smer medtem ko deluje, in pridete do končnega izhoda, ki je bolj usklajen s tem, kar potrebujete, brez dodatnih korakov. GPT‑5.4 Thinking izboljša tudi podrobno raziskavo globokega spleta, zlasti pri zelo specifičnih poizvedbah, hkrati pa bolje ohranja kontekst pri vprašanjih, ki zahtevajo daljše razmišljanje. Skupaj te izboljšave pomenijo kakovostnejše odgovore, ki prispejo hitreje in ostanejo relevantni za trenutno nalogo.

V Codexu in API-ju je GPT‑5.4 prvi splošnonamenski model, ki smo ga izdali z najsodobnejšimi, izvorno vgrajenimi zmožnostmi uporabe računalnika, kar agentom omogoča upravljanje računalnikov in izvajanje kompleksnih delovnih tokov v različnih aplikacijah. Podpira do 1M žetonov konteksta, kar agentom omogoča načrtovanje, izvajanje in preverjanje nalog v daljših časovnih obdobjih. GPT‑5.4 izboljšuje tudi delovanje modelov v velikih ekosistemih orodij in povezovalnikov z iskanjem orodij, kar agentom pomaga, da učinkoviteje najdejo in uporabijo prava orodja, ne da bi pri tem žrtvovali inteligenco. Končno je GPT‑5.4 naš doslej najbolj žetonsko učinkovit model sklepanja , saj za reševanje težav uporablja bistveno manj žetonov v primerjavi z GPT‑5.2—kar pomeni manjšo porabo žetonov in večje hitrosti.

Skupaj z napredkom v splošnem sklepanju, kodiranju in profesionalnem delu z znanjem GPT‑5.4 omogoča bolj zanesljive agente, hitrejše delovne tokove razvijalcev in izhodne podatke višje kakovosti v ChatGPT, API in Codex.

	GPT‑5.4	GPT‑5.3‑Codex	GPT‑5.2
GDPval (zmage ali neodločeni izidi)	83,0%	70,9 %	70,9 %
SWE-Bench Pro (javna različica)	57,7%	56,8 %	55,6 %
OSWorld-Verified	75,0%	74,0%*	47,3 %
Toolathlon	54,6 %	51,9%	46,3%
BrowseComp	82,7%	77,3 %	65,8%

*Prej poročano kot 64,7 %. GPT‑5.3‑Codex doseže 74.0% z na novo uvedenim parametrom API-ja, ki ohranja izvirno ločljivost slike.

Delo z znanjem

Na osnovi splošnih zmogljivosti GPT‑5.2 GPT 5.4 zagotavlja še bolj konsistentne in izpiljene rezultate pri realnih nalogah, ki so pomembne za profesionalce.

Na merilu GDPval⁠, ki preizkuša sposobnosti agentov za izvajanje jasno opredeljenih nalog s strokovnim znanjem v 44 poklicih, GPT‑5.4 dosega nov mejnik, saj se izenači s panožnimi strokovnjaki ali jih preseže v 83.0% primerjav, v primerjavi z 71.0% za GPT‑5.2.

Pri vrednotenju GDPval modeli izvajajo natančno opredeljeno delo z znanjem, ki zajema 44 poklicev iz devetih ključnih industrij, ki prispevajo k BDP v ZDA. Naloge zahtevajo dejanske delovne izdelke, kot so predstavitve prodaje, računovodske preglednice, urniki nujne oskrbe, proizvodni diagrami ali kratki videoposnetki. Stopnja sklepanja je bila nastavljena na zelo visoko za GPT‑5.4 in visoko za GPT‑5.2 (rahlo nižja raven v ChatGPT‑ju).

»GPT-5.4 je najboljši model, kar smo jih kdaj preizkusili. Zdaj je na vrhu lestvice na našem merilu APEX-Agents, ki meri uspešnost modela pri delu za profesionalne storitve. Odlično se izkaže pri ustvarjanju dolgoročnih dobav, kot so predstavitveni kompleti, finančni modeli in pravne analize, pri čemer zagotavlja vrhunsko zmogljivost, hkrati pa deluje hitreje in z nižjimi stroški kot konkurenčni prelomni modeli.«

— Brendan Foody, izvršni direktor pri Mercor

Poseben poudarek smo dali izboljšanju sposobnosti GPT‑5.4 za ustvarjanje in urejanje preglednic, predstavitev in dokumentov. Na internem merilu nalog modeliranja preglednic, ki bi jih opravil mlajši analitik investicijske banke, GPT‑5.4 dosega povprečno oceno 87,5 %, v primerjavi s 68,4 % za GPT‑5.2. Pri naboru evalvacijskih pozivov za predstavitve so človeški ocenjevalci 68,0 % časa raje izbrali predstavitve GPT‑5.4 pred GPT‑5.2 zaradi izboljšane estetike, večje raznolikosti vizualij in učinkovitejše uporabe generiranja slik.

Primer izhodnih preglednic GPT-5.2 proti GPT-5.4 prikazan vzporedno

Dokumenti so bili ustvarjeni z nastavljeno stopnjo sklepanja xhigh

Te zmogljivosti lahko preizkusite v ChatGPT‑ju z uporabo modela GPT‑5.4 Thinking ali Pro. Če ste stranka Enterprise, priporočamo uporabo naših pravkar izdanih vtičnikov ChatGPT za Excel in Google Sheets⁠(odpre se v novem oknu), ki so bili prav tako danes lansirani. Posodobili smo tudi naše sposobnosti dela s preglednicami⁠(odpre se v novem oknu) in sposobnosti dela s predstavitvami⁠(odpre se v novem oknu), ki so na voljo v Codex in API.

Za izboljšanje modela GPT‑5.4 pri uporabi v resničnem svetu smo nadaljevali napredek pri zmanjševanju halucinacij in napak. GPT‑5.4 je naš najbolj faktografsko zanesljiv model doslej: pri naboru psevdonimiziranih pozivov, kjer so uporabniki označili dejanske napake, so posamezne trditve GPT‑5.4 Posamezne trditve so za 33 % manj verjetno napačne, celotni odgovori pa vsebujejo 18 % manj napak v primerjavi z GPT‑5.2.

»GPT-5.4 postavlja nov standard za pravno delo z veliko dokumentacije. Na naši evalvaciji BigLaw Bench je dosegel 91%. V primerjavi z drugimi modeli je GPT-5.4 trenutno boljši pri strukturiranju kompleksne transakcijske analize, ohranjanju natančnosti v obsežnih pogodbah in zagotavljanju visoke ravni podrobnosti, ki jo pravni strokovnjaki zahtevajo.«

— Niko Grupen, vodja uporabnih raziskav pri družbi Harvey

Uporaba računalnika in računalniški vid

GPT‑5.4 je naš prvi splošnonamenski model z izvorno zmogljivostjo za uporabo računalnikov in predstavlja pomemben napredek za razvijalce in agente. Trenutno je najboljši model za razvijalce, ki gradijo agente za izvedbo dejanskih nalog na spletnih mestih in v programski opremi.

GPT‑5.4 je zasnovan za učinkovito delovanje v širokem naboru delovnih obremenitev uporabe računalnikov. Odličen je pri pisanju kode za upravljanje računalnikov preko knjižnic, kot je Playwright, prav tako pa lahko izdaja ukaze miške in tipkovnice na podlagi posnetkov zaslona. Njegovo vedenje je prilagodljivo preko sporočil razvijalcev, kar omogoča prilagoditev vedenja za določene primere uporabe. Razvijalci lahko celo konfigurirajo vedenje modela glede varnosti, da ustreza različnim ravnem tolerance tveganja, s tem, da določijo lastne politike potrditve.

Zmogljivost in prilagodljivost modela se odražata v primerjalnih preizkusih, ki preizkušajo uporabo računalnika v različnih okoljih. Na OSWorld-Verified, ki meri sposobnost modela za navigacijo v namiznem okolju preko posnetkov zaslona in ukazov tipkovnice/miške, GPT‑5.4 dosega 75,0 % uspešnost, kar presega GPT‑5.2 s 47,3 % in celo prekaša človeško zmogljivost pri 72,4 %.¹

Na WebArena-Verified, ki testira uporabo brskalnika, GPT‑5.4 dosega vodilno 67,3 % uspešnost pri interakciji, ki temelji na DOM in posnetkih zaslona, v primerjavi s 65,4 % za GPT‑5.2. Na Online-Mind2Web, ki prav tako testira uporabo brskalnika, GPT‑5.4 dosega 92,8 % uspešnost zgolj na podlagi posnetkov zaslona, kar izboljšuje rezultat ChatGPT Atlas v agentskem načinu, ki dosega 70,9 % uspešnost.

Priklic orodja ob čakanju nastane, ko se asistent ustavi, da počaka na odzive orodja. Če so 3 orodja priklicana vzporedno, sledijo pa še 3 vzporedno priklicana orodja, je število zaporednih priklicev 2. Priklici orodja ob čakanju bolje odražajo latenco kot posamezni priklici, saj upoštevajo koristi vzporednega izvajanja.

GPT‑5.4 interpretira posnetke zaslona vmesnika brskalnika in prek klikanja na podlagi koordinat komunicira z elementi uporabniškega vmesnika, da pošilja e-pošto in načrtuje koledarski dogodek.

Izboljšana uporaba računalnika pri modelu GPT‑5.4 temelji na izboljšanih zmogljivostih modela za vizualno razumevanje. Na MMMU-Pro, testu vizualnega razumevanja in sklepanja modela, GPT‑5.4 dosega 81,2 % uspešnost brez uporabe orodij, kar izboljšuje rezultat GPT‑5.2, 79,5 %. Izboljšano vizualno razumevanje se odraža tudi v boljših sposobnostih za razčlenjevanje dokumentov. Na OmniDocBench GPT‑5.4 brez prizadevanja za sklepanje dosega povprečno napako (merjeno z normalizirano razdaljo urejanja med napovedjo modela in referenčno resnico) 0.109, kar je izboljšanje v primerjavi z rezultatom 0.140 pri GPT‑5.2.

MMMUPro je bil zagnan z nastavljeno stopnjo sklepanja na xhigh. OmniDocBench je bil zagnan s prizadevanjem za sklepanje, nastavljenim na none, da bi odražal nizkocenovno zmogljivost z nizko zakasnitvijo.

Prav tako izboljšujemo vizualno razumevanje za goste, visoko ločljive slike, kjer je pomembna polna natančnost. Začenši z GPT‑5.4 uvajamo original raven podrobnosti vnosov slik⁠(odpre se v novem oknu), ki podpira polno zaznavanje do 10.24M celotnih pik ali maksimalno dimenzijo 6000 pik, kar je nižje; high raven podrobnosti vnosov slik zdaj podpira do 2.56M celotnih pik ali maksimalno dimenzijo 2048 pik. Pri zgodnjem testiranju z uporabniki API smo opazili močne izboljšave pri lokalizaciji, razumevanju slik in natančnosti klikov pri uporabi original ali high podrobnosti.

»V naših vrednotenjih, ki merijo uspešnost uporabe računalnika v ~30K portalih HOA in za davek na nepremičnine, je GPT-5.4 dosegel 95% uspešnost ob prvem poskusu in 100% v treh poskusih, v primerjavi s ~73–79% pri prejšnjih modelih agent za uporabo računalnika. Prav tako je seje zaključil ~3x hitreje, pri tem pa uporabil ~70% manj žetonov, kar je bistveno izboljšalo zanesljivost in stroškovno učinkovitost v velikem obsegu.«

— Dod Fraser, izvršni direktor pri Mainstay

V API-ju imajo razvijalci dostop do teh zmogljivosti prek posodobljenega računalniškega orodja. Za priporočene najboljše prakse si oglejte našo posodobljeno dokumentacijo⁠(odpre se v novem oknu).

Programiranje

GPT‑5.4 združuje prednosti kodiranja GPT‑5.3‑Codex z vodilnimi zmogljivostmi za delo z znanjem in uporabo računalnikov, kar je ključno pri daljših nalogah, kjer lahko model uporablja orodja, iterira in nadaljuje delo z manj ročne intervencije. Na SWE-Bench Pro dosega enake ali boljše rezultate kot GPT‑5.3‑Codex, pri čemer je latenca nižja pri vseh stopnjah stopnje sklepanja.

Latentnost ocenjujemo z analizo vedenja naših modelov v produkcijskem okolju in s simulacijo brez povezave. Ocena latentnosti vključuje trajanje priklica orodja (čas izvajanja kode), vzorčene žetone in vhodne žetone. Dejanska latenca v resničnem času se lahko znatno razlikuje in je odvisna od številnih dejavnikov, ki jih naša simulacija ne zajema. Napor sklepanja je bil povišan z none na xhigh.

Ko je v Codex omogočen način /fast, zagotavlja do 1,5-krat hitrejšo hitrost obdelave žetonov z GPT‑5.4. Gre za isti model in enako inteligenco, le hitreje. To omogoča uporabnikom, da prehajajo med kodiranjem, iteracijami in razhroščevanjem brez prekinitve delovnega toka. Razvijalci lahko do GPT‑5.4 dostopajo z enako hitrostjo prek API z uporabo prioritetne obdelave⁠(odpre se v novem oknu).

Pri evalvacijah in internih testih smo ugotovili, da GPT‑5.4 izstopa pri kompleksnih čelnih nalogah z vidno bolj estetskimi in funkcionalnimi rezultati kot kateri koli prej lansirani model.

Kot prikaz izboljšanih zmožnosti modela za uporabo računalnika in kodiranje, ki delujejo z roko v roki, izdajamo tudi eksperimentalno sposobnost Codex z imenom »Playwright (Interactive)⁠(odpre se v novem oknu)«. Ta omogoča vizualno razhroščevanje spletnih in Electron aplikacij; uporabljena je lahko tudi za testiranje aplikacije, ki jo model gradi.

Simulacijska igra tematskega parka, narejena z GPT‑5.4 iz enega rahlo specificiranega poziva, z uporabo Playwright Interactive za preizkušanje igranja v brskalniku in generiranja slik za izometrični nabor sredstev. Simulacija vključuje postavljanje poti na osnovi ploščic, gradnjo voženj in scenografije, iskanje poti gostov, čakanje v vrstah in cikle voženj, medtem ko se metrike parka, kot so denar, število gostov, zadovoljstvo, čistoča in ocena, zvišujejo ali znižujejo glede na to, kako se postavitev obnese in kako se gostje nanjo odzovejo. Playwright je bil uporabljen za avtomatizacijo brskalniških playtestov z gradnjo in širitvijo parka, postavljanjem in odstranjevanjem poti in atrakcij, preverjanjem navigacije kamere ter potrjevanjem, da so se gostje, čakalne vrste, stanja voženj in metrike uporabniškega vmesnika pravilno posodabljali skozi več krogov igranja.

Poziv: Uporabi $playwright-interactive in $imagegen. Ustvari interaktivno izometrično simulacijsko igro tematskega parka, ki jo lahko zgradim in v njej navigiram v brskalniku. Uporabi imagegen, da vzpostaviš celostno vizualno vizijo in ustvariš sredstva igre, vključno z atrakcijami, potmi, terenom, drevesi, vodo, stojnicami s hrano, dekoracijami, stavbami, ikonami in ilustracijami uporabniškega vmesnika. Svet naj deluje kohezivno, dodelano in vizualno bogato, s premium umetniško usmeritvijo, ki dobro deluje iz izometrične perspektive. Dovoli mi, da postavljam in odstranjujem poti, dodajam atrakcije, umeščam scenografijo ter se gladko premikam po parku, medtem ko spremljam aktivnost gostov, stanje atrakcij in rast parka. Vključi prepričljivo gibanje gostov, preproste sisteme upravljanja parka, kot so denar, čistoča, čakanje v vrsti in zadovoljstvo, ter poskrbi, da bo izkušnja delovala igrivo, jasno in celovito, ne pa kot grob prototip. Daj prednost šarmu, berljivosti in močnemu občutku igranja pred realizmom.

Pri preizkušanju z igranjem poskrbite, da zgradite in razširite park skozi več krogov igranja, preverite, da postavljanje in navigacija delujeta gladko, potrdite, da se gostje odzivajo na razporeditev parka in atrakcije, ter zagotovite, da so vizualni elementi, uporabniški vmesnik in interakcije stabilni in usklajeni.

»Naši inženirji ugotavljajo, da je GPT-5.4 bolj naravno in samozavestno kot prejšnji modeli . Prebija se skozi dvoumne probleme, ne da bi dvomil vase, in proaktivno vzporeja delo, da se stvari premikajo naprej.«

— Lee Robinson, podpredsednik za izobraževanje razvijalcev pri Cursor

Uporaba orodij

Pri modelu GPT‑5.4 smo bistveno izboljšali delovanje modelov z zunanjimi orodji. Agenti lahko zdaj delujejo z večjimi ekosistemi orodij, zanesljiveje izbirajo ustrezna orodja in izvajajo večstopenjske delovne tokove z nižjimi stroški in latenco.

Iskanje orodij

V API-ju GPT‑5.4 uvaja iskanje orodij⁠(odpre se v novem oknu), ki modelom omogoča učinkovito delo ob prisotnosti več orodij.

Prej, ko je model prejel orodja, so bile vse definicije orodij vnaprej vključene v poziv. Za sisteme z mnogimi orodji bi to lahko dodalo na tisoče ali deset tisoče žetonov v vsak poziv, kar poveča stroške, upočasni odziv in preplavi kontekst z informacijami, ki jih model morda ne bo uporabil.

Z iskanjem orodij model GPT‑5.4 prejme lahkoten seznam razpoložljivih orodij z možnostjo iskanja. Ko model potrebuje orodje, lahko takoj poišče njegovo definicijo in jo pripne v pogovor.

Ta pristop drastično zmanjša število žetonov za delovne tokove z mnogimi orodji in ohranja predpomnilnik, kar omogoča hitrejše in cenejše zahtevke. Prav tako omogoča agentom zanesljivo delo z veliko širšimi ekosistemi orodij. Za strežnike MCP, ki lahko vsebujejo deset tisoč žetonov definicij orodij, so izboljšave učinkovitosti lahko znatne.

Za prikaz povečanja učinkovitosti smo ocenili 250 nalog iz Scaleovega primerjalnega preizkusa MCP Atlas⁠(odpre se v novem oknu) z omogočenimi vsemi 36 strežniki MCP v dveh načinih: (1) neposredna izpostavitev vsake funkcije MCP v kontekstu modela in (2) postavitev vseh strežnikov MCP za iskanje orodij. Konfiguracija iskanja orodij je zmanjšala skupno porabo žetonov za 47 % in hkrati dosegla enako natančnost.

Primeri števila žetonov izhajajo iz povprečja 250 nalog v javnem naboru podatkov MCP-Atlas.

Agentski priklic orodja

GPT‑5.4 prav tako izboljšuje priklic orodij, kar omogoča natančnejše in učinkovitejše odločanje, kdaj in kako uporabiti orodja med sklepanjem, zlasti v API. V primerjavi z modelom GPT‑5.2 dosega večjo natančnost z manj koraki v Toolathlon, benchmarku, ki testira, kako dobro lahko AI agenti uporabljajo resnična orodja in API za dokončanje večstopenjskih nalog. Na primer, agent mora prebrati e-pošto, izluščiti priponke nalog, jih naložiti, oceniti in zapisati rezultate v preglednico.

Za primere uporabe, občutljive na zakasnitev, kjer je zaželeno prizadevanje za sklepanje None, GPT‑5.4 še dodatno izboljšuje zmogljivosti v primerjavi s predhodniki.

V τ2-bench⁠⁠(odpre se v novem oknu) mora model uporabljati orodja za izvedbo naloge za pomoč strankam, kjer lahko obstaja simuliran uporabnik, ki lahko komunicira in izvaja dejanja na stanju sveta. Prizadevanje pri sklepanju je bilo nastavljeno na 'Brez'.

Izboljšano spletno iskanje

GPT‑5.4 je učinkovitejši pri agentskem iskanju po spletu. Na BrowseComp, meritvi sposobnosti AI agentov za vztrajno brskanje po spletu in iskanje težko dostopnih informacij, GPT‑5.4 presega GPT‑5.2 za 17 %_abs, medtem ko GPT‑5.4 Pro dosega nov rekord 89,3 %.

V praksi to pomeni, da GPT‑5.4 Thinking učinkoviteje odgovarja na vprašanja, ki zahtevajo združevanje informacij iz več virov na spletu. Model lahko vztrajno preiskuje več krogov, da identificira najbolj relevantne vire, zlasti za vprašanja tipa »igla v senu«, in jih združi v jasen, dobro utemeljen odgovor.

V BrowseComp smo uporabili črni seznam, ki izključuje spletne strani z odgovori na merilo zmogljivosti iz evalvacij, da preprečimo kontaminacijo in zagotovimo pošteno merjenje zmogljivosti. GPT‑5.4 je bil merjen kasneje kot GPT‑5.2, tako da rezultati odražajo spremembe modela, našega iskalnega sistema in stanja interneta. GPT‑5.4 je bil testiran z daljšim in posodobljenim črnim seznamom. Modeli uporabljajo iskalno orodje ChatGPT, ki se lahko nekoliko razlikuje od iskanja z API-jem.

»GPT-5.4 xhigh je nov najsodobnejši standard za večstopenjsko uporabo orodij. Zapier izvaja nekatere najstrožje primerjalne preizkuse uporabe orodij v panogi ter preizkuša modele v stotinah naprednih delovnih tokov iz resničnega sveta. GPT-5.4 je dokončal nalogo tam, kjer so prejšnji modeli obupali - doslej najbolj vztrajen model.«

— Wade, izvršni direktor podjetja Zapier

Vodljivost

Podobno kot Codex opiše svoj pristop ob začetku dela, bo GPT‑5.4 Thinking v ChatGPT zdaj predstavil uvod, ko obravnava daljša, kompleksnejša vprašanja. Uporabniki lahko prav tako dodajo navodila ali prilagodijo smer med odgovarjanjem. To omogoča lažje usmerjanje modela proti želenemu rezultatu brez ponovnega zagona ali dodatnih krogov interakcije. Funkcija je že na voljo na chatgpt.com⁠(odpre se v novem oknu) in v aplikaciji za Android, kmalu pa tudi v aplikaciji za iOS.

Model lahko tudi dlje razmišlja o zahtevnih nalogah, pri čemer ohranja boljšo zavedanje prejšnjih korakov v pogovoru. To omogoča obvladovanje daljših delovnih tokov in bolj kompleksnih pozivov, medtem ko odgovori ostajajo koherentni in relevantni skozi celoten proces.

Ta video je bil pospešen za ponazoritev.

Varnost

V zadnjih mesecih smo nadaljevali z izboljševanjem zaščitnih ukrepov, ki smo jih uvedli z GPT‑5.3‑Codex, med pripravo GPT‑5.4 za uvedbo. Podobno kot pri GPT‑5.3‑Codex, obravnavamo GPT‑5.4 kot visoko kibernetsko zmogljivost v okviru Okvira pripravljenosti in ga uvajamo z ustreznimi zaščitami, kot so dokumentirane v sistemskem dokumentu⁠. Te vključujejo razširjen nabor kibernetskih varnostnih ukrepov, vključno s sistemi za nadzor, zanesljivimi dostopnimi kontrolami in asinhronim blokiranjem zahtevkov višjega tveganja za stranke na površinah z ničelno hrambo podatkov (ZDR), skupaj z nenehnimi vlaganji v širši varnostni ekosistem.

Ker so zmogljivosti kibernetske varnosti inherentno dvojne uporabe, ohranjamo previden pristop k uvedbi, hkrati pa nadaljujemo s kalibracijo naših politik in klasifikatorjev. Za nekatere stranke na površinah ZDR ostaja blokiranje na ravni zahtevkov del našega sklada za zmanjšanje kibernetskih tveganj; ker se klasifikatorji še izboljšujejo, se lahko pojavijo lažno pozitivni rezultati, medtem ko še naprej izpopolnjujemo te zaščitne ukrepe. Nadgradnje so namenjene izboljšanju praktičnega delovanja zaščit, vključno z zmanjšanjem nepotrebnih zavrnitev in pretirano omejujočih odgovorov, hkrati pa ohranjajo močne zaščite pred zlorabo.

Nadaljujemo tudi z raziskavami varnosti pri nadzorovanju verige sklepanja (CoT), da bolje razumemo, kako modeli sklepajo, in pomagamo odkrivati morebitno neprimerno vedenje. Kot del tega dela predstavljamo novo odprtokodno ocenjevanje, nadzorljivost CoT⁠, ki meri, ali lahko modeli namerno zameglijo svoje sklepanje, da bi se izognili nadzoru. Ugotavljamo, da je sposobnost GPT‑5.4 Thinking za nadzor CoT nizka, kar je pozitivna lastnost za varnost, saj nakazuje, da model nima zmožnosti prikrivanja svojega sklepanja, in da nadzor CoT ostaja učinkovit varnostni instrument.

Razpoložljivost in cene

GPT‑5.4 se danes postopoma uvaja v ChatGPT in Codex. V API-ju je GPT‑5.4 zdaj na voljo kot gpt-5.4. GPT‑5.4 Pro je na voljo tudi v API-ju kot gpt-5.4-pro za razvijalce, ki potrebujejo največjo zmogljivost pri najzapletenejših nalogah.

V ChatGPT‑ju lahko GPT‑5.4 Thinking je od danes na voljo uporabnikom ChatGPT Plus, Team in Pro, pri čemer nadomešča GPT‑5.2 Thinking. Model GPT‑5.2 Thinking bo za plačljive uporabnike ostal na voljo tri mesece pri izbiri modela v razdelku Legacy Models, nato pa bo 5. junija 2026 ukinjen. Uporabniki paketov Enterprise in Edu lahko zgodnji dostop omogočijo v nastavitvah skrbnika. GPT‑5.4 Pro je na voljo v naročninah Pro in Enterprise. Kontekstna okna⁠(odpre se v novem oknu) v ChatGPT‑ju za GPT‑5.4 Thinking ostane nespremenjen iz GPT‑5.2 Thinking.

GPT‑5.4 je naš prvi glavni model sklepanja, ki vključuje prelomne zmogljivosti kodiranja GPT‑5.3‑codex in se postopno uvaja v ChatGPT, API in Codex. Imenujemo ga GPT‑5.4, s čimer označimo ta preskok in poenostavimo izbiro med modeli pri uporabi Codex. Sčasoma lahko pričakujete, da se Instant in Thinking modeli razvijajo z različnimi hitrostmi.

GPT‑5.4 v Codex vključuje eksperimentalno podporo za 1M kontekstno okno. Razvijalci lahko to preizkusijo tako, da konfigurirajo model_context_window in model_auto_compact_token_limit. Zahteve, ki presegajo standardno kontekstno okno 272K, se pri omejitvah uporabe štejejo po 2x običajni stopnji.

V API-ju je GPT‑5.4 dražji na žeton kot GPT‑5.2, da odraža njegove izboljšane zmogljivosti, medtem ko njegova večja učinkovitost žetonov pomaga zmanjšati skupno število žetonov, potrebnih za številne naloge. Na voljo so cene Batch in Flex po polovici standardne API tarife, medtem ko je Priority procesiranje na voljo po dvakratni standardni tarifi.

Model API	Cena vnosa	Cena predpomnjenega vnosa	Cena izhoda
gpt-5.2	1,75 USD / M žetonov	0,175 USD / M žetonov	14 USD / M žetonov
gpt-5.4	2,50 USD / M žetonov	0.25 USD / M žetonov	15 USD / M žetonov
gpt-5.2-pro	21 USD / M žetonov	-	168 USD / M žetonov
gpt-5.4-pro	30 USD / M žetonov	-	180 USD / M žetonov

Vrednotenja

Profesionalno

Evalvacija	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
GDPval	83,0%	82,0 %	70,9 %	70,9 %	74,1 %
FinanceAgent v1.1	56,0 %	61,5 %	54,0 %	59,5 %	—
Naloge modeliranja v investicijskem bančništvu (Interno)	87,3 %	83,6 %	79,3 %	68,4 %	71,7 %
OfficeQA	68,1 %	—	65,1 %	63,1 %	—

Programiranje

Evalvacija	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
SWE-Bench Pro (javna različica)	57,7%	—	56,8 %	55,6 %	—
Terminal-Bench 2.0	75,1 %	—	77,3 %	62,2%	—

Uporaba računalnika in računalniški vid

Evalvacija	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
OSWorld-Verified	75,0%	—	74,0 %	47,3 %	—
MMMU Pro (brez orodij)	81,2 %	—	—	79,5 %	—
MMMU Pro (z orodji)	82,1 %	—	—	80,4 %	—

Uporaba orodij

Evalvacija	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
BrowseComp	82,7%	89,3 %	77,3 %	65,8%	77,9%
MCP Atlas	67,2 %	—	—	60,6 %	—
Toolathlon	54,6 %	—	51,9%	45,7 %	—
Tau2-bench Telecom	98,9 %	—	—	98,7 %	—

Akademsko

Evalvacija	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
Prelomne znanstvene raziskave	33,0 %	36,7 %	—	25,2 %	—
FrontierMath stopnje 1–3	47,6 %	—	—	40,7 %	—
FrontierMath stopnja 4	27,1 %	38,0 %	—	18,8 %	31,3 %
GPQA Diamond	92,8 %	94,4 %	92,6 %	92,4 %	93,2 %
Zadnji izpit človeštva (brez orodij)	39,8 %	42,7 %	—	34,5 %	36,6 %
Zadnji izpit človeštva (z orodji)	52,1 %	58,7 %	—	45,5 %	50,0 %

Dolg kontekst

Evalvacija	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
Graphwalks BFS 0K–128K	93,0 %	—	—	94,0%	—
Graphwalks BFS 256K–1M	21,4 %	—	—	—	—
Graphwalks nadrejeni 0–128K (natančnost)	89,8 %	—	—	89,0 %	—
Nadrejeni Graphwalks 256K–1M (natančnost)	32,4 %	—	—	—	—
OpenAI MRCR v2 8-igel 4K–8K	97,3 %	—	—	98,2 %	—
OpenAI MRCR v2 8 igel 8K–16K	91.4 %	—	—	89,3 %	—
OpenAI MRCR v2 8 igel 16K–32K	97,2 %	—	—	95,3 %	—
OpenAI MRCR v2 8 igel 32K–64K	90,5 %	—	—	92,0 %	—
OpenAI MRCR v2 8 igel 64K–128K	86,0 %	—	—	85,6 %	—
OpenAI MRCR v2 8 igel 128K–256K	79,3 %	—	—	77,0 %	—
OpenAI MRCR v2 8 igel 256K–512K	57,5 %	—	—	—	—
OpenAI MRCR v2 8 igel 512K–1M	36,6 %	—	—	—	—

Abstraktno razmišljanje

Evalvacija	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
ARC-SUI-1 (preverjeno)	93,7 %	94,5 %	—	86,2 %	90,5 %
ARC-SUI-2 (preverjeno)	73,3 %	83,3 %	—	52,9 %	54,2 % (visoko)

Ocene brez sklepanja

Evalvacija	GPT‑5.4 (none)	GPT‑5.2 (brez)	GPT‑4.1
OmniDocBench (normalizirana razdalja urejanja)	0.109	0.140	—
Tau2-bench Telecom	64,3 %	57,2 %	43,6 %

Evalvacije so bile izvedene z nastavljeno stopnjo napora sklepanja xhigh, razen kjer je navedeno drugače. Meritve so bile izvedene v raziskovalnem okolju, kar lahko v nekaterih primerih prinese nekoliko drugačne rezultate kot v produkcijskem ChatGPT‑ju.