5. ožujka 2026.

Predstavljamo GPT‑5.4

Namijenjen profesionalnom radu

Učitavanje…

Danas objavljujemo GPT‑5.4 u ChatGPT‑u (kao GPT‑5.4 Thinking), API-ju i Codexu. To je naš dosad najsposobniji i najučinkovitiji model za profesionalni rad. Također objavljujemo GPT‑5.4 Pro u ChatGPT‑u i API-ju, za korisnike koji žele maksimalne performanse na složenim zadacima.

GPT‑5.4 objedinjuje najbolje iz naših nedavnih napredaka u rasuđivanju, kodiranju i radnim tijekovima u kojima sudjeluje agent u jedan granični model. Uključuje vodeće mogućnosti kodiranja u industriji modela GPT‑5.3‑Codex⁠, uz poboljšanja u načinu na koji model radi s alatima, softverskim okruženjima i profesionalnim zadacima koji uključuju proračunske tablice, prezentacije i dokumente. Rezultat je model koji točno, učinkovito i djelotvorno obavlja složen stvarni posao – tako što isporučuje ono što ste zatražili uz manje dodatnog pojašnjavanja.

U ChatGPT‑u, GPT‑5.4 Thinking sad može unaprijed prikazati plan svojeg razmišljanja, tako da možete prilagoditi smjer usred odgovora dok radi, i dobiti konačni rezultat koji je bliže onome što trebate bez dodatnih krugova razgovora. GPT‑5.4 Thinking također poboljšava dubinsko istraživanje weba, osobito za vrlo specifične upite, uz bolje zadržavanje konteksta za pitanja koja zahtijevaju dulje razmišljanje. Zajedno, ta poboljšanja donose kvalitetnije odgovore koji stižu brže i ostaju relevantni za zadatak.

U Codexu i API-ju, GPT‑5.4 prvi je model opće namjene koji smo objavili s izvornim, vrhunskim mogućnostima upravljanja računalom, što agentima omogućuje upravljanje računalima i izvođenje složenih radnih tijekova kroz različite aplikacije. Podržava do 1M tokena konteksta, što agentima omogućuje planiranje, izvođenje i provjeru zadataka kroz duže vremenske horizonte. GPT‑5.4 također poboljšava način na koji modeli rade u velikim ekosustavima alata i poveznika uz pretraživanje alata, pomažući agentima da učinkovitije pronađu i koriste odgovarajuće alate bez gubitka razine inteligencije. Na kraju, GPT‑5.4 naš je dosad najučinkovitiji model za rasuđivanje u pogledu tokena , koji pri rješavanju problema koristi znatno manje tokena u usporedbi s GPT‑5.2—što znači manju potrošnju tokena i veće brzine.

Zajedno s napretkom u općem rasuđivanju, kodiranju i profesionalnom intelektualnom radu, GPT‑5.4 omogućuje pouzdanije agente, brže tijekove rada za razvojne inženjere i kvalitetnije rezultate u ChatGPT‑u, API-ju i Codexu.

	GPT‑5.4	GPT‑5.3‑Codex	GPT‑5.2
GDPval (pobjede ili neriješeni rezultati)	83 %	70,9 %	70,9 %
SWE-Bench Pro (Public)	57,7 %	56,8 %	55,6 %
OSWorld-Verified	75 %	74 %*	47,3 %
Toolathlon	54,6 %	51,9 %	46.3%
BrowseComp	82,7 %	77,3 %	65,8 %

*Ranije objavljeno kao 64,7 %. GPT‑5.3‑Codex postiže 74 % s novouvedenim API parametrom koji čuva izvornu razlučivost slike.

Rad temeljen na znanju

Nadovezujući se na opće sposobnosti zaključivanja modela GPT‑5.2, GPT‑5.4 donosi još dosljednije i dotjeranije rezultate u stvarnim zadacima koji su važni profesionalcima.

Na referentnom testu GDPval⁠, koji provjerava sposobnost agenata da proizvedu jasno definirane rezultate rada temeljenog na znanju u 44 zanimanja, GPT‑5.4 postiže novi najbolji rezultat, pri čemu se u 83,0 % usporedbi izjednačuje s profesionalcima u industriji ili ih nadmašuje, u usporedbi sa 71,0 % za GPT‑5.2.

U referentnom testu, GDPval modeli rješavaju jasno definirane zadatke rada koji se temelji na znanju u 44 zanimanja iz 9 najvećih sektora koji doprinose BDP-u SAD-a. Zadaci traže stvarne radne rezultate, poput prodajnih prezentacija, računovodstvenih proračunskih tablica, rasporeda hitne ambulante, proizvodnih dijagrama ili kratkih videozapisa. Razina napora u rasuđivanju bila je postavljena na xhigh za GPT‑5.4 i heavy za GPT‑5.2 (nešto niža razina u ChatGPT‑u).

“GPT-5.4 je najbolji model koji smo ikad isprobali. Sada je na vrhu ljestvice na našem mjerilu APEX-Agents, koje mjeri učinkovitost modela za rad u profesionalnim uslugama. Izvrsno se snalazi u izradi isporučivih rezultata dugog vremenskog horizonta, kao što su prezentacije, financijski modeli i pravne analize, pružajući vrhunske performanse uz brži rad i niže troškove od konkurentskih naprednih modela.”

— Brendan Foody, izvršni direktor u tvrtki Mercor

Posebno smo se usredotočili na poboljšanje sposobnosti modela GPT‑5.4 da izrađuje i uređuje proračunske tablice, prezentacije i dokumente. Na internom referentnom testu zadataka modeliranja u proračunskim tablicama kakve bi mogao raditi mlađi analitičar u investicijskom bankarstvu, GPT‑5.4 postiže prosječnu ocjenu od 87,5 %, u usporedbi sa 68,4 % za GPT‑5.2. Na skupu upita za procjenu prezentacija, ljudski ocjenjivači dali su prednost prezentacijama modela GPT‑5.4 u 68 % slučajeva u odnosu na one modela GPT‑5.2 zbog bolje estetike, veće vizualne raznolikosti i učinkovitijeg korištenja generiranja slika.

Usporedni primjer izlaza proračunske tablice iz modela GPT-5.2 i GPT-5.4

Dokumenti su generirani s naporom u rasuđivanju postavljenim na xhigh

Te mogućnosti možete isprobati u ChatGPT‑u koristeći GPT‑5.4 Thinking ili Pro. Ako ste korisnik plana Enterprise, preporučujemo korištenje naših novoobjavljenih dodataka ChatGPT za Excel i Google Sheets⁠(otvara se u novom prozoru), koji su također predstavljeni danas. Također smo ažurirali našu proračunsku tablicu⁠(otvara se u novom prozoru) i vještine izrade prezentacija⁠(otvara se u novom prozoru) dostupne u Codexu i API-ju.

Kako bismo GPT‑5.4 učinili boljim u stvarnim radnim zadacima, nastavili smo smanjivati halucinacije i pogreške. GPT‑5.4 naš je dosad najtočniji model: na skupu deidentificiranih upita u kojima su korisnici označili činjenične pogreške, pojedinačne tvrdnje modela GPT‑5.4 imaju 33 % manju vjerojatnost da budu netočne, a cjeloviti odgovori imaju 18 % manju vjerojatnost da sadrže pogreške u odnosu na GPT‑5.2.

„GPT-5.4 postavlja novu ljestvicu za rad u području prava s velikim brojem dokumenata. Na našoj evaluaciji BigLaw Bench postigao je rezultat od 91 %. U usporedbi s drugim modelima, GPT-5.4 trenutačno je bolji u strukturiranju složene transakcijske analize, održavanju točnosti u dugim ugovorima i pružanju visoke razine detalja koju pravni stručnjaci zahtijevaju.”

— Niko Grupen, voditelj primijenjenog istraživanja u Harveyju

Korištenje računala i vid

GPT‑5.4 je naš prvi model opće namjene s nativnim sposobnostima korištenja računala i predstavlja veliki iskorak za razvojne inženjere i agente. Trenutačno je najbolji dostupni model za programere koji razvijaju agente koji obavljaju stvarne zadatke na mrežnim stranicama i u softverskim sustavima.

GPT‑5.4 osmislili smo tako da bude učinkovit u širokom rasponu zadataka koji uključuju upravljanje računalom. Izvrsno piše kȏd za upravljanje računalom putem biblioteka kao što je Playwright, a može i izdavati naredbe mišu i tipkovnici na temelju snimaka zaslona. Njegovo ponašanje može se usmjeravati putem poruka razvojnih inženjera, što znači da razvojni inženjeri mogu prilagoditi ponašanje kako bi odgovaralo određenim slučajevima uporabe. Razvojni inženjeri mogu čak konfigurirati sigurnosno ponašanje modela kako bi odgovaralo različitim razinama tolerancije na rizik navođenjem prilagođenih pravila potvrde.

Performanse i fleksibilnost modela odražavaju se na mjerilima koja testiraju upotrebu računala u različitim okruženjima. Na referentnom testu OSWorld-Verified, koji mjeri sposobnost modela da se kreće kroz radno okruženje računala pomoću snimaka zaslona te radnji tipkovnice i miša, GPT‑5.4 postiže vrhunski rezultat od 75 %, znatno više od GPT‑5.2 koji postiže 47,3 %, čime nadmašuje ljudsku razinu uspješnosti od 72,4 %.¹

Na referentnom testu WebArena-Verified, koji testira upotrebu preglednika, GPT‑5.4 postiže vodeću stopu uspješnosti od 67,3 % pri korištenju interakcije vođene DOM-om i snimkama zaslona, u usporedbi s 65,4 % za GPT‑5.2. Na referentnom testu Online-Mind2Web, koji također testira upotrebu preglednika, GPT‑5.4 postiže stopu uspješnosti od 92,8 % koristeći isključivo opažanja temeljena na snimkama zaslona, čime poboljšava u odnosu na način rada agenta u ChatGPT Atlasu, koji postiže stopu uspješnosti od 70,9 %.

Predaja alatu nastaje kad asistent prepusti izvršavanje kako bi pričekao odgovore alata. Ako se tri alata pozovu paralelno, a zatim još tri paralelno, broj predaja bit će 2. Predaje alatu bolji su pokazatelj latencije od poziva alata jer odražavaju prednosti paralelizacije.

GPT‑5.4 interpretira snimke zaslona sučelja preglednika i komunicira s elementima korisničkog sučelja putem klikanja na temelju koordinata kako bi slao poruke e-pošte i zakazao događaj u kalendaru.

Poboljšana upotreba računala u modelu GPT‑5.4 temelji se na njegovim unaprijeđenim općim sposobnostima vizualne percepcije. Na MMMU-Pro, testu vizualnog razumijevanja i rasuđivanja modela, GPT‑5.4 postiže stopu uspješnosti od 81,2% bez korištenja alata, što je poboljšanje u odnosu na uspješnost GPT‑5.2 od 79,5 %. Poboljšana vizualna percepcija također se prenosi u bolje mogućnosti raščlambe dokumenata. Na OmniDocBench, GPT‑5.4 bez napora rasuđivanja postiže prosječnu pogrešku (mjerenu normaliziranom udaljenošću uređivanja između predviđanja modela i stvarne vrijednosti) od 0,109, poboljšano u odnosu na 0,140 kod GPT‑5.2.

MMMUPro je pokrenut s naporom u rasuđivanju postavljenim na xhigh. OmniDocBench je pokrenut s naporom rasuđivanja postavljenim na none, kako bi se odrazile performanse niske cijene i niske latencije.

Također poboljšavamo vizualno razumijevanje za guste slike visoke razlučivosti kod kojih je važna potpuna vjernost. Počevši od GPT‑5.4, uvodimo razinu detalja unosa original slike detalj unosa⁠(otvara se u novom prozoru) koja podržava percepciju pune vjernosti do ukupno 10,24 milijuna piksela ili maksimalnu dimenziju od 6000 piksela, ovisno o tome što je niže; razina detalja unosa high slike sada podržava do ukupno 2,56 milijuna piksela ili maksimalnu dimenziju od 2048 piksela. Tijekom ranog testiranja s korisnicima API-ja, primijetili smo značajna poboljšanja u sposobnosti lokalizacije, razumijevanju slika i točnosti klikova pri upotrebi original ili high razine detalja.

„U našim evaluacijama koje mjere performanse upotrebe računala na ~30K HOA i portalima za porez na imovinu, GPT-5.4 postigao je stopu uspješnosti od 95 % u prvom pokušaju i 100 % unutar tri pokušaja, u usporedbi s ~73 – 79 % s prethodnim CUA modelima. Uz to je dovršavao sesije ~3x brže uz korištenje ~70 % manje tokena, čime se značajno poboljšava pouzdanost i troškovna učinkovitost u velikom opsegu.”

— Dod Fraser, izvršni direktor u tvrtki Mainstay

U API-ju razvojni inženjeri mogu pristupiti tim mogućnostima pomoću ažuriranog računalnog alata. Molimo vas da pogledate našu ažuriranu dokumentaciju⁠(otvara se u novom prozoru) za preporučene najbolje prakse.

Kodiranje

GPT‑5.4 kombinira snage kodiranja modela GPT‑5.3‑Codex s vodećim mogućnostima rada sa znanjem i korištenja računala, koje su ključne za dugotrajnije zadatke u kojima model može koristiti alate, iterirati i unaprijediti posao uz manje ručne intervencije. Odgovara ili nadmašuje GPT‑5.3‑Codex na SWE-Bench Pro, uz nižu latenciju u naporima rasuđivanja.

Procjenjujemo latenciju promatrajući ponašanje naših modela u produkciji i offline simulacijom. Procjena latencije uključuje trajanje poziva alata (vrijeme izvođenja koda), uzorkovane tokene i ulazne tokene. Latencija u stvarnom svijetu može znatno varirati i ovisi o mnogim čimbenicima koji nisu obuhvaćeni našom simulacijom. Napori u rasuđivanju povećani su s 'none' na 'xhigh'.

Kad je uključen način rada /fast, u Codexu pruža do 1.5x bržu brzinu tokena withGPT‑5.4. To je isti model i ista inteligencija, samo brže. To znači da se korisnici mogu kretati kroz zadatke kodiranja, iteraciju i ispravljanje pogrešaka, a da pritom ostanu u tijeku. Razvojni inženjeri mogu pristupiti GPT‑5.4 istim brzim brzinama putem API-ja upotrebom prioritetne obrade⁠(otvara se u novom prozoru).

U evaluaciji i internom testiranju otkrili smo da se GPT‑5.4 ističe u složenim frontend zadacima, s primjetno estetskijim i funkcionalnijim rezultatima nego bilo koji modeli koje smo prethodno lansirali.

Kao demonstraciju poboljšanih mogućnosti modela za korištenje računala i kodiranje koje zajedno rade, objavljujemo i eksperimentalnu Codex vještinu pod nazivom „Playwright (Interactive)⁠(otvara se u novom prozoru)”. To omogućuje Codexu da vizualno ispravlja pogreške u web i Electron aplikacijama; može se čak koristiti za testiranje aplikacije koju izrađuje, dok je izrada u tijeku.

Simulacijska igra zabavnog parka izrađena s GPT‑5.4 iz jednog blago specificiranog upita, uz upotrebu alata Playwright Interactive za testiranje igranja u pregledniku i generiranje slike za izometrijski skup resursa. Simulacija uključuje postavljanje staza na pločicama, izgradnju vožnji i scenografije, pronalaženje puta gostiju, stajanje u redovima i cikluse vožnji, dok se metrike parka poput novca, broja gostiju, sreće, čistoće i ocjene povećavaju ili smanjuju ovisno o tome kako se raspored pokazuje i kako gosti na njega reagiraju. Playwright je korišten za automatizaciju testiranja igre u pregledniku izgradnjom i proširivanjem parka, postavljanjem i uklanjanjem staza i atrakcija, provjerom navigacije kamerom te potvrdom da su se gosti, redovi čekanja, stanje vožnji i metrike korisničkog sučelja ispravno ažurirali tijekom nekoliko krugova igre.

Upit: Upotrijebi $playwright-interactive i $imagegen. Izradi interaktivnu izometrijsku simulacijsku igru zabavnog parka koju mogu graditi i u kojoj se mogu kretati u pregledniku. Upotrijebi imagegen kako bi uspostavio cjelokupnu vizualnu viziju i generirao resurse igre, uključujući vožnje, staze, teren, drveće, vodu, štandove s hranom, dekoracije, zgrade, ikone i UI ilustracije. Svijet bi trebao djelovati kohezivno, uglađeno i vizualno bogato, s vrhunskom umjetničkom direkcijom koja dobro funkcionira iz izometrijske perspektive. Dopusti mi postavljanje i uklanjanje staza, dodavanje atrakcija, pozicioniranje scenografije i glatko kretanje po parku uz praćenje aktivnosti gostiju, statusa vožnji i rasta parka. Uključi uvjerljivo kretanje gostiju, jednostavne sustave upravljanja parkom poput novca, čistoće, čekanja u redu i sreće te neka iskustvo bude razigrano, jasno i cjelovito, a ne kao grubi prototip. Daj prednost šarmu, čitljivosti i snažnom osjećaju igre u odnosu na realizam.

Tijekom testiranja igre svakako izgradite i proširite park kroz nekoliko rundi igre, provjerite da postavljanje i navigacija rade glatko, potvrdite da gosti reagiraju na raspored parka i atrakcije te osigurajte da vizualni elementi, korisničko sučelje i interakcije djeluju stabilno i kohezivno.

„Naši inženjeri smatraju da je GPT-5.4 prirodniji i asertivniji od prethodnih modela. Rješava dvosmislene probleme bez da preispituje samog sebe i proaktivno paralelizira rad kako bi se stvari nastavile kretati.”

— Lee Robinson, potpredsjednik za edukaciju programera u tvrtki Cursor

Korištenje alata

Uz GPT‑5.4, značajno smo poboljšali način na koji modeli rade s vanjskim alatima. Agenti sad mogu djelovati u većim ekosustavima alata, pouzdanije odabrati prave alate i dovršavati radne tokove u više koraka uz niže troškove i kašnjenje.

Pretraživanje alata

U API-ju, GPT‑5.4 uvodi pretraživanje alata⁠(otvara se u novom prozoru), koje omogućuje modelima učinkovit rad kad im je dodijeljen velik broj alata.

Ranije su, kad bi model dobio alate, sve definicije alata bile uključene u upit unaprijed. U sustavima s mnogo alata to je moglo dodati tisuće – pa čak i desetke tisuća – tokena svakom zahtjevu, povećavajući trošak, usporavajući odgovore i zatrpavajući kontekst informacijama koje model možda nikad neće upotrijebiti.

Uz pretraživanje alata, GPT‑5.4 umjesto toga prima lagani popis dostupnih alata zajedno s mogućnošću njihova pretraživanja. Kad model treba upotrijebiti alat, može potražiti definiciju tog alata i u tom trenutku je dodati razgovoru.

Ovaj pristup dramatično smanjuje broj tokena potrebnih za radne tijekove s mnogo alata i čuva predmemoriju, čineći zahtjeve bržima i jeftinijima. Također, agentima omogućuje pouzdani rad s mnogo većim ekosustavima alata. Za MCP poslužitelje koji mogu sadržavati desetke tisuća tokena definicija alata, povećanja učinkovitosti mogu biti znatna.

Kako bismo pokazali povećanje učinkovitosti, evaluirali smo 250 zadataka iz Scaleovog referentnog testa MCP Atlas⁠(otvara se u novom prozoru) sa svih 36 MCP poslužitelja omogućenih u dva načina: (1) izlaganje svake MCP funkcije izravno u kontekstu modela i (2) postavljanje svih MCP poslužitelja iza pretraživanja alata. Konfiguracija pretraživanja alata smanjila je ukupnu upotrebu tokena za 47 % uz postizanje jednake točnosti.

Primjeri broja tokena dobiveni su prosjekom 250 zadataka u javnom skupu podataka MCP-Atlas.

Pozivanje alata uz sudjelovanje agenta

GPT‑5.4 također poboljšava pozivanje alata, čineći ga točnijim i učinkovitijim pri odlučivanju kad i kako koristiti alate tijekom rasuđivanja, osobito u API-ju. U usporedbi s GPT‑5.2, postiže veću točnost uz manje razmjena na Toolathlonu, referentnom testu koji provjerava koliko dobro AI agenti mogu upotrebljavati alate i API-je iz stvarnog svijeta za dovršavanje zadataka u više koraka. Primjerice, agent treba pročitati e-poruke, izdvojiti privitke zadatka, prenijeti ih, ocijeniti ih i zabilježiti rezultate u proračunsku tablicu.

Za scenarije u kojima je važna niska latencija i preferira se razina napora rasuđivanja None, GPT‑5.4 dodatno nadmašuje svoje prethodnike.

U τ2-bench⁠⁠(otvara se u novom prozoru), model mora upotrebljavati alate kako bi izvršio zadatak korisničke podrške, pri čemu može postojati simulirani korisnik koji može komunicirati i poduzimati radnje na stanju svijeta. Napor rasuđivanja postavljen je na None.

Poboljšano pretraživanje weba

GPT‑5.4 je bolji u pretraživanju weba s agentima. Na referentnom testu BrowseComp, koji mjeri koliko su AI agenti uspješni u ustrajnom pretraživanju mreže kako bi pronašli teško dostupne informacije, GPT‑5.4 postiže rezultat veći za 17 %_abs u odnosu na GPT‑5.2, a GPT‑5.4 Pro postavlja novu vrhunsku razinu od 89,3 %.

U praksi to znači da je GPT‑5.4 Thinking snažniji u odgovaranju na pitanja koja zahtijevaju sastavljanje informacija iz mnogih izvora na webu. Može upornije pretraživati kroz više rundi kako bi identificirao najrelevantnije izvore, osobito za pitanja tipa „igla u plastu sijena“, i sintetizirati ih u jasan, dobro obrazložen odgovor.

U referentnom testu BrowseComp koristili smo blok-listu pretraživanja koja iz evaluacije isključuje mrežne stranice s odgovorima iz referentnog testa, kako bismo spriječili kontaminaciju i osigurali pravedno mjerenje performansi. Model GPT‑5.4 mjeren je kasnije od modela GPT‑5.2, pa rezultati odražavaju promjene u modelu, našem sustavu pretraživanja i stanju interneta. GPT‑5.4 testiran je s duljim, ažuriranim popisom blokiranih stavki. Modeli koriste ChatGPT alat za pretraživanje, koji može imati male razlike u odnosu na API pretraživanje.

„GPT-5.4 xhigh novi je vrhunski standard za višekoračnu upotrebu alata. Zapier provodi neka od najrigoroznijih mjerila za upotrebu alata u industriji tako što testira modele kroz stotine naprednih radnih tokova iz stvarnog svijeta. GPT-5.4 dovršio je posao ondje gdje su prethodni modeli odustali – dosad najuporniji model.”

— Wade, izvršni direktor u tvrtki Zapier

Usmjerivost

Slično kao što Codex opisuje svoj pristup pri početku rada, GPT‑5.4 Thinking u ChatGPT‑u sad će započeti svoj odgovor uvodnim dijelom za dulje i složenije upite. Možete također dodavati upute ili prilagoditi njegov smjer usred odgovora. To olakšava usmjeravanje modela prema točno onom ishodu koji želite, bez ponovnog počinjanja ili potrebe za više dodatnih promjena smjera. Ova je značajka sada dostupna na chatgpt.com⁠(otvara se u novom prozoru) i u aplikaciji za Android, a uskoro stiže i u aplikaciju za iOS.

Model također može dulje razmišljati o teškim zadacima uz zadržavanje snažnije svijesti o ranijim koracima u razgovoru. To mu omogućuje upravljanje duljim tijekovima rada i složenijim upitima, pritom cijelo vrijeme održavajući odgovore koherentnima i relevantnima.

Ovaj videozapis ubrzan je u ilustrativne svrhe.

Sigurnost

Tijekom posljednjih mjeseci nastavili smo poboljšavati zaštitne mjere koje smo uveli s modelom GPT‑5.3‑Codex, dok smo pripremali GPT‑5.4 za uvođenje. Slično modelu GPT‑5.3‑Codex, GPT‑5.4 tretiramo kao visoku kibernetičku sposobnost prema našem Okviru pripravnosti te ga uvodimo s odgovarajućim zaštitama, kako je dokumentirano u dokumentu o sustavu⁠. To uključuje prošireni kibernetički sigurnosni skup, uključujući sustave nadzora, pouzdane kontrole pristupa i asinkrono blokiranje zahtjeva višeg rizika za korisnike na površinama bez zadržavanja podataka (ZDR), uz kontinuirana ulaganja u širi sigurnosni ekosustav.

Budući da su mogućnosti u području kibernetičke sigurnosti inherentno dvojne namjene, poduzimamo mjere opreza pri uvođenju, dok nastavljamo prilagođavati naše politike i klasifikatore. Za određene korisnike na površinama ZDR-a, blokiranje na razini zahtjeva i dalje je dio našeg skupa mjera za ublažavanje kibernetičkog rizika; budući da se klasifikatori još uvijek poboljšavaju, mogu se pojaviti neki lažno pozitivni rezultati dok nastavljamo usavršavati te zaštitne mjere. Ta ažuriranja imaju za cilj poboljšati način na koji zaštitne mjere funkcioniraju u praksi, uključujući smanjenje nepotrebnih odbijanja i pretjerano opreznih odgovora, uz očuvanje snažne zaštite od zlouporabe.

Nastavili smo sigurnosno istraživanje praćenja lanca razmišljanja (CoT) kako bismo bolje razumjeli način razmišljanja modela i pomogli u otkrivanju potencijalnog nepoželjnog ponašanja. Kao dio tog rada uvodimo novu evaluaciju otvorenog koda, kontrolabilnost CoT-a⁠, koja mjeri mogu li modeli namjerno zamagliti svoje rasuđivanje kako bi izbjegli nadzor. Utvrdili smo da sposobnost modela GPT‑5.4 Thinking da kontrolira svoj CoT ograničena, što je s aspekta sigurnosti pozitivno svojstvo jer upućuje na to da model nema mogućnost skrivanja vlastitog rasuđivanja te da praćenje CoT-a i dalje ostaje učinkovit sigurnosni mehanizam.

Dostupnost i cijene

GPT‑5.4 se danas postupno uvodi u ChatGPT i Codex. U API-ju je GPT‑5.4 sada dostupan kao gpt-5.4. GPT‑5.4 Pro je također dostupan u API-ju kao gpt-5.4-pro za programere kojima su potrebne maksimalne performanse na najsloženijim zadacima.

U ChatGPT‑u, GPT‑5.4 Thinking od danas je dostupan korisnicima planova ChatGPT Plus, Team i Pro, čime zamjenjuje GPT‑5.2 Thinking. GPT‑5.2 Thinking i dalje će tri mjeseca biti dostupan korisnicima s plaćanjem u izborniku modela u odjeljku Legacy Models (Stariji modeli), nakon čega će se ukinuti 5. lipnja 2026. Oni na planovima Enterprise i Edu mogu omogućiti rani pristup putem administratorskih postavki. GPT‑5.4 Pro je dostupan u planovima Pro i Enterprise. Kontekstni prozori⁠(otvara se u novom prozoru) u ChatGPT‑u za GPT‑5.4 Thinking ostaje nepromijenjen iz GPT‑5.2 Thinking.

GPT‑5.4 je naš prvi glavni model za rasuđivanje koji uključuje granične mogućnosti kodiranja modela GPT‑5.3‑codex i koji se postupno uvodi u ChatGPT, API i Codex. Nazivamo ga GPT‑5.4 kako bismo odrazili taj skok i pojednostavili izbor između modela pri upotrebi Codexa. S vremenom možete očekivati da će se naši Instant modeli i Thinking modeli razvijati različitim brzinama.

GPT‑5.4 u Codexu uključuje eksperimentalnu podršku za kontekstni prozor od 1 milijun tokena. Razvojni inženjeri to mogu isprobati konfiguriranjem model_context_window i model_auto_compact_token_limit. Zahtjevi koji premašuju standardni prozor konteksta od 272 000 ubrajaju se u ograničenja korištenja po 2 puta u odnosu na normalnu stopu.

U API-ju je GPT‑5.4 skuplji po tokenu od GPT‑5.2 kako bi se odrazile njegove poboljšane mogućnosti, dok njegova veća učinkovitost tokena pomaže smanjiti ukupan broj tokena potrebnih za mnoge zadatke. Cijene za Batch i Flex dostupne su po polovici standardne stope API-ja, dok je Prioritetna obrada dostupna po dvostrukoj standardnoj stopi API-ja.

API model	Ulazna cijena	Cijena predmemoriranog ulaza	Cijena izlaza
gpt-5.2	1,75 USD/M tokena	0,175 USD/M tokena	14 USD/M tokena
gpt-5.4	2,50 USD/M tokena	0,25 USD/M tokena	15 USD/M tokena
gpt-5.2-pro	21 USD/M tokena	-	168 USD/M tokena
gpt-5.4-pro	30 USD/M tokena	-	180 USD/M tokena

Procjene

Profesionalno

Evaluacija	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
GDPval	83 %	82,0 %	70,9 %	70,9 %	74,1 %
FinanceAgent v1.1	56,0 %	61,5 %	54,0 %	59,5 %	—
Zadaci modeliranja u investicijskom bankarstvu (interno)	87,3 %	83,6 %	79,3 %	68,4 %	71,7 %
OfficeQA	68,1 %	—	65,1 %	63,1 %	—

Kodiranje

Evaluacija	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
SWE-Bench Pro (Public)	57,7 %	—	56,8 %	55,6 %	—
Terminal-Bench 2.0	75,1 %	—	77,3 %	62,2 %	—

Korištenje računala i vid

Evaluacija	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
OSWorld-Verified	75 %	—	74,0 %	47,3 %	—
MMMU Pro (bez alata)	81,2 %	—	—	79,5 %	—
MMMU Pro (s alatima)	82,1 %	—	—	80,4 %	—

Korištenje alata

Evaluacija	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
BrowseComp	82,7 %	89,3 %	77,3 %	65,8 %	77,9 %
MCP Atlas	67,2 %	—	—	60,6 %	—
Toolathlon	54,6 %	—	51,9 %	45,7 %	—
Tau2-bench Telecom	98,9 %	—	—	98,7%	—

Akademski

Evaluacija	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
Granično znanstveno istraživanje	33,0 %	36,7 %	—	25,2 %	—
FrontierMath razine 1 do 3	47,6 %	—	—	40,7 %	—
FrontierMath Razina 4	27,1 %	38,0 %	—	18,8 %	31,3 %
GPQA Diamond	92,8 %	94,4 %	92,6 %	92,4 %	93,2 %
Humanity's Last Exam (bez alata)	39,8 %	42,7 %	—	34,5 %	36,6 %
Humanity's Last Exam (s alatima)	52,1 %	58,7 %	—	45,5 %	50,0 %

Dugi kontekst

Evaluacija	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
Graphwalks BFS 0 – 128 000	93,0 %	—	—	94,0 %	—
Šetnje grafom BFS 256 000 – 1 mil	21,4 %	—	—	—	—
Graphwalks roditelji 0 – 128 000 (točnost)	89,8 %	—	—	89,0 %	—
Graphwalks roditelji 256 000 – 1 mil (preciznost)	32,4 %	—	—	—	—
OpenAI MRCR v2 8-igala 4 000 – 8 000	97,3 %	—	—	98,2 %	—
OpenAI MRCR v2 8-igala 8 000 – 16 000	91,4 %	—	—	89,3 %	—
OpenAI MRCR v2 8 igala 16 000 – 32 000	97,2 %	—	—	95,3 %	—
OpenAI MRCR v2 8 igala 32 000 – 64 000	90,5 %	—	—	92,0 %	—
OpenAI MRCR v2 s 8 igala 64 000 – 128 000	86,0 %	—	—	85,6 %	—
OpenAI MRCR v2 8 igala 128 000 – 256 000	79,3 %	—	—	77,0 %	—
OpenAI MRCR v2 8 igala 256 000 – 512 000	57,5 %	—	—	—	—
OpenAI MRCR v2 8 igala 512 000 – 1 mil	36,6 %	—	—	—	—

Apstraktno prosuđivanje

Evaluacija	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
ARC-AGI-1 (verificiran)	93,7 %	94,5 %	—	86,2 %	90,5 %
ARC-AGI-2 (verificiran)	73,3 %	83,3 %	—	52,9 %	54,2 % (visoko)

Evaluacije bez rasuđivanja

Evaluacija	GPT‑5.4 (nema)	GPT‑5.2 (nema)	GPT‑4.1
OmniDocBench (normalizirana udaljenost uređivanja)	0,109	0,140	—
Tau2-bench Telecom	64,3 %	57,2 %	43,6 %

Evaluacije su pokrenute s naporom u rasuđivanju postavljenim na xhigh, osim ako nije drugačije navedeno. Mjerenja su provedena u istraživačkom okruženju, što može rezultirati neznatno drugačijim izlazom u odnosu na produkcijski ChatGPT u nekim slučajevima.