Danas objavljujemo GPT‑5.4 u ChatGPT‑u (kao GPT‑5.4 Thinking), API i Codex. To je naš najsposobniji i najefikasniji granični model za profesionalni rad. Također objavljujemo GPT‑5.4 Pro u ChatGPT‑u i API-ju, za osobe koje žele maksimalne performanse na složenim zadacima.
GPT‑5.4 objedinjuje najbolje od naših nedavnih napredaka u rezonovanju, kodiranju i agentnim tokovima rada u jedan granični model. Uključuje vodeće mogućnosti kodiranja u industriji koje nudi GPT‑5.3‑Codex, uz poboljšanje načina na koji model radi kroz alate, softverska okruženja i profesionalne zadatke koji uključuju proračunske tablice, prezentacije i dokumente. Rezultat je model koji precizno, efektivno i efikasno obavlja složen stvarni posao—ispunjavajući ono što ste tražili uz manje dodatnog usklađivanja.
U ChatGPT‑u, GPT‑5.4 Razmišljanje sada može unaprijed pružiti plan svog razmišljanja, tako da možete prilagoditi smjer usred odgovora dok radi, i doći do konačnog izlaza koji je bliže usklađen s onim što vam je potrebno bez dodatnih koraka. GPT‑5.4 Razmišljanje također poboljšava istraživanje dubokog weba, posebno za vrlo specifične upite, dok bolje održava kontekst za pitanja koja zahtijevaju duže razmišljanje. Zajedno, ova poboljšanja znače kvalitetnije odgovore koji stižu brže i ostaju relevantni za zadatak koji je u toku.
U Codexu i API-ju, GPT‑5.4 je prvi model opšte namjene koji smo objavili s izvornim, najsavremenijim sposobnostima korištenja računara, omogućavajući agentima da upravljaju računarima i provode složene tokove rada kroz aplikacije. Podržava do 1M tokena konteksta, omogućavajući agentima da planiraju, izvršavaju i provjeravaju zadatke kroz duge vremenske horizonte. GPT‑5.4 također poboljšava način na koji modeli rade u velikim ekosistemima alata i konektora uz pretraživanje alata, pomažući agentima da efikasnije pronađu i koriste prave alate bez žrtvovanja inteligencije. Konačno, GPT‑5.4 je naš najefikasniji model rezonovanja po tokenu do sada, koristeći znatno manje tokena za rješavanje problema u poređenju s GPT‑5.2—što rezultira smanjenom upotrebom tokena i većim brzinama.
Zajedno s napretkom u općem rezonovanju, kodiranju i profesionalnom radu sa znanjem, GPT‑5.4 omogućava pouzdanije agente, brže tokove rada za programere i kvalitetnije rezultate u ChatGPT‑u, API-ju i Codexu.
GPT‑5.4 | GPT‑5.3‑Codex | GPT‑5.2 | |
GDPval (pobjede ili neriješeni ishodi) | 83,0% | 70,9% | 70,9% |
SWE-Bench Pro (Public) | 57,7% | 56,8% | 55,6% |
OSWorld potvrđeno | 75,0% | 74,0%* | 47,3% |
Toolathlon | 54,6% | 51,9% | 46,3% |
BrowseComp | 82,7% | 77,3% | 65,8% |
*Ranije prijavljeno kao 64,7%. GPT‑5.3‑Codex postiže 74,0% s novouvedenim API parametrom koji čuva originalnu rezoluciju slike.
Nadovezujući se na GPT‑5.2 opće sposobnosti rezonovanja, GPT‑5.4 isporučuje još dosljednije i uglađenije rezultate na zadacima iz stvarnog svijeta koji su važni profesionalcima.
Na GDPval, evaluaciji koja testira sposobnosti agenata da proizvode dobro specificiran rad sa znanjem kroz 44 zanimanja, GPT‑5.4 postiže novi standard, izjednačavajući se s industrijskim profesionalcima ili ih nadmašujući u 83,0% poređenja, u odnosu na 71,0% za GPT‑5.2.
U GDPval-u, modeli pokušavaju dobro specificiran rad sa znanjem koji obuhvata 44 zanimanja iz 9 vodećih industrija koje doprinose BDP-u SAD-a. Zadaci zahtijevaju stvarne radne proizvode, kao što su prodajne prezentacije, računovodstvene tabele, rasporedi hitne njege, proizvodni dijagrami ili kratki videozapisi. Napor rezonovanja je postavljen na xhigh za GPT‑5.4 i heavy za GPT‑5.2 (nešto niži nivo u ChatGPT‑u).
„GPT-5.4 je najbolji model koji smo ikada isprobali. Sada je na vrhu rang-liste na našem APEX-Agents benchmarku, koji mjeri performanse modela za rad u profesionalnim uslugama. Ističe se u izradi dugoročnih isporuka kao što su prezentacije, finansijski modeli i pravna analiza, pružajući vrhunske performanse uz brži rad i niže troškove od konkurentskih graničnih modela.”
Posebno smo se fokusirali na poboljšanje GPT‑5.4 mogućnost kreiranja i uređivanja proračunskih tabela, prezentacija i dokumenata. Na internom referentnom testu zadataka modeliranja u tabelama koje bi mogao raditi junior analitičar investicijskog bankarstva, GPT‑5.4 postiže prosječan rezultat od 87,5%, u poređenju sa 68,4% za GPT‑5.2. Na skupu upita za evaluaciju prezentacija, ljudski ocjenjivači su preferirali prezentacije iz GPT‑5.4 u 68,0% slučajeva u odnosu na one iz GPT‑5.2 zbog snažnije estetike, veće vizuelne raznolikosti i efikasnije upotrebe generiranja slike.

Dokumenti su generisani sa naporom rezonovanja postavljenim na xhigh
Možete isprobati ove mogućnosti u ChatGPT‑u koristeći GPT‑5.4 Thinking ili Pro. Ako ste Enterprise korisnik, preporučujemo da koristite naše novoobjavljene dodatke ChatGPT za Excel i Google Sheets(otvara se u novom prozoru), koji su također pokrenuti danas. Također smo ažurirali naše vještine rada s tabelama(otvara se u novom prozoru) i vještine prezentovanja(otvara se u novom prozoru) dostupne u Codexu i API-ju.
Da bismo napravili GPT‑5.4 bolji u stvarnom radu, nastavili smo napredovati u smanjenju halucinacija i grešaka. GPT‑5.4 je naš najfaktualniji model do sada: na skupu deidentifikovanih upita gdje su korisnici označili faktualne greške, GPT‑5.4’s pojedinačni zahtjevi su 33% manje skloni biti netačni, a njegovi potpuni odgovori su 18% manje skloni sadržavati bilo kakve greške, u odnosu na GPT‑5.2.
„GPT-5.4 postavlja novi standard za pravni rad sa velikim brojem dokumenata. Na našoj BigLaw Bench evaluaciji, postigao je 91%. U poređenju s drugim modelima, GPT-5.4 je trenutno bolji u strukturiranju složene transakcijske analize, održavanju tačnosti kroz dugačke ugovore i isporučivanju visokog nivoa detalja koji pravni praktičari zahtijevaju.”
GPT‑5.4 je naš prvi model opće namjene s izvornim sposobnostima korištenja računara i označava veliki iskorak za programere i agente. To je najbolji model trenutno dostupan za programere koji grade agente koji završavaju stvarne zadatke na web stranicama i u softverskim sistemima.
Dizajnirali smo GPT‑5.4 da pruža visoke performanse u širokom spektru radnih opterećenja korištenja računara. Izvrsno piše kod za upravljanje računarima putem biblioteka kao što je Playwright, kao i za izdavanje komandi miša i tastature kao odgovor na snimke zaslona. Njegovo ponašanje se može usmjeravati putem poruka programera, što znači da programeri mogu prilagoditi ponašanje kako bi odgovaralo određenim slučajevima upotrebe. Programeri čak mogu konfigurirati sigurnosno ponašanje modela kako bi odgovaralo različitim nivoima tolerancije na rizik, tako što će navesti prilagođene politike potvrđivanja.
Performanse i fleksibilnost modela odražavaju se kroz testove koji ispituju upotrebu računara u različitim okruženjima. Na OSWorld-Verified, koji mjeri sposobnost modela da se kreće kroz desktop okruženje putem snimaka ekrana i radnji tastature/miša, GPT‑5.4 postiže najsavremeniji rezultat od 75,0% stopa uspjeha, daleko nadmašujući GPT‑5.2’s 47,3%, i nadmašujući ljudske performanse na 72,4%.1
Na WebArena-Verified, koji testira upotrebu preglednika, GPT‑5.4 postiže vodeću stopu uspješnosti od 67,3% kada koristi i interakciju vođenu DOM-om i snimkom ekrana, u poređenju sa GPT‑5.2 od 65,4%. Na Online-Mind2Web, koji takođe testira upotrebu pretraživača, GPT‑5.4 postiže stopu uspješnosti od 92,8% koristeći isključivo opažanja zasnovana na snimcima ekrana, čime poboljšava u odnosu na Agent Mode u ChatGPT Atlasu, koji postiže stopu uspješnosti od 70,9%.
Yield alata je kada asistent čeka odgovore alata. Ako se 3 alata pozovu paralelno, a zatim se još 3 alata pozovu paralelno, broj prinosa bi bio 2. Prinosi alata su bolji pokazatelj latencije nego pozivi alata jer odražavaju prednosti paralelizacije.
GPT‑5.4 tumači snimke ekrana interfejsa pregledača i komunicira s elementima korisničkog interfejsa putem klikanja zasnovanog na koordinatama kako bi slao e-mailove i zakazao događaj u kalendaru.
Poboljšano korištenje računara u GPT‑5.4 zasniva se na poboljšanim općim sposobnostima vizualne percepcije modela. Na MMMU-Pro, testu vizuelnog razumijevanja i rezonovanja modela, GPT‑5.4 postiže stopu uspješnosti od 81,2% bez upotrebe alata, poboljšanje u odnosu na GPT‑5.2’s 79.5%. Poboljšana vizualna percepcija takođe se pretvara u bolje mogućnosti raščlanjivanja dokumenata. Na OmniDocBench, GPT‑5.4 bez napora rezonovanja postiže prosječnu grešku (mjerenu normalizovanom udaljenošću uređivanja između predviđanja modela i osnovne istine) od 0,109, poboljšano u odnosu na GPT‑5.2‑ovih 0,140.
MMMUPro je pokrenut sa naporom rezonovanja postavljenim na visoko. OmniDocBench je pokrenut s naporom rezonovanja postavljenim na nisko, kako bi se odrazile performanse niskih troškova i niske latentnosti.
Takođe poboljšavamo vizualno razumijevanje za guste slike visoke rezolucije gdje je puna vizuelna vjernost važna. Počevši od GPT‑5.4, uvodimo nivo original detalja unosa(otvara se u novom prozoru) slike koji podržava percepciju pune vjernosti do ukupno 10.24M piksela ili maksimalne dimenzije od 6000 piksela, ovisno o tome šta je niže; nivo high detalja unosa slike sada podržava do ukupno 2.56M piksela ili maksimalnu dimenziju od 2048 piksela. Tokom ranog testiranja s API korisnicima, primijetili smo značajna poboljšanja u sposobnosti lokalizacije, razumijevanju slika i tačnosti klikova pri korištenju original ili high detalja.
„U našim evaluacijama koje mjere performanse korištenja računara kroz ~30K HOA i portala za porez na imovinu, GPT-5.4 je postigao stopu uspješnosti od 95% iz prvog pokušaja i 100% u roku od tri pokušaja, u poređenju s ~73–79% kod prethodnih CUA modela. Takođe je završavao sesije ~3x brže uz korištenje ~70% manje tokena, značajno poboljšavajući pouzdanost i troškovnu efikasnost u velikom obimu."
U API-ju, programeri mogu pristupiti ovim mogućnostima koristeći ažurirani computer alat. Molimo vas da pogledate našu ažuriranu dokumentaciju(otvara se u novom prozoru) za preporučene najbolje prakse.
GPT‑5.4 kombinuje snage kodiranja GPT‑5.3‑Codex sa vodećim sposobnostima za rad sa znanjem i korištenje računara, koje su najvažnije na dugotrajnijim zadacima gdje model može koristiti alate, iterirati i gurati posao dalje uz manje ručne intervencije. Po performansama se podudara s GPT‑5.3‑Codex ili ga nadmašuje na SWE-Bench Pro, uz nižu latenciju kroz napore rezonovanja.
Procjenjujemo latenciju posmatrajući ponašanje naših modela u produkciji i simulirajući to offline. Procjena latencije uzima u obzir trajanje poziva alata (vrijeme izvršavanja koda), uzorkovane tokene i ulazne tokene. Latencija u stvarnom svijetu može značajno varirati i zavisi od mnogih faktora koji nisu obuhvaćeni našom simulacijom. Napori rezonovanja su povećani sa none na xhigh.
Kada je uključeno, /fast mode u Codexu pruža do 1.5x bržu brzinu tokena sa GPT‑5.4. To je isti model i ista inteligencija, samo brže. To znači da se korisnici mogu kretati kroz zadatke kodiranja, iteracije i otklanjanje neispravnosti, a istovremeno ostajući u toku. Programeri mogu pristupiti GPT‑5.4 istim brzim brzinama putem API-ja koristeći prioritetnu obradu(otvara se u novom prozoru).
U evaluaciji i internom testiranju otkrili smo da se GPT‑5.4 ističe u složenim frontend zadacima, s primjetno estetskijim i funkcionalnijim rezultatima nego bilo koji modeli koje smo ranije predstavili.
Kao demonstraciju poboljšanih mogućnosti korištenja računara i kodiranja ovog modela koje rade zajedno, objavljujemo i eksperimentalnu Codex vještinu pod nazivom „Playwright (Interactive)(otvara se u novom prozoru)“. Ovo omogućava Codexu da vizuelno otklanja neispravnosti u web i Electron aplikacijama; može se čak koristiti za testiranje aplikacije koju gradi, dok je gradi.
Simulacijska igra tematskog parka napravljena s GPT‑5.4 iz jednog blago specificiranog upita, koristeći Playwright Interactive za playtesting u pregledniku i generiranje slike za izometrijski set resursa. Simulacija uključuje postavljanje staza na osnovu pločica, izgradnju vožnji i scenografije, pronalaženje puta gostiju, čekanje u redu i cikluse vožnji, dok se parkovne metrike poput novca, broja gostiju, sreće, čistoće i ocjene povećavaju ili smanjuju na osnovu toga kako se raspored pokazuje i kako gosti na njega reagiraju. Playwright je korišten za automatizaciju playtestova u pretraživaču tako što se park gradio i proširivao, postavljale i uklanjale staze i atrakcije, provjeravala navigacija kamere te potvrđivalo da su se gosti, redovi, stanja vožnji i metrike korisničkog interfejsa ispravno ažurirali kroz nekoliko rundi igre.
Upit: Koristite $playwright-interactive i $imagegen. Kreirajte interaktivnu izometrijsku simulacijsku igru tematskog parka koju mogu graditi i u kojoj se mogu kretati u pregledniku. Koristite imagegen da uspostavite ukupnu vizualnu viziju i generišete resurse igre, uključujući vožnje, staze, teren, drveće, vodu, štandove s hranom, dekoracije, zgrade, ikonice i UI ilustracije. Svijet treba djelovati kohezivno, uglađeno i vizualno bogato, sa premium umjetničkom direkcijom koja dobro funkcioniše iz izometrijske perspektive. Omogućite mi da postavljam i uklanjam staze, dodajem atrakcije, pozicioniram scenografiju i glatko se krećem po parku dok pratim aktivnost gostiju, status vožnji i rast parka. Uključite uvjerljivo kretanje gostiju, jednostavne sisteme upravljanja parkom poput novca, čistoće, čekanja u redu i sreće, i učinite da iskustvo djeluje razigrano, jasno i kompletno, a ne kao grubi prototip. Dajte prednost šarmu, čitljivosti i snažnom osjećaju igre u odnosu na realizam.
Tokom testiranja igranja, obavezno izgradi i proširi park kroz nekoliko rundi igre, provjeri da postavljanje i navigacija rade glatko, potvrdi da gosti reagiraju na raspored parka i atrakcije, te osiguraj da vizuali, UI i interakcije djeluju stabilno i kohezivno.
„Naši inženjeri utvrđuju GPT-5.4 prirodniji i asertivniji od prethodnih modela . Rješava nejasne probleme bez preispitivanja samog sebe, i proaktivan je u paraleliziranju rada kako bi se stvari nastavile kretati.”
Sa GPT‑5.4, značajno smo poboljšali način na koji modeli rade s vanjskim alatima. Agenti sada mogu djelovati kroz veće ekosisteme alata, pouzdanije birati prave alate i završavati višestepene tokove rada uz niže troškove i latentnost.
U API-ju, GPT‑5.4 uvodi pretraživanje alata(otvara se u novom prozoru), što omogućava modelima da rade efikasno kada im se da mnogo alata.
Prethodno, kada su modelu bili dati alati, sve definicije alata bile su uključene u upit unaprijed. Za sisteme s mnogo alata, ovo bi moglo dodati hiljade—ili čak desetine hiljada—tokena svakom zahtjevu, povećavajući troškove, usporavajući odgovore i zagušujući kontekst informacijama koje model možda nikada neće koristiti.
Uz pretragu alata, GPT‑5.4 umjesto toga prima laganu listu dostupnih alata zajedno s mogućnošću pretrage alata. Kada model treba koristiti alat, može potražiti definiciju tog alata i dodati je razgovoru u tom trenutku.
Ovaj pristup dramatično smanjuje broj tokena potrebnih za tokove rada s mnogo alata i čuva predmemoriju, čineći zahtjeve bržim i jeftinijim. Također omogućava agentima da pouzdano rade s mnogo većim ekosistemima alata. Za MCP servere koji mogu sadržavati desetine hiljada tokena definicija alata, dobitci u efikasnosti mogu biti značajni.
Kako bismo demonstrirali dobitke u efikasnosti, evaluirali smo 250 zadataka iz Scaleovog MCP Atlas(otvara se u novom prozoru) benchmarka sa svih 36 MCP servera omogućenih u dva režima: (1) izlaganje svake MCP funkcije direktno u kontekstu modela, i (2) postavljanje svih MCP servera iza pretrage alata. Konfiguracija pretrage alata smanjila je ukupnu upotrebu tokena za 47% uz postizanje iste tačnosti.
Primjeri broja tokena dolaze iz prosjeka 250 zadataka u javnom skupu podataka MCP-Atlas.
GPT‑5.4 također poboljšava pozivanje alata, čineći ga preciznijim i efikasnijim pri odlučivanju kada i kako koristiti alate tokom rezonovanja, posebno u API-ju. U poređenju s GPT‑5.2, postiže veću tačnost u manje poteza na Toolathlonu, mjerilu koje testira koliko dobro UI agenti mogu koristiti alate i API-je iz stvarnog svijeta za izvršavanje višekoraknih zadataka. Na primjer, agent treba da čita e-mailove, izdvaja priloge zadataka, otprema ih, ocjenjuje ih i bilježi rezultate u proračunsku tablicu.
Yield alata je kada asistent čeka odgovore alata. Ako se 3 alata pozovu paralelno, a zatim se još 3 alata pozovu paralelno, broj prinosa bi bio 2. Prinosi alata su bolji pokazatelj latencije nego pozivi alata jer odražavaju prednosti paralelizacije.
Za slučajeve upotrebe osjetljive na latentnost gdje nije potreban napor rezonovanja, GPT‑5.4 dodatno unapređuje svoje prethodnike.
U τ2-bench(otvara se u novom prozoru), model mora koristiti alate za izvršavanje zadatka korisničke podrške, gdje može postojati simulirani korisnik koji može komunicirati i poduzimati radnje na stanju svijeta. Napor rezonovanja je postavljen na nijedan.
GPT‑5.4 je bolji u agentnoj web pretrazi. Na BrowseCompu, mjerenju koliko dobro AI agenti mogu uporno pretraživati web kako bi pronašli teško dostupne informacije, GPT‑5.4 skače za 17%abs u odnosu na GPT‑5.2, a GPT‑5.4 Pro postavlja novi standard od 89.3%.
U praksi, to znači GPT‑5.4 Thinking je bolji u odgovaranju na pitanja koja zahtijevaju objedinjavanje informacija iz mnogih izvora na webu. Može upornije pretraživati kroz više rundi kako bi identificirao najrelevantnije izvore, posebno za pitanja tipa „igla u plastu sijena“, i sintetizirati ih u jasan, dobro obrazložen odgovor.
U BrowseCompu smo koristili bloklistu pretrage koja isključuje web stranice koje sadrže odgovore na benchmark iz evaluacije kako bismo spriječili kontaminaciju i osigurali pravednu mjeru performansi. GPT‑5.4 je mjeren na kasniji datum nego GPT‑5.2, tako da ocjene odražavaju promjene u modelu, našem sistemu pretrage i stanju interneta. GPT‑5.4 je testiran s dužom, ažuriranom blok-listom. Modeli koriste ChatGPT alat za pretragu, koji može imati male razlike u odnosu na API pretragu.
„GPT-5.4 xhigh je novi standard za višekoračno korištenje alata.” Zapier provodi neke od najrigoroznijih testova upotrebe alata u industriji, testirajući modele kroz stotine naprednih stvarnih tokova rada. GPT-5.4 je završio posao tamo gdje su prethodni modeli odustali—najuporniji model do sada.”
Slično načinu na koji Codex opisuje svoj pristup kada počne raditi, GPT‑5.4 Razmišljanje u ChatGPT‑u će sada opisati svoj rad s uvodom za duže, složenije upite. Također možete dodati uputstva ili prilagoditi njegov smjer usred odgovora. Ovo olakšava usmjeravanje modela ka tačnom ishodu koji želite bez potrebe da počnete ispočetka ili da zahtijevate više dodatnih koraka. Ova funkcija je sada dostupna na chatgpt.com(otvara se u novom prozoru) i u Android aplikaciji, uskoro dolazi u iOS aplikaciju.
Model također može duže razmisliti o teškim zadacima, uz održavanje snažnije svjesnosti o ranijim koracima u razgovoru. Ovo mu omogućava da rukuje dužim tokovima rada i složenijim upitima, uz zadržavanje koherentnih i relevantnih odgovora tokom cijelog procesa.
Ovaj video je ubrzan u ilustrativne svrhe.
Tokom posljednjih mjeseci, nastavili smo poboljšavati zaštitne mjere koje smo uveli sa GPT‑5.3‑Codex dok smo pripremali GPT‑5.4 za implementaciju. Slično kao GPT‑5.3‑Codex, tretiramo GPT‑5.4 kao visok nivo kibernetičke sposobnosti prema našem Okviru pripravnosti, i implementiramo ga s odgovarajućim zaštitama kako je dokumentovano u kartici sistema. Ovo uključuje prošireni kibernetički sigurnosni paket, uključujući sisteme za nadzor, kontrole pouzdanog pristupa i asinhrono blokiranje zahtjeva višeg rizika za korisnike na površinama bez zadržavanja podataka (ZDR), uz kontinuirana ulaganja u širi sigurnosni ekosistem.
Budući da su sposobnosti u oblasti kibernetičke sigurnosti inherentno dvostruke namjene, primjenjujemo pristup predostrožnosti u uvođenju, dok nastavljamo kalibrirati naše politike i klasifikatore. Za određene korisnike na ZDR površinama, blokiranje na nivou zahtjeva ostaje dio našeg skupa mjera za ublažavanje cyber rizika. Budući da se klasifikatori još uvijek usavršavaju, mogu se pojaviti neki lažni pozitivni rezultati dok nastavljamo unapređivati ove zaštitne mjere. Ova ažuriranja imaju za cilj da poboljšaju kako zaštitne mjere funkcionišu u praksi, uključujući smanjenje nepotrebnih odbijanja i pretjerano ograđenih odgovora, uz očuvanje snažnih zaštita protiv zloupotrebe.
Nastavili smo naše istraživanje sigurnosti o monitorabilnosti lanca razmišljanja (CoT) kako bismo bolje razumjeli kako modeli razmišljaju i pomogli u otkrivanju potencijalnog neprimjerenog ponašanja. Kao dio ovog rada, predstavljamo novu evaluaciju otvorenog koda, kontrolabilnost CoT-a, mjereći da li modeli mogu namjerno zamagliti svoje rezonovanje kako bi izbjegli nadzor. Utvrdili smo da GPT‑5.4 Sposobnost Thinking-a da kontroliše svoj CoT je niska, što je pozitivno svojstvo za sigurnost, što sugeriše da model nema sposobnost da sakrije svoje rezonovanje i da praćenje CoT-a ostaje efikasan sigurnosni alat.
GPT‑5.4 se danas postepeno uvodi u ChatGPT i Codex. U API-ju, GPT‑5.4 je sada dostupan kao gpt-5.4. GPT‑5.4 Pro je također dostupan u API-ju kao gpt-5.4-pro za programere kojima su potrebne maksimalne performanse na najsloženijim zadacima.
U ChatGPT‑u, GPT‑5.4 Thinking je dostupan počevši od danas korisnicima ChatGPT Plus, Team i Pro, zamjenjujući GPT‑5.2 Thinking. GPT‑5.2 Thinking će i dalje biti dostupan tri mjeseca za plaćene korisnike u odabiru modela pod odjeljkom Legacy Models, nakon čega će biti ukinut 5. juna 2026. Oni na Enterprise i Edu planovima mogu omogućiti rani pristup putem administratorskih postavki. GPT‑5.4 Pro je dostupan za Pro i Enterprise planove. Kontekstni prozori(otvara se u novom prozoru) u ChatGPT‑u za GPT‑5.4 Razmišljanje ostaje nepromijenjeno iz GPT‑5.2 Thinking Razmišljanja.
GPT‑5.4 je naš prvi glavni model rezonovanja koji uključuje granične sposobnosti kodiranja GPT‑5.3‑codex i koji se uvodi u okviru ChatGPT‑a, API-ja i Codex-a. Nazivamo ga GPT‑5.4 kako bismo odrazili taj skok i pojednostavili izbor između modela pri korištenju Codexa. S vremenom možete očekivati da se naši Instant modeli i Thinking modeli razvijaju različitim brzinama.
GPT‑5.4 u Codexu uključuje eksperimentalnu podršku za kontekstni prozor od 1M. Programeri mogu ovo isprobati konfiguriranjem model_context_window i model_auto_compact_token_limit. Zahtjevi koji premašuju standardni kontekstualni prozor od 272K računaju se prema ograničenjima korištenja po 2x većoj stopi od uobičajene.
U API-ju, GPT‑5.4 je skuplji po tokenu od GPT‑5.2 kako bi se odrazile njegove poboljšane mogućnosti, dok njegova veća efikasnost tokena pomaže smanjiti ukupan broj tokena potrebnih za mnoge zadatke. Cijene za Batch i Flex dostupne su po polovini standardne API stope, dok je Prioritetna obrada dostupna po dvostrukoj standardnoj API stopi.
API model | Ulazna cijena | Cijena keširanog ulaza | Cijena izlaznih podataka |
gpt-5.2 | 1,75 USD / M tokena | 0,175 USD / M tokena | 14 USD / M tokena |
gpt-5.4 | 2,50 USD / M tokena | 0,25 USD / M tokena | 15 USD / M tokena |
gpt-5.2-pro | 21 USD / M tokena | - | 168 USD / M tokeni |
gpt-5.4-pro | 30 USD / M Tokeni | - | 180 USD / M tokena |
Profesionalno
Evaluacija | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
GDPval | 83,0% | 82,0% | 70,9% | 70,9% | 74,1% |
FinanceAgent v1.1 | 56.0% | 61,5% | 54,0% | 59,5% | — |
Zadaci modeliranja u investicijskom bankarstvu (Interno) | 87,3% | 83,6% | 79,3% | 68,4% | 71,7% |
OfficeQA | 68,1% | — | 65,1% | 63,1% | — |
Kodiranje
Evaluacija | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
SWE-Bench Pro (Public) | 57,7% | — | 56,8% | 55,6% | — |
Terminal-Bench 2.0 | 75,1% | — | 77,3% | 62,2% | — |
Upotreba računara i vizija
Evaluacija | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
OSWorld potvrđeno | 75,0% | — | 74,0% | 47,3% | — |
MMMU Pro (bez alata) | 81,2% | — | — | 79.5% | — |
MMMU Pro (s alatima) | 82.1% | — | — | 80.4% | — |
Korištenje alata
Evaluacija | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
BrowseComp | 82,7% | 89,3% | 77,3% | 65,8% | 77,9% |
MCP Atlas | 67,2% | — | — | 60,6% | — |
Toolathlon | 54,6% | — | 51,9% | 45,7% | — |
Tau2-bench Telecom | 98,9% | — | — | 98,7% | — |
Akademski
Evaluacija | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
Granična naučna istraživanja | 33,0% | 36,7% | — | 25,2% | — |
FrontierMath Nivo 1–3 | 47,6% | — | — | 40,7% | — |
FrontierMath Nivo 4 | 27,1% | 38,0% | — | 18,8% | 31,3% |
GPQA Diamond | 92,8% | 94,4% | 92,6% | 92,4% | 93,2% |
Posljednji ispit čovječanstva (bez alata) | 39,8% | 42,7% | — | 34,5% | 36,6% |
Posljednji ispit čovječanstva (s alatima) | 52,1% | 58,7% | — | 45,5% | 50,0% |
Dugi kontekst
Evaluacija | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
Graphwalks BFS 0K–128K | 93,0% | — | — | 94.0% | — |
Graphwalks BFS 256 hiljada–1 milion | 21,4% | — | — | — | — |
Graphwalks roditelji 0–128K (tačnost) | 89,8% | — | — | 89,0% | — |
Graphwalks parents 256K–1M (tačnost) | 32,4% | — | — | — | — |
OpenAI MRCR v2 8 igala 4K–8K | 97,3% | — | — | 98,2% | — |
OpenAI MRCR v2 8-igala 8K–16K | 91,4% | — | — | 89,3% | — |
OpenAI MRCR v2 8-igala 16K–32K | 97,2% | — | — | 95,3% | — |
OpenAI MRCR v2 8 igala 32K–64K | 90,5% | — | — | 92,0% | — |
OpenAI MRCR v2 8-igala 64K–128K | 86,0% | — | — | 85,6% | — |
OpenAI MRCR v2 8 igala 128K–256K | 79,3% | — | — | 77,0% | — |
OpenAI MRCR v2 8-igala 256K–512K | 57,5% | — | — | — | — |
OpenAI MRCR v2 8 igala 512K–1M | 36,6% | — | — | — | — |
Apstraktno rezonovanje
Evaluacija | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
ARC-AGI-1 (Potvrđeno) | 93,7% | 94,5% | — | 86,2% | 90,5% |
ARC-AGI-2 (Potvrđeno) | 73,3% | 83,3% | — | 52.9% | 54,2% (visoko) |
Evaluacije bez rezonovanja
Evaluacija | GPT‑5.4 | GPT‑5.2 | GPT‑4.1 |
OmniDocBench (normalizovana udaljenost uređivanja) | 0.109 | 0,140 | — |
Tau2-bench Telecom | 64,3% | 57,2% | 43,6% |
Evaluacije su pokrenute sa naporom rezonovanja postavljenim na xhigh, osim ako nije drugačije navedeno. Benchmark testovi su provedeni u istraživačkom okruženju, što u nekim slučajevima može dati nešto drugačiji rezultat od produkcijskog ChatGPT‑a.
Autor
Fusnote
1 Performanse ljudi prijavljene u OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments(otvara se u novom prozoru).


