Preskočite na glavni sadržaj
OpenAI

Predstavljamo GPT‑5.4

Dizajnirano za profesionalni rad

Učitavanje…

Danas objavljujemo GPT‑5.4 u ChatGPT‑u (kao GPT‑5.4 Thinking), API i Codex. To je naš najsposobniji i najefikasniji granični model za profesionalni rad. Također objavljujemo GPT‑5.4 Pro u ChatGPT‑u i API-ju, za osobe koje žele maksimalne performanse na složenim zadacima.

GPT‑5.4 objedinjuje najbolje od naših nedavnih napredaka u rezonovanju, kodiranju i agentnim tokovima rada u jedan granični model. Uključuje vodeće mogućnosti kodiranja u industriji koje nudi GPT‑5.3‑Codex, uz poboljšanje načina na koji model radi kroz alate, softverska okruženja i profesionalne zadatke koji uključuju proračunske tablice, prezentacije i dokumente. Rezultat je model koji precizno, efektivno i efikasno obavlja složen stvarni posao—ispunjavajući ono što ste tražili uz manje dodatnog usklađivanja.

U ChatGPT‑u, GPT‑5.4 Razmišljanje sada može unaprijed pružiti plan svog razmišljanja, tako da možete prilagoditi smjer usred odgovora dok radi, i doći do konačnog izlaza koji je bliže usklađen s onim što vam je potrebno bez dodatnih koraka. GPT‑5.4 Razmišljanje također poboljšava istraživanje dubokog weba, posebno za vrlo specifične upite, dok bolje održava kontekst za pitanja koja zahtijevaju duže razmišljanje. Zajedno, ova poboljšanja znače kvalitetnije odgovore koji stižu brže i ostaju relevantni za zadatak koji je u toku.

U Codexu i API-ju, GPT‑5.4 je prvi model opšte namjene koji smo objavili s izvornim, najsavremenijim sposobnostima korištenja računara, omogućavajući agentima da upravljaju računarima i provode složene tokove rada kroz aplikacije. Podržava do 1M tokena konteksta, omogućavajući agentima da planiraju, izvršavaju i provjeravaju zadatke kroz duge vremenske horizonte. GPT‑5.4 također poboljšava način na koji modeli rade u velikim ekosistemima alata i konektora uz pretraživanje alata, pomažući agentima da efikasnije pronađu i koriste prave alate bez žrtvovanja inteligencije. Konačno, GPT‑5.4 je naš najefikasniji model rezonovanja po tokenu do sada, koristeći znatno manje tokena za rješavanje problema u poređenju s GPT‑5.2—što rezultira smanjenom upotrebom tokena i većim brzinama.

Zajedno s napretkom u općem rezonovanju, kodiranju i profesionalnom radu sa znanjem, GPT‑5.4 omogućava pouzdanije agente, brže tokove rada za programere i kvalitetnije rezultate u ChatGPT‑u, API-ju i Codexu.


GPT‑5.4 

GPT‑5.3‑Codex

GPT‑5.2

GDPval (pobjede ili neriješeni ishodi)

83,0%

70,9%

70,9%

SWE-Bench Pro (Public)

57,7%

56,8%

55,6%

OSWorld potvrđeno

75,0%

74,0%* 

47,3%

Toolathlon

54,6%

51,9%

46,3%

BrowseComp

82,7%

77,3%

65,8%

*Ranije prijavljeno kao 64,7%. GPT‑5.3‑Codex postiže 74,0% s novouvedenim API parametrom koji čuva originalnu rezoluciju slike.

Rad s znanjem

Nadovezujući se na GPT‑5.2 opće sposobnosti rezonovanja, GPT‑5.4 isporučuje još dosljednije i uglađenije rezultate na zadacima iz stvarnog svijeta koji su važni profesionalcima.

Na GDPval, evaluaciji koja testira sposobnosti agenata da proizvode dobro specificiran rad sa znanjem kroz 44 zanimanja, GPT‑5.4 postiže novi standard, izjednačavajući se s industrijskim profesionalcima ili ih nadmašujući u 83,0% poređenja, u odnosu na 71,0% za GPT‑5.2.

U GDPval-u, modeli pokušavaju dobro specificiran rad sa znanjem koji obuhvata 44 zanimanja iz 9 vodećih industrija koje doprinose BDP-u SAD-a. Zadaci zahtijevaju stvarne radne proizvode, kao što su prodajne prezentacije, računovodstvene tabele, rasporedi hitne njege, proizvodni dijagrami ili kratki videozapisi. Napor rezonovanja je postavljen na xhigh za GPT‑5.4 i heavy za GPT‑5.2 (nešto niži nivo u ChatGPT‑u).

„GPT-5.4 je najbolji model koji smo ikada isprobali. Sada je na vrhu rang-liste na našem APEX-Agents benchmarku, koji mjeri performanse modela za rad u profesionalnim uslugama. Ističe se u izradi dugoročnih isporuka kao što su prezentacije, finansijski modeli i pravna analiza, pružajući vrhunske performanse uz brži rad i niže troškove od konkurentskih graničnih modela.”
— Brendan Foody, izvršni direktor u Mercor

Posebno smo se fokusirali na poboljšanje GPT‑5.4 mogućnost kreiranja i uređivanja proračunskih tabela, prezentacija i dokumenata. Na internom referentnom testu zadataka modeliranja u tabelama koje bi mogao raditi junior analitičar investicijskog bankarstva, GPT‑5.4 postiže prosječan rezultat od 87,5%, u poređenju sa 68,4% za GPT‑5.2. Na skupu upita za evaluaciju prezentacija, ljudski ocjenjivači su preferirali prezentacije iz GPT‑5.4 u 68,0% slučajeva u odnosu na one iz GPT‑5.2 zbog snažnije estetike, veće vizuelne raznolikosti i efikasnije upotrebe generiranja slike.

Uporedni primjer izlaza proračunskih tablica iz GPT-5.2 u odnosu na GPT-5.4

Dokumenti su generisani sa naporom rezonovanja postavljenim na xhigh

Možete isprobati ove mogućnosti u ChatGPT‑u koristeći GPT‑5.4 Thinking ili Pro. Ako ste Enterprise korisnik, preporučujemo da koristite naše novoobjavljene dodatke ChatGPT za Excel i Google Sheets(otvara se u novom prozoru), koji su također pokrenuti danas. Također smo ažurirali naše vještine rada s tabelama(otvara se u novom prozoru) i vještine prezentovanja(otvara se u novom prozoru) dostupne u Codexu i API-ju.

Da bismo napravili GPT‑5.4 bolji u stvarnom radu, nastavili smo napredovati u smanjenju halucinacija i grešaka. GPT‑5.4 je naš najfaktualniji model do sada: na skupu deidentifikovanih upita gdje su korisnici označili faktualne greške, GPT‑5.4’s pojedinačni zahtjevi su 33% manje skloni biti netačni, a njegovi potpuni odgovori su 18% manje skloni sadržavati bilo kakve greške, u odnosu na GPT‑5.2.

„GPT-5.4 postavlja novi standard za pravni rad sa velikim brojem dokumenata. Na našoj BigLaw Bench evaluaciji, postigao je 91%. U poređenju s drugim modelima, GPT-5.4 je trenutno bolji u strukturiranju složene transakcijske analize, održavanju tačnosti kroz dugačke ugovore i isporučivanju visokog nivoa detalja koji pravni praktičari zahtijevaju.”
— Niko Grupen, voditelj primijenjenog istraživanja u Harvey

Upotreba računara i vizija

GPT‑5.4 je naš prvi model opće namjene s izvornim sposobnostima korištenja računara i označava veliki iskorak za programere i agente. To je najbolji model trenutno dostupan za programere koji grade agente koji završavaju stvarne zadatke na web stranicama i u softverskim sistemima.

Dizajnirali smo GPT‑5.4 da pruža visoke performanse u širokom spektru radnih opterećenja korištenja računara. Izvrsno piše kod za upravljanje računarima putem biblioteka kao što je Playwright, kao i za izdavanje komandi miša i tastature kao odgovor na snimke zaslona. Njegovo ponašanje se može usmjeravati putem poruka programera, što znači da programeri mogu prilagoditi ponašanje kako bi odgovaralo određenim slučajevima upotrebe. Programeri čak mogu konfigurirati sigurnosno ponašanje modela kako bi odgovaralo različitim nivoima tolerancije na rizik, tako što će navesti prilagođene politike potvrđivanja.

Performanse i fleksibilnost modela odražavaju se kroz testove koji ispituju upotrebu računara u različitim okruženjima. Na OSWorld-Verified, koji mjeri sposobnost modela da se kreće kroz desktop okruženje putem snimaka ekrana i radnji tastature/miša, GPT‑5.4 postiže najsavremeniji rezultat od 75,0% stopa uspjeha, daleko nadmašujući GPT‑5.2’s 47,3%, i nadmašujući ljudske performanse na 72,4%.1

Na WebArena-Verified, koji testira upotrebu preglednika, GPT‑5.4 postiže vodeću stopu uspješnosti od 67,3% kada koristi i interakciju vođenu DOM-om i snimkom ekrana, u poređenju sa GPT‑5.2 od 65,4%. Na Online-Mind2Web, koji takođe testira upotrebu pretraživača, GPT‑5.4 postiže stopu uspješnosti od 92,8% koristeći isključivo opažanja zasnovana na snimcima ekrana, čime poboljšava u odnosu na Agent Mode u ChatGPT Atlasu, koji postiže stopu uspješnosti od 70,9%.

Yield alata je kada asistent čeka odgovore alata. Ako se 3 alata pozovu paralelno, a zatim se još 3 alata pozovu paralelno, broj prinosa bi bio 2. Prinosi alata su bolji pokazatelj latencije nego pozivi alata jer odražavaju prednosti paralelizacije.

GPT‑5.4 tumači snimke ekrana interfejsa pregledača i komunicira s elementima korisničkog interfejsa putem klikanja zasnovanog na koordinatama kako bi slao e-mailove i zakazao događaj u kalendaru.

Poboljšano korištenje računara u GPT‑5.4 zasniva se na poboljšanim općim sposobnostima vizualne percepcije modela. Na MMMU-Pro, testu vizuelnog razumijevanja i rezonovanja modela, GPT‑5.4 postiže stopu uspješnosti od 81,2% bez upotrebe alata, poboljšanje u odnosu na GPT‑5.2’s 79.5%. Poboljšana vizualna percepcija takođe se pretvara u bolje mogućnosti raščlanjivanja dokumenata. Na OmniDocBench, GPT‑5.4 bez napora rezonovanja postiže prosječnu grešku (mjerenu normalizovanom udaljenošću uređivanja između predviđanja modela i osnovne istine) od 0,109, poboljšano u odnosu na GPT‑5.2‑ovih 0,140.

MMMUPro je pokrenut sa naporom rezonovanja postavljenim na visoko. OmniDocBench je pokrenut s naporom rezonovanja postavljenim na nisko, kako bi se odrazile performanse niskih troškova i niske latentnosti.

Takođe poboljšavamo vizualno razumijevanje za guste slike visoke rezolucije gdje je puna vizuelna vjernost važna. Počevši od GPT‑5.4, uvodimo nivo original detalja unosa(otvara se u novom prozoru) slike koji podržava percepciju pune vjernosti do ukupno 10.24M piksela ili maksimalne dimenzije od 6000 piksela, ovisno o tome šta je niže; nivo high detalja unosa slike sada podržava do ukupno 2.56M piksela ili maksimalnu dimenziju od 2048 piksela. Tokom ranog testiranja s API korisnicima, primijetili smo značajna poboljšanja u sposobnosti lokalizacije, razumijevanju slika i tačnosti klikova pri korištenju original ili high detalja.

„U našim evaluacijama koje mjere performanse korištenja računara kroz ~30K HOA i portala za porez na imovinu, GPT-5.4 je postigao stopu uspješnosti od 95% iz prvog pokušaja i 100% u roku od tri pokušaja, u poređenju s ~73–79% kod prethodnih CUA modela. Takođe je završavao sesije ~3x brže uz korištenje ~70% manje tokena, značajno poboljšavajući pouzdanost i troškovnu efikasnost u velikom obimu."
— Dod Fraser, izvršni direktor u Mainstay

U API-ju, programeri mogu pristupiti ovim mogućnostima koristeći ažurirani computer alat. Molimo vas da pogledate našu ažuriranu dokumentaciju(otvara se u novom prozoru) za preporučene najbolje prakse.

Kodiranje

GPT‑5.4 kombinuje snage kodiranja GPT‑5.3‑Codex sa vodećim sposobnostima za rad sa znanjem i korištenje računara, koje su najvažnije na dugotrajnijim zadacima gdje model može koristiti alate, iterirati i gurati posao dalje uz manje ručne intervencije. Po performansama se podudara s GPT‑5.3‑Codex ili ga nadmašuje na SWE-Bench Pro, uz nižu latenciju kroz napore rezonovanja.

Procjenjujemo latenciju posmatrajući ponašanje naših modela u produkciji i simulirajući to offline. Procjena latencije uzima u obzir trajanje poziva alata (vrijeme izvršavanja koda), uzorkovane tokene i ulazne tokene. Latencija u stvarnom svijetu može značajno varirati i zavisi od mnogih faktora koji nisu obuhvaćeni našom simulacijom. Napori rezonovanja su povećani sa none na xhigh.

Kada je uključeno, /fast mode u Codexu pruža do 1.5x bržu brzinu tokena sa GPT‑5.4. To je isti model i ista inteligencija, samo brže. To znači da se korisnici mogu kretati kroz zadatke kodiranja, iteracije i otklanjanje neispravnosti, a istovremeno ostajući u toku. Programeri mogu pristupiti GPT‑5.4 istim brzim brzinama putem API-ja koristeći prioritetnu obradu(otvara se u novom prozoru).

U evaluaciji i internom testiranju otkrili smo da se GPT‑5.4 ističe u složenim frontend zadacima, s primjetno estetskijim i funkcionalnijim rezultatima nego bilo koji modeli koje smo ranije predstavili.

Kao demonstraciju poboljšanih mogućnosti korištenja računara i kodiranja ovog modela koje rade zajedno, objavljujemo i eksperimentalnu Codex vještinu pod nazivom „Playwright (Interactive)(otvara se u novom prozoru)“. Ovo omogućava Codexu da vizuelno otklanja neispravnosti u web i Electron aplikacijama; može se čak koristiti za testiranje aplikacije koju gradi, dok je gradi.

Simulacijska igra tematskog parka napravljena s GPT‑5.4 iz jednog blago specificiranog upita, koristeći Playwright Interactive za playtesting u pregledniku i generiranje slike za izometrijski set resursa. Simulacija uključuje postavljanje staza na osnovu pločica, izgradnju vožnji i scenografije, pronalaženje puta gostiju, čekanje u redu i cikluse vožnji, dok se parkovne metrike poput novca, broja gostiju, sreće, čistoće i ocjene povećavaju ili smanjuju na osnovu toga kako se raspored pokazuje i kako gosti na njega reagiraju. Playwright je korišten za automatizaciju playtestova u pretraživaču tako što se park gradio i proširivao, postavljale i uklanjale staze i atrakcije, provjeravala navigacija kamere te potvrđivalo da su se gosti, redovi, stanja vožnji i metrike korisničkog interfejsa ispravno ažurirali kroz nekoliko rundi igre.

Upit: Koristite $playwright-interactive i $imagegen. Kreirajte interaktivnu izometrijsku simulacijsku igru tematskog parka koju mogu graditi i u kojoj se mogu kretati u pregledniku. Koristite imagegen da uspostavite ukupnu vizualnu viziju i generišete resurse igre, uključujući vožnje, staze, teren, drveće, vodu, štandove s hranom, dekoracije, zgrade, ikonice i UI ilustracije. Svijet treba djelovati kohezivno, uglađeno i vizualno bogato, sa premium umjetničkom direkcijom koja dobro funkcioniše iz izometrijske perspektive. Omogućite mi da postavljam i uklanjam staze, dodajem atrakcije, pozicioniram scenografiju i glatko se krećem po parku dok pratim aktivnost gostiju, status vožnji i rast parka. Uključite uvjerljivo kretanje gostiju, jednostavne sisteme upravljanja parkom poput novca, čistoće, čekanja u redu i sreće, i učinite da iskustvo djeluje razigrano, jasno i kompletno, a ne kao grubi prototip. Dajte prednost šarmu, čitljivosti i snažnom osjećaju igre u odnosu na realizam. 

Tokom testiranja igranja, obavezno izgradi i proširi park kroz nekoliko rundi igre, provjeri da postavljanje i navigacija rade glatko, potvrdi da gosti reagiraju na raspored parka i atrakcije, te osiguraj da vizuali, UI i interakcije djeluju stabilno i kohezivno.

„Naši inženjeri utvrđuju GPT-5.4 prirodniji i asertivniji od prethodnih modela . Rješava nejasne probleme bez preispitivanja samog sebe, i proaktivan je u paraleliziranju rada kako bi se stvari nastavile kretati.”
— Lee Robinson, potpredsjednik za edukaciju programera u Cursoru

Korištenje alata

Sa GPT‑5.4, značajno smo poboljšali način na koji modeli rade s vanjskim alatima. Agenti sada mogu djelovati kroz veće ekosisteme alata, pouzdanije birati prave alate i završavati višestepene tokove rada uz niže troškove i latentnost.

Pretraga alata

U API-ju, GPT‑5.4 uvodi pretraživanje alata(otvara se u novom prozoru), što omogućava modelima da rade efikasno kada im se da mnogo alata.

Prethodno, kada su modelu bili dati alati, sve definicije alata bile su uključene u upit unaprijed. Za sisteme s mnogo alata, ovo bi moglo dodati hiljade—ili čak desetine hiljada—tokena svakom zahtjevu, povećavajući troškove, usporavajući odgovore i zagušujući kontekst informacijama koje model možda nikada neće koristiti.

Uz pretragu alata, GPT‑5.4 umjesto toga prima laganu listu dostupnih alata zajedno s mogućnošću pretrage alata. Kada model treba koristiti alat, može potražiti definiciju tog alata i dodati je razgovoru u tom trenutku.

Ovaj pristup dramatično smanjuje broj tokena potrebnih za tokove rada s mnogo alata i čuva predmemoriju, čineći zahtjeve bržim i jeftinijim. Također omogućava agentima da pouzdano rade s mnogo većim ekosistemima alata. Za MCP servere koji mogu sadržavati desetine hiljada tokena definicija alata, dobitci u efikasnosti mogu biti značajni.

Kako bismo demonstrirali dobitke u efikasnosti, evaluirali smo 250 zadataka iz Scaleovog MCP Atlas(otvara se u novom prozoru) benchmarka sa svih 36 MCP servera omogućenih u dva režima: (1) izlaganje svake MCP funkcije direktno u kontekstu modela, i (2) postavljanje svih MCP servera iza pretrage alata. Konfiguracija pretrage alata smanjila je ukupnu upotrebu tokena za 47% uz postizanje iste tačnosti.

Primjeri broja tokena dolaze iz prosjeka 250 zadataka u javnom skupu podataka MCP-Atlas.

Agentski pozivi alata

GPT‑5.4 također poboljšava pozivanje alata, čineći ga preciznijim i efikasnijim pri odlučivanju kada i kako koristiti alate tokom rezonovanja, posebno u API-ju.  U poređenju s GPT‑5.2, postiže veću tačnost u manje poteza na Toolathlonu, mjerilu koje testira koliko dobro UI agenti mogu koristiti alate i API-je iz stvarnog svijeta za izvršavanje višekoraknih zadataka. Na primjer, agent treba da čita e-mailove, izdvaja priloge zadataka, otprema ih, ocjenjuje ih i bilježi rezultate u proračunsku tablicu.

Yield alata je kada asistent čeka odgovore alata. Ako se 3 alata pozovu paralelno, a zatim se još 3 alata pozovu paralelno, broj prinosa bi bio 2. Prinosi alata su bolji pokazatelj latencije nego pozivi alata jer odražavaju prednosti paralelizacije.

Za slučajeve upotrebe osjetljive na latentnost gdje nije potreban napor rezonovanja, GPT‑5.4 dodatno unapređuje svoje prethodnike.

U τ2-bench⁠(otvara se u novom prozoru), model mora koristiti alate za izvršavanje zadatka korisničke podrške, gdje može postojati simulirani korisnik koji može komunicirati i poduzimati radnje na stanju svijeta. Napor rezonovanja je postavljen na nijedan.

Poboljšana web pretraga

GPT‑5.4 je bolji u agentnoj web pretrazi. Na BrowseCompu, mjerenju koliko dobro AI agenti mogu uporno pretraživati web kako bi pronašli teško dostupne informacije, GPT‑5.4 skače za 17%abs u odnosu na GPT‑5.2, a GPT‑5.4 Pro postavlja novi standard od 89.3%.

U praksi, to znači GPT‑5.4 Thinking je bolji u odgovaranju na pitanja koja zahtijevaju objedinjavanje informacija iz mnogih izvora na webu. Može upornije pretraživati kroz više rundi kako bi identificirao najrelevantnije izvore, posebno za pitanja tipa „igla u plastu sijena“, i sintetizirati ih u jasan, dobro obrazložen odgovor.

U BrowseCompu smo koristili bloklistu pretrage koja isključuje web stranice koje sadrže odgovore na benchmark iz evaluacije kako bismo spriječili kontaminaciju i osigurali pravednu mjeru performansi. GPT‑5.4 je mjeren na kasniji datum nego GPT‑5.2, tako da ocjene odražavaju promjene u modelu, našem sistemu pretrage i stanju interneta. GPT‑5.4 je testiran s dužom, ažuriranom blok-listom. Modeli koriste ChatGPT alat za pretragu, koji može imati male razlike u odnosu na API pretragu.

„GPT-5.4 xhigh je novi standard za višekoračno korištenje alata.” Zapier provodi neke od najrigoroznijih testova upotrebe alata u industriji, testirajući modele kroz stotine naprednih stvarnih tokova rada. GPT-5.4 je završio posao tamo gdje su prethodni modeli odustali—najuporniji model do sada.”
— Wade, izvršni direktor u Zapier

Upravljivost

Slično načinu na koji Codex opisuje svoj pristup kada počne raditi, GPT‑5.4 Razmišljanje u ChatGPT‑u će sada opisati svoj rad s uvodom za duže, složenije upite. Također možete dodati uputstva ili prilagoditi njegov smjer usred odgovora. Ovo olakšava usmjeravanje modela ka tačnom ishodu koji želite bez potrebe da počnete ispočetka ili da zahtijevate više dodatnih koraka. Ova funkcija je sada dostupna na chatgpt.com(otvara se u novom prozoru) i u Android aplikaciji, uskoro dolazi u iOS aplikaciju.

Model također može duže razmisliti o teškim zadacima, uz održavanje snažnije svjesnosti o ranijim koracima u razgovoru. Ovo mu omogućava da rukuje dužim tokovima rada i složenijim upitima, uz zadržavanje koherentnih i relevantnih odgovora tokom cijelog procesa.

Ovaj video je ubrzan u ilustrativne svrhe.

Sigurnost

Tokom posljednjih mjeseci, nastavili smo poboljšavati zaštitne mjere koje smo uveli sa GPT‑5.3‑Codex dok smo pripremali GPT‑5.4 za implementaciju. Slično kao GPT‑5.3‑Codex, tretiramo GPT‑5.4 kao visok nivo kibernetičke sposobnosti prema našem Okviru pripravnosti, i implementiramo ga s odgovarajućim zaštitama kako je dokumentovano u kartici sistema. Ovo uključuje prošireni kibernetički sigurnosni paket, uključujući sisteme za nadzor, kontrole pouzdanog pristupa i asinhrono blokiranje zahtjeva višeg rizika za korisnike na površinama bez zadržavanja podataka (ZDR), uz kontinuirana ulaganja u širi sigurnosni ekosistem.

Budući da su sposobnosti u oblasti kibernetičke sigurnosti inherentno dvostruke namjene, primjenjujemo pristup predostrožnosti u uvođenju, dok nastavljamo kalibrirati naše politike i klasifikatore. Za određene korisnike na ZDR površinama, blokiranje na nivou zahtjeva ostaje dio našeg skupa mjera za ublažavanje cyber rizika. Budući da se klasifikatori još uvijek usavršavaju, mogu se pojaviti neki lažni pozitivni rezultati dok nastavljamo unapređivati ove zaštitne mjere. Ova ažuriranja imaju za cilj da poboljšaju kako zaštitne mjere funkcionišu u praksi, uključujući smanjenje nepotrebnih odbijanja i pretjerano ograđenih odgovora, uz očuvanje snažnih zaštita protiv zloupotrebe.

Nastavili smo naše istraživanje sigurnosti o monitorabilnosti lanca razmišljanja (CoT) kako bismo bolje razumjeli kako modeli razmišljaju i pomogli u otkrivanju potencijalnog neprimjerenog ponašanja. Kao dio ovog rada, predstavljamo novu evaluaciju otvorenog koda, kontrolabilnost CoT-a,  mjereći da li modeli mogu namjerno zamagliti svoje rezonovanje kako bi izbjegli nadzor. Utvrdili smo da GPT‑5.4 Sposobnost Thinking-a da kontroliše svoj CoT je niska, što je pozitivno svojstvo za sigurnost, što sugeriše da model nema sposobnost da sakrije svoje rezonovanje i da praćenje CoT-a ostaje efikasan sigurnosni alat.

Dostupnost i cijene

GPT‑5.4 se danas postepeno uvodi u ChatGPT i Codex. U API-ju, GPT‑5.4 je sada dostupan kao gpt-5.4. GPT‑5.4 Pro je također dostupan u API-ju kao gpt-5.4-pro za programere kojima su potrebne maksimalne performanse na najsloženijim zadacima.

U ChatGPT‑u, GPT‑5.4 Thinking je dostupan počevši od danas korisnicima ChatGPT Plus, Team i Pro, zamjenjujući GPT‑5.2 Thinking. GPT‑5.2 Thinking će i dalje biti dostupan tri mjeseca za plaćene korisnike u odabiru modela pod odjeljkom Legacy Models, nakon čega će biti ukinut 5. juna 2026. Oni na Enterprise i Edu planovima mogu omogućiti rani pristup putem administratorskih postavki. GPT‑5.4 Pro je dostupan za Pro i Enterprise planove. Kontekstni prozori(otvara se u novom prozoru) u ChatGPT‑u za GPT‑5.4 Razmišljanje ostaje nepromijenjeno iz GPT‑5.2 Thinking Razmišljanja.

GPT‑5.4 je naš prvi glavni model rezonovanja koji uključuje granične sposobnosti kodiranja GPT‑5.3‑codex i koji se uvodi u okviru ChatGPT‑a, API-ja i Codex-a. Nazivamo ga GPT‑5.4 kako bismo odrazili taj skok i pojednostavili izbor između modela pri korištenju Codexa. S vremenom možete očekivati da se naši Instant modeli i Thinking modeli razvijaju različitim brzinama.

GPT‑5.4 u Codexu uključuje eksperimentalnu podršku za kontekstni prozor od 1M. Programeri mogu ovo isprobati konfiguriranjem model_context_window i model_auto_compact_token_limit. Zahtjevi koji premašuju standardni kontekstualni prozor od 272K računaju se prema ograničenjima korištenja po 2x većoj stopi od uobičajene.

U API-ju, GPT‑5.4 je skuplji po tokenu od GPT‑5.2 kako bi se odrazile njegove poboljšane mogućnosti, dok njegova veća efikasnost tokena pomaže smanjiti ukupan broj tokena potrebnih za mnoge zadatke. Cijene za Batch i Flex dostupne su po polovini standardne API stope, dok je Prioritetna obrada dostupna po dvostrukoj standardnoj API stopi.

API model

Ulazna cijena

Cijena keširanog ulaza

Cijena izlaznih podataka

gpt-5.2

1,75 USD / M tokena

0,175 USD / M tokena

14 USD / M tokena

gpt-5.4

2,50 USD / M tokena

0,25 USD / M tokena

15 USD / M tokena

gpt-5.2-pro

21 USD / M tokena

-

168 USD / M tokeni

gpt-5.4-pro

30 USD / M Tokeni

-

180 USD / M tokena

Evaluacije

Profesionalno

Evaluacija

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3-Codex

GPT‑5.2

GPT‑5.2
Pro

GDPval

83,0%

82,0%

70,9%

70,9%

74,1%

FinanceAgent v1.1

56.0%

61,5%

54,0%

59,5%

Zadaci modeliranja u investicijskom bankarstvu (Interno)

87,3%

83,6%

79,3%

68,4%

71,7%

OfficeQA

68,1%

65,1%

63,1%

Kodiranje

Evaluacija

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3-Codex

GPT‑5.2

GPT‑5.2
Pro

SWE-Bench Pro (Public)

57,7%

56,8%

55,6%

Terminal-Bench 2.0

75,1%

77,3%

62,2%

Upotreba računara i vizija

Evaluacija

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3-Codex

GPT‑5.2

GPT‑5.2
Pro

OSWorld potvrđeno

75,0%

74,0%

47,3%

MMMU Pro (bez alata)

81,2%

79.5%

MMMU Pro (s alatima)

82.1%

80.4%

Korištenje alata

Evaluacija

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3-Codex

GPT‑5.2

GPT‑5.2
Pro

BrowseComp

82,7%

89,3%

77,3%

65,8%

77,9%

MCP Atlas

67,2%

60,6%

Toolathlon

54,6%

51,9%

45,7%

Tau2-bench Telecom

98,9%

98,7%

Akademski

Evaluacija

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3-Codex

GPT‑5.2

GPT‑5.2
Pro

Granična naučna istraživanja

33,0%

36,7%

25,2%

FrontierMath Nivo 1–3

47,6%

40,7%

FrontierMath Nivo 4

27,1%

38,0%

18,8%

31,3%

GPQA Diamond

92,8%

94,4%

92,6%

92,4%

93,2%

Posljednji ispit čovječanstva (bez alata)

39,8%

42,7%

34,5%

36,6%

Posljednji ispit čovječanstva (s alatima)

52,1%

58,7%

45,5%

50,0%

Dugi kontekst

Evaluacija

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3-Codex

GPT‑5.2

GPT‑5.2
Pro

Graphwalks BFS 0K–128K

93,0%

94.0%

Graphwalks BFS 256 hiljada–1 milion

21,4%

Graphwalks roditelji 0–128K (tačnost)

89,8%

89,0%

Graphwalks parents 256K–1M (tačnost)

32,4%

OpenAI MRCR v2 8 igala 4K–8K

97,3%

98,2%

OpenAI MRCR v2 8-igala 8K–16K

91,4%

89,3%

OpenAI MRCR v2 8-igala 16K–32K

97,2%

95,3%

OpenAI MRCR v2 8 igala 32K–64K

90,5%

92,0%

OpenAI MRCR v2 8-igala 64K–128K

86,0%

85,6%

OpenAI MRCR v2 8 igala 128K–256K

79,3%

77,0%

OpenAI MRCR v2 8-igala 256K–512K

57,5%

OpenAI MRCR v2 8 igala 512K–1M

36,6%

Apstraktno rezonovanje

Evaluacija

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3-Codex

GPT‑5.2

GPT‑5.2
Pro

ARC-AGI-1 (Potvrđeno)

93,7%

94,5%

86,2%

90,5%

ARC-AGI-2 (Potvrđeno)

73,3%

83,3%

52.9%

54,2% (visoko)

Evaluacije bez rezonovanja

Evaluacija

GPT‑5.4
(nema)

GPT‑5.2
(nema)

GPT‑4.1

OmniDocBench (normalizovana udaljenost uređivanja)

0.109

0,140

Tau2-bench Telecom

64,3%

57,2%

43,6%

Evaluacije su pokrenute sa naporom rezonovanja postavljenim na xhigh, osim ako nije drugačije navedeno. Benchmark testovi su provedeni u istraživačkom okruženju, što u nekim slučajevima može dati nešto drugačiji rezultat od produkcijskog ChatGPT‑a.