Danas predstavljamo GPT‑5.4 mini i nano, naše dosad najsposobnije male modele. Donose mnoge prednosti modela GPT‑5.4 u bržim i učinkovitijim modelima namijenjenima radnim opterećenjima velikog opsega.
GPT‑5.4 mini donosi značajna poboljšanja u odnosu na GPT‑5 mini u programiranju, zaključivanju, multimodalnom razumijevanju i korištenju alata, a pritom radi više nego dvostruko brže. Također se približava performansama većeg modela GPT‑5.4 u nekoliko evaluacija, uključujući SWE-Bench Pro i OSWorld-Verified.
GPT‑5.4 nano najmanja je i najpovoljnija verzija modela GPT‑5.4 za zadatke u kojima su brzina i trošak najvažniji. To je također značajna nadogradnja u odnosu na GPT‑5 nano. Preporučujemo ga za klasifikaciju, izdvajanje podataka, rangiranje i podagente za kodiranje koji obavljaju jednostavnije pomoćne zadatke.
Ovi modeli razvijeni su za vrste radnih opterećenja u kojima latencija izravno oblikuje iskustvo proizvoda: asistente za programiranje koji trebaju djelovati učinkovito i odzivno, podagente koji brzo obavljaju pomoćne zadatke, sustave koji koriste računalo te snimaju i tumače snimke zaslona, kao i višemodalne aplikacije koje mogu zaključivati na temelju slika u stvarnom vremenu. U takvim situacijama najbolji model često nije najveći, već onaj koji može brzo reagirati, pouzdano koristiti alate i pritom zadržati dobre rezultate na složenim profesionalnim zadacima.
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| SWE-Bench Pro (Public) | 57.7% | 54.4% | 52.4% | 45.7% |
| Terminal-Bench 2.0 | 75.1% | 60.0% | 46.3% | 38.2% |
| Toolathlon | 54.6% | 42.9% | 35.5% | 26.9% |
| GPQA Diamond | 93.0% | 88.0% | 82.8% | 81.6% |
| OSWorld-Verified | 75.0% | 72.1% | 39.0% | 42.0% |
1 Najviša razina parametra reasoning_effort dostupna za GPT‑5 mini je 'high' (visoka stopa nastojanja).
Evo što naši korisnici misle nakon testiranja modela GPT‑5.4 mini i nano u svojim radnim procesima:
„GPT-5.4 mini pruža snažne end-to-end performanse za model ove klase. U našim mjerenjima bio je jednak ili bolji od konkurentskih modela u nekoliko zadataka generiranja izlaza i prisjećanja citata, uz znatno niži trošak. Također je postigao veće end-to-end stope prolaznosti i snažnije navođenje izvora nego veći model GPT-5.4."
GPT‑5.4 mini i nano posebno su učinkoviti u procesima kodiranja koji imaju koristi od brze iteracije. Modeli s niskom latencijom omogućuju ciljane izmjene, navigaciju kodnom bazom, generiranje front-enda i otklanjanje pogrešaka, što ih čini izvrsnim izborom za zadatke kodiranja koje treba brzo i ekonomično dovršiti.
U referentnim testovima GPT‑5.4 mini dosljedno nadmašuje GPT‑5 mini pri sličnim latencijama i približava se stopama uspješnosti na razini GPT‑5.4, pritom radeći znatno brže i nudeći jedan od najboljih omjera performansi i latencije za radne tijekove programiranja.
Procjenjujemo latenciju promatrajući ponašanje naših modela u produkciji i izvanmrežnom simulacijom. Procjena latencije uključuje trajanje poziva alata (vrijeme izvođenja kôda), uzorkovane tokene i ulazne tokene. Latencija u stvarnom svijetu može znatno varirati i ovisi o mnogim čimbenicima koji nisu obuhvaćeni našom simulacijom. Slično tome, troškovi se procjenjuju prema cijenama API-ja za ove modele u trenutku pisanja. Troškovi se u budućnosti mogu promijeniti. Napori u rasuđivanju povećani su s low (niskih) na xhigh (vrlo visokih).
GPT‑5.4 mini također je vrlo prikladan za sustave koji kombiniraju modele različitih veličina. U Codexu, primjerice, veći model poput GPT‑5.4 može preuzeti planiranje, koordinaciju i završnu procjenu, dok GPT‑5.4 mini podagentima delegira paralelno obrađivanje užih podzadataka – poput pretraživanja kodne baze, pregleda velike datoteke ili obrade pratećih dokumenata. U dokumentaciji(otvara se u novom prozoru) možete saznati kako podagenti funkcioniraju u Codexu.
Ovaj obrazac postaje korisniji kako manji modeli postaju brži i sposobniji. Umjesto korištenja jednog modela za sve, razvojni programeri mogu sastavljati sustave u kojima veći modeli odlučuju što učiniti, a manji modeli brzo izvršavaju u velikom opsegu. GPT‑5.4 mini je naš dosad najjači mini model za taj način rada.
GPT‑5.4 mini također je snažan u multimodalnim zadacima, osobito onima povezanima s korištenjem računala. Model može brzo interpretirati snimke zaslona složenih korisničkih sučelja kako bi brzo izvršio zadatke upotrebe računala. Na OSWorld-Verified, GPT‑5.4 mini približava se GPT‑5.4, dok istodobno znatno nadmašuje GPT‑5 mini.
GPT‑5.4 mini od danas je dostupan u API-ju, Codexu i ChatGPT‑u.
U API-ju GPT‑5.4 mini podržava tekstualne i slikovne ulaze, korištenje alata, pozivanje funkcija, pretraživanje weba, pretraživanje datoteka, korištenje računala i vještine. Ima kontekstni prozor od 400k i košta 0,75 USD po 1M ulaznih tokena i 4,50 USD po 1M izlaznih tokena.
U Codexu je GPT‑5.4 mini dostupan u aplikaciji Codex, CLI-ju, IDE proširenju i na webu. Troši samo 30% kvote GPT‑5.4, što razvojnim inženjerima omogućuje da u Codexu brzo rješavaju jednostavnije zadatke programiranja uz otprilike trećinu troška. Codex također može delegirati zadatke GPT‑5.4 mini podagentima kako bi se manje zahtjevni zadaci rasuđivanja pokretali na jeftinijem modelu.
U ChatGPT‑u je GPT‑5.4 mini dostupan korisnicima planova Free i Go putem značajke „Razmišljanje” u izborniku +. Za sve ostale korisnike GPT‑5.4 mini dostupan je kao pričuvna opcija pri ograničenju stope za GPT‑5.4 Razmišljanje.
GPT‑5.4 nano dostupan je samo u API-ju i košta 0,20 USD po 1M ulaznih tokena i 1,25 USD po 1M izlaznih tokena.
Za više informacija o zaštitnim mjerama modela pogledajte dodatak kartici sustava na našem Centru za sigurnost implementacije Deployment Safety Hub(otvara se u novom prozoru).
Coding
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| SWE-bench Pro (Public) | 57.7% | 54.4% | 52.4% | 45.7% |
| Terminal-Bench 2.0 | 75.1% | 60.0% | 46.3% | 38.2% |
Tool-calling
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| MCP Atlas | 67.2% | 57.7% | 56.1% | 47.6% |
| Toolathlon | 54.6% | 42.9% | 35.5% | 26.9% |
| τ2-bench (telecom) | 98.9% | 93.4% | 92.5% | 74.1% |
Intelligence
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| GPQA Diamond | 93.0% | 88.0% | 82.8% | 81.6% |
| HLE w/ tool | 52.1% | 41.5% | 37.7% | 31.6% |
| HLE w/o tools | 39.8% | 28.2% | 24.3% | 18.3% |
MM / Vision / CUA
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| OSWorld-Verified | 75.0% | 72.1% | 39.0% | 42.0% |
| MMMUPro w/ Python | 81.5% | 78.0% | 69.5% | 74.1% |
| MMMUPro | 81.2% | 76.6% | 66.1% | 67.5% |
| OmniDocBench 1.5 (no tools)² — lower is better | 0.109 | 0.1263 | 0.2419 | 0.1791 |
Long context
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| OpenAI MRCR v2 8-needle 64K–128K | 86.0% | 47.7% | 44.2% | 35.1% |
| OpenAI MRCR v2 8-needle 128K–256K | 79.3% | 33.6% | 33.1% | 19.4% |
| Graphwalks BFS 0K–128K | 93.1% | 76.3% | 73.4% | 73.4% |
| Graphwalks parents 0–128K (accuracy) | 89.8% | 71.5% | 50.8% | 64.3% |
1 Najviša razina parametra reasoning_effort dostupna za GPT‑5 mini je 'high' (visoka stopa nastojanja).
2 Ukupna udaljenost uređivanja. OmniDocBench je pokrenut s parametrom reasoning_effort postavljenim na 'none', kako bi odražavao performanse niske cijene i niske latencije.


