Astăzi lansăm GPT‑5.4 mini și nano, cele mai capabile modele mici ale noastre de până acum. Acestea aduc multe dintre punctele forte ale GPT‑5.4 în modele mai rapide și mai eficiente, concepute pentru sarcini de lucru cu volum mare.
GPT‑5.4 mini îmbunătățește semnificativ performanțele față de GPT‑5 mini în ceea ce privește codarea, raționamentul, înțelegerea multimodală și utilizarea instrumentelor, rulând în același timp de peste 2 ori mai rapid. De asemenea, se apropie de performanța modelului mai mare GPT‑5.4 în mai multe evaluări, inclusiv SWE-Bench Pro și OSWorld-Verified.
GPT‑5.4 nano este cea mai mică și mai ieftină versiune a GPT‑5.4 pentru sarcini în care viteza și costul contează cel mai mult. De asemenea, este o îmbunătățire semnificativă față de GPT‑5 nano. Îl recomandăm pentru subagenții de clasificare, extragere de date, ierarhizare și programare care se ocupă de sarcini auxiliare mai simple.
Aceste modele sunt concepute pentru tipurile de sarcini în care latența influențează în mod direct experiența utilizatorului: asistenți de programare care trebuie să ofere o reacție rapidă, subagenți care îndeplinesc rapid sarcini auxiliare, sisteme informatice care capturează și interpretează capturi de ecran, precum și aplicații multimodale capabile să analizeze imagini în timp real. În aceste contexte, cel mai bun model nu este întotdeauna cel mai mare, ci acela care poate răspunde rapid, folosi instrumente în mod fiabil și totuși să ofere performanțe bune în îndeplinirea sarcinilor profesionale complexe.
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| SWE-Bench Pro (Public) | 57.7% | 54.4% | 52.4% | 45.7% |
| Terminal-Bench 2.0 | 75.1% | 60.0% | 46.3% | 38.2% |
| Toolathlon | 54.6% | 42.9% | 35.5% | 26.9% |
| GPQA Diamond | 93.0% | 88.0% | 82.8% | 81.6% |
| OSWorld-Verified | 75.0% | 72.1% | 39.0% | 42.0% |
1 Cel mai mare reasoning_effort disponibil pentru GPT‑5 mini este „high”.
Iată ce cred clienții noștri după ce au testat GPT‑5.4 mini și nano în fluxurile lor de lucru:
„GPT-5.4 mini oferă o performanță excelentă integrală pentru un model din această categorie. În evaluările noastre, a egalat sau a depășit modelele concurente la mai multe sarcini de ieșire și la reamintirea citărilor, la un cost mult mai mic. De asemenea, a obținut rate de succes integrale mai mari și o atribuire a sursei mai puternică decât modelul mai mare GPT-5.4.”
GPT‑5.4 mini și nano sunt deosebit de eficiente în fluxurile de lucru de programare, care beneficiază de iterații rapide. Modelele gestionează editări direcționate, navigarea în baza de cod, generarea front-end și buclele de depanare cu latență redusă, ceea ce le face potrivite pentru sarcinile de programare care trebuie finalizate la viteze mai mari și costuri mai mici.
În testele de performanță, GPT‑5.4 mini depășește constant GPT‑5‑mini la latențe similare și se apropie de rate de reușită de nivelul GPT‑5.4., în timp ce rulează mult mai rapid, oferind unul dintre cele mai bune compromisuri între performanță și latență pentru fluxurile de lucru de programare.
Estimăm latența analizând comportamentul în producție al modelelor noastre și simulând acest lucru offline. Estimarea latenței ia în considerare durata apelării instrumentului (timpul de execuție a codului), tokenurile eșantionate și tokenurile de intrare. Latența reală poate varia substanțial și depinde de mulți factori care nu sunt surprinși în simularea noastră. În mod similar, costurile sunt estimate pe baza prețurilor API ale acestui model la momentul redactării. Costurile se pot schimba în viitor. Eforturile de raţionament au fost crescute de la low la xhigh.
GPT‑5.4 mini este, de asemenea, o alegere foarte potrivită pentru sistemele care combină modele de dimensiuni diferite. În Codex, de exemplu, un model mai amplu, precum GPT‑5.4, poate gestiona planificarea, coordonarea și judecata finală, delegând în același timp mini-subagenți GPT‑5.4 care gestionează în paralel subsarcini mai restrânse, cum ar fi căutarea într-o bază de cod, revizuirea unui fișier mare sau procesarea documentelor de sprijin. Află cum funcționează subagenții în Codex din documentație(se deschide într-o fereastră nouă).
Acest tipar devine mai util pe măsură ce modelele mai mici devin mai rapide și mai capabile. În loc să folosească un singur model pentru orice, dezvoltatorii pot compune sisteme în care modelele mai mari decid ce să facă, iar modelele mai mici execută rapid la scară. GPT‑5.4 mini este cel mai performant model mini al nostru de până acum pentru acel stil de flux de lucru.
GPT‑5.4 mini este, de asemenea, puternic la sarcini multimodale, în special la cele legate de utilizarea computerului. Modelul poate interpreta rapid capturi de ecran ale unor interfețe de utilizator dense pentru a finaliza sarcini de utilizare a computerului cu viteză. Pe OSWorld-Verified, GPT‑5.4 mini se apropie de GPT‑5.4, în timp ce depășește substanțial GPT‑5 mini.
GPT‑5.4 mini este disponibil astăzi în API, Codex și ChatGPT.
În API, GPT‑5.4 mini acceptă intrări de text și imagine, utilizarea instrumentelor, apelarea funcțiilor, căutare pe web, căutare de fișiere, utilizarea computerului și abilități. Are o fereastră de context de 400k și costă 0,75 $ per 1M de tokenuri de intrare și 4,50 $ per 1M de tokenuri de ieșire.
În Codex, GPT‑5.4 mini este disponibil în aplicația Codex, CLI, extensia IDE și pe web. Folosește doar 30% din cota GPT‑5.4, permițându-le dezvoltatorilor să gestioneze rapid sarcini de programare mai simple în Codex, la aproximativ o treime din cost. De asemenea, Codex poate delega sarcini către subagenții GPT‑5.4 mini, astfel încât operațiunile care necesită mai puțin raționament să fie rulate pe modelul mai ieftin.
În ChatGPT, GPT‑5.4 mini este disponibil pentru utilizatorii Free și Go prin funcția „Thinking” din meniul +. Pentru toți ceilalți utilizatori, GPT‑5.4 mini este disponibil ca rezervă pentru limita de rată pentru GPT‑5.4 Thinking.
GPT‑5.4 nano este disponibil numai în API și costă 0,20 $ per 1M de tokenuri de intrare și 1,25 $ per 1M de tokenuri de ieșire.
Pentru mai multe informații despre măsurile de siguranță ale modelelor, consultă anexa fișei de sistem din Hubul pentru siguranța implementării(se deschide într-o fereastră nouă).
Coding
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| SWE-bench Pro (Public) | 57.7% | 54.4% | 52.4% | 45.7% |
| Terminal-Bench 2.0 | 75.1% | 60.0% | 46.3% | 38.2% |
Tool-calling
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| MCP Atlas | 67.2% | 57.7% | 56.1% | 47.6% |
| Toolathlon | 54.6% | 42.9% | 35.5% | 26.9% |
| τ2-bench (telecom) | 98.9% | 93.4% | 92.5% | 74.1% |
Intelligence
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| GPQA Diamond | 93.0% | 88.0% | 82.8% | 81.6% |
| HLE w/ tool | 52.1% | 41.5% | 37.7% | 31.6% |
| HLE w/o tools | 39.8% | 28.2% | 24.3% | 18.3% |
MM / Vision / CUA
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| OSWorld-Verified | 75.0% | 72.1% | 39.0% | 42.0% |
| MMMUPro w/ Python | 81.5% | 78.0% | 69.5% | 74.1% |
| MMMUPro | 81.2% | 76.6% | 66.1% | 67.5% |
| OmniDocBench 1.5 (no tools)² — lower is better | 0.109 | 0.1263 | 0.2419 | 0.1791 |
Long context
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| OpenAI MRCR v2 8-needle 64K–128K | 86.0% | 47.7% | 44.2% | 35.1% |
| OpenAI MRCR v2 8-needle 128K–256K | 79.3% | 33.6% | 33.1% | 19.4% |
| Graphwalks BFS 0K–128K | 93.1% | 76.3% | 73.4% | 73.4% |
| Graphwalks parents 0–128K (accuracy) | 89.8% | 71.5% | 50.8% | 64.3% |
1 Cel mai mare reasoning_effort disponibil pentru GPT‑5 mini este „high”.
2 Distanță totală de editare. OmniDocBench a fost rulat cu reasoning_effort setat la „none” pentru a reflecta performanța cu cost redus și latență scăzută.


