Oggi introduciamo GPT‑5.4 mini e nano, i modelli compatti più capaci che abbiamo realizzato finora. Portano molte delle capacità di GPT‑5.4 in modelli più veloci ed efficienti, progettati per carichi di lavoro ad alto volume.
GPT‑5.4 mini migliora significativamente GPT‑5 mini in programmazione, ragionamento, comprensione multimodale e uso degli strumenti, con una velocità superiore a 2×. Si avvicina inoltre alle prestazioni del modello GPT‑5.4 più grande in diverse valutazioni, tra cui SWE-Bench Pro e OSWorld-Verified.
GPT‑5.4 nano è la versione più piccola e più conveniente di GPT‑5.4 per le attività in cui velocità e costo sono prioritari. Rappresenta anche un miglioramento significativo rispetto a GPT‑5 nano. Lo consigliamo per classificazione, estrazione dei dati, ranking e sotto-agenti di programmazione che gestiscono attività di supporto più semplici.
Questi modelli sono progettati per carichi di lavoro in cui la latenza influisce direttamente sull’esperienza del prodotto: assistenti di programmazione che devono essere reattivi, sotto-agenti che completano rapidamente attività di supporto, sistemi che utilizzano il computer e acquisiscono e interpretano screenshot e applicazioni multimodali in grado di ragionare sulle immagini in tempo reale. In questi contesti, il modello migliore spesso non è il più grande: è quello che risponde rapidamente, usa gli strumenti in modo affidabile e mantiene prestazioni elevate anche in attività professionali complesse.
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| SWE-Bench Pro (Public) | 57.7% | 54.4% | 52.4% | 45.7% |
| Terminal-Bench 2.0 | 75.1% | 60.0% | 46.3% | 38.2% |
| Toolathlon | 54.6% | 42.9% | 35.5% | 26.9% |
| GPQA Diamond | 93.0% | 88.0% | 82.8% | 81.6% |
| OSWorld-Verified | 75.0% | 72.1% | 39.0% | 42.0% |
1 Il valore massimo di reasoning_effort disponibile per GPT‑5 mini è "high".
Ecco cosa dicono i nostri clienti dopo aver testato GPT‑5.4 mini e nano nei loro flussi di lavoro:
"GPT-5.4 mini offre solide prestazioni end-to-end per un modello in questa classe. Nelle nostre valutazioni ha eguagliato o superato modelli concorrenti in diverse attività di output e nel recupero delle citazioni, a un costo molto inferiore. Ha inoltre registrato tassi di superamento end-to-end più elevati e un’attribuzione delle fonti più solida rispetto al modello GPT-5.4 più grande."
GPT‑5.4 mini e nano sono particolarmente efficaci nei flussi di lavoro di programmazione che beneficiano di iterazioni rapide. I modelli gestiscono modifiche mirate, la navigazione nel codebase, la generazione di front-end e cicli di debugging con bassa latenza, rendendoli particolarmente adatti alle attività di programmazione che richiedono maggiore velocità e costi inferiori.
Nei benchmark, GPT‑5.4 mini supera costantemente GPT‑5 mini a parità di latenza e si avvicina ai tassi di successo di GPT‑5.4, pur funzionando molto più velocemente e offrendo uno dei migliori rapporti tra prestazioni e latenza per i flussi di lavoro di programmazione.
Stimiamo la latenza analizzando il comportamento dei nostri modelli in produzione e simulando questo comportamento offline. La stima della latenza tiene conto della durata delle chiamate agli strumenti (tempo di esecuzione del codice), dei token campionati e dei token di input. La latenza in contesti reali può variare notevolmente e dipende da molti fattori non considerati nella nostra simulazione. Analogamente, i costi sono stimati in base alle tariffe API di questi modelli al momento della stesura. I costi potrebbero cambiare in futuro. Gli sforzi di ragionamento sono stati portati da low a xhigh.
GPT‑5.4 mini è anche una soluzione efficace per sistemi che combinano modelli di dimensioni diverse. In Codex, ad esempio, un modello più grande come GPT‑5.4 può occuparsi di pianificazione, coordinamento e decisione finale, delegando ai subagenti GPT‑5.4 mini sottocompiti più specifici in parallelo, come cercare nel codebase, revisionare file di grandi dimensioni o elaborare documenti di supporto. Scopri come funzionano i subagenti in Codex nella documentazione(si apre in una nuova finestra).
Questo approccio diventa più utile man mano che i modelli più piccoli diventano più veloci e capaci. Invece di usare un unico modello per tutto, gli sviluppatori possono creare sistemi in cui i modelli più grandi decidono cosa fare e quelli più piccoli eseguono rapidamente le attività su larga scala. GPT‑5.4 mini è il nostro mini modello ad oggi più potente per questo tipo di flusso di lavoro.
GPT‑5.4 mini offre ottime prestazioni anche nelle attività multimodali, in particolare in quelle legate all’uso del computer. Il modello può interpretare rapidamente screenshot di interfacce utente complesse per completare più velocemente attività legate all’uso del computer. Su OSWorld-Verified, GPT‑5.4 mini si avvicina a GPT‑5.4 superando nettamente GPT‑5 mini.
GPT‑5.4 mini è disponibile da oggi nell’API, in Codex e su ChatGPT.
Nell’API, GPT‑5.4 mini supporta input di testo e immagini, uso degli strumenti, function calling, ricerca web, ricerca di file, uso del computer e skills. Ha una finestra di contesto da 400k token e costa 0,75 USD per 1M token di input e 4,50 USD per 1M token di output.
In Codex, GPT‑5.4 mini è disponibile nell’app Codex, nella CLI, nell’estensione IDE e sul web. Utilizza solo il 30% della quota di GPT‑5.4, consentendo agli sviluppatori di gestire rapidamente attività di programmazione più semplici in Codex a circa un terzo del costo. Codex può anche delegare a subagenti GPT‑5.4 mini, in modo che le attività meno intensive dal punto di vista del ragionamento vengano eseguite sul modello più economico.
Su ChatGPT, GPT‑5.4 mini è disponibile per gli utenti Free e Go tramite la funzionalità “Thinking” nel menu +. Per tutti gli altri utenti, GPT‑5.4 mini è disponibile come fallback quando viene raggiunto il limite di velocità di GPT‑5.4 Thinking.
GPT‑5.4 nano è disponibile solo nell’API e costa 0,20 USD per 1M di token di input e 1,25 USD per 1M di token di output.
Per ulteriori informazioni sulle misure di sicurezza dei modelli, consulta l'appendice alla scheda di sistema nel nostro Hub sulla sicurezza dell'implementazione(si apre in una nuova finestra).
Coding
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| SWE-bench Pro (Public) | 57.7% | 54.4% | 52.4% | 45.7% |
| Terminal-Bench 2.0 | 75.1% | 60.0% | 46.3% | 38.2% |
Tool-calling
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| MCP Atlas | 67.2% | 57.7% | 56.1% | 47.6% |
| Toolathlon | 54.6% | 42.9% | 35.5% | 26.9% |
| τ2-bench (telecom) | 98.9% | 93.4% | 92.5% | 74.1% |
Intelligence
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| GPQA Diamond | 93.0% | 88.0% | 82.8% | 81.6% |
| HLE w/ tool | 52.1% | 41.5% | 37.7% | 31.6% |
| HLE w/o tools | 39.8% | 28.2% | 24.3% | 18.3% |
MM / Vision / CUA
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| OSWorld-Verified | 75.0% | 72.1% | 39.0% | 42.0% |
| MMMUPro w/ Python | 81.5% | 78.0% | 69.5% | 74.1% |
| MMMUPro | 81.2% | 76.6% | 66.1% | 67.5% |
| OmniDocBench 1.5 (no tools)² — lower is better | 0.109 | 0.1263 | 0.2419 | 0.1791 |
Long context
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| OpenAI MRCR v2 8-needle 64K–128K | 86.0% | 47.7% | 44.2% | 35.1% |
| OpenAI MRCR v2 8-needle 128K–256K | 79.3% | 33.6% | 33.1% | 19.4% |
| Graphwalks BFS 0K–128K | 93.1% | 76.3% | 73.4% | 73.4% |
| Graphwalks parents 0–128K (accuracy) | 89.8% | 71.5% | 50.8% | 64.3% |
1 Il valore massimo di reasoning_effort disponibile per GPT‑5 mini è "high".
2 Distanza di modifica complessiva. OmniDocBench è stato eseguito con reasoning_effort impostato su 'none' per riflettere prestazioni a basso costo e bassa latenza.


