Oggi presentiamo GPT‑5.4 in ChatGPT (come GPT‑5.4 Thinking), l'API e Codex. È il nostro modello di frontiera più potente ed efficiente per l'uso professionale. Rilasciamo anche GPT‑5.4 Pro in ChatGPT e nell'API, per chi desidera il massimo delle prestazioni nei compiti più complessi.
GPT‑5.4 riunisce il meglio dei nostri recenti progressi nel ragionamento, nella programmazione e nei flussi di lavoro agentici in un unico modello di frontiera. Integra le capacità di codifica leader del settore di GPT‑5.3‑Codex migliorando al contempo il modo in cui il modello opera tra strumenti, ambienti software e attività professionali che coinvolgono fogli di calcolo, presentazioni e documenti. Il risultato è un modello che porta a termine lavori complessi del mondo reale con precisione, efficacia ed efficienza, fornendo ciò che hai richiesto con meno scambi avanti e indietro.
Su ChatGPT, GPT‑5.4 Thinking può ora fornire in anticipo un piano del proprio ragionamento, così puoi correggere la rotta durante la risposta mentre sta lavorando, e ottenere un risultato finale più allineato a ciò di cui hai bisogno senza ulteriori turni. GPT‑5.4 Thinking migliora anche la ricerca approfondita sul web, soprattutto per query molto specifiche, e mantiene meglio il contesto nelle domande che richiedono un ragionamento più lungo. Nel complesso, questi miglioramenti producono risposte di qualità superiore, più rapide e più pertinenti al compito in corso.
In Codex e nell’API, GPT‑5.4 è il primo modello a uso generale che rilasciamo con capacità native e all’avanguardia di utilizzo del computer, che consentono agli agenti di operare sui computer ed eseguire flussi di lavoro complessi tra diverse applicazioni. Supporta fino a 1M token di contesto, consentendo agli agenti di pianificare, eseguire e verificare attività su orizzonti temporali estesi. GPT‑5.4 migliora anche il modo in cui i modelli operano in ampi ecosistemi di strumenti e connettori grazie alla ricerca degli strumenti, aiutando gli agenti a trovare e utilizzare quelli più adatti in modo più efficiente senza compromettere la qualità del ragionamento. Infine, GPT‑5.4 è ad oggi il nostro modello di ragionamento più efficiente in termini di token , utilizzando significativamente meno token per risolvere i problemi rispetto a GPT‑5.2, con una riduzione del consumo di token e una maggiore velocità.
Insieme ai progressi nel ragionamento generale, nella programmazione e nelle attività professionali basate sulla conoscenza specialistica, GPT‑5.4 consente agenti più affidabili, flussi di lavoro per sviluppatori più rapidi e risultati di qualità superiore su ChatGPT, nell’API e in Codex.
GPT‑5.4 | GPT‑5.3‑Codex | GPT‑5.2 | |
GDPval (vittorie o pareggi) | 83,0% | 70,9% | 70,9% |
SWE-Bench Pro (Public) | 57,7% | 56,8% | 55,6% |
OSWorld-Verified | 75,0% | 74,0%* | 47,3% |
Toolathlon | 54,6% | 51,9% | 46,3% |
BrowseComp | 82,7% | 77,3% | 65,8% |
*Precedentemente segnalato come 64,7%. GPT‑5.3‑Codex raggiunge il 74.0% con un parametro dell’API introdotto di recente che preserva la risoluzione originale dell’immagine.
Basandosi sulle capacità di GPT‑5.2’s, GPT‑5.4 offre risultati ancora più coerenti e rifiniti in attività reali e rilevanti per i professionisti.
Nel benchmark GDPval, che valuta la capacità degli agenti di produrre lavoro cognitivo ben definito in 44 professioni, GPT‑5.4 raggiunge un nuovo stato dell’arte, eguagliando o superando i professionisti del settore nell’83,0% dei confronti, rispetto al 71,0% di GPT‑5.2.
In GDPval i modelli svolgono attività di lavoro cognitivo ben definite che coprono 44 professioni appartenenti ai 9 principali settori che contribuiscono al PIL degli Stati Uniti. Le attività richiedono output di lavoro reali, come presentazioni commerciali, fogli di calcolo contabili, turni di pronto soccorso, diagrammi di produzione o brevi video. Il livello di sforzo di ragionamento è stato impostato su “xhigh” per GPT‑5.4 e su “heavy” per GPT‑5.2 (un livello leggermente inferiore in ChatGPT).
“GPT-5.4 è il miglior modello che abbiamo mai provato. Ora è in cima alla classifica del nostro benchmark APEX-Agents, che misura le prestazioni dei modelli nel lavoro di servizi professionali. Eccelle nella creazione di deliverable a lungo termine come presentazioni, modelli finanziari e analisi legali, offrendo prestazioni di alto livello pur funzionando più velocemente e a un costo inferiore rispetto ai modelli di frontiera concorrenti.”
Abbiamo dedicato particolare attenzione al miglioramento di GPT‑5.4 nel creare e modificare fogli di calcolo, presentazioni e documenti. Nel nostro benchmark interno su attività di modellazione in fogli di calcolo tipiche di un analista junior di investment banking, GPT‑5.4 ottiene un punteggio medio dell’87,5%, rispetto al 68,4% di GPT‑5.2. In un set di prompt per la valutazione delle presentazioni, i valutatori umani hanno preferito quelle generate da GPT‑5.4 nel 68,0% dei casi rispetto a quelle di GPT‑5.2, grazie a un’estetica più curata, una maggiore varietà visiva e un uso più efficace della generazione di immagini.

I documenti sono stati generati con lo sforzo di ragionamento impostato su xhigh
Puoi provare queste funzionalità in ChatGPT con GPT‑5.4 Thinking o Pro. Se sei un cliente Enterprise, ti consigliamo di utilizzare i nuovi plugin ChatGPT per Excel e Google Sheets, appena rilasciati ChatGPT for Excel and Google Sheets plugins(si apre in una nuova finestra), lanciato anch’esso oggi. Abbiamo anche aggiornato le nostre funzionalità per fogli di calcolo(si apre in una nuova finestra) e presentazioni(si apre in una nuova finestra) disponibili in Codex e nell’API.
Per rendere GPT‑5.4 più efficace nelle attività reali, abbiamo continuato a ridurre allucinazioni ed errori. GPT‑5.4 è ad oggi il nostro modello più accurato dal punto di vista fattuale: in un insieme di prompt anonimizzati in cui gli utenti avevano segnalato errori fattuali, le singole affermazioni hanno il 33% in meno di probabilità di essere false e le risposte complete il 18% in meno di probabilità di contenere errori rispetto a GPT‑5.2.
"GPT-5.4 stabilisce un nuovo standard per il lavoro legale con molti documenti. Su BigLaw Bench eval, ha ottenuto un punteggio del 91%. Rispetto ad altri modelli, GPT-5.4 è attualmente più efficace nello strutturare analisi transazionali complesse, mantenendo l’accuratezza su contratti molto lunghi e fornendo il livello di dettaglio elevato richiesto dai professionisti legali.”
GPT‑5.4 è il nostro primo modello a uso generale con capacità native di utilizzo del computer e rappresenta un importante passo avanti sia per gli sviluppatori sia per gli agenti. È il miglior modello attualmente disponibile per gli sviluppatori che creano agenti capaci di completare attività reali su siti web e sistemi software.
Abbiamo progettato GPT‑5.4 per offrire buone prestazioni in un’ampia gamma di attività di utilizzo del computer. È particolarmente efficace nella scrittura di codice per controllare computer tramite librerie come Playwright, nonché nell’eseguire comandi di mouse e tastiera in risposta agli screenshot. Il comportamento del modello può essere guidato tramite messaggi per sviluppatori, che consentono di adattarlo a casi d’uso specifici. Gli sviluppatori possono anche configurare il comportamento di sicurezza del modello in base a diversi livelli di tolleranza al rischio, definendo politiche di conferma personalizzate.
Le prestazioni e la flessibilità del modello emergono nei benchmark che valutano l’utilizzo del computer in diversi contesti. Nel benchmark OSWorld-Verified, che misura la capacità di un modello di navigare in un ambiente desktop tramite screenshot e azioni di mouse e tastiera, GPT‑5.4 raggiunge un tasso di successo all’avanguardia del 75,0%, superando di gran lunga quello di GPT‑5.2’s 47.3%, e superando le prestazioni umane a 72.4%.1
Su WebArena-Verified, che testa l’uso del browser, GPT‑5.4 raggiunge un tasso di successo leader del 67.3% quando utilizza sia l’interazione basata su DOM sia quella basata su screenshot, rispetto al 65.4% di GPT‑5.2. Su Online-Mind2Web, che testa anche l'uso del browser, GPT‑5.4 raggiunge un tasso di successo del 92.8% utilizzando solo osservazioni basate su screenshot, migliorando rispetto alla modalità agente di ChatGPT Atlas, che raggiunge un tasso di successo del 70.9%.
Un yield di strumento si verifica quando un assistente sospende l’esecuzione per attendere la risposta di uno strumento. Se 3 strumenti vengono chiamati in parallelo, seguiti da altri 3 chiamati anch’essi in parallelo, il numero di yield sarebbe 2. Gli yield degli strumenti sono un indicatore migliore della latenza rispetto al numero di chiamate agli strumenti, perché riflettono i benefici della parallelizzazione delle chiamate.
GPT‑5.4 interpreta screenshot di un’interfaccia del browser e interagisce con gli elementi dell’interfaccia tramite clic basati su coordinate per inviare email e pianificare un evento del calendario.
Il miglioramento nell’utilizzo del computer da parte di GPT‑5.4 si basa sulle capacità migliorate di percezione visiva generale del modello. Nel benchmark MMMU-Pro, che valuta la comprensione visiva e il ragionamento di un modello, GPT‑5.4 raggiunge un tasso di successo dell’81,2% senza utilizzare strumenti, migliorando rispetto a GPT‑5.2 79,5%. Il miglioramento della percezione visiva si traduce anche in migliori capacità di analisi dei documenti. Su OmniDocBench, GPT‑5.4 senza sforzo di ragionamento raggiunge un errore medio (misurato dalla distanza di edit normalizzata tra la previsione del modello e la ground truth) di 0,109, in miglioramento rispetto a 0,140 di GPT‑5.2.
MMMUPro è stato eseguito con lo sforzo di ragionamento impostato su 'xhigh'. OmniDocBench è stato eseguito con lo sforzo di ragionamento impostato su None, per riflettere prestazioni a basso costo e bassa latenza.
Stiamo inoltre migliorando la comprensione visiva per immagini dense e ad alta risoluzione, in cui la piena fedeltà dei dettagli è fondamentale. A partire da GPT‑5.4, Stiamo introducendo un livello di dettaglio original per l’input delle immagini dettaglio dell’input(si apre in una nuova finestra) che supporta una percezione ad alta fedeltà fino a 10,24M pixel totali o una dimensione massima di 6000 pixel, a seconda di quale sia inferiore; il livello di dettaglio high per l’input delle immagini ora supporta fino a 2,56M pixel totali o una dimensione massima di 2048 pixel. Nei primi test con utenti dell’API abbiamo osservato miglioramenti significativi nella capacità di localizzazione, nella comprensione delle immagini e nella precisione dei clic quando si utilizza original o high detail.
“Nelle nostre valutazioni che misurano le prestazioni nell’uso del computer su ~30K portali HOA e di imposte sulla proprietà, GPT-5.4 ha raggiunto un tasso di successo del 95% al primo tentativo e del 100% entro tre tentativi, rispetto a ~73–79% con i modelli CUA precedenti. Ha inoltre completato le sessioni ~3× più velocemente utilizzando ~70% di token in meno, migliorando in modo significativo l’affidabilità e l’efficienza dei costi su larga scala.”
Nell’API, gli sviluppatori possono accedere a queste funzionalità tramite lo strumento computer aggiornato. Consulta la nostra documentazione aggiornata(si apre in una nuova finestra) per le migliori pratiche consigliate.
GPT‑5.4 combina i punti di forza di GPT‑5.3‑Codex nella programmazione con capacità avanzate nel lavoro basato sulla conoscenza e nell’utilizzo del computer, particolarmente rilevanti nelle attività di lunga durata, in cui il modello può usare strumenti, iterare e portare avanti il lavoro con minore intervento manuale. Eguaglia o supera GPT‑5.3‑Codex su SWE-Bench Pro mantenendo al tempo stesso una latenza inferiore a parità di sforzo di ragionamento.
Stimiamo la latenza analizzando il comportamento dei nostri modelli in produzione e simulando questo comportamento offline. La stima della latenza tiene conto della durata delle chiamate agli strumenti (tempo di esecuzione del codice), dei token campionati e dei token di input. La latenza nel mondo reale può variare notevolmente e dipende da molti fattori non considerati nella nostra simulazione. Gli sforzi di ragionamento sono stati portati da none a xhigh.
Quando è attiva, la modalità /fast in Codex offre una velocità dei token fino a 1.5x più rapida con GPT‑5.4. È lo stesso modello, con le stesse capacità, solo più veloce. Ciò significa che gli utenti possono procedere tra attività di programmazione, iterazione e debugging mantenendo il flusso di lavoro. Gli sviluppatori possono accedere a GPT‑5.4 alle stesse velocità elevate tramite l’API utilizzando l’elaborazione prioritaria(si apre in una nuova finestra).
Nelle valutazioni e nei test interni abbiamo osservato che GPT‑5.4 eccelle nelle attività front-end complesse, con risultati sensibilmente più curati dal punto di vista estetico e più funzionali rispetto ai modelli lanciati in precedenza.
Come dimostrazione delle capacità migliorate del modello nell’uso del computer e nella programmazione, che ora lavorano in tandem, stiamo anche rilasciando una skill Codex sperimentale chiamata “Playwright (Interactive)(si apre in una nuova finestra)”. Questo consente a Codex di eseguire il debug visivo di app web ed Electron; può persino essere utilizzato per testare un’app mentre la sta costruendo.
Gioco di simulazione di parco a tema realizzato con GPT‑5.4 a partire da un singolo prompt leggermente specificato, utilizzando Playwright Interactive per il playtesting nel browser e la generazione di immagini per il set di asset isometrici. La simulazione include il posizionamento dei percorsi su griglia, la costruzione di attrazioni e scenografie, il pathfinding degli ospiti, la gestione delle code e i cicli delle attrazioni, mentre le metriche del parco, come denaro, numero di ospiti, felicità, pulizia e valutazione, aumentano o diminuiscono in base alle prestazioni della disposizione e a come gli ospiti reagiscono ad essa. Playwright è stato utilizzato per automatizzare i playtest del browser costruendo e ampliando il parco, posizionando e rimuovendo percorsi e attrazioni, controllando la navigazione della telecamera e verificando che ospiti, code, stati delle giostre e metriche dell’interfaccia utente si aggiornassero correttamente nel corso di diversi round di gioco.
Prompt: Usa $playwright-interactive e $imagegen. Crea un gioco di simulazione di parco a tema isometrico interattivo che possa costruire e navigare nel browser. Usa imagegen per definire la visione visiva complessiva e generare gli asset del gioco, inclusi attrazioni, percorsi, terreno, alberi, acqua, chioschi di cibo, decorazioni, edifici, icone e illustrazioni dell’interfaccia. Il mondo dovrebbe risultare coerente, rifinito e visivamente ricco, con una direzione artistica di livello premium che funzioni bene da una prospettiva isometrica. Permettimi di posizionare e rimuovere percorsi, aggiungere attrazioni, collocare scenografie e muovermi nel parco in modo fluido monitorando l’attività degli ospiti, lo stato delle attrazioni e la crescita del parco. Includi movimenti credibili degli ospiti e semplici sistemi di gestione del parco come denaro, pulizia, code e felicità, e fai in modo che l’esperienza risulti giocosa, chiara e completa piuttosto che simile a un prototipo grezzo. Dai priorità a fascino, leggibilità e solidità dell’esperienza di gioco rispetto al realismo.
Durante il playtesting, assicurati di costruire ed espandere un parco attraverso diversi round di gioco, verifica che il posizionamento e la navigazione funzionino in modo fluido, conferma che gli ospiti reagiscano alla disposizione del parco e alle attrazioni e assicurati che resa visiva, interfaccia e interazioni risultino stabili e coerenti.
“I nostri ingegneri trovano GPT-5.4 più naturale e assertivo rispetto ai modelli precedenti . Affronta problemi ambigui senza rimettere continuamente in discussione le proprie decisioni ed è proattivo nel parallelizzare il lavoro per mantenere le attività in movimento.”
Con GPT‑5.4, abbiamo migliorato significativamente il modo in cui i modelli interagiscono con strumenti esterni. Gli agenti possono ora operare in ecosistemi di strumenti più ampi, scegliere gli strumenti più adatti con maggiore affidabilità e completare flussi di lavoro in più fasi con costi e latenza inferiori.
Nell’API, GPT‑5.4 introduce la ricerca degli strumenti(si apre in una nuova finestra), che consente ai modelli di lavorare in modo efficiente quando hanno a disposizione molti strumenti.
In precedenza, quando a un modello venivano forniti strumenti, tutte le definizioni venivano incluse nel prompt fin dall’inizio. Nei sistemi con molti strumenti, questo poteva aggiungere migliaia, o persino decine di migliaia, di token a ogni richiesta, aumentando i costi, rallentando le risposte e sovraccaricando il contesto con informazioni che il modello potrebbe non utilizzare mai.
Con la ricerca degli strumenti, GPT‑5.4 riceve invece un elenco leggero degli strumenti disponibili insieme alla possibilità di cercarli quando necessario. Quando il modello deve usare uno strumento, può recuperarne la definizione e aggiungerla alla conversazione in quel momento.
Questo approccio riduce drasticamente il numero di token necessari nei flussi di lavoro con molti strumenti e preserva la cache, rendendo le richieste più rapide ed economiche. Consente inoltre agli agenti di lavorare in modo affidabile con ecosistemi di strumenti molto più ampi. Per i server MCP che possono contenere decine di migliaia di token di definizioni degli strumenti, i miglioramenti in termini di efficienza possono essere significativi.
Per dimostrare i vantaggi in termini di efficienza, abbiamo valutato 250 attività del benchmark MCP Atlas(si apre in una nuova finestra) di Scale con tutti i 36 server MCP abilitati in due modalità: (1) esponendo ogni funzione MCP direttamente nel contesto del modello, e (2) posizionando tutti i server MCP dietro la ricerca degli strumenti. La configurazione di ricerca degli strumenti ha ridotto l’utilizzo totale dei token del 47%, mantenendo la stessa precisione.
I conteggi dei token di esempio derivano dalla media di 250 attività nel dataset pubblico MCP-Atlas.
GPT‑5.4 migliora anche il richiamo degli strumenti, rendendolo più accurato ed efficiente nel decidere quando e come usare gli strumenti durante il ragionamento, in particolare nell’API. Rispetto a GPT‑5.2, raggiunge una precisione maggiore in meno turni su Toolathon, un benchmark che valuta quanto efficacemente gli agenti IA utilizzano strumenti e API del mondo reale per completare attività in più passaggi. Ad esempio, un agente deve leggere le e-mail, estrarre gli allegati dei compiti, caricarli, valutarli e registrare i risultati in un foglio di calcolo.
Un yield di strumento si verifica quando un assistente sospende l’esecuzione per attendere la risposta di uno strumento. Se 3 strumenti vengono chiamati in parallelo, seguiti da altri 3 chiamati anch’essi in parallelo, il numero di yield sarebbe 2. Gli yield degli strumenti sono un indicatore migliore della latenza rispetto al numero di chiamate agli strumenti, perché riflettono i benefici della parallelizzazione delle chiamate.
Per i casi d’uso sensibili alla latenza, in cui è preferibile impostare lo sforzo di ragionamento su None, GPT‑5.4 migliora ulteriormente rispetto ai suoi predecessori.
In τ2-bench(si apre in una nuova finestra), un modello deve utilizzare strumenti per completare un’attività di assistenza clienti, in cui può essere presente un utente simulato che comunica e compie azioni sullo stato dell’ambiente. Lo sforzo di ragionamento era impostato su None.
GPT‑5.4 è più efficace nella ricerca web agentica. Nel benchmark BrowseComp, che misura quanto efficacemente gli agenti IA riescono a navigare sul web in modo persistente per trovare informazioni difficili da individuare, GPT‑5.4 supera GPT‑5.2 del 17%, mentre GPT‑5.4 Pro stabilisce un nuovo riferimento di eccellenza dell'89.3%.
In pratica, questo significa che GPT‑5.4 Thinking è più efficace nel rispondere a domande che richiedono di integrare informazioni provenienti da molte fonti sul web. Può effettuare ricerche in modo più persistente su più iterazioni per identificare le fonti più pertinenti, in particolare per domande “ago nel pagliaio”, e sintetizzarle in una risposta chiara e ben argomentata.
In BrowseComp abbiamo utilizzato una blocklist di ricerca che esclude dalla valutazione i siti web contenenti risposte ai benchmark, per prevenire contaminazioni e garantire una valutazione equa delle prestazioni. GPT‑5.4 è stato misurato in una data successiva a GPT‑5.2, perciò i punteggi riflettono i cambiamenti nel modello, nel nostro sistema di ricerca e nello stato di Internet. GPT‑5.4 è stato testato con una blocklist più lunga e aggiornata. I modelli utilizzano lo strumento di ricerca di ChatGPT, che può presentare piccole differenze rispetto alla ricerca tramite API.
“GPT-5.4 xhigh rappresenta il nuovo stato dell’arte per l’uso degli strumenti in più passaggi. Zapier esegue alcuni dei benchmark sull’uso degli strumenti più rigorosi del settore, testando i modelli su centinaia di flussi di lavoro avanzati del mondo reale. GPT-5.4 ha portato a termine il lavoro dove i modelli precedenti si erano fermati: il modello più tenace finora.”
Analogamente a quanto fa Codex quando inizia a lavorare, GPT‑5.4 Thinking in ChatGPT ora introduce il proprio ragionamento con una breve premessa nelle query più lunghe e complesse. Puoi anche aggiungere istruzioni o modificarne la direzione mentre la risposta è in corso. Questo rende più facile guidare il modello verso il risultato desiderato senza dover ricominciare da capo o aggiungere più turni alla conversazione. Questa funzionalità è già disponibile su chatgpt.com(si apre in una nuova finestra) e sull'app Android, e arriverà presto anche sull’app iOS.
Il modello può anche ragionare più a lungo su attività difficili mantenendo una maggiore consapevolezza dei passaggi precedenti nella conversazione. Questo gli consente di gestire flussi di lavoro più lunghi e prompt più complessi, mantenendo le risposte coerenti e pertinenti lungo tutta la conversazione.
Questo video è stato accelerato a scopo illustrativo.
Negli ultimi mesi abbiamo continuato a migliorare le misure di sicurezza introdotte con GPT‑5.3‑Codex mentre preparavamo GPT‑5.4 per il rilascio. Analogamente a GPT‑5.3‑Codex, classifichiamo GPT‑5.4 come capacità elevata in cyberspazio nell’ambito del nostro Preparedness Framework e lo stiamo distribuendo con le protezioni corrispondenti, come documentato nella scheda di sistema. Queste includono uno stack ampliato di sicurezza informatica, inclusi sistemi di monitoraggio, controlli di accesso affidabili e blocco asincrono per richieste a rischio più elevato per i clienti su superfici di assenza di conservazione dei dati (ZDR), insieme a investimenti continui nel più ampio ecosistema della sicurezza.
Poiché le capacità di cybersicurezza sono intrinsecamente a duplice uso, adottiamo un approccio precauzionale al rilascio continuando al contempo ad affinare le nostre policy e i classificatori. Per alcuni clienti sulle superfici ZDR, il blocco a livello di richiesta resta parte del nostro sistema di mitigazione del rischio informatico; poiché i classificatori sono ancora in fase di miglioramento, potrebbero verificarsi alcuni falsi positivi mentre continuiamo ad affinare queste misure di protezione. Questi aggiornamenti mirano a migliorare il funzionamento delle misure di protezione nella pratica, anche riducendo i rifiuti non necessari e le risposte eccessivamente piene di avvertenze, preservando al contempo solide protezioni contro l'uso improprio.
Abbiamo proseguito la ricerca sulla monitorabilità della Chain-of-Thought (CoT) per comprendere meglio come ragionano i modelli e rilevare potenziali comportamenti anomali. Nell'ambito di questo lavoro, introduciamo una nuova valutazione open source, CoT controllability, che misura se i modelli possono deliberatamente oscurare il loro ragionamento per eludere il monitoraggio. Abbiamo riscontrato che la capacità di GPT‑5.4 Thinking di controllare la propria CoT è limitata, il che è una proprietà positiva per la sicurezza, il che suggerisce che il modello non è in grado di nascondere il proprio ragionamento e che il monitoraggio della CoT rimane uno strumento di sicurezza efficace.
GPT‑5.4 è in fase di distribuzione graduale da oggi su ChatGPT e Codex. Nell'API, GPT‑5.4 è ora disponibile come gpt-5.4. GPT‑5.4 Pro è disponibile anche nell'API come gpt-5.4-pro per gli sviluppatori che necessitano delle massime prestazioni nelle attività più complesse.
Su ChatGPT, GPT‑5.4 Thinking è disponibile da oggi per gli utenti ChatGPT Plus, Team e Pro, in sostituzione di GPT‑5.2 Thinking. GPT‑5.2 Thinking resterà disponibile per tre mesi per gli utenti a pagamento nel selettore dei modelli nella sezione Modelli legacy, dopodiché verrà ritirato il 5 giugno 2026. Gli utenti con piano Enterprise o Edu possono abilitare l’accesso anticipato dalle impostazioni di amministrazione. GPT‑5.4 Pro è disponibile nei piani Pro ed Enterprise. Finestre di contesto(si apre in una nuova finestra) in ChatGPT per GPT‑5.4 Thinking rimane invariato rispetto a GPT‑5.2 Thinking.
GPT‑5.4 è il nostro primo modello di ragionamento principale che incorpora le capacità di coding di frontiera di GPT‑5.3‑codex e che è in fase di rilascio graduale su ChatGPT, l’API e Codex. Lo chiamiamo GPT‑5.4 per riflettere questo salto di qualità e per semplificare la scelta tra i modelli quando si utilizza Codex. Nel tempo puoi aspettarti che i nostri modelli Instant e i modelli Thinking evolvano a velocità diverse.
GPT‑5.4 in Codex include il supporto sperimentale per la finestra di contesto 1M. Gli sviluppatori possono provarlo configurando model_context_window e model_auto_compact_token_limit. Le richieste che superano la finestra di contesto standard di 272K vengono conteggiate nei limiti di utilizzo a una tariffa 2x rispetto a quella normale.
Nell’API, GPT‑5.4 ha un costo per token più elevato rispetto a GPT‑5.2 per riflettere le sue capacità migliorate, mentre la maggiore efficienza nell’uso dei token contribuisce a ridurre il numero totale di token richiesti per molte attività. Le tariffe Batch e Flex sono disponibili a metà della tariffa API standard, mentre l’elaborazione prioritaria è disponibile al doppio della tariffa API standard.
Modello API | Prezzo dell’input | Prezzo dell’input in cache | Prezzo dell’output |
gpt-5.2 | 1,75 USD / M token | 0,175 USD / M token | 14 USD / M token |
gpt-5.4 | 2,50 USD / M token | 0,25 USD / M token | 15 USD / M token |
gpt-5.2-pro | 21,00 USD / M token | - | 168 USD / M token |
gpt-5.4-pro | 30 USD / M token | - | 180 USD / M token |
Professionale
Valutazione | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
GDPval | 83,0% | 82,0% | 70,9% | 70,9% | 74,1% |
FinanceAgent v1.1 | 56,0% | 61,5% | 54,0% | 59,5% | — |
Attività di modellazione per l’investment banking (Internal) | 87,3% | 83,6% | 79,3% | 68,4% | 71,7% |
OfficeQA | 68,1% | — | 65,1% | 63,1% | — |
Programmazione
Valutazione | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
SWE-Bench Pro (Public) | 57,7% | — | 56,8% | 55,6% | — |
Terminal-Bench 2.0 | 75,1% | — | 77,3% | 62,2% | — |
Utilizzo del computer e visione
Valutazione | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
OSWorld-Verified | 75,0% | — | 74,0% | 47,3% | — |
MMMU Pro (senza strumenti) | 81,2% | — | — | 79,5% | — |
MMMU Pro (con strumenti) | 82,1% | — | — | 80,4% | — |
Uso degli strumenti
Valutazione | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
BrowseComp | 82,7% | 89,3% | 77,3% | 65,8% | 77,9% |
MCP Atlas | 67,2% | — | — | 60,6% | — |
Toolathlon | 54,6% | — | 51,9% | 45,7% | — |
Tau2-bench Telecom | 98,9% | — | — | 98,7% | — |
Accademico
Valutazione | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
Ricerca scientifica di frontiera | 33,0% | 36,7% | — | 25,2% | — |
FrontierMath Livello 1–3 | 47,6% | — | — | 40,7% | — |
FrontierMath Livello 4 | 27,1% | 38,0% | — | 18,8% | 31,3% |
GPQA diamond | 92,8% | 94,4% | 92,6% | 92,4% | 93,2% |
Humanity's Last Exam (senza strumenti) | 39,8% | 42,7% | — | 34,5% | 36,6% |
Humanity's Last Exam (con strumenti) | 52,1% | 58,7% | — | 45,5% | 50,0% |
Contesto lungo
Valutazione | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
Graphwalks BFS 0K–128K | 93,0% | — | — | 94,0% | — |
Graphwalk BFS 256K–1M | 21,4% | — | — | — | — |
Graphwalks parents 0–128.000 (accuratezza) | 89,8% | — | — | 89,0% | — |
Graphwalks parents 256K–1M (accuratezza) | 32,4% | — | — | — | — |
OpenAI MRCR v2 8-needle 4K–8K | 97,3% | — | — | 98,2% | — |
OpenAI MRCR v2 8-needle 8K–16K | 91,4% | — | — | 89,3% | — |
OpenAI MRCR v2 8 needle 16K–32K | 97,2% | — | — | 95,3% | — |
OpenAI MRCR v2 8-needle 32K–64K | 90,5% | — | — | 92,0% | — |
OpenAI MRCR v2 8-needle 64K–128K | 86,0% | — | — | 85,6% | — |
OpenAI MRCR v2 8-needle 128K–256K | 79,3% | — | — | 77,0% | — |
OpenAI MRCR v2 8-needle 256K–512K | 57,5% | — | — | — | — |
OpenAI MRCR v2 8 needle 512K–1M | 36,6% | — | — | — | — |
Ragionamento astratto
Valutazione | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
ARC-AGI-1 (Verificato) | 93,7% | 94,5% | — | 86,2% | 90,5% |
ARC-AGI-2 (Verificato) | 73,3% | 83,3% | — | 52,9% | 54,2% (elevato) |
Valutazioni senza ragionamento
Valutazione | GPT‑5.4 | GPT‑5.2 | GPT‑4.1 |
OmniDocBench (distanza di modifica normalizzata) | 0,109 | 0,140 | — |
Tau2-bench Telecom | 64,3% | 57,2% | 43,6% |
Le valutazioni sono state eseguite con il livello di sforzo di ragionamento impostato su xhigh, ad eccezione dei casi in cui è specificato diversamente. I benchmark sono stati condotti in un ambiente di ricerca, che in alcuni casi può generare risultati leggermente diversi rispetto a ChatGPT in produzione.
Autore
Note di riferimento
1 Prestazioni umane riportate in OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments(si apre in una nuova finestra).


