7 agosto 2025

Arriva GPT‑5 per gli sviluppatori

Il modello migliore per attività di codifica e agentiche

Caricamento in corso...

Introduzione

Oggi rilasciamo GPT‑5 nella piattaforma API: il nostro miglior modello di sempre per attività di codifica e agentiche.

GPT‑5 stabilisce un nuovo standard (SOTA) nei benchmark di codifica più importanti, con il 74,9% in SWE-bench Verified e l’88% in Aider polyglot. Abbiamo addestrato GPT‑5 per renderlo un vero e proprio collaboratore nello sviluppo di codice. Eccelle nella generazione di codice di qualità elevata e nella gestione di attività come il debugging, la modifica del codice e l’analisi di codebase articolate per fornire risposte. Il modello è flessibile e collaborativo: è capace di seguire istruzioni molto dettagliate con estrema precisione e di fornire spiegazioni preliminari delle sue azioni prima delle chiamate allo strumento e tra una chiamata e l'altra. Si distingue anche nella codifica front-end e supera OpenAI o3 nello sviluppo web front-end nel 70% dei casi in test interni.

Abbiamo addestrato GPT‑5 su attività di codifica reali in collaborazione con i primi tester di startup e imprese. Cursor afferma che GPT‑5 è "il modello più intelligente [che abbiano mai utilizzato]" e "notevolmente intelligente, facile da gestire e ha persino una personalità mai vista in altri modelli". Windsurf sostiene che GPT‑5 ha raggiunto il livello SOTA nelle loro valutazioni e che "il tasso di errore riscontrato nelle chiamate allo strumento è dimezzato rispetto ad altri modelli all’avanguardia". Vercel afferma che “si tratta del miglior modello di IA per lo sviluppo front-end, con prestazioni di punta sia dal punto di vista estetico che della qualità del codice, il che lo colloca in una categoria a sé stante”.

GPT‑5 eccelle anche nei compiti agentici di lunga durata, ottenendo risultati di livello SOTA su 𝜏²-bench telecom (96,7%), un benchmark di chiamata allo strumento pubblicato solo 2 mesi fa. Grazie all'intelligenza avanzata, GPT‑5 riesce a concatenare in modo affidabile decine di chiamate a strumento, sia in sequenza che in parallelo, senza perdere di vista l'obiettivo, migliorando notevolmente l'esecuzione di attività end-to-end complesse e concrete. Inoltre, segue le istruzioni dello strumento con maggior precisione, ne gestisce meglio gli errori ed eccelle nel recupero di contenuti con contesti lunghi. Secondo Manus, GPT‑5 "ha ottenuto le migliori prestazioni mai viste da un singolo modello nei [loro] benchmark interni". Notion afferma che "le risposte rapide [del modello], soprattutto nella modalità con sforzo di ragionamento basso, rendono GPT‑5 il modello ideale per risolvere attività complesse in un'unica soluzione." Inditex dichiara che "ciò che distingue davvero [GPT‑5] è la profondità del suo ragionamento: risposte ricche di sfumature e articolate su più livelli che dimostrano una reale comprensione dell'argomento".

Stiamo anche introducendo nuove funzioni nella nostra API per offrire agli sviluppatori maggior controllo sulle risposte del modello. GPT‑5 supporta un nuovo parametro di verbosità (valori: bassa, media, alta) che aiuta a controllare se le risposte sono brevi e puntuali oppure lunghe ed esaustive. Il parametro reasoning_effort di GPT‑5 può ora assumere un valore minimo, che consente di ottenere risposte più rapide evitando ragionamenti approfonditi. Abbiamo anche aggiunto un nuovo tipo di strumento, gli strumenti personalizzati, che consente a GPT‑5 di richiamare strumenti con testo normale invece di JSON. Gli strumenti personalizzati consentono di imporre vincoli tramite una grammatica indipendente dal contesto fornita dagli sviluppatori.

Stiamo rilasciando GPT‑5 in tre dimensioni nell'API:gpt-5, gpt-5-mini e gpt-5-nano. Questo garantirà agli sviluppatori una maggiore flessibilità per trovare il giusto compromesso tra prestazioni, costi e latenza. Mentre GPT‑5 in ChatGPT è un sistema di modelli di ragionamento, senza ragionamento e router, nella piattaforma API è il modello di ragionamento che garantisce le massime prestazioni in ChatGPT. È importante notare che GPT‑5 con capacità di ragionamento minime è un modello diverso da quello senza ragionamento utilizzato in ChatGPT ed è ottimizzato in modo più mirato per gli sviluppatori. Il modello non ragionante utilizzato in ChatGPT è disponibile come gpt-5-chat-latest.

Per informazioni su GPT‑5 in ChatGPT e per ulteriori dettagli sui miglioramenti in ChatGPT, consulta il nostro blog di ricerca. Per scoprire perché le aziende sono entusiaste di utilizzare GPT‑5, consulta il nostro post sul blog dedicato alle aziende⁠.

Codifica

GPT‑5 è il modello di codifica più potente rilasciato finora. Supera o3 in tutti i principali benchmark di codifica e nei casi d’uso reali ed è stato perfezionato per eccellere in prodotti di codifica agentici come Cursor, Windsurf, GitHub Copilot e Codex CLI. GPT‑5 ha impressionato i nostri tester alfa e ha stabilito nuovi record in molte delle loro valutazioni interne riservate.

Prime impressioni su GPT‑5 per attività di codifica reali

"GPT-5 è il modello di codifica più efficiente che abbiamo utilizzato. Il nostro team ha riscontrato che GPT-5 è notevolmente intelligente, facile da gestire e ha persino una personalità mai vista in altri modelli. Non solo individua bug difficili e ben nascosti, ma è anche in grado di eseguire agenti di background complessi e in più fasi, portando a termine attività articolate che in passato bloccavano gli altri modelli. È diventato il nostro strumento quotidiano per qualsiasi attività, dalla definizione e pianificazione delle PR fino al completamento di build end-to-end."

Michael Truell, cofondatore e CEO di Cursor

In SWE-bench Verified, una valutazione basata su attività reali di ingegneria del software, GPT‑5 ottiene il 74,9%, rispetto al 69,1% di o3. In particolare, GPT‑5 raggiunge questo punteggio elevato con maggiore efficienza e velocità: rispetto a o3 con uno sforzo di ragionamento alto, GPT‑5 utilizza il 22% in meno di token di output e il 45% in meno di chiamate a strumento.

In SWE-bench Verified⁠, vengono forniti un repository di codice e la descrizione di un problema, che il modello deve risolvere generando una patch. Le etichette testuali indicano lo sforzo di ragionamento richiesto. I nostri punteggi escludono 23 problemi su 500 le cui soluzioni non hanno superato in modo affidabile i test sulla nostra infrastruttura. A GPT‑5 è stato fornito un prompt breve che sottolineava l’importanza di verificare accuratamente le soluzioni; tale prompt non ha invece migliorato le prestazioni di o3.

In Aider polyglot, una valutazione dedicata alla modifica del codice, GPT‑5 stabilisce un nuovo record dell'88%, riducendo il tasso di errore di un terzo rispetto a o3.

In Aider polygot⁠(si apre in una nuova finestra) (diff), viene assegnato un esercizio di codifica da Exercism e il modello deve scrivere la soluzione sotto forma di diff di codice. I modelli di ragionamento sono stati eseguiti con uno sforzo di ragionamento alto.

Abbiamo inoltre riscontrato che GPT‑5 eccelle nell'analisi approfondita di codebase per fornire risposte a domande sul funzionamento e sull'interazione tra varie componenti. In una codebase complessa come quella dello stack di apprendimento per rinforzo di OpenAI, GPT‑5 si rivela utile per ragionare e rispondere a domande sul nostro codice, accelerando così il lavoro quotidiano del nostro team.

Ingegneria front-end

Nella generazione di codice front-end per applicazioni web, GPT‑5 si distingue per un approccio più ambizioso, preciso e curato dal punto di vista estetico. Nei confronti diretti con o3, GPT‑5 è stato preferito dai nostri tester nel 70% dei casi.

Di seguito riportiamo alcuni simpatici esempi scelti appositamente per illustrare cosa GPT‑5 è in grado di fare con un singolo prompt:

Prompt: Please generate a beautiful, realistic landing page for a service that provides the ultimate coffee enthusiast a $200/month subscription that provides equipment rental and coaching for coffee roasting and creating the ultimate espresso. The target audience is a bay area middle-aged person who might work in tech and is educated, has disposable income, and is passionate about the art and science of coffee. Optimize for conversion for a 6 month signup.

Per vedere ulteriori esempi di GPT‑5, visita la nostra galleria qui⁠(si apre in una nuova finestra).

Collaborazione per la codifica

GPT‑5 è un collaboratore più efficace, soprattutto in prodotti di codifica agentici come Cursor, Windsurf, GitHub Copilot e Codex CLI. Durante il funzionamento, GPT‑5 è in grado di produrre piani, aggiornamenti e riepiloghi tra una chiamata a strumento e l’altra. Rispetto ai modelli precedenti, GPT‑5 è più proattivo nel portare a termine attività ambiziose senza attendere il via libera o rinunciare davanti a compiti più complessi.

Ecco un esempio di come si comporta GPT‑5 durante la gestione di un’attività complessa (in questo caso, la creazione di un sito web per un ristorante):

Dopo che l’utente richiede un sito web per il proprio ristorante, GPT‑5 condivide un piano rapido, struttura l’app, installa le dipendenze, crea i contenuti del sito, esegue una build per verificare la presenza di eventuali errori di compilazione, riassume il lavoro svolto e suggerisce possibili azioni successive. Il video è stato velocizzato di circa tre volte per non farti attendere. Il tempo effettivo per realizzare il sito web è stato di circa tre minuti.

Attività agentiche

Oltre alla codifica agentica, GPT‑5 si dimostra più efficace nelle attività agentiche in generale. GPT‑5 stabilisce nuovi record in benchmark di esecuzione delle istruzioni (69,6% in Scale MultiChallenge, secondo la valutazione di o3‑mini) e nelle chiamate a strumento (96,7% in τ²-bench telecom). L'intelligenza avanzata consente a GPT‑5 di concatenare le azioni in modo più affidabile per portare a termine attività reali.

Primi feedback su GPT‑5 per attività agentiche

"GPT-5 segna un netto miglioramento rispetto al passato. Ha ottenuto le migliori prestazioni mai viste da un singolo modello nei nostri benchmark interni. GPT-5 ha fornito risultati eccellenti in varie attività agentiche, ancora prima di modificare una sola riga di codice o personalizzare un prompt. I nuovi messaggi introduttivi e un controllo più preciso sull’utilizzo degli strumenti hanno contribuito a migliorare la stabilità e la gestione dei nostri agenti."

Yichao "Peak" Ji, cofondatore e Chief Scientist di Manus

Rispetto delle istruzioni

GPT‑5 segue le istruzioni in modo più affidabile rispetto a qualsiasi suo predecessore, ottenendo punteggi elevati nei test COLLIE, Scale MultiChallenge e nella valutazione interna sul rispetto delle istruzioni.

In COLLIE⁠(si apre in una nuova finestra), i modelli devono scrivere testi che soddisfino vari criteri. In Scale MultiChallenge⁠(si apre in una nuova finestra), i modelli vengono messi alla prova in conversazioni multi-turno per utilizzare correttamente quattro tipi di informazioni provenienti dai messaggi precedenti. I nostri punteggi derivano dall'utilizzo di o3‑mini come valutatore, che si è rivelato più accurato rispetto a GPT‑4o. Nelle istruzioni interne relative all’API OpenAI successive alla valutazione, i modelli devono seguire istruzioni complesse tratte dal feedback reale degli sviluppatori. I modelli di ragionamento sono stati eseguiti con uno sforzo di ragionamento alto.

Chiamata a strumento

Abbiamo lavorato intensamente per migliorare le chiamate allo strumento nei modi che contano davvero per gli sviluppatori. GPT‑5 è più efficace nel seguire le istruzioni degli strumenti, nel gestirne gli errori e nel richiamare in modo proattivo più strumenti in sequenza o in parallelo. Su indicazione, GPT‑5 è anche in grado di generare messaggi introduttivi prima e tra le chiamate allo strumento per informare gli utenti sull’avanzamento durante attività agentici più lunghe.

Due mesi fa Sierra.ai ha pubblicato 𝜏²-bench telecom, un benchmark complesso sull’utilizzo degli strumenti che ha messo in luce come le prestazioni dei modelli linguistici calino notevolmente in presenza di uno stato dell’ambiente modificabile da parte degli utenti. Nella loro pubblicazione⁠(si apre in una nuova finestra), nessun modello ha superato il 49%. GPT‑5, invece, ha ottenuto un punteggio del 97%.

In 𝜏2-bench⁠(si apre in una nuova finestra), un modello deve utilizzare degli strumenti per svolgere un'attività di assistenza clienti, dove può esserci un utente che comunica e può agire sullo stato del sistema. I modelli di ragionamento sono stati eseguiti con uno sforzo di ragionamento alto.

GPT‑5 dimostra notevoli miglioramenti anche nella gestione di contesti estesi. In OpenAI-MRCR, che valuta il recupero di informazioni in contesti lunghi, GPT‑5 supera o3 e GPT‑4.1 con un margine che aumenta notevolmente con l’allungarsi degli input.

In OpenAI-MRCR⁠(si apre in una nuova finestra) (Multi-Round Co-reference Resolution), molteplici richieste utente identiche “ago” vengono inserite in lunghi "pagliai" di richieste e risposte simili e al modello viene chiesto di riprodurre la risposta alla i-esima richiesta “ago”. Il rapporto medio di corrispondenza misura la media della corrispondenza testuale tra la risposta del modello e la risposta corretta. I punteggi a 256.000 token di input massimo rappresentano la media su un intervallo da 128.000 a 256.000 token di input e così via. Qui 256.000 corrisponde a 256 × 1.024 = 262.144 token. I modelli di ragionamento sono stati eseguiti con uno sforzo di ragionamento alto.

Stiamo anche rendendo open source BrowseComp Long Context⁠(si apre in una nuova finestra), un nuovo benchmark per valutare le capacità di domande e risposte su contesti lunghi. In questo benchmark, vengono forniti una query dell’utente e un lungo elenco di risultati di ricerca pertinenti e il modello deve rispondere basandosi su questi risultati. Abbiamo progettato BrowseComp Long Context in modo che sia realistico, impegnativo e dotato di risposte veritiere, corrette e affidabili. Su input da 128.000 a 256.000 token, GPT‑5 fornisce la risposta corretta nell’89% dei casi.

Nell’API, tutti i modelli GPT‑5 possono accettare un massimo di 272.000 token di input e generare fino a 128.000 token di ragionamento e output, per una lunghezza del contesto totale di 400.000 token.

Fattualità

GPT‑5 è più affidabile rispetto ai nostri modelli precedenti. Sui prompt dei benchmark LongFact e FactScore, GPT‑5 commette circa l’80% di errori fattuali in meno rispetto a o3. Ciò lo rende più adatto a scenari agentici in cui la correttezza è fondamentale, soprattutto in attività relative a codice, dati e processi decisionali.

Punteggi più alti indicano prestazioni peggiori. LongFact⁠(si apre in una nuova finestra) e FActScore⁠(si apre in una nuova finestra) consistono in domande aperte orientate alla ricerca di informazioni fattuali. Utilizziamo un sistema di valutazione basato su LLM con funzionalità di navigazione per verificare la veridicità delle risposte ai prompt di questi benchmark e misurare la percentuale di affermazioni fattualmente errate. Ulteriori dettagli sull’implementazione e la valutazione sono disponibili nella scheda di sistema⁠. I modelli di ragionamento hanno utilizzato uno sforzo di ragionamento alto. La funzione di ricerca non era abilitata.

In generale, GPT‑5 è stato addestrato per essere più consapevole dei propri limiti e per gestire meglio gli imprevisti. Abbiamo inoltre addestrato GPT‑5 per garantire una maggiore accuratezza nelle risposte a domande legate alla salute (per approfondire, consulta il nostro blog di ricerca). Come per tutti i modelli linguistici, consigliamo di verificare il lavoro di GPT‑5 in situazioni critiche.

Nuove funzioni

Sforzo di ragionamento minimo

Gli sviluppatori possono regolare il tempo di ragionamento di GPT‑5 tramite il parametro reasoning_effort nell’API. Oltre ai valori precedenti, ovvero basso, medio (valore predefinito) e alto, GPT‑5 supporta anche il valore minimo, che riduce al minimo il ragionamento per fornire risposte più rapide.

Valori più alti del parametro reasoning_effort massimizzano la qualità, mentre valori più bassi privilegiano la velocità. Poiché non tutte le attività richiedono lo stesso livello di ragionamento, consigliamo di sperimentare per individuare l’impostazione più adatta a ciascun caso d’uso specifico.

Per esempio, un livello di ragionamento superiore a basso incide poco sul recupero di informazioni in contesti lunghi ma semplici, mentre può migliorare sensibilmente le prestazioni in CharXiv Reasoning⁠(si apre in una nuova finestra), un benchmark di ragionamento visivo.

Lo sforzo di ragionamento di GPT‑5 produce benefici diversi a seconda del tipo di attività. Per il benchmark CharXiv Reasoning, a GPT‑5 è stato fornito accesso a uno strumento Python.

Verbosità

Per consentire di controllare la lunghezza predefinita delle risposte di GPT‑5, abbiamo introdotto un nuovo parametro API chiamato verbosity, che accetta i valori basso, medio (valore predefinito) e alto. In caso di conflitto tra istruzioni esplicite e il parametro verbosity, hanno la precedenza le istruzioni esplicite. Ad esempio, se l'utente chiede a GPT‑5 di “scrivere un testo di 5 paragrafi”, la risposta del modello sarà sempre composta da 5 paragrafi, indipendentemente dal livello di verbosità (tuttavia, la lunghezza di ciascun paragrafo potrà variare).

Verbosity=low

Why is the sky blue?

Because of Rayleigh scattering. Air molecules are much smaller than the wavelength of visible light, so they scatter short wavelengths (blue/violet) far more than long ones (red). The scattered blue light comes to your eyes from all directions, making the sky look blue. We don’t see violet as much because the Sun emits less of it, our eyes are less sensitive to it, and some is absorbed in the upper atmosphere. At sunrise and sunset, the longer path through air removes more blue, leaving the sky reddish.

Verbosity=medium

Why is the sky blue?

Because of Rayleigh scattering. Sunlight contains all colors, but air molecules scatter shorter wavelengths (blue/violet) much more strongly than longer wavelengths (red). The scattering strength goes roughly as 1/(wavelength)^4, so blue light gets redirected across the sky and into your eyes.

We don’t see a violet sky because:

The Sun emits slightly less violet than blue.
The upper atmosphere absorbs some violet/UV.
Human eyes are less sensitive to violet.

At sunrise and sunset, sunlight passes through more atmosphere, scattering out most of the blues along the way and leaving the longer red/orange wavelengths to dominate.

Verbosity=high

Why is the sky blue?

The sky looks blue because sunlight gets scattered by the tiny molecules in Earth’s atmosphere. This process is called Rayleigh scattering.

Key points:

Sunlight is made of many colors (wavelengths). Shorter wavelengths, like violet and blue, are scattered much more strongly by air molecules than longer wavelengths like red. The scattering strength increases sharply as wavelength gets shorter.
As sunlight passes through the atmosphere, the shorter-wavelength light (especially blue) is scattered in all directions, so no matter where you look away from the Sun, you see that scattered blue light — the “blue sky.”

Why not violet?

The Sun emits less violet than blue.
Our eyes are less sensitive to violet.
Some violet/UV is absorbed higher up by ozone.

Together, that makes the scattered light we perceive look mainly blue.

Why are sunsets red/orange?

Near sunrise and sunset, sunlight travels a much longer path through the atmosphere.
Much of the blue light gets scattered out of the direct path before it reaches your eyes, leaving the remaining direct sunlight enriched in reds and oranges.

Other influences:

Haze, pollution, smoke, or dust have larger particles that scatter light less selectively (called Mie scattering), making the sky look paler or whitish.
The blue sky is partially polarized due to the scattering geometry, which is why polarized sunglasses can darken parts of it.
On worlds with different atmospheres and particle sizes (like Mars), skies can look butterscotch or reddish for similar scattering reasons.

If Earth had no atmosphere, there would be nothing to scatter sunlight, and the sky would appear black even in daytime, with the Sun as a bright disk.

Messaggi introduttivi prima delle chiamate allo strumento

Se richiesto, GPT‑5 genererà messaggi introduttivi visibili all’utente prima e tra le chiamate allo strumento. A differenza dei messaggi di ragionamento nascosti, questi messaggi visibili consentono a GPT‑5 di comunicare piani e progressi, aiutando l’utente finale a comprendere l’approccio adottato e l’intento dietro le chiamate allo strumento.

Strumenti personalizzati

Stiamo introducendo un nuovo tipo di strumento, gli strumenti personalizzati, che consente a GPT‑5 di richiamare uno strumento con testo normale invece di JSON. Gli sviluppatori possono limitare GPT‑5 al rispetto di formati personalizzati per gli strumenti fornendo un’espressione regex o persino una grammatica indipendente dal contesto⁠(si apre in una nuova finestra) più completamente specificata.

In precedenza, la nostra interfaccia per strumenti definiti dagli sviluppatori richiedeva l’utilizzo del formato JSON, ampiamente utilizzato nelle API web e dagli sviluppatori in generale. Tuttavia, generare JSON valido richiede che il modello gestisca correttamente l’escape di virgolette, backslash, nuove linee e altri caratteri di controllo. Nonostante i nostri modelli siano ben addestrati a generare JSON, su input lunghi come centinaia di righe di codice o un report di 5 pagine, la probabilità di errori aumenta. Gli strumenti personalizzati permettono a GPT‑5 di generare input per gli strumenti come testo normale, senza dover effettuare l’escape di tutti i caratteri speciali.

In SWE-bench Verified, con l'utilizzo di strumenti personalizzati anziché strumenti basati su JSON, GPT‑5 ottiene un punteggio sostanzialmente uguale.

Sicurezza

GPT‑5 rappresenta un progresso importante in termini di sicurezza ed è un modello più solido, affidabile e utile. GPT‑5 ha una probabilità notevolmente minore di generare allucinazioni rispetto ai modelli precedenti, comunica in modo più trasparente all’utente le proprie azioni e capacità e fornisce, quando possibile, la risposta più utile rimanendo sempre entro i limiti di sicurezza. Per approfondire, leggi i post del nostro blog di ricerca.

Disponibilità e tariffe

GPT‑5 è ora disponibile nella piattaforma API in tre dimensioni: gpt-5, gpt-5-mini e gpt-5-nano. È disponibile nell'API Risposte e nell'API per il completamento delle chat ed è il modello predefinito in Codex CLI. Il prezzo di GPT‑5 è di 1,25 $ per 1M di token di input e 10 $ per 1M di token di output, quello di GPT‑5 mini è di 0,25 $ per 1M di token di input e 2 $ per 1M di token di output, mentre quello di GPT‑5 nano è di 0,05 $ per 1M di token di input e 0,40 $ per 1M di token di output.

Questi modelli supportano i parametri reasoning_effort e verbosity, oltre agli strumenti personalizzati. Supportano inoltre le chiamate allo strumento in parallelo, gli strumenti integrati (ricerca sul web, ricerca di file, generazione di immagini e altro), funzioni API core (streaming, output strutturati e altro) e funzioni per il risparmio sui costi come il prompt caching e l'API Batch.

La versione non ragionante di GPT‑5 utilizzata in ChatGPT è disponibile nell’API come gpt-5-chat-latest, anch'essa al prezzo di 1,25 $/1 milione di token di input e 10 $/1 milione di token di output.

GPT‑5 verrà lanciato anche sulle piattaforme Microsoft, tra cui Microsoft 365 Copilot, Copilot, GitHub Copilot e Azure AI Foundry.

Per iniziare, consulta la documentation⁠(si apre in una nuova finestra) di GPT‑5, i dettagli sulle tariffe⁠(si apre in una nuova finestra) e la guida ai prompt⁠(si apre in una nuova finestra).

Benchmark dettagliati

Intelligence

	GPT-5(high)	GPT-5 mini(high)	GPT-5 nano(high)	OpenAI o3(high)	OpenAI o4-mini(high)	GPT-4.1	GPT-4.1 mini	GPT-4.1 nano
AIME ’25(no tools)	94,6%	91,1%	85,2%	88,9%	92,7%	46,4%	40,2%	-
FrontierMath(with python tool only)	26,3%	22,1%	9,6%	15,8%	15,4%	-	-	-
GPQA diamond(no tools)	85,7%	82,3%	71,2%	83,3%	81,4%	66,3%	65,0%	50,3%
HLE^[1](no tools)	24,8%	16,7%	8,7%	20,2%	14,7%	5,4%	3,7%	-
HMMT 2025(no tools)	93,3%	87,8%	75,6%	81,7%	85,0%	28,9%	35,0%	-

[1] C’è una modesta discrepanza rispetto ai numeri pubblicati nel nostro precedente post sul blog, poiché quelli erano stati calcolati su una versione precedente di HLE.

Multimodali

	GPT-5(high)	GPT-5 mini(high)	GPT-5 nano(high)	OpenAI o3(high)	OpenAI o4-mini(high)	GPT-4.1	GPT-4.1 mini	GPT-4.1 nano
MMMU	84,2%	81,6%	75,6%	82,9%	81,6%	74,8%	72,7%	55,4%
MMMU-Pro(avg across standard and vision sets)	78,4%	74,1%	62,6%	76,4%	73,4%	60,3%	58,9%	33,0%
CharXiv reasoning(python enabled)	81,1%	75,5%	62,7%	78,6%	72,0%	56,7%	56,8%	40,5%
VideoMMMU, max frame 256	84,6%	82,5%	66,8%	83,3%	79,4%	60,9%	55,1%	30,2%
ERQA	65,7%	62,9%	50,1%	64,0%	56,5%	44,3%	42,3%	26,5%

Codifica

	GPT-5(high)	GPT-5 mini(high)	GPT-5 nano(high)	OpenAI o3(high)	OpenAI o4-mini(high)	GPT-4.1	GPT-4.1 mini	GPT-4.1 nano
SWE-Lancer: IC SWE Diamond Freelance Coding Tasks	112K USD	75K USD	49K USD	86K USD	66K USD	34K USD	31K USD	9K USD
SWE-bench Verified^[2]	74,9%	71,0%	54,7%	69,1%	68,1%	54,6%	23,6%	-
Aider polyglot(diff)	88,0%	71,6%	48,4%	79,6%	58,2%	52,9%	31,6%	6,2%

[2] Abbiamo omesso 23/500 problemi che non potevano essere eseguiti sulla nostra infrastruttura. L’elenco completo delle 23 attività omesse è il seguente: ‘astropy__astropy-7606’, ‘astropy__astropy-8707’, ‘astropy__astropy-8872’, ‘django__django-10097’, ‘django__django-7530’, ‘matplotlib__matplotlib-20488’, “matplotlib__matplotlib-20676”, “matplotlib__matplotlib-20826”, “matplotlib__matplotlib-23299”, “matplotlib__matplotlib-24970”, “matplotlib__matplotlib-25479”, “matplotlib__matplotlib-26342”, 'psf__requests-6028', ‘pylint-dev__pylint-6528’, ‘pylint-dev__pylint-7080’, ‘pylint-dev__pylint-7277’, ‘pytest-dev__pytest-5262’, ‘pytest-dev__pytest-7521’, 'scikit-learn__scikit-learn-12973', ‘sphinx-doc__sphinx-10466’, ‘sphinx-doc__sphinx-7462’, ‘sphinx-doc__sphinx-8265’ e ‘sphinx-doc__sphinx-9367’.

Rispetto delle istruzioni

	GPT-5(high)	GPT-5 mini(high)	GPT-5 nano(high)	OpenAI o3(high)	OpenAI o4-mini(high)	GPT-4.1	GPT-4.1 mini	GPT-4.1 nano
Scale multichallenge^[3](o3-mini grader)	69,6%	62,3%	54,9%	60,4%	57,5%	46,2%	42,2%	31,1%
Internal API instruction following eval(hard)	64,0%	65,8%	56,1%	47,4%	44,7%	49,1%	45,1%	31,6%
COLLIE	99,0%	98,5%	96,9%	98,4%	96,1%	65,8%	54,6%	42,5%

[3] Nota: abbiamo riscontrato che il valutatore predefinito in MultiChallenge (GPT-4o) spesso assegna punteggi errati alle risposte dei modelli. Abbiamo constatato che sostituendo il sistema di valutazione con un modello di ragionamento, come o3-mini, la precisione nella valutazione migliora significativamente sui campioni esaminati.

Richiamo di funzioni

	GPT-5(high)	GPT-5 mini(high)	GPT-5 nano(high)	OpenAI o3(high)	OpenAI o4-mini(high)	GPT-4.1	GPT-4.1 mini	GPT-4.1 nano
Tau²-bench airline	62,6%	60,0%	41,0%	64,8%	60,2%	56,0%	51,0%	14,0%
Tau²-bench retail	81,1%	78,3%	62,3%	80,2%	70,5%	74,0%	66,0%	21,5%
Tau²-bench telecom	96,7%	74,1%	35,5%	58,2%	40,5%	34,0%	44,0%	12,1%

Contesto lungo

	GPT-5(high)	GPT-5 mini(high)	GPT-5 nano(high)	OpenAI o3(high)	OpenAI o4-mini(high)	GPT-4.1	GPT-4.1 mini	GPT-4.1 nano
OpenAI-MRCR: 2 needle 128k	95,2%	84,3%	43,2%	55,0%	56,4%	57,2%	47,2%	36,6%
OpenAI-MRCR: 2 needle 256k	86,8%	58,8%	34,9%	-	-	56,2%	45,5%	22,6%
Graphwalks bfs <128k	78,3%	73,4%	64,0%	77,3%	62,3%	61,7%	61,7%	25,0%
Graphwalks parents <128k	73,3%	64,3%	43,8%	72,9%	51,1%	58,0%	60,5%	9,4%
BrowseComp Long Context 128k	90,0%	89,4%	80,4%	88,3%	80,0%	85,9%	89,0%	89,4%
BrowseComp Long Context 256k	88,8%	86,0%	68,4%	-	-	75,5%	81,6%	19,1%
VideoMME(long, with subtitle category)	86,7%	78,5%	65,7%	84,9%	79,5%	78,7%	68,4%	55,2%

Allucinazioni

	GPT-5(high)	GPT-5 mini(high)	GPT-5 nano(high)	OpenAI o3(high)	OpenAI o4-mini(high)	GPT-4.1	GPT-4.1 mini	GPT-4.1 nano
LongFact-Concepts hallucination rate(no tools)[lower is better]	1,0%	0,7%	1,0%	5,2%	3,0%	0,7%	1,1%	-
LongFact-Objects hallucination rate(no tools)[lower is better]	1,2%	1,3%	2,8%	6,8%	8,9%	1,1%	1,8%	-
FActScore hallucination rate(no tools)[lower is better]	2,8%	3,5%	7,3%	23,5%	38,7%	6,7%	10,9%	-

2025

Autore

OpenAI

Continua a leggere

Visualizza tutto

Introducing OpenAI Presence

Prodotto22 lug 2026

GPT-5.6 is now the preferred model in Microsoft 365 Copilot > Cover image

GPT-5.6 è ora il modello preferito in Microsoft 365 Copilot

Prodotto9 lug 2026

GPT-5.6: intelligenza di frontiera che cresce con la tua ambizione

Prodotto9 lug 2026