Oggi rilasciamo GPT‑5 nella piattaforma API: il nostro miglior modello di sempre per attività di codifica e agentiche.
GPT‑5 stabilisce un nuovo standard (SOTA) nei benchmark di codifica più importanti, con il 74,9% in SWE-bench Verified e l’88% in Aider polyglot. Abbiamo addestrato GPT‑5 per renderlo un vero e proprio collaboratore nello sviluppo di codice. Eccelle nella generazione di codice di qualità elevata e nella gestione di attività come il debugging, la modifica del codice e l’analisi di codebase articolate per fornire risposte. Il modello è flessibile e collaborativo: è capace di seguire istruzioni molto dettagliate con estrema precisione e di fornire spiegazioni preliminari delle sue azioni prima delle chiamate allo strumento e tra una chiamata e l'altra. Si distingue anche nella codifica front-end e supera OpenAI o3 nello sviluppo web front-end nel 70% dei casi in test interni.
Abbiamo addestrato GPT‑5 su attività di codifica reali in collaborazione con i primi tester di startup e imprese. Cursor afferma che GPT‑5 è "il modello più intelligente [che abbiano mai utilizzato]" e "notevolmente intelligente, facile da gestire e ha persino una personalità mai vista in altri modelli". Windsurf sostiene che GPT‑5 ha raggiunto il livello SOTA nelle loro valutazioni e che "il tasso di errore riscontrato nelle chiamate allo strumento è dimezzato rispetto ad altri modelli all’avanguardia". Vercel afferma che “si tratta del miglior modello di IA per lo sviluppo front-end, con prestazioni di punta sia dal punto di vista estetico che della qualità del codice, il che lo colloca in una categoria a sé stante”.
GPT‑5 eccelle anche nei compiti agentici di lunga durata, ottenendo risultati di livello SOTA su 𝜏2-bench telecom (96,7%), un benchmark di chiamata allo strumento pubblicato solo 2 mesi fa. Grazie all'intelligenza avanzata, GPT‑5 riesce a concatenare in modo affidabile decine di chiamate a strumento, sia in sequenza che in parallelo, senza perdere di vista l'obiettivo, migliorando notevolmente l'esecuzione di attività end-to-end complesse e concrete. Inoltre, segue le istruzioni dello strumento con maggior precisione, ne gestisce meglio gli errori ed eccelle nel recupero di contenuti con contesti lunghi. Secondo Manus, GPT‑5 "ha ottenuto le migliori prestazioni mai viste da un singolo modello nei [loro] benchmark interni". Notion afferma che "le risposte rapide [del modello], soprattutto nella modalità con sforzo di ragionamento basso, rendono GPT‑5 il modello ideale per risolvere attività complesse in un'unica soluzione." Inditex dichiara che "ciò che distingue davvero [GPT‑5] è la profondità del suo ragionamento: risposte ricche di sfumature e articolate su più livelli che dimostrano una reale comprensione dell'argomento".
Stiamo anche introducendo nuove funzioni nella nostra API per offrire agli sviluppatori maggior controllo sulle risposte del modello. GPT‑5 supporta un nuovo parametro di verbosità (valori: bassa, media, alta) che aiuta a controllare se le risposte sono brevi e puntuali oppure lunghe ed esaustive. Il parametro reasoning_effort di GPT‑5 può ora assumere un valore minimo, che consente di ottenere risposte più rapide evitando ragionamenti approfonditi. Abbiamo anche aggiunto un nuovo tipo di strumento, gli strumenti personalizzati, che consente a GPT‑5 di richiamare strumenti con testo normale invece di JSON. Gli strumenti personalizzati consentono di imporre vincoli tramite una grammatica indipendente dal contesto fornita dagli sviluppatori.
Stiamo rilasciando GPT‑5 in tre dimensioni nell'API:gpt-5, gpt-5-mini e gpt-5-nano. Questo garantirà agli sviluppatori una maggiore flessibilità per trovare il giusto compromesso tra prestazioni, costi e latenza. Mentre GPT‑5 in ChatGPT è un sistema di modelli di ragionamento, senza ragionamento e router, nella piattaforma API è il modello di ragionamento che garantisce le massime prestazioni in ChatGPT. È importante notare che GPT‑5 con capacità di ragionamento minime è un modello diverso da quello senza ragionamento utilizzato in ChatGPT ed è ottimizzato in modo più mirato per gli sviluppatori. Il modello non ragionante utilizzato in ChatGPT è disponibile come gpt-5-chat-latest.
Per informazioni su GPT‑5 in ChatGPT e per ulteriori dettagli sui miglioramenti in ChatGPT, consulta il nostro blog di ricerca. Per scoprire perché le aziende sono entusiaste di utilizzare GPT‑5, consulta il nostro post sul blog dedicato alle aziende.
GPT‑5 è il modello di codifica più potente rilasciato finora. Supera o3 in tutti i principali benchmark di codifica e nei casi d’uso reali ed è stato perfezionato per eccellere in prodotti di codifica agentici come Cursor, Windsurf, GitHub Copilot e Codex CLI. GPT‑5 ha impressionato i nostri tester alfa e ha stabilito nuovi record in molte delle loro valutazioni interne riservate.
Prime impressioni su GPT‑5 per attività di codifica reali
"GPT-5 è il modello di codifica più efficiente che abbiamo utilizzato. Il nostro team ha riscontrato che GPT-5 è notevolmente intelligente, facile da gestire e ha persino una personalità mai vista in altri modelli. Non solo individua bug difficili e ben nascosti, ma è anche in grado di eseguire agenti di background complessi e in più fasi, portando a termine attività articolate che in passato bloccavano gli altri modelli. È diventato il nostro strumento quotidiano per qualsiasi attività, dalla definizione e pianificazione delle PR fino al completamento di build end-to-end."
In SWE-bench Verified, una valutazione basata su attività reali di ingegneria del software, GPT‑5 ottiene il 74,9%, rispetto al 69,1% di o3. In particolare, GPT‑5 raggiunge questo punteggio elevato con maggiore efficienza e velocità: rispetto a o3 con uno sforzo di ragionamento alto, GPT‑5 utilizza il 22% in meno di token di output e il 45% in meno di chiamate a strumento.
In SWE-bench Verified, vengono forniti un repository di codice e la descrizione di un problema, che il modello deve risolvere generando una patch. Le etichette testuali indicano lo sforzo di ragionamento richiesto. I nostri punteggi escludono 23 problemi su 500 le cui soluzioni non hanno superato in modo affidabile i test sulla nostra infrastruttura. A GPT‑5 è stato fornito un prompt breve che sottolineava l’importanza di verificare accuratamente le soluzioni; tale prompt non ha invece migliorato le prestazioni di o3.
In Aider polyglot, una valutazione dedicata alla modifica del codice, GPT‑5 stabilisce un nuovo record dell'88%, riducendo il tasso di errore di un terzo rispetto a o3.
In Aider polygot(si apre in una nuova finestra) (diff), viene assegnato un esercizio di codifica da Exercism e il modello deve scrivere la soluzione sotto forma di diff di codice. I modelli di ragionamento sono stati eseguiti con uno sforzo di ragionamento alto.
Abbiamo inoltre riscontrato che GPT‑5 eccelle nell'analisi approfondita di codebase per fornire risposte a domande sul funzionamento e sull'interazione tra varie componenti. In una codebase complessa come quella dello stack di apprendimento per rinforzo di OpenAI, GPT‑5 si rivela utile per ragionare e rispondere a domande sul nostro codice, accelerando così il lavoro quotidiano del nostro team.
Nella generazione di codice front-end per applicazioni web, GPT‑5 si distingue per un approccio più ambizioso, preciso e curato dal punto di vista estetico. Nei confronti diretti con o3, GPT‑5 è stato preferito dai nostri tester nel 70% dei casi.
Di seguito riportiamo alcuni simpatici esempi scelti appositamente per illustrare cosa GPT‑5 è in grado di fare con un singolo prompt:
Prompt: Please generate a beautiful, realistic landing page for a service that provides the ultimate coffee enthusiast a $200/month subscription that provides equipment rental and coaching for coffee roasting and creating the ultimate espresso. The target audience is a bay area middle-aged person who might work in tech and is educated, has disposable income, and is passionate about the art and science of coffee. Optimize for conversion for a 6 month signup.
Per vedere ulteriori esempi di GPT‑5, visita la nostra galleria qui(si apre in una nuova finestra).
GPT‑5 è un collaboratore più efficace, soprattutto in prodotti di codifica agentici come Cursor, Windsurf, GitHub Copilot e Codex CLI. Durante il funzionamento, GPT‑5 è in grado di produrre piani, aggiornamenti e riepiloghi tra una chiamata a strumento e l’altra. Rispetto ai modelli precedenti, GPT‑5 è più proattivo nel portare a termine attività ambiziose senza attendere il via libera o rinunciare davanti a compiti più complessi.
Ecco un esempio di come si comporta GPT‑5 durante la gestione di un’attività complessa (in questo caso, la creazione di un sito web per un ristorante):
Dopo che l’utente richiede un sito web per il proprio ristorante, GPT‑5 condivide un piano rapido, struttura l’app, installa le dipendenze, crea i contenuti del sito, esegue una build per verificare la presenza di eventuali errori di compilazione, riassume il lavoro svolto e suggerisce possibili azioni successive. Il video è stato velocizzato di circa tre volte per non farti attendere. Il tempo effettivo per realizzare il sito web è stato di circa tre minuti.
Oltre alla codifica agentica, GPT‑5 si dimostra più efficace nelle attività agentiche in generale. GPT‑5 stabilisce nuovi record in benchmark di esecuzione delle istruzioni (69,6% in Scale MultiChallenge, secondo la valutazione di o3‑mini) e nelle chiamate a strumento (96,7% in τ2-bench telecom). L'intelligenza avanzata consente a GPT‑5 di concatenare le azioni in modo più affidabile per portare a termine attività reali.
Primi feedback su GPT‑5 per attività agentiche
"GPT-5 segna un netto miglioramento rispetto al passato. Ha ottenuto le migliori prestazioni mai viste da un singolo modello nei nostri benchmark interni. GPT-5 ha fornito risultati eccellenti in varie attività agentiche, ancora prima di modificare una sola riga di codice o personalizzare un prompt. I nuovi messaggi introduttivi e un controllo più preciso sull’utilizzo degli strumenti hanno contribuito a migliorare la stabilità e la gestione dei nostri agenti."
GPT‑5 segue le istruzioni in modo più affidabile rispetto a qualsiasi suo predecessore, ottenendo punteggi elevati nei test COLLIE, Scale MultiChallenge e nella valutazione interna sul rispetto delle istruzioni.
In COLLIE(si apre in una nuova finestra), i modelli devono scrivere testi che soddisfino vari criteri. In Scale MultiChallenge(si apre in una nuova finestra), i modelli vengono messi alla prova in conversazioni multi-turno per utilizzare correttamente quattro tipi di informazioni provenienti dai messaggi precedenti. I nostri punteggi derivano dall'utilizzo di o3‑mini come valutatore, che si è rivelato più accurato rispetto a GPT‑4o. Nelle istruzioni interne relative all’API OpenAI successive alla valutazione, i modelli devono seguire istruzioni complesse tratte dal feedback reale degli sviluppatori. I modelli di ragionamento sono stati eseguiti con uno sforzo di ragionamento alto.
Abbiamo lavorato intensamente per migliorare le chiamate allo strumento nei modi che contano davvero per gli sviluppatori. GPT‑5 è più efficace nel seguire le istruzioni degli strumenti, nel gestirne gli errori e nel richiamare in modo proattivo più strumenti in sequenza o in parallelo. Su indicazione, GPT‑5 è anche in grado di generare messaggi introduttivi prima e tra le chiamate allo strumento per informare gli utenti sull’avanzamento durante attività agentici più lunghe.
Due mesi fa Sierra.ai ha pubblicato 𝜏2-bench telecom, un benchmark complesso sull’utilizzo degli strumenti che ha messo in luce come le prestazioni dei modelli linguistici calino notevolmente in presenza di uno stato dell’ambiente modificabile da parte degli utenti. Nella loro pubblicazione(si apre in una nuova finestra), nessun modello ha superato il 49%. GPT‑5, invece, ha ottenuto un punteggio del 97%.
In 𝜏2-bench(si apre in una nuova finestra), un modello deve utilizzare degli strumenti per svolgere un'attività di assistenza clienti, dove può esserci un utente che comunica e può agire sullo stato del sistema. I modelli di ragionamento sono stati eseguiti con uno sforzo di ragionamento alto.
GPT‑5 dimostra notevoli miglioramenti anche nella gestione di contesti estesi. In OpenAI-MRCR, che valuta il recupero di informazioni in contesti lunghi, GPT‑5 supera o3 e GPT‑4.1 con un margine che aumenta notevolmente con l’allungarsi degli input.
In OpenAI-MRCR(si apre in una nuova finestra) (Multi-Round Co-reference Resolution), molteplici richieste utente identiche “ago” vengono inserite in lunghi "pagliai" di richieste e risposte simili e al modello viene chiesto di riprodurre la risposta alla i-esima richiesta “ago”. Il rapporto medio di corrispondenza misura la media della corrispondenza testuale tra la risposta del modello e la risposta corretta. I punteggi a 256.000 token di input massimo rappresentano la media su un intervallo da 128.000 a 256.000 token di input e così via. Qui 256.000 corrisponde a 256 × 1.024 = 262.144 token. I modelli di ragionamento sono stati eseguiti con uno sforzo di ragionamento alto.
Stiamo anche rendendo open source BrowseComp Long Context(si apre in una nuova finestra), un nuovo benchmark per valutare le capacità di domande e risposte su contesti lunghi. In questo benchmark, vengono forniti una query dell’utente e un lungo elenco di risultati di ricerca pertinenti e il modello deve rispondere basandosi su questi risultati. Abbiamo progettato BrowseComp Long Context in modo che sia realistico, impegnativo e dotato di risposte veritiere, corrette e affidabili. Su input da 128.000 a 256.000 token, GPT‑5 fornisce la risposta corretta nell’89% dei casi.
Nell’API, tutti i modelli GPT‑5 possono accettare un massimo di 272.000 token di input e generare fino a 128.000 token di ragionamento e output, per una lunghezza del contesto totale di 400.000 token.
GPT‑5 è più affidabile rispetto ai nostri modelli precedenti. Sui prompt dei benchmark LongFact e FactScore, GPT‑5 commette circa l’80% di errori fattuali in meno rispetto a o3. Ciò lo rende più adatto a scenari agentici in cui la correttezza è fondamentale, soprattutto in attività relative a codice, dati e processi decisionali.
Punteggi più alti indicano prestazioni peggiori. LongFact(si apre in una nuova finestra) e FActScore(si apre in una nuova finestra) consistono in domande aperte orientate alla ricerca di informazioni fattuali. Utilizziamo un sistema di valutazione basato su LLM con funzionalità di navigazione per verificare la veridicità delle risposte ai prompt di questi benchmark e misurare la percentuale di affermazioni fattualmente errate. Ulteriori dettagli sull’implementazione e la valutazione sono disponibili nella scheda di sistema. I modelli di ragionamento hanno utilizzato uno sforzo di ragionamento alto. La funzione di ricerca non era abilitata.
In generale, GPT‑5 è stato addestrato per essere più consapevole dei propri limiti e per gestire meglio gli imprevisti. Abbiamo inoltre addestrato GPT‑5 per garantire una maggiore accuratezza nelle risposte a domande legate alla salute (per approfondire, consulta il nostro blog di ricerca). Come per tutti i modelli linguistici, consigliamo di verificare il lavoro di GPT‑5 in situazioni critiche.
Gli sviluppatori possono regolare il tempo di ragionamento di GPT‑5 tramite il parametro reasoning_effort nell’API. Oltre ai valori precedenti, ovvero basso, medio (valore predefinito) e alto, GPT‑5 supporta anche il valore minimo, che riduce al minimo il ragionamento per fornire risposte più rapide.
Valori più alti del parametro reasoning_effort massimizzano la qualità, mentre valori più bassi privilegiano la velocità. Poiché non tutte le attività richiedono lo stesso livello di ragionamento, consigliamo di sperimentare per individuare l’impostazione più adatta a ciascun caso d’uso specifico.
Per esempio, un livello di ragionamento superiore a basso incide poco sul recupero di informazioni in contesti lunghi ma semplici, mentre può migliorare sensibilmente le prestazioni in CharXiv Reasoning(si apre in una nuova finestra), un benchmark di ragionamento visivo.
Lo sforzo di ragionamento di GPT‑5 produce benefici diversi a seconda del tipo di attività. Per il benchmark CharXiv Reasoning, a GPT‑5 è stato fornito accesso a uno strumento Python.
Per consentire di controllare la lunghezza predefinita delle risposte di GPT‑5, abbiamo introdotto un nuovo parametro API chiamato verbosity, che accetta i valori basso, medio (valore predefinito) e alto. In caso di conflitto tra istruzioni esplicite e il parametro verbosity, hanno la precedenza le istruzioni esplicite. Ad esempio, se l'utente chiede a GPT‑5 di “scrivere un testo di 5 paragrafi”, la risposta del modello sarà sempre composta da 5 paragrafi, indipendentemente dal livello di verbosità (tuttavia, la lunghezza di ciascun paragrafo potrà variare).
Verbosity=low
Verbosity=medium
Verbosity=high
Se richiesto, GPT‑5 genererà messaggi introduttivi visibili all’utente prima e tra le chiamate allo strumento. A differenza dei messaggi di ragionamento nascosti, questi messaggi visibili consentono a GPT‑5 di comunicare piani e progressi, aiutando l’utente finale a comprendere l’approccio adottato e l’intento dietro le chiamate allo strumento.
Stiamo introducendo un nuovo tipo di strumento, gli strumenti personalizzati, che consente a GPT‑5 di richiamare uno strumento con testo normale invece di JSON. Gli sviluppatori possono limitare GPT‑5 al rispetto di formati personalizzati per gli strumenti fornendo un’espressione regex o persino una grammatica indipendente dal contesto(si apre in una nuova finestra) più completamente specificata.
In precedenza, la nostra interfaccia per strumenti definiti dagli sviluppatori richiedeva l’utilizzo del formato JSON, ampiamente utilizzato nelle API web e dagli sviluppatori in generale. Tuttavia, generare JSON valido richiede che il modello gestisca correttamente l’escape di virgolette, backslash, nuove linee e altri caratteri di controllo. Nonostante i nostri modelli siano ben addestrati a generare JSON, su input lunghi come centinaia di righe di codice o un report di 5 pagine, la probabilità di errori aumenta. Gli strumenti personalizzati permettono a GPT‑5 di generare input per gli strumenti come testo normale, senza dover effettuare l’escape di tutti i caratteri speciali.
In SWE-bench Verified, con l'utilizzo di strumenti personalizzati anziché strumenti basati su JSON, GPT‑5 ottiene un punteggio sostanzialmente uguale.
GPT‑5 rappresenta un progresso importante in termini di sicurezza ed è un modello più solido, affidabile e utile. GPT‑5 ha una probabilità notevolmente minore di generare allucinazioni rispetto ai modelli precedenti, comunica in modo più trasparente all’utente le proprie azioni e capacità e fornisce, quando possibile, la risposta più utile rimanendo sempre entro i limiti di sicurezza. Per approfondire, leggi i post del nostro blog di ricerca.
GPT‑5 è ora disponibile nella piattaforma API in tre dimensioni: gpt-5, gpt-5-mini e gpt-5-nano. È disponibile nell'API Risposte e nell'API per il completamento delle chat ed è il modello predefinito in Codex CLI. Il prezzo di GPT‑5 è di 1,25 $ per 1M di token di input e 10 $ per 1M di token di output, quello di GPT‑5 mini è di 0,25 $ per 1M di token di input e 2 $ per 1M di token di output, mentre quello di GPT‑5 nano è di 0,05 $ per 1M di token di input e 0,40 $ per 1M di token di output.
Questi modelli supportano i parametri reasoning_effort e verbosity, oltre agli strumenti personalizzati. Supportano inoltre le chiamate allo strumento in parallelo, gli strumenti integrati (ricerca sul web, ricerca di file, generazione di immagini e altro), funzioni API core (streaming, output strutturati e altro) e funzioni per il risparmio sui costi come il prompt caching e l'API Batch.
La versione non ragionante di GPT‑5 utilizzata in ChatGPT è disponibile nell’API come gpt-5-chat-latest, anch'essa al prezzo di 1,25 $/1 milione di token di input e 10 $/1 milione di token di output.
GPT‑5 verrà lanciato anche sulle piattaforme Microsoft, tra cui Microsoft 365 Copilot, Copilot, GitHub Copilot e Azure AI Foundry.
Per iniziare, consulta la documentation(si apre in una nuova finestra) di GPT‑5, i dettagli sulle tariffe(si apre in una nuova finestra) e la guida ai prompt(si apre in una nuova finestra).
Intelligence
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| AIME ’25(no tools) | 94,6% | 91,1% | 85,2% | 88,9% | 92,7% | 46,4% | 40,2% | - |
| FrontierMath(with python tool only) | 26,3% | 22,1% | 9,6% | 15,8% | 15,4% | - | - | - |
| GPQA diamond(no tools) | 85,7% | 82,3% | 71,2% | 83,3% | 81,4% | 66,3% | 65,0% | 50,3% |
| HLE[1](no tools) | 24,8% | 16,7% | 8,7% | 20,2% | 14,7% | 5,4% | 3,7% | - |
| HMMT 2025(no tools) | 93,3% | 87,8% | 75,6% | 81,7% | 85,0% | 28,9% | 35,0% | - |
[1] C’è una modesta discrepanza rispetto ai numeri pubblicati nel nostro precedente post sul blog, poiché quelli erano stati calcolati su una versione precedente di HLE.
Multimodali
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| MMMU | 84,2% | 81,6% | 75,6% | 82,9% | 81,6% | 74,8% | 72,7% | 55,4% |
| MMMU-Pro(avg across standard and vision sets) | 78,4% | 74,1% | 62,6% | 76,4% | 73,4% | 60,3% | 58,9% | 33,0% |
| CharXiv reasoning(python enabled) | 81,1% | 75,5% | 62,7% | 78,6% | 72,0% | 56,7% | 56,8% | 40,5% |
| VideoMMMU, max frame 256 | 84,6% | 82,5% | 66,8% | 83,3% | 79,4% | 60,9% | 55,1% | 30,2% |
| ERQA | 65,7% | 62,9% | 50,1% | 64,0% | 56,5% | 44,3% | 42,3% | 26,5% |
Codifica
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| SWE-Lancer: IC SWE Diamond Freelance Coding Tasks | 112K USD | 75K USD | 49K USD | 86K USD | 66K USD | 34K USD | 31K USD | 9K USD |
| SWE-bench Verified[2] | 74,9% | 71,0% | 54,7% | 69,1% | 68,1% | 54,6% | 23,6% | - |
| Aider polyglot(diff) | 88,0% | 71,6% | 48,4% | 79,6% | 58,2% | 52,9% | 31,6% | 6,2% |
[2] Abbiamo omesso 23/500 problemi che non potevano essere eseguiti sulla nostra infrastruttura. L’elenco completo delle 23 attività omesse è il seguente: ‘astropy__astropy-7606’, ‘astropy__astropy-8707’, ‘astropy__astropy-8872’, ‘django__django-10097’, ‘django__django-7530’, ‘matplotlib__matplotlib-20488’, “matplotlib__matplotlib-20676”, “matplotlib__matplotlib-20826”, “matplotlib__matplotlib-23299”, “matplotlib__matplotlib-24970”, “matplotlib__matplotlib-25479”, “matplotlib__matplotlib-26342”, 'psf__requests-6028', ‘pylint-dev__pylint-6528’, ‘pylint-dev__pylint-7080’, ‘pylint-dev__pylint-7277’, ‘pytest-dev__pytest-5262’, ‘pytest-dev__pytest-7521’, 'scikit-learn__scikit-learn-12973', ‘sphinx-doc__sphinx-10466’, ‘sphinx-doc__sphinx-7462’, ‘sphinx-doc__sphinx-8265’ e ‘sphinx-doc__sphinx-9367’.
Rispetto delle istruzioni
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| Scale multichallenge[3](o3-mini grader) | 69,6% | 62,3% | 54,9% | 60,4% | 57,5% | 46,2% | 42,2% | 31,1% |
| Internal API instruction following eval(hard) | 64,0% | 65,8% | 56,1% | 47,4% | 44,7% | 49,1% | 45,1% | 31,6% |
| COLLIE | 99,0% | 98,5% | 96,9% | 98,4% | 96,1% | 65,8% | 54,6% | 42,5% |
[3] Nota: abbiamo riscontrato che il valutatore predefinito in MultiChallenge (GPT-4o) spesso assegna punteggi errati alle risposte dei modelli. Abbiamo constatato che sostituendo il sistema di valutazione con un modello di ragionamento, come o3-mini, la precisione nella valutazione migliora significativamente sui campioni esaminati.
Richiamo di funzioni
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| Tau2-bench airline | 62,6% | 60,0% | 41,0% | 64,8% | 60,2% | 56,0% | 51,0% | 14,0% |
| Tau2-bench retail | 81,1% | 78,3% | 62,3% | 80,2% | 70,5% | 74,0% | 66,0% | 21,5% |
| Tau2-bench telecom | 96,7% | 74,1% | 35,5% | 58,2% | 40,5% | 34,0% | 44,0% | 12,1% |
Contesto lungo
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| OpenAI-MRCR: 2 needle 128k | 95,2% | 84,3% | 43,2% | 55,0% | 56,4% | 57,2% | 47,2% | 36,6% |
| OpenAI-MRCR: 2 needle 256k | 86,8% | 58,8% | 34,9% | - | - | 56,2% | 45,5% | 22,6% |
| Graphwalks bfs <128k | 78,3% | 73,4% | 64,0% | 77,3% | 62,3% | 61,7% | 61,7% | 25,0% |
| Graphwalks parents <128k | 73,3% | 64,3% | 43,8% | 72,9% | 51,1% | 58,0% | 60,5% | 9,4% |
| BrowseComp Long Context 128k | 90,0% | 89,4% | 80,4% | 88,3% | 80,0% | 85,9% | 89,0% | 89,4% |
| BrowseComp Long Context 256k | 88,8% | 86,0% | 68,4% | - | - | 75,5% | 81,6% | 19,1% |
| VideoMME(long, with subtitle category) | 86,7% | 78,5% | 65,7% | 84,9% | 79,5% | 78,7% | 68,4% | 55,2% |
Allucinazioni
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| LongFact-Concepts hallucination rate(no tools)[lower is better] | 1,0% | 0,7% | 1,0% | 5,2% | 3,0% | 0,7% | 1,1% | - |
| LongFact-Objects hallucination rate(no tools)[lower is better] | 1,2% | 1,3% | 2,8% | 6,8% | 8,9% | 1,1% | 1,8% | - |
| FActScore hallucination rate(no tools)[lower is better] | 2,8% | 3,5% | 7,3% | 23,5% | 38,7% | 6,7% | 10,9% | - |


