Aggiornamento del 24/04/2026: GPT‑5.5 e GPT‑5.5 Pro sono ora disponibili nelle API. La scheda di sistema è stata aggiornata per descrivere le ulteriori misure di salvaguardia applicabili.
Stiamo rilasciando GPT‑5.5, il nostro modello più intelligente e intuitivo di sempre, e il prossimo passo verso un nuovo modo di lavorare al computer.
GPT‑5.5 capisce più rapidamente ciò che stai cercando di fare e può svolgere autonomamente una parte maggiore del lavoro. Eccelle nella scrittura e nel debug del codice, nella ricerca online, nell’analisi dei dati, nella creazione di documenti e fogli di calcolo, nell’utilizzo del software e nel passaggio tra strumenti fino al completamento dell’attività. Invece di gestire attentamente ogni fase, puoi affidare a GPT‑5.5 un’attività complessa e articolata in più parti e contare sulla sua capacità di pianificare, usare strumenti, verificare il lavoro, orientarsi nell’ambiguità e portarla a termine.
I progressi sono particolarmente evidenti nella programmazione agentica, nell’uso del computer, nel lavoro della conoscenza e nella ricerca scientifica nelle fasi iniziali: ambiti in cui i risultati dipendono dalla capacità di ragionare sul contesto e agire nel tempo. GPT‑5.5 offre questo salto di qualità senza compromettere la velocità: i modelli più grandi e potenti sono spesso più lenti, ma GPT‑5.5 eguaglia la latenza per token di GPT‑5.4 in scenari reali, offrendo al contempo un livello di intelligenza molto più elevato. Utilizza inoltre molti meno token per completare le stesse attività in Codex, risultando più efficiente oltre che più capace.
Stiamo rilasciando GPT‑5.5 con il nostro set di misure di sicurezza più avanzato finora, progettato per ridurre gli usi impropri preservando al contempo l’accesso agli utilizzi benefici. Abbiamo valutato il modello sull’intera suite dei nostri framework di sicurezza e preparazione, collaborato con red team interni ed esterni, aggiunto test mirati per capacità avanzate in cybersicurezza e biologia e raccolto feedback su casi d’uso reali da quasi 200 partner fidati con accesso anticipato prima del rilascio.
Oggi GPT‑5.5 è in distribuzione per gli utenti Plus, Pro, Business ed Enterprise su ChatGPT e Codex, mentre GPT‑5.5 Pro è in distribuzione per gli utenti Pro, Business ed Enterprise su ChatGPT. Le implementazioni API richiedono misure di sicurezza diverse e stiamo collaborando strettamente con partner e clienti sui requisiti di sicurezza per la distribuzione su larga scala. Porteremo molto presto nelle API sia GPT‑5.5 che GPT‑5.5 Pro.
GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro | |
Terminal-Bench 2.0 | 82,7% | 75,1% | - | - | 69,4% | 68,5% |
Esperto-SWE (Interno) | 73,1% | 68,5% | - | - | - | - |
GDPval (vittorie o pareggi) | 84,9% | 83,0% | 82,3% | 82,0% | 80,3% | 67,3% |
OSWorld-Verified | 78,7% | 75,0% | - | - | 78,0% | - |
Toolathlon | 55,6% | 54,6% | - | - | - | 48,8% |
BrowseComp | 84,4% | 82,7% | 90,1% | 89,3% | 79,3% | 85,9% |
FrontierMath Livello 1–3 | 51,7% | 47,6% | 52,4% | 50,0% | 43,8% | 36,9% |
FrontierMath Livello 4 | 35,4% | 27,1% | 39,6% | 38,0% | 22,9% | 16,7% |
CyberGym | 81,8% | 79.0% | - | - | 73,1% | - |
OpenAI sta costruendo l’infrastruttura globale per l’IA agentica, rendendo possibile a persone e aziende di tutto il mondo lavorare con l’IA. Nel corso dell’ultimo anno, abbiamo visto l’IA accelerare significativamente l’ingegneria del software. Con GPT‑5.5 in Codex e ChatGPT, questa trasformazione sta iniziando a estendersi alla ricerca scientifica e, più in generale, al lavoro svolto al computer.
In questi ambiti, GPT‑5.5 non è solo più intelligente: è anche più efficiente nel modo in cui affronta i problemi, spesso raggiungendo risultati di qualità superiore con meno token e meno tentativi. Nel Coding Index di Artificial Analysis, GPT‑5.5 offre un’intelligenza all’avanguardia a metà del costo rispetto ai modelli concorrenti di frontiera per il coding.
L'Indice di intelligenza di Artificial Analysis(si apre in una nuova finestra) è una media ponderata di 10 valutazioni condotte da una parte esterna: AA-LCR, AA-Omniscience, CritPt, GDPval-AA, GPQA Diamond, Humanity’s Last Exam, IFBench, SciCode, Terminal-Bench Hard, τ²-Bench Telecom.
GPT‑5.5 è il nostro modello di coding agentico più potente finora. Su Terminal-Bench 2.0, che valuta flussi di lavoro complessi da riga di comando che richiedono pianificazione, iterazione e coordinamento degli strumenti, raggiunge un’accuratezza allo stato dell’arte dell’82,7%. Su SWE-Bench Pro, che valuta la risoluzione di issue GitHub reali, raggiunge il 58,6%, risolvendo più attività end-to-end in un singolo passaggio rispetto ai modelli precedenti. Su Expert-SWE, la nostra valutazione interna di frontiera per attività di coding su orizzonti temporali lunghi, con un tempo mediano stimato di completamento umano di 20 ore, GPT‑5.5 supera anche GPT‑5.4.
In tutte e tre le valutazioni, GPT‑5.5 migliora i risultati di GPT‑5.4 punteggi utilizzando meno token.
Le capacità di programmazione del modello emergono con particolare chiarezza in Codex, dove può occuparsi di attività di ingegneria che spaziano dall’implementazione e dal refactoring al debugging, ai test e alla validazione. I primi test suggeriscono che GPT‑5.5 sia più efficace nei comportamenti da cui dipende il lavoro reale di ingegneria, come mantenere il contesto in sistemi complessi, ragionare su errori ambigui, verificare le ipotesi con gli strumenti e propagare le modifiche nella codebase circostante.
La traiettoria visualizzata utilizza i dati vettoriali di NASA/JPL Horizons per Orion, la Luna e il Sole, con ridimensionamento della visualizzazione applicato per migliorarne la leggibilità.
Prompt: [attached image] Implement this as a new app using webgl and vite using real data from the artemis II mission. Make sure to test the app thoroughly until it is fully functional and looks like the app in the picture. Pay close attention to the rendering of the planets and fly paths. I want to be able to interact with the 3D rendering. Ensure it has realistic orbital mechanics.
Al di là dei benchmark, i primi tester hanno rilevato che GPT‑5.5 mostra una maggiore capacità di comprendere la struttura di un sistema: perché qualcosa non funziona, dove deve intervenire la correzione e quali altre parti della codebase ne risentirebbero.

"Il primo modello di coding che ho utilizzato con una reale chiarezza concettuale."
Dan Shipper, fondatore e CEO di Every, ha descritto GPT‑5.5 come “il primo modello di coding che abbia usato dotato di una vera chiarezza concettuale.”
Dopo aver lanciato un’app, ha trascorso giorni a eseguire il debug di un problema post-lancio prima di coinvolgere uno dei suoi migliori ingegneri per riscrivere una parte del sistema. Per testare GPT‑5.5, ha di fatto riavvolto il nastro: il modello era in grado di esaminare lo stato compromesso e produrre lo stesso tipo di riscrittura che l’ingegnere ha poi deciso di adottare? GPT‑5.4 non era in grado di farlo. GPT‑5.5 sì.

“Sembra davvero di lavorare con un'intelligenza superiore, e si percepisce quasi un senso di rispetto.”
Pietro Schirano, CEO di MagicPath, ha osservato un cambiamento di portata simile quando GPT‑5.5 ha unito un branch con centinaia di modifiche frontend e refactoring in un branch principale anch’esso profondamente modificato, risolvendo il lavoro in un’unica esecuzione in circa 20 minuti.
Gli ingegneri senior che hanno testato il modello hanno affermato che GPT‑5.5 è nettamente superiore a GPT‑5.4 e Claude Opus 4.7 in termini di ragionamento e autonomia, individuando i problemi in anticipo e anticipando le esigenze di test e revisione anche senza prompt espliciti. In un caso, un ingegnere gli ha chiesto di riprogettare l’architettura di un sistema di commenti in un editor Markdown collaborativo ed è tornato a trovare uno stack di 12 diff quasi completo. Altri hanno riferito di aver avuto bisogno di sorprendentemente poche correzioni in fase di implementazione e di sentirsi più sicuri nei piani di GPT‑5.5 rispetto a GPT‑5.4.
Un ingegnere NVIDIA che aveva avuto accesso anticipato al modello si è spinto fino a dire: "Perdere l’accesso a GPT‑5.5 è come se mi avessero amputato un arto."
"GPT-5.5 è evidentemente più intelligente e più perseverante di GPT-5.4, con migliori prestazioni di coding e un uso più affidabile degli strumenti. Rimane concentrato sull’attività per un tempo significativamente più lungo senza interrompersi prematuramente, un aspetto particolarmente importante per le attività complesse e di lunga durata che i nostri utenti affidano a Cursor."
Gli stessi punti di forza che rendono GPT‑5.5 eccellente nella programmazione lo rendono potente anche per il lavoro quotidiano al computer. Poiché il modello è più efficace nel comprendere l’intento, può muoversi in modo più naturale lungo l’intero ciclo del lavoro della conoscenza: trovare informazioni, capire cosa conta, usare strumenti, verificare i risultati e trasformare il materiale grezzo in qualcosa di utile.
In Codex, GPT‑5.5 supera GPT‑5.4 nella generazione di documenti, fogli di calcolo e presentazioni. I tester alpha affermano che supera i modelli precedenti in attività come la ricerca operativa, la modellazione su fogli di calcolo e la trasformazione di input aziendali complessi in piani strutturati. Combinato con le capacità di utilizzo del computer di Codex, GPT‑5.5 avvicina all’esperienza di lavorare davvero insieme al modello: vede ciò che è sullo schermo, clicca, digita, naviga nelle interfacce e si muove tra gli strumenti con precisione.
I team di OpenAI stanno già utilizzando questi punti di forza nei flussi di lavoro reali. Oggi, oltre l’85% dell’azienda utilizza Codex ogni settimana in diverse funzioni, tra cui ingegneria del software, finanza, comunicazione, marketing, data science e gestione dei prodotti. Nel team Comms, è stato utilizzato GPT‑5.5 in Codex per analizzare sei mesi di dati sulle richieste di intervento, costruire un framework di scoring e rischio e validare un agente Slack automatizzato, in modo che le richieste a basso rischio possano essere gestite automaticamente mentre quelle più rischiose continuano a essere sottoposte a revisione umana. Nel team Finance, Codex è stato utilizzato per esaminare 24.771 moduli fiscali K-1, per un totale di 71.637 pagine, tramite un flusso di lavoro che escludeva i dati personali e ha consentito di anticipare il completamento dell’attività di due settimane rispetto all’anno precedente. Nel team Go-to-Market, un dipendente ha automatizzato la generazione di report aziendali settimanali, risparmiando da 5 a 10 ore a settimana.
In ChatGPT, GPT‑5.5 Thinking offre un supporto più rapido per i problemi più complessi, con risposte più intelligenti e concise che accelerano il lavoro. Eccelle nelle attività professionali come programmazione, ricerca, sintesi e analisi delle informazioni e gestione di documenti, soprattutto con l’uso dei plugin.
In GPT‑5.5 Pro, i primi tester stanno riscontrando un significativo salto di qualità sia nella complessità sia nella qualità del lavoro che ChatGPT è in grado di svolgere, con miglioramenti della latenza che lo rendono molto più pratico per le attività più impegnative. Rispetto a GPT‑5.4 Pro, i tester hanno rilevato che le risposte di GPT‑5.5 Pro sono significativamente più complete, ben strutturate, accurate, pertinenti e utili, con prestazioni particolarmente elevate nei settori business, legale, dell’istruzione e della data science.
GPT‑5.5 raggiunge prestazioni all’avanguardia su diversi benchmark che riflettono questo tipo di lavoro. Nel benchmark GDPval, che valuta la capacità degli agenti di produrre lavoro cognitivo ben definito in 44 professioni, GPT‑5.5 ottiene un punteggio dell’84,9%. Nel benchmark OSWorld-Verified, che misura se un modello è in grado di operare autonomamente in ambienti informatici reali, raggiunge il 78,7%. E su Tau2-bench Telecom, che testa flussi di lavoro complessi del servizio clienti, raggiunge il 98,0% senza prompt tuning. GPT‑5.5 ottiene risultati solidi anche su altri benchmark relativi ad attività di conoscenza: 60.0% su FinanceAgent, 88.5% nelle internal investment-banking modeling tasks e 54.1% su OfficeQA Pro.
Tau2-bench Telecom è stato eseguito senza prompt tuning (e con GPT‑4.1 come modello utente). GPT‑5.5 comprende meglio l’intento dell’attività ed è più efficiente in termini di token rispetto ai suoi predecessori.
"GPT-5.5 offre le prestazioni sostenute richieste per attività ad alta intensità di esecuzione. Distribuito su sistemi NVIDIA GB200 NVL72, il modello consente ai nostri team di mettere in produzione funzionalità end-to-end a partire da prompt in linguaggio naturale, ridurre i tempi di debug da giorni a ore e trasformare settimane di sperimentazione in progressi ottenuti nell’arco di una notte in codebase complessi. Non si tratta solo di programmare più velocemente: è un nuovo modo di lavorare che consente alle persone di operare a una velocità radicalmente diversa."
GPT‑5.5 mostra miglioramenti anche nei flussi di lavoro di ricerca scientifica e tecnica, che richiedono più che rispondere a una domanda difficile. I ricercatori devono esplorare un’idea, raccogliere prove, verificare le ipotesi, interpretare i risultati e decidere cosa provare successivamente. GPT‑5.5 è più capace di mantenere la continuità lungo questo ciclo rispetto agli altri modelli.
In particolare, GPT‑5.5 mostra un netto miglioramento rispetto a GPT‑5.4 su GeneBench(si apre in una nuova finestra), una nuova valutazione incentrata sull’analisi scientifica dei dati in più fasi nella genetica e nella biologia quantitativa. Questi problemi richiedono che i modelli sappiano ragionare su dati potenzialmente ambigui o contenenti errori con una guida minima, affrontare ostacoli realistici come fattori confondenti nascosti o errori di controllo qualità e implementare e interpretare correttamente metodi statistici moderni. Le prestazioni del modello sono notevoli, considerando che queste attività spesso corrispondono a progetti di più giorni per esperti scientifici.
Analogamente, su BixBench(si apre in una nuova finestra), un benchmark progettato attorno a scenari reali di bioinformatica e analisi dei dati, GPT‑5.5 ha raggiunto prestazioni leader tra i modelli con punteggi pubblicati. Le capacità scientifiche del modello sono ora sufficientemente solide da accelerare in modo significativo i progressi nelle aree di frontiera della ricerca biomedica come vero e proprio co-scienziato.
In un altro esempio, una versione interna di GPT‑5.5 con un harness personalizzato ha aiutato a scoprire una nuova dimostrazione(si apre in una nuova finestra) sui numeri di Ramsey, uno degli oggetti centrali della combinatoria. La combinatoria studia come gli oggetti discreti si combinano tra loro: grafi, reti, insiemi e schemi. I numeri di Ramsey indicano, in termini approssimativi, quanto grande debba essere una rete perché sia garantita la comparsa di una qualche forma di ordine. I risultati in questo ambito sono rari e spesso tecnicamente complessi. In questo caso, GPT‑5.5 ha trovato una dimostrazione di un risultato asintotico noto da tempo sui numeri di Ramsey fuori diagonale, successivamente verificata in Lean. Il risultato è un esempio concreto di GPT‑5.5 che fornisce non solo codice o spiegazioni, ma anche un’argomentazione matematica sorprendente e utile in un’area di ricerca fondamentale.
I primi tester hanno utilizzato GPT‑5.5 Pro in ChatGPT più come un partner di ricerca che come un motore di risposte one-shot: hanno revisionato manoscritti in più passaggi, messo alla prova argomentazioni tecniche, proposto analisi e lavorato con codice, note e contesto PDF. Il filo conduttore è che GPT‑5.5 è più efficace nell’aiutare i ricercatori a passare dalla domanda all’esperimento e poi al risultato.
Derya Unutmaz, professore di immunologia e ricercatore presso il Jackson Laboratory for Genomic Medicine, ha utilizzato GPT‑5.5 Pro per analizzare un dataset di espressione genica con 62 campioni e quasi 28.000 geni, producendo un rapporto di ricerca dettagliato che non solo riassumeva i risultati, ma faceva anche emergere domande chiave e insight significativi, un lavoro che, a suo dire, avrebbe richiesto mesi al suo team.
Bartosz Naskręcki, professore assistente di matematica presso l’Adam Mickiewicz University di Poznań, in Polonia, ha utilizzato GPT‑5.5 in Codex per sviluppare un’app di geometria algebrica a partire da un singolo prompt in 11 minuti, visualizzando l’intersezione di superfici quadratiche e convertendo la curva risultante in un modello di Weierstrass.
Ha successivamente ampliato l’app con una visualizzazione delle singolarità più stabile e coefficienti esatti riutilizzabili in lavori successivi. Per lui, il cambiamento più significativo è che Codex può ora contribuire a implementare flussi di lavoro personalizzati per la visualizzazione matematica e l’algebra computazionale che in precedenza richiedevano strumenti dedicati. Nel complesso, questi esempi mostrano come GPT‑5.5 trasformi le intenzioni degli esperti in strumenti di ricerca e analisi funzionanti.

Crediti: Bartosz Naskręcki(si apre in una nuova finestra)
Prompt: # Algebraic geometry surface intersection
Make an app which draws two quadratic surfaces and colors in red the intersection curve. Use computational Riemann-Roch theorem to convert this into Weierstrass curve.
## Main window
Due superfici colorate con un'ombreggiatura leggermente trasparente, rendering di alta qualità, si intersecano lungo una curva algebrica di colore rosso
Rotation with mouses in both directions, full pinch mechanism for zoom, haptic press to show the little menu with sliders for changing the coefficients of each surface; detection via Z-buffor level
## Side right window
Short Weierstrass equation (over Q or quadratic field extension) computed on the go via effective Riemann-Roch theorem formulas
## Ambient mode where all the controls are hidden and the user can admire the beauty of the shapes
## Specs
App is running in the browser, light-weight implementation with full stack newest libraries, portable, deployable
## Docs
Git repo, journal, plan (Markdown files)
"È incredibilmente stimolante usare il nuovo modello GPT-5.5 di OpenAI nel nostro ambiente di test, analizzare enormi dataset biochimici per prevedere gli esiti dei farmaci sull’uomo e vedere miglioramenti significativi dell’accuratezza nelle nostre valutazioni più complesse sulla scoperta di farmaci. Se OpenAI continua su questa strada, le basi della scoperta di farmaci cambieranno entro la fine dell’anno."
Erogare GPT‑5.5 con la latenza di GPT‑5.4 ha richiesto di ripensare l’inferenza come un sistema integrato, non come un insieme di ottimizzazioni isolate. GPT‑5.5 è stato co-progettato, addestrato ed eseguito su sistemi NVIDIA GB200 e GB300 NVL72. Codex e GPT‑5.5 sono stati determinanti per il raggiungimento dei nostri obiettivi di prestazione. Codex ha aiutato il team a passare più rapidamente dall’idea a un’implementazione misurabile rispetto a benchmark, delineando approcci, predisponendo esperimenti e contribuendo a individuare quali ottimizzazioni meritassero un investimento più approfondito. GPT‑5.5 ha contribuito a individuare e implementare miglioramenti chiave nello stack stesso. In parole semplici, il modello ha contribuito a migliorare l’infrastruttura che lo supporta.
Uno di questi miglioramenti riguarda il bilanciamento del carico e le euristiche di partizionamento. Prima di GPT‑5.5, suddividevamo le richieste su un acceleratore in un numero fisso di blocchi per bilanciare il carico di lavoro tra i core di calcolo, garantendo che richieste grandi e piccole potessero essere eseguite sulla stessa GPU. Tuttavia, un numero prestabilito di blocchi statici non è ottimale per tutte le tipologie di traffico. Per utilizzare meglio le GPU, Codex ha analizzato settimane di pattern di traffico di produzione e ha scritto algoritmi euristici personalizzati per suddividere e bilanciare in modo ottimale il lavoro. Lo sforzo ha avuto un impatto significativo, aumentando la velocità di generazione dei token di oltre il 20%.
Preparare il mondo a modelli estremamente efficaci nell’individuare e correggere vulnerabilità di sicurezza è uno sforzo collettivo e richiederà che l’intero ecosistema lavori per costruire resilienza, con accesso democratizzato ai modelli e distribuzione iterativa per la prossima era della difesa informatica.
I modelli di frontiera stanno diventando sempre più capaci nell’ambito della cybersicurezza. Queste capacità saranno ampiamente diffuse e riteniamo che la strada migliore sia garantire che vengano utilizzate per accelerare la difesa informatica e rafforzare l’ecosistema.
GPT‑5.5 rappresenta un passo incrementale ma importante verso un’IA in grado di contribuire a risolvere alcune delle sfide più difficili al mondo, come la cybersicurezza. Con GPT‑5.2, a dicembre, abbiamo implementato in modo proattivo le necessarie salvaguardie per la cybersicurezza per limitare i potenziali abusi informatici con i nostri modelli; ora, con GPT‑5.5, stiamo implementando classificatori più rigorosi per il potenziale rischio cyber, che alcuni utenti potrebbero inizialmente trovare fastidiosi, mentre li perfezioniamo nel tempo.
Da anni abbiamo identificato la cybersicurezza come una categoria nel nostro Preparedness Framework(si apre in una nuova finestra), poiché i nostri modelli sono migliorati progressivamente, mentre sviluppiamo e calibriamo iterativamente misure di mitigazione, per poter rilasciare in modo responsabile modelli con capacità significative di cybersicurezza.
- Stiamo implementando misure di protezione all’avanguardia nel settore per questo livello di capacità informatiche. L’anno scorso abbiamo introdotto per la prima volta salvaguardie specifiche per la cybersicurezza con GPT‑5.2(si apre in una nuova finestra), che abbiamo continuato a testare, perfezionare e sviluppare nelle implementazioni successive. Per GPT‑5.5 abbiamo progettato controlli più rigorosi sulle attività ad alto rischio, sulle richieste sensibili in ambito cyber e introdotto protezioni contro gli abusi ripetuti. L’accesso su larga scala è reso possibile dai nostri investimenti nella sicurezza dei modelli, nell’uso autenticato e nel monitoraggio degli utilizzi non consentiti. Da mesi collaboriamo con esperti esterni per sviluppare, testare e rafforzare la robustezza di queste misure di sicurezza. Con GPT‑5.5, permettiamo agli sviluppatori di proteggere il proprio codice con facilità, introducendo controlli più stringenti sui flussi di lavoro cyber più esposti a rischi.
- Stiamo ampliando l'accesso per accelerare la difesa informatica a tutti i livelli. Stiamo rendendo disponibili i nostri modelli cyber-permissivi tramite Trusted Access for Cyber, a partire da Codex, che offre un accesso ampliato alle funzionalità avanzate di cybersicurezza di GPT‑5.5 con meno restrizioni per gli utenti verificati che soddisfano determinati segnali di affidabilità(si apre in una nuova finestra) al momento del lancio. Le organizzazioni responsabili della difesa delle infrastrutture critiche possono richiedere l’accesso a modelli come GPT‑5.4‑Cyber, a condizione di rispettare rigorosi requisiti di sicurezza per proteggere i propri sistemi interni. Questo consente a un’ampia gamma di difensori verificati di utilizzare strumenti più efficaci per attività di sicurezza legittime, riducendo al minimo gli attriti inutili e favorendo un accesso più ampio a capacità difensive cruciali. Gli utenti possono richiedere l’accesso controllato su chatgpt.com/cyber(si apre in una nuova finestra) per ridurre i rifiuti non necessari durante l’uso di GPT‑5.5 per attività difensive verificate.
- Stiamo collaborando con partner governativi per contribuire a proteggere le infrastrutture critiche per il pubblico. Insieme, stiamo esplorando come l’IA avanzata possa supportare il lavoro di difesa dei funzionari responsabili di sistemi essenziali, dai sistemi digitali che proteggono dati sensibili dei contribuenti fino alle reti elettriche e alle infrastrutture idriche locali.
Classifichiamo le capacità biologiche/chimiche e di cybersicurezza di GPT‑5.5 come elevate nell’ambito del nostro Preparedness Framework(si apre in una nuova finestra). Sebbene GPT‑5.5 non abbia raggiunto il livello Critical di capacità di cybersecurity, le nostre valutazioni e i nostri test hanno mostrato che le sue capacità di cybersecurity rappresentano un passo avanti rispetto a GPT‑5.4.
Inoltre, GPT‑5.5 ha completato il nostro intero processo di sicurezza e governance prima del rilascio, incluse valutazioni di preparazione, test specifici per dominio, nuove valutazioni mirate per capacità avanzate in biologia e cybersicurezza e test approfonditi con esperti esterni. Condividiamo ulteriori dettagli nella scheda di sistema di GPT‑5.5(si apre in una nuova finestra).
Questo lavoro riflette il nostro approccio più ampio alla resilienza dell’IA, che riteniamo necessario con l’evoluzione delle capacità dei modelli. Vogliamo che un’IA potente sia accessibile a chi la utilizza per difendere sistemi, istituzioni e il pubblico. Il percorso più solido prevede accesso controllato, misure di sicurezza robuste che crescono con le capacità e la capacità operativa di rilevare e rispondere a usi impropri gravi.
Oggi GPT‑5.5 è in distribuzione per gli utenti Plus, Pro, Business ed Enterprise su ChatGPT e Codex, mentre GPT‑5.5 Pro è in distribuzione per gli utenti Pro, Business ed Enterprise su ChatGPT. Porteremo molto presto nelle API sia GPT‑5.5 che GPT‑5.5 Pro.
In ChatGPT, GPT‑5.5 Thinking è disponibile per gli utenti Plus, Pro, Business ed Enterprise. GPT‑5.5 Pro, progettato per domande ancora più complesse e attività che richiedono maggiore accuratezza, è disponibile per gli utenti Pro, Business ed Enterprise.
In Codex, GPT‑5.5 è disponibile per i piani Plus, Pro, Business, Enterprise, Edu e Go con una finestra di contesto di 400K. GPT‑5.5 è disponibile anche nella modalità Fast e genera token 1.5x più velocemente a un costo 2.5x superiore.
Per gli sviluppatori API, gpt-5.5 sarà presto disponibile nelle Responses API e nelle API di completamento delle chat al prezzo di 5 USD per 1M di token di input e 30 USD per 1M di token di output, con una finestra di contesto di 1M. Le tariffe Batch e Flex sono disponibili a metà della tariffa API standard, mentre l’elaborazione prioritaria è disponibile a 2,5 volte la tariffa standard. Renderemo disponibile anche gpt-5.5-pro nelle API, per una precisione ancora maggiore, al prezzo di 30 USD per 1M di token di input e 180 USD per 1M di token di output. Consulta la pagina dei prezzi per tutti i dettagli.
Sebbene GPT‑5.5 abbia un prezzo più elevato rispetto a GPT‑5.4, è sia più intelligente sia molto più efficiente nell’uso dei token. In Codex, abbiamo ottimizzato con cura l’esperienza affinché GPT‑5.5 offra risultati migliori con meno token rispetto a GPT‑5.4 per la maggior parte degli utenti, continuando a offrire un utilizzo generoso a tutti i livelli di abbonamento.
Programmazione
Valutazione | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
SWE-Bench Pro (Public) * | 58,6% | 57,7% | - | - | 64,3% | 54,2% |
Terminal-Bench 2.0 | 82,7% | 75,1% | - | - | 69,4% | 68,5% |
Esperto-SWE (Interno) | 73,1% | 68,5% | - | - | - | - |
*I Labs hanno rilevato prove di memorizzazione(si apre in una nuova finestra) in questa valutazione
Professionale
Valutazione | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
GDPval (vittorie o pareggi) | 84,9% | 83,0% | 82,3% | 82,0% | 80,3% | 67,3% |
FinanceAgent v1.1 | 60,0% | 56,0% | - | 61,5% | 64,4% | 59,7% |
Attività di modellazione per l’investment banking (Internal) | 88,5% | 87,3% | 88,6% | 83,6% | - | - |
OfficeQA Pro | 54,1% | 53,2% | - | - | 43,6% | 18,1% |
Utilizzo del computer e visione
Valutazione | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
OSWorld-Verified | 78,7% | 75,0% | - | - | 78,0% | - |
MMMU Pro (senza strumenti) | 81,2% | 81,2% | - | - | - | 80,5% |
MMMU Pro (con strumenti) | 83.2% | 82,1% | - | - | - | - |
Uso degli strumenti
Valutazione | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
BrowseComp | 84,4% | 82,7% | 90,1% | 89,3% | 79,3% | 85,9% |
MCP Atlas** | 75,3% | 70,6% | - | - | 79,1% | 78,2% |
Toolathlon | 55,6% | 54,6% | - | - | - | 48,8% |
Tau2-bench Telecom*** | 98,0% | 92,8% | - | - | - | - |
** MCP Atlas: risultati di Scale AI dopo l'ultimo aggiornamento di aprile 2026.
*** Tau2-bench telecom: risultati per 5.5 e 5.4 con i prompt originali, cioè senza alcuna modifica dei prompt. Questo esclude i risultati di altri laboratori valutati con modifiche ai prompt.
Accademico
Valutazione | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
GeneBench | 25,0% | 19,0% | 33,2% | 25,6% | - | - |
FrontierMath Livello 1–3 | 51,7% | 47,6% | 52,4% | 50,0% | 43,8% | 36,9% |
FrontierMath Livello 4 | 35,4% | 27,1% | 39,6% | 38,0% | 22,9% | 16,7% |
BixBench | 80,5% | 74,0% | - | - | - | - |
GPQA diamond | 93,6% | 92,8% | - | 94,4% | 94,2% | 94,3% |
Humanity's Last Exam (senza strumenti) | 41,4% | 39,8% | 43,1% | 42,7% | 46,9% | 44,4% |
Humanity's Last Exam (con strumenti) | 52,2% | 52,1% | 57,2% | 58,7% | 54,7% | 51,4% |
Cybersicurezza
Valutazione | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
Attività di sfida Capture-the-Flags (Interno)**** | 88,1% | 83,7% | - | - | - | - |
CyberGym | 81,8% | 79,0% | - | - | 73,1% | - |
**** Un'espansione dei CTF più difficili utilizzati nelle schede di sistema, con ulteriori sfide difficili.
Contesto lungo
Valutazione | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
Graphwalks BFS 256.000 f1 | 73,7% | 62,5% | - | - | 76,9% | - |
Graphwalks BFS 1.000.000 f1 | 45,4% | 9,4% | - | - | 41,2% (Opus 4.6) | - |
Graphwalks parents 256.000 f1 | 90,1% | 82,8% | - | - | 93,6% | - |
Graphwalks genitori 1 milione f1 | 58,5% | 44,4% | - | - | 72.0% (Opus 4.6) | - |
OpenAI MRCR v2 8-needle 4K-8K | 98,1% | 97,3% | - | - | - | - |
OpenAI MRCR v2 8-needle 8K-16K | 93,0% | 91,4% | - | - | - | - |
OpenAI MRCR v2 8-needle 16K-32K | 96,5% | 97,2% | - | - | - | - |
OpenAI MRCR v2 8-needle 32K–64K | 90,0% | 90,5% | - | - | - | - |
OpenAI MRCR v2 8-needle 64K-128K | 83,1% | 86,0% | - | - | - | - |
OpenAI MRCR v2 8-needle 128K-256K | 87,5% | 79,3% | - | - | 59,2% | - |
OpenAI MRCR v2 8-needle 256K-512K | 81,5% | 57,5% | - | - | - | - |
OpenAI MRCR v2 8-needle 512K-1M | 74,0% | 36,6% | - | - | 32,2% | - |
Ragionamento astratto
Valutazione | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
ARC-AGI-1 (Verificato) | 95,0% | 93,7% | - | 94,5% | 93,5% | 98,0% |
ARC-AGI-2 (Verificato) | 85,0% | 73,3% | - | 83,3% | 75,8% | 77,1% |
Le valutazioni di GPT sono state eseguite con lo sforzo di ragionamento impostato su xhigh e sono state condotte in un ambiente di ricerca, che in alcuni casi può generare risultati leggermente diversi rispetto a ChatGPT in produzione.








