Presentiamo un nuovo modello che amplia ulteriormente le capacità di Codex: GPT‑5.3‑Codex, il modello di coding agentico più avanzato disponibile oggi. Il modello combina le prestazioni di programmazione avanzate di GPT‑5.2‑Codex con le capacità di ragionamento e conoscenza professionale di GPT‑5.2, riunendole in un unico modello, anche il 25% più veloce. Questo gli consente di gestire attività di lunga durata che includono ricerca, uso di strumenti ed esecuzioni complesse. Come faresti con un collega, puoi guidare e interagire con GPT‑5.3‑Codex mentre lavora, senza perdere il contesto.
GPT‑5.3‑GPT‑5.3‑Codex è il primo modello che ha contribuito in modo determinante alla propria creazione. Il team di Codex ha utilizzato le prime versioni per eseguire il debug dell’addestramento, gestire la distribuzione e analizzare i risultati di test e valutazioni. Anche per noi è stato sorprendente vedere quanto Codex abbia accelerato il proprio sviluppo.
Con GPT‑5.3‑Codex, Codex passa da agente in grado di scrivere e revisionare codice a strumento capace di svolgere gran parte delle attività professionali su un computer.
GPT‑5.3‑Codex stabilisce un nuovo riferimento di settore su SWE-Bench Pro e Terminal-Bench e mostra prestazioni solide su OSWorld e GDPval, quattro benchmark utilizzati per valutare capacità di programmazione, agentiche e in scenari reali.
GPT‑5.3‑Codex raggiunge prestazioni all’avanguardia su SWE-Bench Pro, una valutazione rigorosa dell’ingegneria del software in contesti reali. Mentre SWE-Bench Verified valuta solo Python, SWE-Bench Pro copre quattro linguaggi ed è più resistente alla contaminazione, più impegnativo, più diversificato e più rilevante per l’industria. Supera inoltre nettamente le precedenti prestazioni di riferimento su Terminal-Bench 2.0, che valuta le competenze operative nel terminal richieste a un agente di coding come Codex. In particolare, GPT‑5.3‑Codex lo fa utilizzando meno token rispetto a qualsiasi modello precedente, consentendo di realizzare di più.
Combinando capacità di coding avanzate, miglioramenti estetici e maggiore compattezza, nasce un modello in grado di realizzare lavori di grande impatto, creando da zero giochi e applicazioni complesse e altamente funzionali in pochi giorni. Per testare le capacità del modello nello sviluppo web e nelle attività agentiche di lunga durata, abbiamo chiesto a GPT‑5.3‑Codex di creare due giochi: la seconda versione del gioco di corse presentato al lancio di Codex e un gioco di immersioni. Utilizzando la skill develop-web-game e prompt di follow-up generici develop-web-game, come “fix the bug” o “improve the game”, GPT‑5.3‑Codex ha iterato autonomamente sui giochi utilizzando milioni di token. Guarda i trailer e prova i giochi per scoprire cosa può fare Codex.
Un gioco di corse, completo di piloti diversi, otto mappe e persino oggetti da usare con la barra spaziatrice. Gioca in prima persona(si apre in una nuova finestra)!
Un gioco di immersioni in cui esplori diverse barriere coralline, le collezioni per completare il tuo codex dei pesci e gestisci ossigeno, pressione e pericoli. Gioca in prima persona(si apre in una nuova finestra)!
GPT‑5.3‑Codex interpreta meglio l’intento quando gli viene chiesto di creare siti web per l’uso quotidiano, rispetto a GPT‑5.2‑Codex. I prompt semplici o poco specifici ora generano siti con più funzionalità e impostazioni sensate, offrendo una base più solida per sviluppare le idee.
Ad esempio, abbiamo chiesto a GPT‑5.3‑Codex e GPT‑5.2‑Codex di creare due landing page qui sotto. GPT‑5.3‑Codex mostrava automaticamente il piano annuale come prezzo mensile scontato, rendendo lo sconto immediatamente chiaro, invece di moltiplicare il totale annuo. Ha inoltre creato un carosello di testimonianze a transizione automatica con tre citazioni distinte, dando vita a una pagina più completa e pronta per l’uso in produzione fin da subito.
Prompt: Crea una landing page per Quiet KPI, un digest settimanale di metriche pensato per i fondatori. L’estetica è soft SaaS, card con effetto vetro, gradiente dal lavanda al blu e sfocatura delicata. Sezioni: hero con acquisizione email, griglia di report di esempio, riga delle integrazioni, carosello di testimonianze, selettore prezzi mensile/annuale, FAQ e footer.
- Carattere Satoshi o un sans geometrico simile.
- Pulsanti con angoli arrotondati, raggio di 14px e stati di focus ben evidenti.
- Aggiungi una rivelazione elegante basata sullo scorrimento della pagina.
Chi lavora nello sviluppo software, nel design, nel product management e nella data science fa molto più che scrivere codice. GPT‑5.3‑Codex è progettato per supportare tutte le fasi del ciclo di vita del software, dal debugging alla distribuzione, dal monitoraggio alla redazione dei PRD, fino a test, metriche e ricerca utente. Le sue capacità agentiche vanno oltre il software e supportano la creazione di qualsiasi tipo di progetto, dalle presentazioni all’analisi dei dati in fogli di calcolo.
Grazie a competenze personalizzate simili a quelle usate nei precedenti risultati GDPval, GPT‑5.3‑Codex mostra prestazioni elevate nel lavoro professionale basato sulla conoscenza, come misurato da GDPval, eguagliando GPT‑5.2. GDPval è una valutazione rilasciata da OpenAI nel 2025 che misura le prestazioni di un modello su attività professionali ben definite, distribuite su 44 professioni. Queste attività includono la creazione di presentazioni, fogli di calcolo e altri deliverable.
Di seguito alcuni esempi del lavoro realizzato dall’agente.
Prompt + contesto dell'attività
GPT-5.3-Codex output

OSWorld è un benchmark di utilizzo del computer in cui un agente completa attività di produttività in un ambiente desktop visivo. GPT‑5.3‑Codex dimostra capacità di utilizzo del computer nettamente superiori rispetto ai modelli GPT precedenti.
In OSWorld-Verified, i modelli utilizzano la visione per completare diverse attività informatiche. Il punteggio umano è di circa il 72%.
Nel complesso, questi risultati su coding, frontend, utilizzo del computer e attività reali mostrano che GPT‑5.3‑Codex non è solo più efficace nei singoli compiti, ma segna un passaggio verso un agente unico e general-purpose, capace di ragionare, costruire ed eseguire lungo l’intero spettro del lavoro tecnico reale.
Man mano che le capacità dei modelli aumentano, l’attenzione si sposta da ciò che gli agenti sanno fare a quanto sia semplice per le persone interagire con essi, guidarli e supervisionarne più di uno in parallelo. L’app Codex semplifica notevolmente la gestione e il coordinamento degli agenti e, con GPT‑5.3‑Codex, l’esperienza è ancora più interattiva. Con il nuovo modello, Codex fornisce aggiornamenti frequenti sulle decisioni chiave e sui progressi mentre opera. Invece di attendere il risultato finale, è possibile interagire in tempo reale, fare domande, discutere gli approcci e guidare il processo verso la soluzione. GPT‑5.3‑Codex spiega cosa sta facendo, risponde ai feedback e mantiene il contesto dall’inizio alla fine.
Abilita la guida mentre il modello è in esecuzione nell’app da Impostazioni > Generale > Comportamento di follow-up.
I recenti e rapidi miglioramenti di Codex si basano sui risultati di progetti di ricerca sviluppati nel corso di mesi o anni all’interno di OpenAI. Questi progetti di ricerca sono accelerati da Codex e molti ricercatori e ingegneri di OpenAI descrivono il lavoro di oggi come profondamente diverso rispetto a soli due mesi fa. Anche le prime versioni di GPT‑5.3‑Codex hanno dimostrato capacità eccezionali, permettendo al team di lavorare su queste versioni iniziali per migliorare l’addestramento e supportare la distribuzione delle versioni successive.
Codex è utile in una vasta gamma di attività, rendendo difficile elencare in modo esaustivo tutti i modi in cui supporta i team. Ad esempio, il team di ricerca ha utilizzato Codex per monitorare ed eseguire il debug dell’addestramento per questa versione. Ha accelerato la ricerca ben oltre la risoluzione dei problemi di infrastruttura: ha aiutato a individuare pattern durante l’addestramento, ha fornito analisi approfondite sulla qualità delle interazioni, ha proposto soluzioni e ha creato strumenti avanzati che consentono di comprendere con precisione come il comportamento del modello differisca rispetto ai modelli precedenti.
Il team di ingegneria ha utilizzato Codex per ottimizzare e adattare l’harness di GPT‑5.3‑Codex. Quando sono emersi casi limite anomali che impattavano sull’esperienza, il team ha utilizzato Codex per individuare bug nel rendering del contesto e le cause principali dei bassi tassi di hit della cache. GPT‑5.3‑Codex continua a supportare il team durante il lancio scalando dinamicamente i cluster GPU per gestire i picchi di traffico e mantenere stabile la latenza.
Durante i test alpha, un ricercatore ha voluto capire quanto lavoro aggiuntivo GPT‑5.3‑Codex fosse in grado di completare per turno e il relativo impatto sulla produttività. GPT‑5.3‑Codex ha ideato diversi semplici classificatori regex per stimare la frequenza di richieste di chiarimento, le risposte positive e negative, l’avanzamento delle attività, li ha eseguiti in modo scalabile su tutti i log di sessione e ha prodotto un report con le conclusioni. Chi lavorava con Codex riscontrava una maggiore soddisfazione, poiché l’agente comprendeva meglio l’intento e avanzava di più a ogni turno, con meno richieste di chiarimento.
Poiché GPT‑5.3‑Codex è molto diverso dai suoi predecessori, i dati dei test alpha hanno evidenziato numerosi risultati insoliti e controintuitivi. Una persona del team di data science ha collaborato con GPT‑5.3‑Codex per sviluppare nuove pipeline di dati e visualizzare i risultati in modo molto più approfondito rispetto agli strumenti standard di dashboarding. I risultati sono stati analizzati insieme a Codex, che ha sintetizzato in modo conciso le intuizioni chiave su migliaia di punti dati in meno di tre minuti.
Considerate singolarmente, tutte queste attività mostrano in che modo Codex può supportare la ricerca e lo sviluppo di prodotti. Nel complesso, queste nuove capacità hanno portato a una forte accelerazione dei team di ricerca, ingegneria e prodotto.
Negli ultimi mesi, abbiamo osservato miglioramenti significativi nelle prestazioni del modello nelle attività di cybersicurezza, a beneficio sia dello sviluppo sia dei professionisti della sicurezza. In parallelo, abbiamo predisposto salvaguardie informatiche rafforzate per supportare l’uso difensivo e aumentare la resilienza dell’ecosistema.
GPT‑5.3‑Codex è il primo modello che classifichiamo come capacità elevata per attività legate alla cybersicurezza nell'ambito del nostro Preparedness Framework, ed è anche il primo addestrato direttamente per identificare vulnerabilità software. Anche se non abbiamo prove definitive della capacità di automatizzare attacchi informatici end-to-end, adottiamo un approccio precauzionale e stiamo implementando lo stack di sicurezza informatica più completo mai realizzato. Le misure di mitigazione includono formazione sulla sicurezza, monitoraggio automatizzato, accessi affidabili alle capacità avanzate e pipeline di enforcement che integrano l’intelligence sulle minacce.
Poiché la sicurezza informatica ha una natura intrinsecamente dual-use, adottiamo un approccio iterativo basato su evidenze che accelera la capacità difensiva di individuare e correggere le vulnerabilità, riducendo al contempo il rischio di uso improprio. Nell’ambito di questo, stiamo lanciando Trusted Access for Cyber, un programma pilota per accelerare la ricerca sulla difesa informatica.
Stiamo investendo in salvaguardie per l’ecosistema, tra cui l’espansione della beta privata di Aardvark, il nostro agente per la ricerca sulla sicurezza, prima offerta della suite Codex Security. Collaboriamo inoltre con maintainer open source per offrire la scansione gratuita delle codebase di progetti ampiamente utilizzati come Next.js, dove di recente Codex ha aiutato a individuare vulnerabilità rivelate(si apre in una nuova finestra) la scorsa settimana.
Sulla scia del Programma di sovvenzioni per la cybersicurezza da 1 milione di dollari lanciato nel 2023, destiniamo inoltre 10 milioni di dollari in crediti API per accelerare la difesa informatica con i modelli più avanzati, in particolare a supporto del software open source e dei sistemi di infrastrutture critiche. Le organizzazioni impegnate nella ricerca sulla sicurezza in buona fede possono richiedere crediti API e supporto tramite il Cybersecurity Grant Program.
GPT‑5.3‑Codex è disponibile con i piani ChatGPT a pagamento, ovunque sia possibile usare Codex: app, CLI, estensione IDE e web. Stiamo lavorando per rendere disponibile a breve l’accesso sicuro alle API.
Con questo aggiornamento, utilizziamo anche GPT‑5.3‑Codex con prestazioni superiori del 25% per chi utilizza Codex, grazie ai miglioramenti dell’infrastruttura e dello stack di inferenza, che si traducono in interazioni e risultati più rapidi.
GPT‑5.3‑Codex è stato co-progettato, addestrato ed eseguito su sistemi NVIDIA GB200 NVL72. Ringraziamo NVIDIA per la collaborazione.
Con GPT‑5.3‑Codex, Codex va oltre la semplice scrittura di codice e diventa uno strumento per operare su un computer e completare attività end-to-end. Spingendo i limiti di ciò che un agente di programmazione può fare, stiamo ampliando l’ambito dei lavori intellettuali supportati, dalla creazione e distribuzione di software fino alla ricerca, all’analisi e all’esecuzione di attività complesse. Quello che era nato come l’obiettivo di creare il miglior agente di codifica è diventato la base di un collaboratore più generale nel lavoro digitale, capace di ampliare sia chi può creare sia ciò che è possibile realizzare con Codex.
GPT‑5.3‑Codex (xhigh) | GPT‑5.2‑Codex (xhigh) | GPT‑5.2 (xhigh) | |
SWE-Bench Pro (Public) | 56,8% | 56,4% | 55,6% |
Terminal-Bench 2.0 | 77,3% | 64,0% | 62,2% |
OSWorld-Verified | 64,7% | 38,2% | 37,9% |
GDPval (vittorie o pareggi) | 70,9% | - | 70,9% (elevato) |
Sfide Capture-the-Flag di cybersecurity | 77,6% | 67,4% | 67,7% |
SWE-lancer IC Diamond | 81,4% | 76,0% | 74,6% |


