Ti presentiamo GPT‑5.2‑Codex
Il modello di codifica agentica più avanzato per l’ingegneria del software professionale e la sicurezza informatica difensiva.
Oggi stiamo distribuendo GPT‑5.2‑Codex, il modello di codifica agentica più avanzato per l’ingegneria del software in contesti complessi. GPT‑5.2‑Codex è una versione di GPT‑5.2 ulteriormente ottimizzata per la codifica agentica in Codex. Offre miglioramenti nel lavoro su orizzonti temporali lunghi grazie alla compattazione del contesto, prestazioni più elevate nelle modifiche di codice su larga scala, come refactoring e migrazioni, un supporto migliorato per gli ambienti Windows e capacità di cybersecurity sensibilmente più avanzate.
Man mano che i nostri modelli avanzano lungo la frontiera dell’intelligenza, osserviamo che questi progressi si traducono anche in aumenti significativi delle capacità in domini specializzati come la cybersecurity. Ad esempio, proprio la scorsa settimana, un ricercatore di sicurezza che utilizzava GPT‑5.1‑Codex‑Max con Codex CLI ha trovato e divulgato in modo responsabile(si apre in una nuova finestra) una vulnerabilità in React che potrebbe portare all'esposizione del codice sorgente.
GPT‑5.2‑Codex ha capacità di cybersecurity più avanzate rispetto a qualsiasi modello che abbiamo distribuito finora. Questi progressi possono rafforzare la sicurezza informatica su larga scala, ma introducono anche nuovi rischi di uso improprio che richiedono un’implementazione attenta. Sebbene GPT‑5.2‑Codex non raggiunga il livello "Alto" di capacità in cybersicurezza secondo il nostro Framework di preparazione, stiamo progettando il nostro approccio di distribuzione tenendo conto della crescita futura delle capacità.
Stiamo distribuendo GPT‑5.2‑Codex oggi, su tutte le superfici di Codex per gli utenti ChatGPT a pagamento, e stiamo lavorando per abilitare in modo sicuro l’accesso a GPT‑5.2‑Codex per gli utenti API nelle prossime settimane. In parallelo, stiamo avviando un programma pilota di accesso controllato, su invito, alle capacità future e a modelli più permissivi, rivolto a professionisti e organizzazioni verificati impegnati in attività di cyberdifesa. Crediamo che questo approccio alla distribuzione bilancerà l'accessibilità con la sicurezza.
GPT‑5.2‑Codex si basa sui punti di forza di GPT‑5.2 nel lavoro professionale che richiede competenze specifiche e su GPT‑5.1‑Codex‑Max e le sue capacità di codifica agentica all'avanguardia e di utilizzo del terminale. GPT‑5.2‑Codex è ora più avanzato nella comprensione di contesti estesi, nell'affidabilità delle chiamate agli strumenti, nella precisione fattuale e nella compattazione nativa, rendendolo un partner più affidabile per le attività di codifica a lungo termine, mantenendo l'efficienza nell'uso dei token nel suo ragionamento.
GPT‑5.2‑Codex raggiunge prestazioni all'avanguardia su SWE-Bench Pro e Terminal-Bench 2.0, benchmark progettati per valutare le prestazioni agentiche su una vasta gamma di attività in ambienti terminali realistici. È anche molto più efficace e affidabile nella codifica basata su agenti in ambienti Windows nativi, sfruttando le capacità introdotte in GPT‑5.1‑Codex‑Max.
Con questi miglioramenti, Codex è più abile nel lavorare su grandi repository durante sessioni prolungate, mantenendo intatto il contesto completo. Può completare in modo più affidabile attività complesse come grandi rifattorizzazioni, migrazioni di codice e costruzione di funzionalità, continuando a iterare senza perdere il filo, anche quando i piani cambiano o i tentativi falliscono.
In SWE-Bench Pro, viene fornito un repository di codice a un modello, che deve generare una patch per risolvere un'attività realistica di ingegneria del software. Terminal-Bench 2.0 è un benchmark per testare gli agenti AI in ambienti terminali autentici. Le attività comprendono la compilazione del codice, l'addestramento dei modelli e la configurazione dei server.
Le capacità visive avanzate consentono a GPT‑5.2‑Codex di interpretare con maggiore precisione screenshot, diagrammi tecnici, grafici e superfici dell’interfaccia utente condivisi durante le sessioni di codifica.
Codex può prendere i mockup di design e tradurli rapidamente in prototipi funzionali, e puoi collaborare con Codex per portare questi prototipi in produzione.
Mockup di design

Prototipo generato da GPT‑5.2‑Codex
Quando monitoriamo le prestazioni in una delle nostre valutazioni principali di cybersecurity nel tempo, notiamo un netto aumento delle capacità a partire da GPT‑5‑Codex, un altro grande aumento con GPT‑5.1‑Codex‑Max e ora un terzo aumento con GPT‑5.2‑Codex. Ci aspettiamo che i prossimi modelli di IA continuino in questa direzione. In previsione dei futuri sviluppi, adottiamo un approccio di pianificazione e valutazione che considera la possibilità che ogni nuovo modello raggiunga livelli elevati di capacità di cybersecurity, come definiti dal nostro Framework di preparazione.(si apre in una nuova finestra) Sebbene GPT‑5.2‑Codex non abbia ancora raggiunto il livello "Alto" di capacità in cybersecurity, ci stiamo preparando per i futuri modelli che supereranno tale soglia. A causa delle aumentate capacità informatiche, abbiamo aggiunto ulteriori misure di protezione nel modello e nel prodotto, che sono descritte nella scheda di sistema.
La valutazione del Capture-the-Flag (CTF) Professionale misura la frequenza con cui il modello riesce a risolvere sfide avanzate e multi-step del mondo reale (che richiedono competenze di livello professionale in cybersecurity) in un ambiente Linux.
La società moderna si fonda sul software, e la sua affidabilità dipende da una solida cybersecurity: mantenere operativi i sistemi critici nei settori bancario, sanitario, delle comunicazioni e dei servizi essenziali, proteggere i dati sensibili e garantire che le persone possano fidarsi del software che utilizzano ogni giorno. Le vulnerabilità possono rimanere inosservate per lungo tempo, e la loro individuazione e risoluzione dipendono spesso dal lavoro di ingegneri e ricercatori di sicurezza indipendenti dotati degli strumenti adeguati.
L'11 dicembre 2025, il team di React ha pubblicato tre vulnerabilità di sicurezza che interessano le app costruite con i React Server Components. Ciò che ha reso questa divulgazione particolarmente significativa non sono state solo le vulnerabilità in sé, ma anche il modo in cui sono state individuate.
Andrew MacPherson, un ingegnere principale della sicurezza presso Privy (una società di Stripe), stava utilizzando GPT‑5.1‑Codex‑Max con Codex CLI e altri agenti di codifica per riprodurre e studiare un'altra vulnerabilità critica di React divulgata la settimana precedente, nota come React2Shell(si apre in una nuova finestra) (CVE-2025-55182(si apre in una nuova finestra)). Il suo obiettivo era valutare quanto efficacemente il modello potesse assistere nella ricerca sulle vulnerabilità in contesti reali.
Inizialmente ha tentato diverse analisi zero-shot, inducendo il modello a esaminare la patch e identificare la vulnerabilità che risolveva. Quando ciò non ha portato risultati, ha cambiato approccio passando a un approccio iterativo con un volume maggiore di prompt. Quando questi approcci non hanno avuto successo, ha guidato Codex attraverso i flussi di lavoro standard di sicurezza difensiva: ha impostato un ambiente di test locale, ha ragionato sulle potenziali superfici di attacco e ha utilizzato il fuzzing per sondare il sistema con input malformati. Mentre cercava di riprodurre il problema originale di React2Shell, Codex ha rilevato comportamenti inattesi che hanno richiesto un’indagine più approfondita. Nel corso di una sola settimana, questo processo ha portato alla scoperta di vulnerabilità precedentemente sconosciute, che sono state segnalate al team di React in modo responsabile.
Questo dimostra come i sistemi avanzati di intelligenza artificiale possano accelerare in modo significativo le attività di cyberdifesa nei software ampiamente utilizzati in contesti reali. Allo stesso tempo, le capacità che aiutano i difensori a muoversi più velocemente possono anche essere sfruttate da malintenzionati.
Man mano che i sistemi agentici diventano più capaci di svolgere attività rilevanti per la sicurezza informatica, stiamo rendendo una priorità fondamentale garantire che questi progressi vengano implementati in modo responsabile, abbinando ogni miglioramento delle capacità a salvaguardie più forti, controlli di accesso più rigidi e una collaborazione continua con la comunità della sicurezza.
I team di sicurezza possono incontrare limitazioni quando cercano di emulare attori di minaccia, analizzare malware a supporto delle attività di mitigazione o testare la resilienza delle infrastrutture critiche. Stiamo sviluppando un progetto pilota di accesso controllato per rimuovere quella frizione per utenti e organizzazioni qualificati, e abilitare i difensori fidati a utilizzare le capacità di IA di frontiera per accelerare la difesa informatica.
Inizialmente, il programma pilota sarà solo su invito per professionisti della sicurezza verificati con un comprovato record di divulgazione responsabile delle vulnerabilità e per organizzazioni con un chiaro caso d'uso professionale nel campo della sicurezza informatica. I partecipanti qualificati avranno accesso ai nostri modelli più potenti per casi d'uso difensivi, per abilitare lavori legittimi a doppio uso.
Se sei un professionista della sicurezza o fai parte di un'organizzazione che svolge attività di sicurezza etica come la ricerca di vulnerabilità o il red-teaming autorizzato, ti invitiamo a esprimere interesse per unirti e a condividere il tuo feedback su cosa vorresti vedere dal programma qui(si apre in una nuova finestra).
GPT‑5.2‑Codex rappresenta un passo avanti nel modo in cui l'IA avanzata può fornire assistenza all'ingegneria del software nel mondo reale e a domini specializzati come la cybersecurity: aiuta sviluppatori e difensori ad affrontare lavori complessi e di lungo termine e rafforza gli strumenti disponibili per la ricerca sulla sicurezza responsabile.
Distribuendo GPT‑5.2‑Codex in modo graduale, abbinando la distribuzione a misure di sicurezza e collaborando strettamente con la comunità della sicurezza, puntiamo a massimizzare l'impatto difensivo riducendo al contempo il rischio di uso improprio. Quanto apprenderemo da questo rilascio guiderà direttamente il modo in cui amplieremo l’accesso nel tempo, man mano che il software e il panorama della cybersicurezza continueranno a evolversi.


