Vai al contenuto principale
OpenAI

19 novembre 2025

ProdottoVersione

Creare di più con GPT‑5.1‑Codex‑Max

Caricamento in corso...

Introduzione

Stiamo presentando GPT‑5.1‑Codex‑Max, il nostro nuovo modello di coding agentico di frontiera, ora disponibile in Codex.  GPT‑5.1‑Codex‑Max è un aggiornamento del nostro modello di ragionamento di base, addestrato su attività agentiche che spaziano dall’ingegneria del software alla matematica, alla ricerca e oltre. GPT‑5.1‑Codex‑Max è più veloce, più intelligente e più efficiente nell’uso dei token in ogni fase del ciclo di sviluppo, un nuovo passo verso un partner di coding realmente affidabile.

GPT‑5.1‑Codex‑Max è progettato per lavori lunghi e dettagliati. È il nostro primo modello addestrato in modo nativo per operare su più finestre di contesto attraverso un processo chiamato compattazione, lavorando in modo coerente su milioni di token in un'unica attività. Questo apre la strada a refactor su scala di progetto, sessioni di debug approfondite e cicli agentici di diverse ore.

GPT‑5.1‑Codex‑Max è disponibile oggi in Codex per l’uso nella CLI, nell’estensione IDE, nel cloud e nella code review. L’accesso via API arriverà presto.

Capacità di coding all'avanguardia

GPT‑5.1‑Codex‑Max è stato addestrato su attività reali di software engineering, come la creazione di PR, la code review, la programmazione frontend e le attività di Q&A, e supera i nostri modelli precedenti in molte valutazioni di coding di frontiera. I progressi del modello nei benchmark si accompagnano a miglioramenti nell’uso reale: GPT‑5.1‑Codex‑Max è il primo modello che abbiamo addestrato per operare in ambienti Windows, e il suo training ora include attività progettate per renderlo un collaboratore migliore nella CLI di Codex.

* Tutte le valutazioni sono state eseguite compaction attivata al livello di ragionamento Extra High
* Terminal-Bench2.0 è stato eseguito con Codex CLI nell'
harness Laude Institute Harbor(si apre in una nuova finestra)

Velocità e costi

GPT‑5.1‑Codex‑Max mostra miglioramenti significativi nell’efficienza dei token grazie a un ragionamento più efficace. Su SWE-bench Verified, GPT‑5.1‑Codex‑Max con uno sforzo di ragionamento “medium” ottiene prestazioni migliori rispetto a GPT‑5.1‑Codex con lo stesso livello di ragionamento, utilizzando il 30% di thinking token in meno. Per le attività non sensibili alla latenza, introduciamo anche un nuovo livello di ragionamento Extra High (“xhigh”), in grado di pensare per un periodo ancora più lungo per fornire risposte migliori. Continuiamo comunque a consigliare il livello medium come impostazione standard per la maggior parte delle attività.

Ci aspettiamo che i miglioramenti nell’efficienza dei token si traducano in risparmi concreti per gli sviluppatori.

Ad esempio, GPT‑5.1‑Codex‑Max è in grado di produrre design frontend di alta qualità con funzionalità ed estetica simili, ma a un costo molto inferiore rispetto a GPT‑5.1‑Codex.

Prompt: Genera un’app browser standalone che mostri una sandbox CartPole RL con grafica canvas, un piccolo controller policy-gradient, metriche e un visualizzatore di rete SVG.

Funzioni

  • Devi essere in grado di addestrare effettivamente una policy per migliorare il modello nel compito del cart-pole
  • Visualizzatore per le attivazioni/pesi quando il modello è in fase di addestramento o in inferenza
  • Passaggi nell'episodio, ricompense in questo episodio
  • Ultimo tempo di sopravvivenza e miglior tempo di sopravvivenza in passi

Salva su index.html

Attività di lunga durata

La compaction permette a GPT‑5.1‑Codex‑Max di completare attività che prima sarebbero fallite a causa dei limiti della finestra di contesto, come refactor complessi o cicli agentici di lunga durata, riducendo la cronologia ma preservando il contesto più rilevante su periodi di tempo prolungati. Nelle applicazioni Codex, GPT‑5.1‑Codex‑Max compatta automaticamente la sessione quando si avvicina al limite della finestra di contesto, ottenendo così una nuova finestra pulita. Il processo viene ripetuto finché l'attività non è completata.

La capacità di mantenere un lavoro coerente per periodi prolungati è una componente fondamentale nel percorso verso sistemi di IA più generali e affidabili. GPT‑5.1‑Codex‑Max può lavorare in modo indipendente per diverse ore consecutive. Nelle nostre valutazioni interne, abbiamo osservato GPT‑5.1‑Codex‑Max lavorare su attività per oltre 24 ore. Continua a iterare sull’implementazione, corregge gli errori dei test e, alla fine, consegna un risultato corretto.

In questo esempio, GPT‑5.1‑Codex‑Max sta rifattorizzando in modo indipendente il repository open source Codex CLI.

Man mano che la lunghezza della sessione si avvicina alla finestra di contesto del modello, essa si compatta automaticamente per liberare spazio e permettere di continuare l'attività senza perdere i progressi.

Il video è stato tagliato e accelerato per chiarezza.

Sviluppare agenti IA sicuri e affidabili

GPT‑5.1‑Codex‑Max si comporta nettamente meglio nelle valutazioni che richiedono ragionamento complesso su compiti che durano a lungo. Poiché riesce a lavorare in modo coerente su più context window usando la compaction, il modello ottiene risultati migliori in sfide come coding a lungo termine e cybersecurity. Abbiamo analizzato i risultati delle prestazioni del modello in valutazioni interne ed esterne nella scheda di sistema.

GPT‑5.1‑Codex‑Max non raggiunge il livello High in Cybersecurity secondo il nostro Framework di preparazione , ma è il modello più avanzato che abbiamo distribuito finora in quest’area, e le capacità agentiche di cybersecurity stanno evolvendo rapidamente. Per questo stiamo adottando misure per prepararci a livelli High in ambito cybersecurity, rafforzando le nostre protezioni e garantendo che i team di sicurezza possano beneficiare di queste capacità tramite programmi come Aardvark.

Quando abbiamo lanciato GPT‑5‑Codex, abbiamo introdotto un monitoraggio dedicato alla cybersecurity per rilevare e bloccare attività malevole. Anche se non abbiamo osservato un aumento significativo di attacchi su larga scala, stiamo preparando ulteriori misure di mitigazione per le capacità più avanzate. I nostri team hanno già interrotto le operazioni informatiche che tentavano di usare in modo improprio i nostri modelli, e le attività sospette vengono sottoposte a revisione tramite i nostri sistemi di monitoraggio delle policy.

Codex è progettato per funzionare in una sandbox sicura per impostazione predefinita: la scrittura dei file è limitata alla sua area di lavoro, e l’accesso alla rete è disattivato, salvo attivazione da parte dello sviluppatore. Consigliamo di mantenere Codex in questa modalità con accesso limitato, perché abilitare internet o la web search può introdurre rischi di prompt injection da contenuti non affidabili.

Man mano che Codex diventa più capace di gestire attività prolungate, diventa sempre più importante che gli sviluppatori rivedano il lavoro dell’agente prima di apportare modifiche o distribuire in produzione. Con questo scopo, Codex produce log del terminale e riporta le chiamate agli strumenti e i risultati dei test. Anche se le sue revisioni di codice riducono il rischio di portare in produzione bug generati dal modello o dalle persone, Codex va considerato un revisore aggiuntivo, non un sostituto delle revisioni umane.

Le competenze di cybersecurity possono essere usate sia per la difesa sia per l’attacco, quindi adottiamo un approccio di rilascio iterativo: impariamo dall’uso reale, aggiorniamo le misure di sicurezza e manteniamo strumenti difensivi fondamentali come la scansione automatica delle vulnerabilità e il supporto alla loro risoluzione.

Disponibilità

GPT‑5.1‑Codex‑Max è disponibile in Codex con i piani ChatGPT Plus, Pro, Business, Edu ed Enterprise. Per dettagli su come funzionano i limiti di utilizzo per il tuo piano, consulta i nostri documenti(si apre in una nuova finestra).

Per gli sviluppatori che utilizzano Codex CLI tramite Chiave API, abbiamo in piano di rendere disponibile GPT‑5.1‑Codex‑Max disponibile nell'API a breve.

A partire da oggi, GPT‑5.1‑Codex‑Max sostituirà GPT‑5.1‑Codex come modello predefinito nelle superfici di Codex. A differenza di GPT‑5.1, che è un modello generico, ti consigliamo di utilizzare GPT‑5.1‑Codex‑Max e la famiglia di modelli Codex solo per attività di codifica agentica in ambienti Codex o simili a Codex.

Conclusione

GPT‑5.1‑Codex‑Max mostra quanto i modelli siano progrediti nel sostenere attività di coding che durano a lungo, nel gestire workflow complessi e nel produrre implementazioni di alta qualità usando molti meno token. Abbiamo rilevato che, combinato con gli aggiornamenti costanti a CLI, estensione IDE, integrazione cloud e strumenti di revisione del codice, il modello porta a una produttività ingegneristica nettamente superiore: internamente, il 95% degli ingegneri OpenAI usa Codex ogni settimana e da quando lo hanno adottato inviano circa il 70% in più di pull request. Mentre spingiamo più avanti i confini di ciò che gli agenti possono fare, siamo curiosi di vedere cosa realizzerai con loro.

Appendice: valutazioni del modello

GPT‑5.1‑Codex (high)

GPT‑5.1‑Codex‑Max (xhigh)

SWE-bench Verificato (n=500)

73,7%

77,9%

SWE-Lancer IC SWE

66,3%

79,9%

Terminal-Bench 2.0

52,8%

58,1%

Autore

OpenAI