12 febbraio 2026

Ti presentiamo GPT‑5.3‑Codex‑Spark

Un modello ultrarapido per la programmazione in tempo reale con Codex.

Caricamento in corso...

Oggi rendiamo disponibile un’anteprima di ricerca di GPT‑5.3‑Codex‑Spark, una versione più compatta di GPT‑5.3‑Codex e il nostro primo modello progettato per la programmazione in tempo reale. Codex-Spark segna il primo traguardo della nostra collaborazione con Cerebras, che abbiamo annunciato a gennaio⁠. Codex-Spark è ottimizzato per fornire risposte quasi istantanee su hardware a latenza ultra-bassa, erogando oltre 1000 token al secondo e mantenendo un'elevata capacità nelle attività di programmazione reali.

Rendiamo disponibile Codex-Spark su Cerebras in anteprima di ricerca per gli utenti di ChatGPT Pro, così gli sviluppatori possono iniziare a sperimentare fin da subito mentre collaboriamo con Cerebras per ampliare la capacità dei data center, migliorare l’esperienza end-to-end e distribuire modelli di frontiera ancora più grandi.

I nostri modelli di frontiera più recenti hanno dimostrato punti di forza nella gestione di attività di lunga durata, operando in autonomia per ore, giorni o settimane senza intervento. Codex-Spark è il nostro primo modello progettato specificamente per lavorare con Codex in tempo reale: consente modifiche mirate, riorganizza la logica, perfeziona le interfacce e mostra i risultati immediatamente. Con Codex-Spark, Codex supporta ora sia attività ambiziose e prolungate sia il completamento di compiti immediati. Vogliamo imparare da come gli sviluppatori lo utilizzano e integrare i feedback, e nel contempo continuiamo ad ampliare l’accesso.

Al lancio, Codex-Spark ha una finestra di contesto di 128k ed è disponibile solo in modalità testuale. Durante l’anteprima di ricerca, Codex-Spark avrà limiti di utilizzo dedicati e l’uso non verrà conteggiato nei limiti standard. Tuttavia, quando la domanda è alta, potresti vedere un accesso limitato o code temporanee mentre bilanciamo l'affidabilità tra gli utenti.

Velocità e intelligenza

Codex-Spark è ottimizzato per il lavoro interattivo, dove la latenza è importante quanto l’intelligenza. Puoi collaborare con il modello in tempo reale, interrompendolo o reindirizzandolo mentre lavora, e iterare rapidamente con risposte quasi istantanee. Poiché è ottimizzato per la velocità, Codex-Spark mantiene uno stile di lavoro leggero: apporta modifiche minime e mirate e non esegue automaticamente i test, a meno che tu non lo richieda.

Programmazione

Codex-Spark è un modello compatto e altamente capace, ottimizzato per un’inferenza veloce. Su SWE-Bench Pro e Terminal-Bench 2.0, due benchmark che valutano le capacità di ingegneria del software agentico, GPT‑5.3‑Codex‑Spark dimostra prestazioni eccellenti completando le attività in una frazione del tempo rispetto a GPT‑5.3‑Codex.

La durata è stimata come somma di: (1) tempo di generazione dell’output (token di output ÷ velocità di campionamento), (2) tempo di precompilazione (token di precompilazione ÷ velocità di precompilazione), (3) tempo totale di esecuzione degli strumenti e (4) latenza totale di rete.

Miglioramenti della latenza per tutti i modelli

Durante l’addestramento di Codex-Spark è emerso che la velocità del modello è solo una parte dell’equazione per la collaborazione in tempo reale: era necessario ridurre la latenza lungo l’intera pipeline richiesta-risposta. Abbiamo introdotto miglioramenti della latenza end-to-end nella nostra infrastruttura, a beneficio di tutti i modelli. A livello infrastrutturale, abbiamo ottimizzato il flusso delle risposte tra client e server, riscritto componenti chiave dello stack di inferenza e rivisto l’inizializzazione delle sessioni per far apparire prima il primo token visibile e mantenere Codex reattivo durante le iterazioni. Grazie all’introduzione di una connessione WebSocket persistente e a ottimizzazioni mirate nell’API Responses, abbiamo ridotto l’overhead per roundtrip client/server dell’80%, l’overhead per token del 30% e il tempo al primo token del 50%. Il percorso WebSocket è abilitato per Codex-Spark di default e diventerà presto di default per tutti i modelli.

Con tecnologia Cerebras

Codex-Spark funziona su Wafer Scale Engine 3⁠(si apre in una nuova finestra)di Cerebras, un acceleratore IA progettato per l’inferenza ad alta velocità, offrendo a Codex un livello di servizio ottimizzato per la latenza. Abbiamo collaborato con Cerebras per integrare questo percorso a bassa latenza nello stesso stack di produzione utilizzato dal resto della nostra flotta, così da garantire piena compatibilità con Codex e prepararci a supportare modelli futuri.

“Ci entusiasma soprattutto collaborare con OpenAI e con la community di sviluppatori per scoprire cosa rende possibile l’inferenza veloce: nuovi modelli di interazione, nuovi casi d’uso e un’esperienza del modello profondamente diversa. Questa anteprima è solo l'inizio."

— Sean Lie, cofondatore e CTO di Cerebras

Le GPU restano fondamentali nelle nostre pipeline di addestramento e inferenza e offrono token con il miglior rapporto costo-efficacia per utilizzi su larga scala. Cerebras integra questa base eccellendo nei flussi di lavoro che richiedono latenza estremamente bassa, riducendo il ciclo end-to-end e rendendo Codex più reattivo durante le iterazioni. Le GPU e Cerebras possono essere combinati per singoli carichi di lavoro per raggiungere le migliori prestazioni.

Disponibilità e dettagli

Codex-Spark viene lanciato oggi come anteprima di ricerca per gli utenti di ChatGPT Pro nelle versioni più recenti dell'app Codex, della CLI e dell'estensione VS Code. Poiché viene eseguito su hardware specializzato a bassa latenza, l’utilizzo è soggetto a un limite di velocità dedicato, che può variare in base alla domanda durante l’anteprima di ricerca. Inoltre, rendiamo Codex-Spark disponibile nell’API per un gruppo selezionato di partner di design, per capire come gli sviluppatori vogliono integrarlo nei loro prodotti. Amplieremo l’accesso nelle prossime settimane, e nel contempo continuiamo a ottimizzare l’integrazione su carichi di lavoro reali.

Codex-Spark è attualmente disponibile solo in modalità testuale, con una finestra di contesto di 128k, ed è il primo di una famiglia di modelli ultraveloci. Man mano che apprendiamo, insieme alla community di sviluppatori, dove i modelli veloci eccellono nella programmazione, introdurremo ulteriori capacità, tra cui modelli più grandi, finestre di contesto più ampie e input multimodali.

Codex-Spark include lo stesso addestramento alla sicurezza dei nostri modelli principali, compreso quello relativo alla cybersicurezza. Abbiamo valutato Codex-Spark nell’ambito del nostro processo standard di distribuzione, che comprende valutazioni di base delle capacità informatiche e di altre aree, e abbiamo stabilito che non presenta una probabilità plausibile di raggiungere la soglia del nostro Preparedness Framework per un livello elevato di capacità in cybersicurezza o biologia.

Prossimi passi

Codex-Spark è il primo passo verso un Codex con due modalità complementari: ragionamento ed esecuzione su orizzonti più lunghi e collaborazione in tempo reale per iterazioni rapide. Col tempo, le modalità si integreranno: Codex potrà mantenerti in un ciclo interattivo stretto mentre delega il lavoro di lunga durata a sub-agenti in background o distribuisce le attività su più modelli in parallelo quando cerchi ampiezza e velocità, così non dovrai scegliere una sola modalità in anticipo.

Man mano che i modelli diventano più capaci, la velocità di interazione diventa un evidente collo di bottiglia. L’inferenza ultrarapida accorcia quel ciclo, rende Codex più naturale da usare e amplia le possibilità per chiunque voglia trasformare un’idea in un software funzionante.

Autore

OpenAI

Continua a leggere

Visualizza tutto

Ti presentiamo l'app Codex

Prodotto2 feb 2026

Ti presentiamo GPT-5.3-Codex

Prodotto5 feb 2026

Scheda di sistema di GPT-5.3-Codex

Pubblicazione5 feb 2026