Oggi rendiamo disponibile un’anteprima di ricerca di GPT‑5.3‑Codex‑Spark, una versione più compatta di GPT‑5.3‑Codex e il nostro primo modello progettato per la programmazione in tempo reale. Codex-Spark segna il primo traguardo della nostra collaborazione con Cerebras, che abbiamo annunciato a gennaio. Codex-Spark è ottimizzato per fornire risposte quasi istantanee su hardware a latenza ultra-bassa, erogando oltre 1000 token al secondo e mantenendo un'elevata capacità nelle attività di programmazione reali.
Rendiamo disponibile Codex-Spark su Cerebras in anteprima di ricerca per gli utenti di ChatGPT Pro, così gli sviluppatori possono iniziare a sperimentare fin da subito mentre collaboriamo con Cerebras per ampliare la capacità dei data center, migliorare l’esperienza end-to-end e distribuire modelli di frontiera ancora più grandi.
I nostri modelli di frontiera più recenti hanno dimostrato punti di forza nella gestione di attività di lunga durata, operando in autonomia per ore, giorni o settimane senza intervento. Codex-Spark è il nostro primo modello progettato specificamente per lavorare con Codex in tempo reale: consente modifiche mirate, riorganizza la logica, perfeziona le interfacce e mostra i risultati immediatamente. Con Codex-Spark, Codex supporta ora sia attività ambiziose e prolungate sia il completamento di compiti immediati. Vogliamo imparare da come gli sviluppatori lo utilizzano e integrare i feedback, e nel contempo continuiamo ad ampliare l’accesso.
Al lancio, Codex-Spark ha una finestra di contesto di 128k ed è disponibile solo in modalità testuale. Durante l’anteprima di ricerca, Codex-Spark avrà limiti di utilizzo dedicati e l’uso non verrà conteggiato nei limiti standard. Tuttavia, quando la domanda è alta, potresti vedere un accesso limitato o code temporanee mentre bilanciamo l'affidabilità tra gli utenti.
Codex-Spark è ottimizzato per il lavoro interattivo, dove la latenza è importante quanto l’intelligenza. Puoi collaborare con il modello in tempo reale, interrompendolo o reindirizzandolo mentre lavora, e iterare rapidamente con risposte quasi istantanee. Poiché è ottimizzato per la velocità, Codex-Spark mantiene uno stile di lavoro leggero: apporta modifiche minime e mirate e non esegue automaticamente i test, a meno che tu non lo richieda.
Codex-Spark è un modello compatto e altamente capace, ottimizzato per un’inferenza veloce. Su SWE-Bench Pro e Terminal-Bench 2.0, due benchmark che valutano le capacità di ingegneria del software agentico, GPT‑5.3‑Codex‑Spark dimostra prestazioni eccellenti completando le attività in una frazione del tempo rispetto a GPT‑5.3‑Codex.
La durata è stimata come somma di: (1) tempo di generazione dell’output (token di output ÷ velocità di campionamento), (2) tempo di precompilazione (token di precompilazione ÷ velocità di precompilazione), (3) tempo totale di esecuzione degli strumenti e (4) latenza totale di rete.
Durante l’addestramento di Codex-Spark è emerso che la velocità del modello è solo una parte dell’equazione per la collaborazione in tempo reale: era necessario ridurre la latenza lungo l’intera pipeline richiesta-risposta. Abbiamo introdotto miglioramenti della latenza end-to-end nella nostra infrastruttura, a beneficio di tutti i modelli. A livello infrastrutturale, abbiamo ottimizzato il flusso delle risposte tra client e server, riscritto componenti chiave dello stack di inferenza e rivisto l’inizializzazione delle sessioni per far apparire prima il primo token visibile e mantenere Codex reattivo durante le iterazioni. Grazie all’introduzione di una connessione WebSocket persistente e a ottimizzazioni mirate nell’API Responses, abbiamo ridotto l’overhead per roundtrip client/server dell’80%, l’overhead per token del 30% e il tempo al primo token del 50%. Il percorso WebSocket è abilitato per Codex-Spark di default e diventerà presto di default per tutti i modelli.
Codex-Spark funziona su Wafer Scale Engine 3(si apre in una nuova finestra)di Cerebras, un acceleratore IA progettato per l’inferenza ad alta velocità, offrendo a Codex un livello di servizio ottimizzato per la latenza. Abbiamo collaborato con Cerebras per integrare questo percorso a bassa latenza nello stesso stack di produzione utilizzato dal resto della nostra flotta, così da garantire piena compatibilità con Codex e prepararci a supportare modelli futuri.
“Ci entusiasma soprattutto collaborare con OpenAI e con la community di sviluppatori per scoprire cosa rende possibile l’inferenza veloce: nuovi modelli di interazione, nuovi casi d’uso e un’esperienza del modello profondamente diversa. Questa anteprima è solo l'inizio."
Le GPU restano fondamentali nelle nostre pipeline di addestramento e inferenza e offrono token con il miglior rapporto costo-efficacia per utilizzi su larga scala. Cerebras integra questa base eccellendo nei flussi di lavoro che richiedono latenza estremamente bassa, riducendo il ciclo end-to-end e rendendo Codex più reattivo durante le iterazioni. Le GPU e Cerebras possono essere combinati per singoli carichi di lavoro per raggiungere le migliori prestazioni.
Codex-Spark viene lanciato oggi come anteprima di ricerca per gli utenti di ChatGPT Pro nelle versioni più recenti dell'app Codex, della CLI e dell'estensione VS Code. Poiché viene eseguito su hardware specializzato a bassa latenza, l’utilizzo è soggetto a un limite di velocità dedicato, che può variare in base alla domanda durante l’anteprima di ricerca. Inoltre, rendiamo Codex-Spark disponibile nell’API per un gruppo selezionato di partner di design, per capire come gli sviluppatori vogliono integrarlo nei loro prodotti. Amplieremo l’accesso nelle prossime settimane, e nel contempo continuiamo a ottimizzare l’integrazione su carichi di lavoro reali.
Codex-Spark è attualmente disponibile solo in modalità testuale, con una finestra di contesto di 128k, ed è il primo di una famiglia di modelli ultraveloci. Man mano che apprendiamo, insieme alla community di sviluppatori, dove i modelli veloci eccellono nella programmazione, introdurremo ulteriori capacità, tra cui modelli più grandi, finestre di contesto più ampie e input multimodali.
Codex-Spark include lo stesso addestramento alla sicurezza dei nostri modelli principali, compreso quello relativo alla cybersicurezza. Abbiamo valutato Codex-Spark nell’ambito del nostro processo standard di distribuzione, che comprende valutazioni di base delle capacità informatiche e di altre aree, e abbiamo stabilito che non presenta una probabilità plausibile di raggiungere la soglia del nostro Preparedness Framework per un livello elevato di capacità in cybersicurezza o biologia.
Codex-Spark è il primo passo verso un Codex con due modalità complementari: ragionamento ed esecuzione su orizzonti più lunghi e collaborazione in tempo reale per iterazioni rapide. Col tempo, le modalità si integreranno: Codex potrà mantenerti in un ciclo interattivo stretto mentre delega il lavoro di lunga durata a sub-agenti in background o distribuisce le attività su più modelli in parallelo quando cerchi ampiezza e velocità, così non dovrai scegliere una sola modalità in anticipo.
Man mano che i modelli diventano più capaci, la velocità di interazione diventa un evidente collo di bottiglia. L’inferenza ultrarapida accorcia quel ciclo, rende Codex più naturale da usare e amplia le possibilità per chiunque voglia trasformare un’idea in un software funzionante.


