Presentem GPT‑5.3‑Codex‑Spark
Un model ultraràpid per a la codificació en temps real a Codex.
Avui llancem una vista prèvia de recerca de GPT‑5.3‑Codex‑Spark, una versió més petita de GPT‑5.3‑Codex i el nostre primer model dissenyat per a la codificació en temps real. Codex-Spark marca la primera fita de la nostra col·laboració amb Cerebras, que vam anunciar al gener. Codex-Spark està optimitzat per oferir una sensació gairebé instantània quan funciona en maquinari de latència ultrabaixa, amb més de 1000 segments per segon i mantenint alhora una gran capacitat per a tasques reals de codificació.
Compartim Codex-Spark a Cerebras com a vista prèvia de recerca per a usuaris de ChatGPT Pro perquè els desenvolupadors puguin començar a experimentar aviat mentre treballem amb Cerebras per ampliar la capacitat dels centres de dades, reforçar l'experiència d'usuari d'extrem a extrem i desplegar els nostres models d'avantguarda més grans.
Els nostres últims models d'avantguarda han mostrat fortaleses particulars en la seva capacitat per dur a terme tasques de llarga durada, treballant de manera autònoma durant hores, dies o setmanes sense intervenció. Codex-Spark és el nostre primer model dissenyat específicament per treballar amb Codex en temps real: fent edicions específiques, reconfigurant la lògica o refinant interfícies i veient els resultats immediatament. Amb Codex-Spark, Codex ara admet tant tasques ambicioses i de llarga durada com la feina immediata del moment. Esperem aprendre de com el fan servir els desenvolupadors i incorporar comentaris mentre continuem ampliant-ne l'accés.
En el llançament, Codex-Spark té una finestra de context de 128k i només text. Durant la vista prèvia de recerca, Codex-Spark tindrà els seus propis límits de taxa i l'ús no comptarà per als límits de taxa estàndard. Tanmateix, quan la demanda sigui alta, pot ser que vegis accés limitat o cues temporals mentre equilibrem la fiabilitat entre els usuaris.
Codex-Spark està optimitzat per al treball interactiu en què la latència és tan important com la intel·ligència. Pots col·laborar amb el model en temps real, interrompent-lo o redirigint-lo mentre treballa, i iterar ràpidament amb respostes gairebé instantànies. Com que està ajustat per a la velocitat, Codex-Spark manté lleuger el seu estil de treball predeterminat: fa edicions mínimes i específiques i no executa proves automàticament tret que li ho demanis.
Codex-Spark és un model petit molt capaç optimitzat per a una inferència ràpida. A SWE-Bench Pro i Terminal-Bench 2.0, dos punts de referència que avaluen la capacitat d'enginyeria de programari agent, GPT‑5.3‑Codex‑Spark demostra un rendiment sòlid mentre completa les tasques en una fracció del temps en comparació amb GPT‑5.3‑Codex.
La durada s'estima com la suma de (1) el temps de generació de sortida (segments de sortida ÷ velocitat de mostreig), (2) el temps de preompliment (segments de preompliment ÷ velocitat de preompliment), (3) el temps total d'execució d'eines i (4) la sobrecàrrega total de xarxa.
Mentre entrenàvem Codex-Spark, va quedar clar que la velocitat del model només era una part de l'equació per a la col·laboració en temps real: també havíem de reduir la latència a tot el pipeline complet de petició-resposta. Vam implementar millores de latència d'extrem a extrem en el nostre entorn de prova que beneficiaran tots els models. Internament, vam simplificar com es transmeten les respostes del client al servidor i de tornada, vam reescriure peces clau de la nostra pila d'inferència i vam refer la manera com s'inicialitzen les sessions perquè el primer segment visible aparegui abans i Codex continuï responent mentre iteres. Amb la introducció d'una connexió WebSocket persistent i optimitzacions específiques dins de l'API Responses, vam reduir la sobrecàrrega per trajecte d'anada i tornada client/servidor en un 80 %, la sobrecàrrega per segment en un 30 % i el temps fins al primer segment en un 50 %. El camí WebSocket està activat per defecte per a Codex-Spark i aviat serà el predeterminat per a tots els models.
Codex-Spark s'executa a Wafer Scale Engine 3(s'obre en una finestra nova) de Cerebras, un accelerador d'IA creat expressament per a inferència d'alta velocitat que proporciona a Codex un nivell de servei centrat en la latència. Ens vam associar amb Cerebras per afegir aquest camí de baixa latència a la mateixa pila de servei de producció que la resta de la nostra flota, de manera que funcioni sense friccions a tot Codex i ens prepari per donar suport a models futurs.
«El que més ens entusiasma de GPT-5.3-Codex-Spark és col·laborar amb OpenAI i la comunitat de desenvolupadors per descobrir què fa possible la inferència ràpida: nous patrons d'interacció, nous casos d'ús i una experiència de model fonamentalment diferent. Aquesta vista prèvia només és el començament.»
Les GPU continuen sent fonamentals en els nostres pipelines d'entrenament i inferència i ofereixen els segments més rendibles per a un ús ampli. Cerebras complementa aquesta base destacant en fluxos de treball que exigeixen una latència extremadament baixa, escurçant el bucle d'extrem a extrem perquè Codex se senti més reactiu mentre iteres. Les GPU i Cerebras es poden combinar en càrregues de treball individuals per aconseguir el millor rendiment.
Codex-Spark comença a desplegar-se avui com a vista prèvia de recerca per a usuaris de ChatGPT Pro a les darreres versions de l'app Codex, la CLI i l'extensió de VS Code. Com que s'executa en maquinari especialitzat de baixa latència, l'ús es regeix per un límit de taxa independent que pot ajustar-se segons la demanda durant la vista prèvia de recerca. A més, posem Codex-Spark a disposició a l'API per a un petit grup de socis de disseny per entendre com els desenvolupadors volen integrar Codex-Spark als seus productes. Ampliarem l'accés durant les properes setmanes mentre continuem ajustant la nostra integració sota càrregues de treball reals.
Actualment, Codex-Spark només és de text amb una finestra de context de 128k i és el primer d'una família de models ultraràpids. A mesura que aprenguem més amb la comunitat de desenvolupadors sobre on destaquen els models ràpids per a la codificació, introduirem encara més capacitats, inclosos models més grans, longituds de context més llargues i entrada multimodal.
Codex-Spark inclou el mateix entrenament de seguretat que els nostres models principals, inclòs l'entrenament rellevant per a la ciberseguretat. Vam avaluar Codex-Spark com a part del nostre procés estàndard de desplegament, que inclou avaluacions de referència per a la ciberseguretat i altres capacitats, i vam determinar que no té una probabilitat plausible d'assolir el llindar del nostre Entorn de treball de preparació per a alta capacitat en ciberseguretat o biologia.
Codex-Spark és el primer pas cap a un Codex amb dos modes complementaris: raonament i execució a més llarg termini, i col·laboració en temps real per a una iteració ràpida. Amb el temps, els modes es fusionaran: Codex et podrà mantenir en un bucle interactiu estret mentre delega treballs de més durada a subagents en segon pla, o reparteix tasques a molts models en paral·lel quan vulguis amplitud i velocitat, perquè no hagis d'escollir un únic mode des del principi.
A mesura que els models es tornen més capaços, la velocitat d'interacció es converteix en un coll d'ampolla evident. La inferència ultraràpida escurça aquest bucle, fent que Codex sigui més natural d'utilitzar i ampliant el que és possible per a qualsevol persona que converteixi una idea en programari funcional.


