I dag lanserer vi en forhåndsvisning av forskningen med GPT‑5.3‑Codex‑Spark, en mindre versjon av GPT‑5.3‑Codex, og vår første modell designet for koding i sanntid. Codex-Spark er optimalisert for å føles nær umiddelbar – og leverer 15x raskere genereringshastigheter samtidig som den er svært kapabel til kodingsoppgaver i den virkelige verden.
Codex-Spark markerer den første milepælen i partnerskapet vårt med Cerebras, som vi annonserte i januar. Vi deler Codex-Spark som en forhåndsvisning av forskningen med ChatGPT Pro-brukere, slik at utviklere kan begynne å eksperimentere tidlig mens vi samarbeider med Cerebras for å øke datasenterkapasiteten, styrke ende-til-ende-opplevelsen og distribuere vår større banebrytende modell.
Våre nyeste banebrytende modeller har vist spesiell styrke i evnen til å utføre langvarige oppgaver, og jobbe autonomt i timevis, dager eller uker uten inngrep. Codex-Spark er vår første modell designet spesielt for å jobbe med Codex i sanntid – gjøre målrettede endringer, omforme logikk eller finjustere grensesnitt og se resultater umiddelbart. Med Codex-Spark støtter Codex-familien nå både langvarige, ambisiøse oppgaver og det å få arbeid gjort umiddelbart. Vi håper å lære av hvordan utviklere bruker det og gjøre endringer basert på tilbakemelding mens vi fortsetter å utvide tilgangen.
Ved lansering har Codex-Spark et kontekstvindu på 128k og er kun tekstbasert. Under forhåndsvisningen av forskningen vil Codex-Spark ha sine egne bruksgrenser, og bruk vil ikke telle mot standard bruksgrenser. Men når etterspørselen er høy, kan du oppleve tregere tilgang eller en midlertidig kø mens vi balanserer pålitelighet på tvers av brukerne.
Codex-Spark er optimalisert for interaktivt arbeid der latens er like viktig som intelligens. Du kan jobbe med modellen som med en samarbeidspartner i sanntid – avbryt eller omdiriger den mens den jobber, og iterer raskt uten å vente på at en utrulling skal fullføres. Fordi den er konfigurert for å være rask, holder Codex-Spark sin standard arbeidsstil lett: den gjør minimale, målrettede endringer og kjører ikke tester automatisk med mindre du ber den om det.
Codex-Spark er en svært kapabel liten modell optimalisert for rask inferens. På SWE-Bench Pro og Terminal-Bench 2.0, to referansemålinger som evaluerer agentisk programvareutviklingskapasitet, presterer GPT‑5.3‑Codex‑Spark dårligere enn GPT‑5.3‑Codex, men kan utføre oppgaven på en brøkdel av tiden.
Varigheten estimeres som summen av (1) genereringstid for utdata (utdatatokener ÷ samplingshastighet), (2) forhåndsutfyllingstid (forhåndsutfyllingstokener ÷ forhåndsutfyllingshastighet), (3) total verktøykjøringstid, og (4) total nettverksbelastning.
Etter hvert som vi trente Codex-Spark, ble det klart at modellhastighet bare var en del av samarbeid i sanntid – vi måtte også redusere latensen i hele forespørsel-respons-pipelinen. Vi implementerte forbedringer i ende-til-ende latens i selen vår som kommer alle modeller til gode. Under panseret har vi effektivisert hvordan svar strømmer fra klient til server og tilbake, skrevet om viktige deler av inferensstakken vår og omarbeidet hvordan økter initialiseres slik at den første synlige tokenen vises raskere og Codex forblir responsiv når du itererer. Gjennom introduksjonen av en vedvarende WebSocket-tilkobling og målrettede optimaliseringer i Responses API reduserte vi belastning per klient/server tur-retur med 80 %, belastning per token med 30 % og tid til første token med 50 %. Uansett hvilken modell du velger, vil du oppleve en tettere sløyfe gjennom hele Codex-opplevelsen.
Codex-Spark kjører på Cerebras’ Wafer Scale Engine 3(åpnes i et nytt vindu) – en spesialbygd AI-akselerator for høyhastighetsinferens som gir Codex et latensfokusert serveringsnivå. Vi samarbeidet med Cerebras for å legge til denne lav-latensbanen i den samme produksjonsserveringsstakken som resten av flåten vår, slik at den fungerer sømløst på tvers av Codex og gjør oss i stand til å støtte fremtidige modeller.
«Det mest spennende med GPT-5.3-Codex-Spark er vårt samarbeid med OpenAI og utviklerfellesskapet for å finne ut hva rask inferens muliggjør – nye interaksjonsmønstre, nye bruksområder og en fundamentalt annerledes modellopplevelse. Denne forhåndsvisningen er bare begynnelsen.»
GPU-er forblir grunnleggende i våre trenings- og inferenspipelines og gir de mest kostnadseffektive tokener for bred bruk. Cerebras kompletterer dette grunnlaget ved å utmerke seg i arbeidsflyter som krever ekstremt lav latens, og strammer inn sløyfen fra start til slutt slik at Codex føles mer responsiv når du itererer.
Codex-Spark lanseres i dag som en forhåndsvisning av forskningen for alle ChatGPT Pro-brukere i de nyeste versjonene av Codex-appen, CLI og VS Code-utvidelsen. Fordi den kjører på spesialisert maskinvare med lav latens, styres bruken av en separat hastighetsgrense som kan justeres basert på etterspørsel under forhåndsvisningen av forskningen. I tillegg gjør vi Codex-Spark tilgjengelig i API-et for et lite utvalg av designpartnere for å forstå hvordan utviklere ønsker å integrere Codex-Spark i produktene sine. Vi vil utvide tilgangen i løpet av de kommende ukene mens vi fortsetter å justere integrasjonen under reelle arbeidsbelastninger.
Codex-Spark er for øyeblikket kun tekstbasert med et kontekstvindu på 128k og er den første i en familie av ultraraske modeller. Etter hvert som vi lærer mer sammen med utviklerfellesskapet om hvor raske modeller utmerker seg for koding, vil vi introdusere enda flere funksjoner – inkludert større modeller, lengre kontekstlengder og multimodal inndata.
Codex-Spark inkluderer den samme sikkerhetsopplæringen som våre vanlige modeller, inkludert opplæring relevant for cybersikkerhet. Vi evaluerte Codex-Spark som en del av vår standard distribusjon, som inkluderer grunnlinjevurderinger for cyber- og andre kapabiliteter, og fastslo at den ikke har en sannsynlig sjanse til å nå terskelen i vårt Preparedness Framework for høy kapabilitet innen cybersikkerhet.
Codex-Spark er det første steget mot en Codex med to komplementære moduser: resonnering og utførelse med lengre horisont, og samarbeid i sanntid for rask iterasjon. Over tid vil modusene komme sammen – Codex kan holde deg i en tett interaktiv sløyfe mens den delegerer lengre oppgaver til underagenter i bakgrunnen, eller sprer oppgaver til mange modeller parallelt når du ønsker bredde og hastighet, slik at du ikke må velge en enkelt modus på forhånd.
Etter hvert som modeller blir mer funksjonelle, blir interaksjonshastighet en klar flaskehals. Ultrarask inferens strammer inn den sløyfen, noe som gjør Codex mer naturlig å bruke og utvider hva som er mulig for alle som forvandler en idé til fungerende programvare.


