Gå direkt till huvudinnehåll
OpenAI

12 februari 2026

ProduktLanseringFöretag

Vi introducerar GPT‑5.3‑Codex‑Spark

En ultrasnabb modell för kodning i Codex i realtid.

Laddar …

Idag släpper vi en forskningsförhandsvisning av GPT‑5.3‑Codex‑Spark, en mindre version av GPT‑5.3‑Codex och vår första modell som är utformad för kodning i realtid. Codex-Spark är optimerad för att kännas nästan omedelbar, den erbjuder 15 gånger snabbare genereringshastigheter samtidigt som den är mycket kapabel för verkliga kodningsuppgifter.

Codex-Spark är den första milstolpen i vårt partnerskap med Cerebras som vi meddelade i januari. Vi delar Codex-Spark som en förhandsvisning med ChatGPT Pro-användare så att utvecklare kan börja experimentera medan vi arbetar med Cerebras på att öka datacenterkapaciteten, förbättra helhetsupplevelsen och driftsätta vår större frontlinjemodell.

Våra senaste banbrytande modeller har visat sig vara särskilt bra på att utföra långvariga uppgifter och arbeta autonomt i timmar, dagar eller veckor utan ingripande. Codex-Spark är vår första modell som är utformad specifikt för att arbeta med Codex i realtid—göra riktade ändringar, omforma logik eller förfina gränssnitt och se resultat omedelbart. Med Codex-Spark kan Codex-familjen nu hantera både långvariga och ambitiösa uppgifter samt arbete som behöver utföras omedelbart. Vi hoppas kunna lära oss hur utvecklare använder den och ta del av feedback i takt med att vi fortsätter arbeta på att utöka åtkomsten.

Vid lanseringen har Codex-Spark ett kontextfönster på 128k och är endast textbaserad. Under förhandsvisningen kommer Codex-Spark att ha sina egna frekvensgränser och användningen kommer inte att räknas mot standardfrekvensgränser. När efterfrågan är stor kan du dock märka av långsammare åtkomst eller tillfällig köbildning när vi balanserar tillförlitligheten mellan användare.

Snabbhet och intelligens

Codex-Spark är optimerad för interaktivt arbete där latens är lika viktigt som intelligens. Du kan arbeta med modellen ungefär som med en samarbetspartner i realtid. Du kan avbryta eller omdirigera den när den arbetar och snabbt iterera utan att behöva vänta på att en utrullning ska slutföras. Eftersom den är optimerad för hastighet är standardarbetsstilen hos Codex-Spark enkel: den gör minimala, riktade ändringar och kör inte tester automatiskt om du inte ber om det.

Kodning

Codex-Spark är en mycket kapabel och liten modell som är optimerad för snabb inferens. På SWE-Bench Pro och Terminal-Bench 2.0 (två riktmärken som utvärderar agentisk förmåga inom mjukvaruutveckling) presterar GPT‑5.3‑Codex‑Spark sämre än GPT‑5.3‑Codex men kan utföra uppgiften på en bråkdel av tiden.

Varaktigheten uppskattas som summan av (1) genereringstid för utdata (utdatatokens ÷ samplingshastighet), (2) förfyllningstid (förfyllningstokens ÷ förfyllningshastighet), (3) total verktygskörningstid och (4) total nätverksanvändning.

Latensförbättringar för alla modeller

När vi tränade Codex-Spark blev det uppenbart att modellens hastighet bara var en del av ekvationen för samarbete i realtid, vi behövde även minska latensen i hela begäran-svar-pipelinen. Vi implementerade heltäckande latensförbättringar som gynnar alla modeller. Vi har effektiviserat hur svar strömmas från klienten till servern och tillbaka, skrivit om viktiga delar av vår inferensstack och omarbetat hur sessioner initieras så att den första synliga token visas snabbare och Codex förblir responsiv när du itererar. Genom introduktionen av en permanent WebSocket-anslutning och riktade optimeringar i Responses API minskade vi overhead per klient/server-tur och retur med 80 %, overhead per token med 30 % och time-to-first-token med 50 %. Oavsett vilken modell du väljer kommer du att uppleva en stramare loop genom hela Codex-upplevelsen.

Powered by Cerebras

Codex-Spark körs på Cerebras Wafer Scale Engine 3(öppnas i ett nytt fönster)—en specialbyggd AI-accelerator för höghastighetsinferens som ger Codex ett latensprioriterat serveringslager. Vi samarbetade med Cerebras för att lägga till denna låglatensvägen i samma produktionsserverstack som resten av vår flotta så att den fungerar sömlöst över Codex och förbereder oss på att stödja framtida modeller.

"Det som lockar mest med GPT-5.3-Codex-Spark är samarbetet med OpenAI och gemenskapen av utvecklare för att upptäcka vad snabb inferens möjliggör. Nya interaktionsmönster, nya användningsfall och en fundamentalt annorlunda modellupplevelse." Denna förhandsvisning är bara början.
— Sean Lie, medgrundare och teknikchef på Cerebras

GPU:er förblir grunden i våra tränings- och inferenspipelines och levererar de mest kostnadseffektiva tokens för bred användning. Cerebras kompletterar den grunden genom att utmärka sig i arbetsflöden som kräver extremt låg latens vilket stramar åt end-to-end-loopen så att Codex känns mer responsiv när du itererar.

Tillgänglighet och detaljer

Codex-Spark lanseras idag som en förhandsvisning för alla ChatGPT Pro-användare i de senaste versionerna av Codex-appen, CLI och VS Code-tillägget. Eftersom den körs på specialiserad hårdvara med låg latens styrs användningen av en separat hastighetsbegränsning som kan justeras baserat på efterfrågan under förhandsvisningen. Dessutom gör vi Codex-Spark tillgänglig i API:n för en liten grupp designpartners för att få en förståelse för hur utvecklare vill integrera Codex-Spark i sina produkter. Vi kommer att utöka åtkomsten under de kommande veckorna medan vi fortsätter att justera vår integration under verkliga arbetsbelastningar.

Codex-Spark är för närvarande endast textbaserad med ett kontextfönster på 128k och är den första i en familj av ultrasnabba modeller. I takt med att vi tillsammans med gemenskapen av utvecklare lär oss mer om vart snabba modeller utmärker sig inom kodning kommer vi att introducera ännu fler funktioner, inklusive större modeller, längre kontextlängder och multimodal indata.

Codex-Spark inkluderar samma säkerhetsutbildning som våra huvudmodeller, inklusive utbildning som är relevant för cybersäkerhet. Vi utvärderade Codex-Spark som en del av vår standardiserade implementeringsprocess som inkluderar baslinjeutvärderingar för cyber- och andra förmågor och fastställde att den förmodligen inte kommer att nå vår Preparedness Framework-tröskel för hög kapacitet inom cybersäkerhet.

Vad händer härnäst?

Codex-Spark är det första steget mot en Codex med två kompletterande lägen: längre tidshorisont för resonemang och exekvering samt samarbete i realtid för snabb iteration. Med tiden kommer lägena att smälta samman, Codex kan hålla dig i en tät interaktiv loop samtidigt som den delegerar mer långvarigt arbete till underagenter i bakgrunden eller sprider ut uppgifter till flera modeller parallellt om önskar bredd och hastighet så att du inte behöver välja ett enda läge i förväg.

I takt med att modeller blir mer kapabla blir interaktionshastigheten en tydlig flaskhals. Ultrasnabb inferens stramar åt processen och får Codex att kännas mer naturlig att använda och utökar möjligheterna för alla som förvandlar en idé till fungerande programvara.

Författare

OpenAI