12 februari 2026

Introductie van GPT‑5.3‑Codex‑Spark

Een ultrasnel model voor realtime programmeren in Codex.

Bezig met laden...

Vandaag presenteren we een onderzoeksvoorvertoning van GPT‑5.3‑Codex‑Spark, een kleinere versie van GPT‑5.3‑Codex, en ons eerste model dat is ontworpen voor realtime coderen. Codex-Spark markeert de eerste mijlpaal in ons partnerschap met Cerebras, dat we in januari hebben aangekondigd⁠. Codex-Spark is geoptimaliseerd om vrijwel direct te reageren wanneer het wordt uitgevoerd op hardware met ultralage latentie; het levert meer dan 1.000 tokens per seconde en blijft zeer geschikt voor programmeertaken in de praktijk.

We delen Codex-Spark op Cerebras als een onderzoekspreview met ChatGPT Pro-gebruikers, zodat ontwikkelaars vroeg kunnen experimenteren terwijl we samen met Cerebras werken aan het opschalen van datacentercapaciteit, het verbeteren van de end-to-end gebruikerservaring en het uitrollen van onze grotere grensverleggende modellen.

Onze nieuwste grensverleggende modellen hebben bijzondere sterke punten getoond in hun vermogen om langdurige taken uit te voeren, waarbij ze autonoom uren, dagen of weken kunnen werken zonder tussenkomst. Codex-Spark is ons eerste model dat specifiek is ontworpen voor het werken met Codex in real-time—het maken van gerichte aanpassingen, het herstructureren van logica of het verfijnen van interfaces en de resultaten direct zien. Met Codex-Spark ondersteunt Codex nu zowel langlopende, ambitieuze taken als werk dat direct kan worden uitgevoerd. We hopen te leren van hoe ontwikkelaars het gebruiken en feedback te integreren terwijl we de toegang blijven uitbreiden.

Bij de lancering heeft Codex-Spark een contextvenster van 128k en is het alleen tekst. Tijdens de onderzoeksfase zal Codex-Spark zijn eigen volumelimieten hebben en zal het gebruik niet meetellen voor de standaardvolumelimieten. Echter, wanneer de vraag hoog is, kun je beperkte toegang of tijdelijke wachtrijen ervaren terwijl we de betrouwbaarheid voor alle gebruikers in balans houden.

Snelheid en intelligentie

Codex-Spark is geoptimaliseerd voor interactief werk waarbij latentie even belangrijk is als intelligentie. Je kunt in real-time met het model samenwerken, het onderbreken of bijsturen terwijl het werkt, en snel itereren met bijna onmiddellijke reacties. Omdat het is afgestemd op snelheid, houdt Codex-Spark zijn standaard werkwijze licht: het maakt minimale, gerichte bewerkingen en voert niet automatisch tests uit, tenzij je erom vraagt.

Programmeren

Codex-Spark is een zeer capabel klein model dat geoptimaliseerd is voor snelle inferentie. Op SWE-Bench Pro en Terminal-Bench 2.0, twee benchmarks die de capaciteit van agentic software-engineering evalueren, toont GPT‑5.3‑Codex‑Spark sterke prestaties en voltooit de taken in een fractie van de tijd in vergelijking met GPT‑5.3‑Codex.

De duur wordt geschat als de som van (1) de tijd voor het genereren van output (output tokens ÷ samplingsnelheid), (2) prefilltijd (prefill tokens ÷ prefill-snelheid), (3) totale uitvoeringstijd van tools en (4) totale netwerkoverhead.

Verbeteringen in latentie voor alle modellen

Terwijl we Codex-Spark trainden, werd het duidelijk dat de snelheid van het model slechts een deel van de vergelijking was voor realtime samenwerking—ook moesten we de latentie in de volledige request-response-pijplijn verminderen. We hebben end-to-end latentieverbeteringen in ons systeem geïmplementeerd die alle modellen ten goede zullen komen. Onder de motorkap hebben we gestroomlijnd hoe reacties van client naar server en terug stromen, belangrijke onderdelen van onze inferentiestack herschreven en de manier waarop sessies worden geïnitialiseerd herzien, zodat het eerste zichtbare token sneller verschijnt en Codex responsief blijft terwijl je iteraties uitvoert. Door de introductie van een persistente WebSocket-verbinding en gerichte optimalisaties binnen de Responses API hebben we de overhead per client/server-roundtrip met 80% verminderd, de overhead per token met 30% en de tijd-tot-eerste-token met 50%. Het WebSocket-path is standaard ingeschakeld voor Codex-Spark en zal binnenkort de standaard worden voor alle modellen.

Mogelijk gemaakt door Cerebras

Codex-Spark draait op de Wafer Scale Engine 3⁠(opent in een nieuw venster)van Cerebras, een speciaal gebouwde AI-accelerator voor snelle inferentie die Codex een latency-first bedieningslaag biedt. We hebben samengewerkt met Cerebras om dit pad met lage latentie toe te voegen aan dezelfde productie-servingstack als de rest van onze vloot, zodat het naadloos werkt binnen Codex en ons voorbereidt op de ondersteuning van toekomstige modellen.

“Wat ons het meest enthousiast maakt over GPT-5.3-Codex-Spark is de samenwerking met OpenAI en de ontwikkelaarscommunity om te ontdekken wat snelle inferentie mogelijk maakt: nieuwe interactiepatronen, nieuwe use cases en een fundamenteel andere modelervaring Deze preview is nog maar het begin.”

— Sean Lie, CTO en medeoprichter van Cerebras

GPU's blijven essentieel in onze trainings- en inferentiepijplijnen en bieden de meest kosteneffectieve tokens voor algemeen gebruik. Cerebras vult die basis aan door uit te blinken in workflows die een extreem lage latentie vereisen, waardoor de end-to-end cyclus strakker wordt zodat Codex responsiever aanvoelt tijdens het itereren. GPU's en Cerebras kunnen worden gecombineerd voor 'single workloads' om de beste prestaties te bereiken.

Beschikbaarheid en meer informatie

Codex-Spark wordt vandaag als onderzoekspreview uitgerold voor ChatGPT Pro-gebruikers in de nieuwste versies van de Codex-app, CLI en VS Code-extensie. Omdat het op gespecialiseerde hardware met lage latentie draait, is het gebruik onderworpen aan een aparte snelheidslimiet die tijdens de onderzoeksfase kan worden aangepast op basis van de vraag. Daarnaast stellen we Codex-Spark beschikbaar in de API voor een selecte groep designpartners om te begrijpen hoe ontwikkelaars Codex-Spark in hun producten willen integreren. We zullen de toegang de komende weken uitbreiden terwijl we onze integratie verder afstemmen onder echte werklasten.

Codex-Spark is momenteel alleen tekst-gebaseerd met een contextvenster van 128k en is de eerste in een familie van ultrasnelle modellen. Terwijl we samen met de developer community verder ontdekken waar snelle modellen het verschil maken bij het programmeren, breiden we de mogelijkheden verder uit: met grotere modellen, langere contextvensters en ondersteuning voor multimodale input.

Codex-Spark bevat dezelfde veiligheidstraining als onze kernmodellen, inclusief training die relevant is voor cyberveiligheid. We hebben Codex-Spark beoordeeld als onderdeel van ons standaard uitrolproces, dat basisevaluaties omvat voor cyber- en andere capaciteiten, en vastgesteld dat het geen plausibele kans heeft om onze Preparedness Framework-drempel voor capaciteitsniveau 'high' op het gebied van cybersecurity te halen.

Wat volgt er?

Codex-Spark is de eerste stap richting een Codex met twee complementaire modi: redenering en uitvoering op langere termijn, en realtime samenwerking voor snelle iteratie. Na verloop van tijd lopen die werkwijzen in elkaar over. Codex houdt je in een korte, interactieve cyclus terwijl het langer lopend werk op de achtergrond delegeert aan subagents, of taken parallel verdeelt over meerdere modellen wanneer je snelheid én schaal wilt. Zo hoef je niet vooraf één werkwijze te kiezen.

Naarmate modellen capabeler worden, wordt de interactiesnelheid een duidelijke bottleneck. Ultrasnelle inferentie verkort die cyclus, waardoor Codex natuurlijker aanvoelt in gebruik en de mogelijkheden uitbreidt voor iedereen die een idee omzet in werkende software.

Auteur

OpenAI

Andere interessante artikelen

Alles weergeven

Maak kennis met de Codex-app

Product2 feb 2026

Introductie van GPT-5.3-Codex

Product5 feb 2026

GPT-5.3-Codex-systeemkaart

Publicatie5 feb 2026