12. Februar 2026

Neu: GPT‑5.3‑Codex‑Spark

Ein ultraschnelles Modell für Echtzeit-Programmierung in Codex.

Laden …

Heute veröffentlichen wir eine Forschungsvorschau von GPT‑5.3‑Codex‑Spark, einer kleineren Version von GPT‑5.3‑Codex und unserem ersten Modell, das für Echtzeit-Coding entwickelt wurde. Codex-Spark ist so optimiert, dass es sich nahezu unmittelbar anfühlt: Es bietet 15-mal schnellere Generierungsgeschwindigkeiten und bleibt dabei überaus leistungsfähig für reale Programmieraufgaben.

Codex-Spark markiert den ersten Meilenstein in unserer Partnerschaft mit Cerebras, die wir im Januar angekündigt haben. Wir teilen Codex-Spark als Forschungsvorschau mit ChatGPT Pro-Nutzer:innen, damit Entwickler:innen frühzeitig mit dem Experimentieren beginnen können, während wir gemeinsam mit Cerebras die Rechenzentrumskapazität erhöhen, das End-to-End-Erlebnis verbessern und unser größeres Frontier-Modell bereitstellen.

Unsere neuesten Frontier-Modelle haben besondere Stärken darin gezeigt, lang andauernde Aufgaben zu erledigen und dabei über Stunden, Tage oder Wochen hinweg autonom zu arbeiten, ohne dass ein Eingreifen erforderlich ist. Codex-Spark ist unser erstes Modell, das speziell für die Arbeit mit Codex in Echtzeit entwickelt wurde – um gezielte Änderungen vorzunehmen, Logik umzugestalten oder Oberflächen zu verfeinern und die Resultate sofort zu sehen. Mit Codex-Spark unterstützt die Codex-Familie jetzt sowohl langwierige, ambitionierte Aufgaben als auch das unmittelbare Arbeiten im Moment. Wir hoffen, aus der Nutzung durch Entwickler:innen zu lernen und Feedback einzuarbeiten, während wir den Zugang weiter ausbauen.

Bei der Einführung hat Codex-Spark ein Kontextfenster von 128.000 Tokens und ist rein textbasiert. Während der Forschungsvorschau hat Codex-Spark eigene Ratenlimits, und die Nutzung wird nicht auf die Standard-Ratenlimits angerechnet. Allerdings kann es bei hoher Nachfrage zu langsameren Zugriffszeiten oder vorübergehenden Warteschlangen kommen, da wir die Zuverlässigkeit für alle Nutzer:innen ausgleichen.

Geschwindigkeit und Intelligenz

Codex-Spark ist für interaktive Arbeiten optimiert, bei denen die Latenz genauso wichtig ist wie die Intelligenz. Du kannst mit dem Modell ähnlich wie mit einem Echtzeit-Kollegen zusammenarbeiten: es unterbrechen oder umleiten, während es arbeitet, und schnell iterieren, ohne darauf zu warten, dass ein Rollout abgeschlossen ist. Da Codex-Spark für Geschwindigkeit optimiert ist, bleibt sein standardmäßiger Arbeitsstil schlank: Es nimmt minimale, gezielte Änderungen vor und führt Tests nur auf Anfrage, nicht automatisch aus.

Programmierung

Codex-Spark ist ein überaus leistungsfähiges kleines Modell, das für schnelle Inferenz optimiert wurde. Bei SWE-Bench Pro und Terminal-Bench 2.0, zwei Benchmarks zur Bewertung der Fähigkeit zur agentischen Softwareentwicklung, schneidet GPT‑5.3‑Codex‑Spark schlechter ab als GPT‑5.3‑Codex, kann die Aufgabe aber in einem Bruchteil der Zeit erledigen.

Die Dauer wird als Summe von (1) der Ausgabe-Generierungszeit (Ausgabe-Tokens ÷ Sampling-Geschwindigkeit), (2) der Prefill-Zeit (Prefill-Tokens ÷ Prefill-Geschwindigkeit), (3) der gesamten Tool-Ausführungszeit und (4) dem gesamten Netzwerk-Overhead geschätzt.

Verbesserungen der Latenz für alle Modelle

Als wir Codex-Spark trainiert haben, wurde deutlich, dass die Geschwindigkeit des Modells nur ein Teil der Gleichung für die Zusammenarbeit in Echtzeit war – wir mussten auch die Latenz über die gesamte Anfrage-Antwort-Pipeline hinweg reduzieren. Wir haben in unserem Harness durchgängige Latenzverbesserungen implementiert, von denen alle Modelle profitieren. Im Hintergrund haben wir optimiert, wie Antworten vom Client zum Server und zurück gestreamt werden, zentrale Teile unseres Inferenz-Stacks neu geschrieben und die Initialisierung von Sitzungen überarbeitet, sodass das erste sichtbare Token früher erscheint und Codex beim Iterieren reaktionsschnell bleibt. Durch die Einführung einer persistenten WebSocket-Verbindung und gezielte Optimierungen innerhalb der Responses API haben wir den Overhead pro Client/Server-Roundtrip um 80 %, den Overhead pro Token um 30 % und die Zeit bis zum ersten Token um 50 % reduziert. Egal, welches Modell du wählst, du wirst im gesamten Codex-Erlebnis eine schnellere Abfolge erleben.

Unterstützt von Cerebras

Codex-Spark läuft auf der Wafer Scale Engine 3⁠(wird in einem neuen Fenster geöffnet)von Cerebras – einem speziell entwickelten KI-Beschleuniger für Hochgeschwindigkeits-Inferenz, der Codex eine latenzoptimierte Serving-Ebene bietet. Wir haben mit Cerebras zusammengearbeitet, um diesen Pfad mit niedriger Latenz in denselben Produktions-Serving-Stack wie den Rest unserer Flotte zu integrieren, sodass er nahtlos über Codex hinweg funktioniert und wir für die Unterstützung zukünftiger Modelle gerüstet sind.

„Was uns an GPT-5.3-Codex-Spark am meisten begeistert, ist die Zusammenarbeit mit OpenAI und der Entwickler-Community, um zu entdecken, was schnelle Inferenz möglich macht – neue Interaktionsmuster, neue Anwendungsfälle und ein grundlegend anderes Modellerlebnis. Diese Vorschau ist erst der Anfang.“

– Sean Lie, Mitbegründer und CTO von Cerebras

GPUs bleiben grundlegend für unsere gesamten Trainings- und Inferenz-Pipelines und liefern die kosteneffektivsten Tokens für eine breite Nutzung. Cerebras ergänzt diese Grundlage, indem es bei Workflows überzeugt, die extrem niedrige Latenz erfordern, und die End-to-End-Schleife strafft, sodass Codex sich bei Iterationen reaktionsschneller anfühlt.

Verfügbarkeit & Details

Codex-Spark wird heute als Forschungsvorschau für alle ChatGPT Pro-Nutzer:innen in den neuesten Versionen der Codex-App, CLI und VS Code-Erweiterung veröffentlicht. Da es auf spezialisierter Hardware mit niedriger Latenz läuft, unterliegt die Nutzung einem separaten Ratenlimit, das sich im Laufe der Forschungsvorschau je nach Nachfrage anpassen kann. Zusätzlich stellen wir Codex-Spark für eine ausgewählte Gruppe von Designpartner:innen in der API bereit, um zu verstehen, wie Entwickler:innen Codex-Spark in ihre Produkte integrieren wollen. Wir werden den Zugriff im Laufe der kommenden Wochen erweitern, während wir unsere Integration unter realen Arbeitslasten weiter optimieren.

Codex-Spark ist derzeit rein textbasiert mit einem Kontextfenster von 128.000 Tokens und ist das erste Modell in einer Familie von ultraschnellen Modellen. Während wir gemeinsam mit der Entwickler-Community mehr darüber lernen, wo schnelle Modelle beim Programmieren besonders glänzen, werden wir noch mehr Funktionen einführen, darunter größere Modelle, längere Kontextlängen und multimodale Eingaben.

Codex-Spark beinhaltet dasselbe Sicherheitstraining wie unsere Hauptmodelle, einschließlich Training mit Cybersicherheits-Bezug. Wir haben Codex-Spark im Rahmen unseres standardmäßigen Bereitstellungsprozesses evaluiert, der Baseline-Bewertungen für Cyber- und andere Fähigkeiten umfasst, und sind zu dem Schluss gekommen, dass es keine plausible Chance hat, den Schwellenwert unseres Preparedness Framework für die Fähigkeitsstufe „Hoch“ im Bereich der Cybersicherheit zu erreichen.

Wie geht‘s weiter?

Codex-Spark ist der erste Schritt hin zu einem Codex mit zwei sich ergänzenden Modi: längerfristiges Reasoning und Ausführung sowie Echtzeit-Zusammenarbeit für schnelle Iteration. Mit der Zeit werden sich die Modi vermischen – Codex kann dich in einer engen interaktiven Schleife halten, während es länger laufende Arbeiten im Hintergrund an Sub-Agenten delegiert oder Aufgaben parallel auf viele Modelle verteilt, wenn du Breite und Geschwindigkeit möchtest, sodass du dich nicht von vornherein für einen einzigen Modus entscheiden musst.

Da Modelle immer leistungsfähiger werden, stellt die Interaktionsgeschwindigkeit einen deutlichen Engpass dar. Die ultraschnelle Inferenz verkürzt diese Schleife, wodurch Codex sich natürlicher anfühlt und das Spektrum des Möglichen für all jene erweitert wird, die eine Idee in funktionierende Software umsetzen möchten.