Wir führen GPT‑5.1‑Codex‑Max ein, unser neues Frontier-Modell für agentisches Programmieren, das ab sofort in Codex verfügbar ist. GPT‑5.1‑Codex‑Max basiert auf einem Update unseres grundlegenden schlussfolgernden Modells, das an agentischen Aufgaben in den Bereichen Softwareentwicklung, Mathematik, Forschung und mehr trainiert wird. GPT‑5.1‑Codex‑Max ist in jeder Phase des Entwicklungszyklus schneller, intelligenter und Token-effizienter – und somit ein weiterer Schritt hin zu einem zuverlässigen Programmierpartner.
GPT‑5.1‑Codex‑Max ist für lang andauernde, detaillierte Arbeit konzipiert. Es ist unser erstes Modell, das nativ trainiert wurde, um durch einen als Compaction (Komprimierung/Verdichtung) bezeichneten Prozess über mehrere Kontextfenster hinweg zu arbeiten, wobei Millionen von Tokens in einer einzigen Aufgabe kohärent verarbeitet werden. Dies ermöglicht Refactorings auf Projektebene, tiefgehende Debugging-Sitzungen und mehrstündige Agenten-Schleifen.
GPT‑5.1‑Codex‑Max ist ab sofort in Codex verfügbar und kann in der CLI, IDE-Erweiterung, Cloud und Code-Review verwendet werden. Der API-Zugriff wird in Kürze verfügbar sein.
GPT‑5.1‑Codex‑Max wurde anhand realer Softwareentwicklungsaufgaben wie PR-Erstellung, Code-Review, Frontend-Programmierung und Q&A trainiert und übertrifft unsere bisherigen Modelle bei vielen Evaluierungen für Frontier-Programmierung. Die Fortschritte des Modells bei Benchmarks gehen auch mit Verbesserungen in der realen Nutzung einher: GPT‑5.1‑Codex‑Max ist das erste Modell, das wir für den Betrieb in Windows-Umgebungen trainiert haben, und das Training des Modells umfasst jetzt Aufgaben, die es zu einem besseren Partner in der Codex-CLI machen sollen.
* Alle Evaluierungen wurden mit aktivierter Compaction bei „Extra High“ Reasoning-Aufwand durchgeführt
* Terminal-Bench2.0 lief mit Codex CLI im Laude Institute Harbor Harness(wird in einem neuen Fenster geöffnet)
GPT‑5.1‑Codex‑Max zeigt deutliche Verbesserungen in der Token-Effizienz dank effektiverem Reasoning. Auf SWE-bench Verified erzielt GPT‑5.1‑Codex‑Max mit „medium“ Reasoning-Aufwand eine bessere Leistung als GPT‑5.1‑Codex mit dem gleichen Reasoning-Aufwand, während es 30 % weniger Tokens zum Nachdenken verwendet werden. Für nicht latenzempfindliche Aufgaben führen wir außerdem einen neuen „Extra High“ (xhigh)-Reasoning-Aufwand ein, der noch länger nachdenkt, um eine bessere Antwort zu liefern. Für die meisten Aufgaben empfehlen wir weiterhin „medium“ als Standardeinstellung.
Wir erwarten, dass die Verbesserungen der Token-Effizienz zu realen Einsparungen für Entwickler:innen führen werden.
Beispielsweise kann GPT‑5.1‑Codex‑Max hochwertige Frontend-Designs mit ähnlicher Funktionalität und Ästhetik erstellen, jedoch zu deutlich geringeren Kosten als GPT‑5.1‑Codex.
Prompt: Generiere eine eigenständige Browser-App, die eine interaktive CartPole-RL-Sandbox mit Canvas-Grafiken, einem kleinen Policy-Gradient-Controller, Metriken und einem SVG-Netzwerk-Visualizer rendert.
Funktionen
Muss in der Lage sein, eine Richtlinie tatsächlich zu trainieren, um das Modell beim Cart Pole zu verbessernVisualisierung der Aktivierungen/Gewichte während des Trainings oder der Inferenz des ModellsSchritte in der Episode, Belohnungen in dieser EpisodeLetzte Überlebenszeit und beste Überlebenszeit in Schritten
In index.html speichern
Durch Compaction kann GPT‑5.1‑Codex‑Max Aufgaben ausführen, die zuvor aufgrund von Kontextfensterbeschränkungen fehlgeschlagen wären, wie z. B. komplexe Refactorings und lang laufende Agenten-Schleifen, indem es seinen Verlauf bereinigt und gleichzeitig den wichtigsten Kontext über lange Zeiträume hinweg beibehält. In Codex-Anwendungen komprimiert GPT‑5.1‑Codex‑Max seine Sitzung automatisch, wenn es sich der Grenze seines Kontextfensters nähert, und erhält so ein neues Kontextfenster. Es wiederholt diesen Vorgang, bis die Aufgabe abgeschlossen ist.
Die Fähigkeit, über lange Zeiträume hinweg kohärente Arbeit zu leisten, ist eine grundlegende Kompetenz auf dem Weg zu allgemeineren, zuverlässigeren KI-Systemen. GPT‑5.1‑Codex‑Max kann stundenlang unabhängig arbeiten. In unseren internen Evaluierungen haben wir beobachtet, wie GPT‑5.1‑Codex‑Max länger als 24 Stunden an Aufgaben gearbeitet hat. Es iteriert beharrlich an seiner Implementierung, behebt Testfehler und liefert schließlich ein erfolgreiches Ergebnis.
In diesem Beispiel refaktoriert GPT‑5.1‑Codex‑Max eigenständig das Open-Source-Repository der Codex CLI.
Wenn die Sitzungsdauer sich dem Kontextfenster des Modells nähert, wird die Sitzung automatisch komprimiert, um Speicherplatz freizugeben und die Aufgabe ohne Fortschrittsverlust fortzusetzen.
Das Video wurde zur besseren Klarheit gekürzt und beschleunigt.
GPT‑5.1‑Codex‑Max schneidet bei Bewertungen, die anhaltendes, langfristiges Denken erfordern, deutlich besser ab. Da das Modell mithilfe von Compaction über mehrere Kontextfenster hinweg kohärent arbeiten kann, liefert es verbesserte Ergebnisse bei Herausforderungen in Bereichen wie langfristigem Programmieren und Cybersicherheit. Wir haben die Ergebnisse der Leistung dieses Modells bei Erst- und Drittanbieter-Evaluierungen in der GPT‑5.1‑Codex‑Max‑ Systemkarte analysiert.
GPT‑5.1‑Codex‑Max erreicht unter unserem Preparedness Framework zwar nicht die Fähigkeitsstufe „High“ im Bereich Cybersicherheit, ist jedoch das bisher leistungsfähigste Cybersicherheitsmodell, das wir eingeführt haben, und agentische Cybersicherheitsfähigkeiten entwickeln sich rasant weiter. Daher ergreifen wir Schritte, um uns auf Fähigkeiten der Stufe „High“ im Bereich Cybersicherheit vorzubereiten, stärken unsere Schutzmaßnahmen im Cyber-Bereich und arbeiten daran, dass Verteidiger:innen von diesen verbesserten Fähigkeiten durch Programme wie Aardvark profitieren können.
Als wir GPT‑5‑Codex eingeführt haben, haben wir eine dedizierte, auf Cybersicherheit spezialisierte Überwachung implementiert, um bösartige Aktivitäten zu erkennen und zu unterbinden. Obwohl wir keinen nennenswerten Anstieg von Missbrauch im großen Maßstab beobachtet haben, bereiten wir zusätzliche Schutzmaßnahmen für fortgeschrittene Fähigkeiten vor. Unsere Teams haben bereits Cyberoperationen gestört, die versuchten, unsere Modelle zu missbrauchen, und verdächtige Aktivitäten werden zur Überprüfung durch unsere Richtlinienüberwachungssysteme weitergeleitet.
Codex ist standardmäßig für die Ausführung in einer sicheren Sandbox ausgelegt: Dateischreibvorgänge sind auf seinen Workspace beschränkt, und der Netzwerkzugriff ist deaktiviert, sofern er nicht von einem Entwickler aktiviert wird. Wir empfehlen, Codex in diesem eingeschränkten Zugriffsmodus zu belassen, da das Aktivieren von Internet oder Websuche Risiken von Prompt Injection durch nicht vertrauenswürdige Inhalte einführen kann.
Da Codex immer fähiger für langlaufende Aufgaben wird, ist es für Entwickler zunehmend wichtig, die Arbeit des Agenten zu überprüfen, bevor sie Änderungen vornehmen oder in die Produktion überführen. Um dies zu unterstützen, erstellt Codex Terminal-Protokolle und zitiert seine Tool-Aufrufe und Testergebnisse. Obwohl die Code-Reviews von Codex das Risiko verringern, dass vom Modell oder von Menschen erzeugte Fehler in die Produktion gelangen, sollte Codex als zusätzliche:r Prüfer:in und nicht als Ersatz für menschliche Prüfungen betrachtet werden.
Cybersicherheitsfunktionen können sowohl zur Verteidigung als auch zum Angriff eingesetzt werden, daher verfolgen wir einen iterativen Bereitstellungsansatz: Wir lernen aus der praktischen Anwendung, aktualisieren Schutzmaßnahmen und behalten wichtige Verteidigungsinstrumente wie automatisierte Schwachstellen-Scans und Unterstützung bei der Behebung bei.
GPT‑5.1‑Codex‑Max ist in Codex mit den ChatGPT Plus-, Pro-, Business-, Edu- und Enterprise-Plänen verfügbar. Weitere Informationen zu den Nutzungsbeschränkungen deines Plans findest du in unserer Dokumentation(wird in einem neuen Fenster geöffnet).
Für Entwickler:innen, die Codex CLI über einen API-Schlüssel verwenden, planen wir, GPT‑5.1‑Codex‑Max in Kürze in der API verfügbar zu machen.
Ab sofort wird GPT‑5.1‑Codex‑Max das Modell GPT‑5.1‑Codex als Standardmodell in den Codex-Oberflächen ersetzen. Im Gegensatz zu GPT‑5.1, einem Allzweckmodell, empfehlen wir die Verwendung von GPT‑5.1‑Codex‑Max und der Codex-Modellfamilie nur für agentische Programmieraufgaben in Codex oder Codex-ähnlichen Umgebungen.
GPT‑5.1‑Codex‑Max zeigt, wie weit Modelle bei der Durchführung von lang andauernden Programmieraufgaben, der Verwaltung komplexer Arbeitsabläufe und der Erstellung hochwertiger Implementierungen mit deutlich weniger Tokens gekommen sind. Wir haben beobachtet, dass das Modell in Verbindung mit kontinuierlichen Verbesserungen unserer CLI, IDE-Erweiterung, Cloud-Integration und Code-Review-Tools zu einer erheblichen Steigerung der Produktivität in der Entwicklung führt: Intern verwenden 95 % der OpenAI-Entwickler:innen Codex wöchentlich, und diese Entwickler:innen liefern seit der Einführung von Codex etwa 70 % mehr Pull Requests. Während wir die Grenzen dessen erweitern, was Agenten leisten können, sind wir gespannt darauf zu sehen, was du mit ihnen entwickeln wirst.
GPT‑5.1‑Codex (high) | GPT‑5.1‑Codex‑Max (xhigh) | |
SWE-bench Verified (n=500) | 73,7 % | 77,9 % |
SWE-Lancer IC SWE | 66,3 % | 79,9 % |
Terminal-Bench 2.0 | 52,8 % | 58,1 % |


