Zum Hauptinhalt springen
OpenAI

Neu: GPT‑5.2‑Codex

Das fortschrittlichste agentische Programmiermodell für professionelle Softwareentwicklung und defensive Cybersicherheit.

Heute veröffentlichen wir GPT‑5.2‑Codex, das fortschrittlichste agentische Programmiermodell für komplexe, reale Softwareentwicklung. GPT‑5.2‑Codex ist eine Version von GPT‑5.2, die weiter für agentisches Programmieren in Codex optimiert wurde, einschließlich Verbesserungen bei der Arbeit mit langen Zeithorizonten durch Kontextkomprimierung (Compaction), stärkerer Performance bei großen Codeänderungen wie Refaktorisierungen und Migrationen, verbesserter Leistung in Windows-Umgebungen und deutlich stärkerer Fähigkeiten im Bereich Cybersicherheit.

Während unsere Modelle auch weiterhin die Grenzen der künstlichen Intelligenz erweitern, haben wir beobachtet, dass diese Verbesserungen auch zu Fähigkeitssprüngen in spezialisierten Bereichen wie der Cybersicherheit führen. So hat beispielsweise erst letzte Woche ein Sicherheitsforscher, der GPT‑5.1‑Codex‑Max mit Codex CLI verwendet, drei Schwachstellen in React gefunden und auf verantwortungsvolle Weise gemeldet(wird in einem neuen Fenster geöffnet), die zu einer Offenlegung des Quellcodes führen könnten.

GPT‑5.2‑Codex hat stärkere Cybersicherheitsfähigkeiten als jedes Modell, das wir bisher veröffentlicht haben. Diese Fortschritte können die Cybersicherheit im großen Maßstab stärken, aber sie bringen auch neue Risiken mit sich, die eine sorgfältige Bereitstellung erfordern. Obwohl GPT‑5.2‑Codex im Rahmen unseres Preparedness Framework nicht die Stufe „Hoch“ im Bereich der Cyberfähigkeiten erreicht, gestalten wir unseren Bereitstellungsansatz unter Berücksichtigung zukünftiger Kapazitätssteigerungen.

Wir veröffentlichen GPT‑5.2‑Codex heute in allen Codex-Oberflächen für zahlende ChatGPT‑Benutzer:innen, und wir arbeiten daran, in den kommenden Wochen den sicheren Zugriff auf GPT‑5.2‑Codex für API-Benutzer:innen zu ermöglichen. Parallel dazu testen wir derzeit ein Trusted-Access-Programm für Zugriff auf kommende Funktionen, das nur auf Einladung verfügbar ist, sowie permissivere Modelle für geprüfte Fachleute und Organisationen, die sich auf defensive Cybersicherheitsarbeit konzentrieren. Wir glauben, dass dieser Ansatz zur Bereitstellung Zugänglichkeit mit Sicherheit in Einklang bringen wird.

Die Grenzen der realen Softwareentwicklung erweitern

GPT‑5.2‑Codex baut auf den Stärken von GPT‑5.2 im Bereich der professionellen Wissensarbeit und den Frontier-Fähigkeiten von GPT‑5.1‑Codex‑Max im Bereich des agentischen Programmierens und der Terminalnutzung auf. GPT‑5.2‑Codex ist jetzt besser im Verständnis langer Kontexte, zuverlässigem Tool-Aufruf, verbesserter Faktizität und nativer Compaction, was es zu einem verlässlicheren Partner für lang andauernde Programmieraufgaben macht, während es zugleich Token-effizient in seinem Reasoning bleibt.

GPT‑5.2‑Codex erzielt Spitzenleistungen bei SWE-Bench Pro und Terminal-Bench 2.0, Benchmarks, die entwickelt wurden, um die agentische Performance bei einer Vielzahl von Aufgaben in realistischen Terminalumgebungen zu testen. Es ist außerdem viel effektiver und zuverlässiger beim agentischen Programmieren in nativen Windows-Umgebungen und baut auf den in GPT‑5.1‑Codex‑Max eingeführten Fähigkeiten auf.

Mit diesen Verbesserungen kann Codex besser über längere Sitzungen hinweg in großen Repositories arbeiten, wobei der vollständige Kontext erhalten bleibt. Es kann komplexe Aufgaben wie große Refaktorierungen, Code-Migrationen und Feature-Entwicklungen zuverlässiger abschließen und dabei weiter iterieren, ohne den Überblick zu verlieren, selbst wenn Pläne sich ändern oder Versuche scheitern.

In SWE-Bench Pro⁠⁠⁠⁠ erhält ein Modell ein Code-Repository und muss einen Patch generieren, um eine realistische Softwareentwicklungs-Aufgabe zu lösen. Terminal-Bench 2.0 ist ein Benchmark zum Testen von KI-Agenten in realen Terminalumgebungen. Zu den Aufgaben gehören das Kompilieren von Code, das Trainieren von Modellen und das Einrichten von Servern.

Dank verbesserter Bildverarbeitung kann GPT‑5.2‑Codex Screenshots, technische Diagramme, Tabellen und Benutzeroberflächen, die während der Coding-Sessions geteilt werden, genauer interpretieren.

Codex kann Design-Entwürfe schnell in funktionale Prototypen umwandeln, und du kannst im Team mit Codex zusammenarbeiten, um diese Prototypen in die Produktion zu überführen.

Design-Mockup
Design-Mockup, das verwendet wird, um einen Web-Prototypen mit Codex-5.2 zu generieren
Prototyp, der von GPT‑5.2‑Codex generiert wurde

An der Spitze der Cyber-Innovation

Wenn wir die Leistung einer unserer zentralen Cybersicherheits-Evaluierungen im Zeitverlauf grafisch darstellen, sehen wir einen starken Anstieg der Leistungsfähigkeit, beginnend mit GPT‑5‑Codex, einen weiteren großen Sprung mit GPT‑5.1‑Codex‑Max und nun einen dritten Sprung mit GPT‑5.2‑Codex. Wir erwarten, dass die kommenden KI-Modelle diesen Kurs beibehalten werden. Zur Vorbereitung darauf planen und evaluieren wir so, als ob jedes neue Modell die Fähigkeitsstufe „Hoch” im Bereich der Cybersicherheit erreichen könnte, gemessen anhand unseres Preparedness Framework⁠(wird in einem neuen Fenster geöffnet). Obwohl GPT‑5.2‑Codex noch nicht die Cyber-Fähigkeitsstufe „Hoch“ erreicht hat, bereiten wir uns auf zukünftige Modelle vor, die diese Schwelle überschreiten. Aufgrund der gestiegenen Cyberfähigkeiten haben wir zusätzliche Schutzmaßnahmen im Modell und im Produkt hinzugefügt, die in der Systemkarte beschrieben sind.

Die Eval Professional Capture-the-Flag (CTF) misst, wie oft das Modell in der Lage ist, fortgeschrittene, mehrstufige Herausforderungen aus der realen Welt (die professionelle Cybersicherheitsfähigkeiten erfordern) in einer Linux-Umgebung zu lösen.

Reale Cyberfähigkeiten

Die moderne Gesellschaft läuft auf Software, deren Zuverlässigkeit von einer starken Cybersicherheit abhängt – damit wichtige Systeme in den Bereichen Bankwesen, Gesundheitswesen, Kommunikation und grundlegende Dienstleistungen online bleiben, sensible Daten geschützt werden und die Menschen der Software vertrauen können, auf die sie sich täglich verlassen. Schwachstellen können schon lange bestehen, bevor jemand davon erfährt, und ihre Entdeckung, Überprüfung und Behebung hängt oft von einer Community von Entwickler:innen und unabhängigen Sicherheitsforschenden ab, die mit den richtigen Tools ausgestattet sind.

Am 11. Dezember 2025 hat das React-Team drei Sicherheitslücken veröffentlicht, die Apps betreffen, die mit React Server Components erstellt wurden. Bemerkenswert an dieser Bekanntgabe waren nicht nur die Schwachstellen selbst, sondern auch die Art und Weise, wie sie entdeckt wurden.

Andrew MacPherson, Principal Security Engineer bei Privy (einem Unternehmen von Stripe), verwendete GPT‑5.1‑Codex‑Max mit Codex CLI und anderen Coding-Agenten, um eine andere kritische React-Schwachstelle zu reproduzieren und zu untersuchen, die in der Vorwoche offengelegt wurde, bekannt als React2Shell(wird in einem neuen Fenster geöffnet) (CVE-2025-55182(wird in einem neuen Fenster geöffnet)). Sein Ziel war es, zu bewerten, wie gut das Modell bei der Erforschung realer Schwachstellen helfen kann.

Zunächst versuchte er mehrere Zero-Shot-Analysen, indem er das Modell aufforderte, den Patch zu untersuchen und die Schwachstelle zu identifizieren, die er beheben sollte. Als das keine Ergebnisse lieferte, wechselte er zu einem Ansatz mit höherem Volumen und iterativem Prompting. Als diese Ansätze nicht erfolgreich waren, führte er Codex durch standardmäßige defensive Sicherheitsabläufe – Einrichtung einer lokalen Testumgebung, Analyse potenzieller Angriffsflächen und Verwendung von Fuzzing, um das System mit fehlerhaften Eingaben zu testen. Beim Versuch, das ursprüngliche React2Shell -Problem zu reproduzieren, hat Codex unerwartete Verhaltensweisen aufgedeckt, die eine genauere Untersuchung rechtfertigten. Im Laufe einer einzigen Woche führte dieser Prozess zur Entdeckung von bisher unbekannten Schwachstellen, die verantwortungsvoll dem React-Team mitgeteilt wurden.

Flussdiagramm mit dem Titel „Schwachstellenerkennung mit Codex: CVE-2025-55183“, das einen Arbeitsablauf zeigt, der mit einem Git-Repository beginnt und bei dem Codex den Code auf Schwachstellen überprüft. Ein Zero-Shot-Versuch scheitert, gefolgt von einem expertengeführten Prozess, der die Codebasis untersucht, mögliche Ziele identifiziert, ein Testgerüst erstellt und Fuzz-Tests an einer Beispiel-App mit erneuter Validierung durchführt. Die Ergebnisse werden überprüft, um einen Proof of Concept zu erstellen, was zu einer verantwortungsvollen Offenlegung und einem Patch führt, der wieder in das Repository übernommen wird.

Dies zeigt, wie fortschrittliche KI-Systeme die defensive Sicherheitsarbeit in weit verbreiteter, realer Software erheblich beschleunigen können. Gleichzeitig können Fähigkeiten, die Abwehrspezialist:innen helfen, schneller zu agieren, auch von böswilligen Akteuren missbraucht werden.

Da agentische Systeme zunehmend fähiger in Aufgaben aus dem Bereich der Cybersicherheit werden, ist es für uns eine Kernpriorität, sicherzustellen, dass diese Fortschritte verantwortungsvoll eingesetzt werden – indem wir jeden Zuwachs an Fähigkeiten mit stärkeren Schutzmaßnahmen, strengeren Zugriffskontrollen und einer fortlaufenden Zusammenarbeit mit der Sicherheitsgemeinschaft verbinden.

Stärkung der Cyberabwehr durch Trusted Access

Sicherheitsteams können auf Einschränkungen stoßen, wenn sie versuchen, Bedrohungsakteure zu emulieren, Malware zur Unterstützung von Abhilfemaßnahmen zu analysieren oder kritische Infrastrukturen einem Stresstest zu unterziehen. Wir entwickeln ein Trusted-Access-Pilotprogramm, um diese Reibungspunkte berechtigte Nutzer:innen und Organisationen beseitigen und es vertrauenswürdigen Abwehrfachleuten ermöglichen soll, modernste KI-Cyberfähigkeiten zu nutzen, um die Cyberabwehr zu beschleunigen.

Zunächst wird das Pilotprogramm nur auf Einladung für geprüfte Sicherheitsexpert:innen mit nachgewiesener Erfahrung in der verantwortungsvollen Offenlegung von Schwachstellen und für Organisationen mit einem klaren professionellen Anwendungsfall im Bereich der Cybersicherheit verfügbar sein. Qualifizierte Teilnehmer:innen erhalten Zugriff auf unsere leistungsfähigsten Modelle für defensive Anwendungsfälle, um legitime Dual-Use-Arbeiten zu ermöglichen.

Wenn du Sicherheitsexpert:in bist oder einer Organisation angehörst, die sich mit ethischer Sicherheitsarbeit wie Schwachstellenforschung oder autorisiertem Red Teaming befasst, laden wir dich ein, dein Interesse an der Teilnahme zu bekunden und uns hier(wird in einem neuen Fenster geöffnet) dein Feedback dazu zu geben, was du dir von dem Programm wünschst.

Fazit

GPT‑5.2‑Codex stellt einen beträchtlichen Fortschritt im Hinblick darauf dar, wie fortgeschrittene KI die reale Softwareentwicklung und spezialisierte Bereiche wie die Cybersicherheit unterstützen kann – indem es Entwickler:innen und Abwehrfachleuten hilft, komplexe, langfristige Arbeit zu bewältigen und zugleich die Tools für verantwortungsvolle Sicherheitsforschung stärkt.

Durch die schrittweise Einführung von GPT‑5.2‑Codex, die Kombination von Bereitstellung und Schutzmechanismen sowie die enge Zusammenarbeit mit der Sicherheitsgemeinschaft wollen wir die defensive Wirkung maximieren und gleichzeitig das Missbrauchsrisiko verringern. Was wir aus dieser Veröffentlichung lernen, wird direkten Einfluss darauf haben, wie wir den Zugriff im Laufe der Zeit erweitern, da die Software- und Cyber-Innovation weiter voranschreitet.

Autor

OpenAI