Codex Security ist jetzt als Forschungsvorschau verfügbar
Heute stellen wir Codex Security vor, unseren Agenten für Anwendungssicherheit. Es baut ein tiefes Kontextverständnis zu deinem Projekt auf, um komplexe Sicherheitslücken zu identifizieren, die andere agentische Tools übersehen, und liefert dadurch zuverlässigere Ergebnisse samt Fixes, die die Sicherheit deines Systems deutlich verbessern – ohne dich mit Fehlalarmen und unbedeutenden Bugs zu belasten.
Kontext ist entscheidend, wenn es darum geht, reale Sicherheitsrisiken zu bewerten, aber die meisten KI-Sicherheitstools melden lediglich Befunde mit geringer Relevanz und Fehlalarme, wodurch Sicherheitsteams gezwungen sind, viel Zeit für die Triage aufzuwenden. Gleichzeitig beschleunigen Agenten die Softwareentwicklung, was die Sicherheitsüberprüfung zu einem zunehmend kritischen Engpass macht.
Codex Security begegnet beiden Herausforderungen. Durch die Kombination aus agentischem Reasoning aus unseren Frontier-Modellen und automatisierter Validierung liefert es äußerst zuverlässige Erkenntnisse und umsetzbare Korrekturen, sodass Teams sich auf die Schwachstellen konzentrieren können, die wirklich zählen, und schneller sicheren Code shippen.
Vormals bekannt als Aardvark, begann Codex Security im letzten Jahr als private Beta mit einer kleinen Gruppe von Kund:innen. In frühen internen Deployments deckte es eine echte SSRF-Schwachstelle, eine kritische Cross-Tenant-Authentifizierungs-Schwachstelle und viele weitere Probleme auf, die unser Sicherheitsteam innerhalb weniger Stunden gepatcht hat. Frühe Deployments mit externen Tester:innen halfen uns dabei, zu verbessern, wie Nutzer:innen relevanten Produktkontext bereitstellen und vom Onboarding zur Absicherung ihres Codes übergehen. Wir haben im Verlauf der Beta auch die Qualität unserer Ergebnisse deutlich verbessert: Scans derselben Repositorys im Laufe der Zeit zeigen eine zunehmende Präzision; in einem Fall wurde das Rauschen seit dem ursprünglichen Rollout um 84 % reduziert. Wir haben die Rate von Befunden mit überhöhter Schweregradbewertung um mehr als 90 % reduziert, und die False-Positive-Rate bei Detektionen ist über alle Repositorys hinweg um mehr als 50 % gesunken. Diese Verbesserungen helfen Codex Security, die gemeldete Schwere besser mit dem realen Risiko in Einklang zu bringen und die unnötige Triage-Belastung für Sicherheitsteams zu reduzieren, und wir erwarten, dass sich das Signal-Rausch-Verhältnis mit zusätzlichen Investitionen weiter verbessern wird.
Wir beginnen heute mit der Einführung von Codex Security für ChatGPT Enterprise-, Business- und Edu-Kund:innen über Codex Web, mit kostenloser Nutzung für den nächsten Monat.
Codex Security nutzt die Frontier-Modelle von OpenAI und den Codex-Agenten. Es kann Fehlalarme reduzieren und die Behebung beschleunigen, indem es die Schwachstellenerkennung, Validierung und das Patching im systemspezifischen Kontext verankert.
- Systemkontext aufbauen und ein bearbeitbares Bedrohungsmodell erstellen: Nach der Konfiguration eines Scans analysiert es dein Repository, um die sicherheitsrelevante Struktur des Systems zu verstehen, und generiert ein projektspezifisches Bedrohungsmodell, das erfassen kann, was das System tut, worauf es vertraut und wo es am stärksten exponiert ist. Bedrohungsmodelle können bearbeitet werden, um den Agenten mit deinem Team abgestimmt zu halten.
- Probleme priorisieren und validieren: Unter Verwendung des Bedrohungsmodells als Kontext sucht es nach Schwachstellen und kategorisiert Ergebnisse basierend auf den erwarteten realen Auswirkungen in deinem System. Wo möglich, stellt es Ergebnisse in Sandbox-Validierungsumgebungen auf den Prüfstand, um Signal von Rauschen zu unterscheiden. Benutzer können diese Analyse in den validierten Ergebnissen einsehen. Wenn Codex Security mit einer auf dein Projekt zugeschnittenen Umgebung konfiguriert ist, kann es potenzielle Probleme direkt im Kontext des laufenden Systems validieren. Diese tiefere Validierung kann Fehlalarme noch weiter reduzieren und die Erstellung funktionierender Proof-of-Concepts ermöglichen, wodurch Sicherheitsteams aussagekräftigere Beweise und einen klareren Weg zur Behebung erhalten.
- Probleme mit vollständigem Systemkontext patchen: Schließlich schlägt Codex Security Fixes für die entdeckten Probleme vor, die mit der Systemabsicht und dem umgebenden Verhalten im Einklang stehen. Dadurch werden Patches ermöglicht, die die Sicherheit verbessern und gleichzeitig Regressionen minimieren, sodass sie sicherer zu überprüfen und zu implementieren sind. Benutzer:innen können die Ergebnisse filtern, um sich auf die für ihr Team wichtigsten Aspekte mit den größten Auswirkungen auf die Sicherheit zu konzentrieren.
Codex Security kann im Laufe der Zeit auch aus deinem Feedback lernen, um die Qualität seiner Ergebnisse zu verbessern. Wenn du die Kritikalität eines Ergebnisses anpasst, kann es dieses Feedback nutzen, um das Bedrohungsmodell zu verfeinern und bei nachfolgenden Durchläufen die Präzision zu verbessern, da es lernt, was in deiner Architektur und Risikolage wichtig ist.
Es ist dafür konzipiert, im großen Maßstab zu arbeiten und die zuverlässigsten Ergebnisse mit leicht zu akzeptierenden Patches bereitzustellen. In den letzten 30 Tagen hat Codex Security mehr als 1,2 Millionen Commits in externen Repositorys unserer Beta-Kohorte gescannt und dabei 792 kritische und 10.561 schwerwiegende Probleme identifiziert. Kritische Probleme traten in weniger als 0,1 % der gescannten Commits auf, was zeigt, dass das System sicherheitsrelevante Probleme in großen Codebasen identifizieren kann und dabei das Rauschen für Reviewer:innen minimiert.
„Als ein Unternehmen, das sich kompromisslos auf Produktsicherheit konzentriert, war NETGEAR erfreut, am Early-Access-Programm teilzunehmen, und die Ergebnisse haben unsere Erwartungen übertroffen. Codex Security ließ sich mühelos in unsere robuste Sicherheitsentwicklungsumgebung integrieren und erhöhte sowohl das Tempo als auch die Tiefe unserer Überprüfungsprozesse. Seine Ergebnisse waren beeindruckend klar und umfassend und vermittelten oft den Eindruck, dass ein:e erfahrene:r Produktsicherheitsforscher:in mit uns zusammenarbeitete.“
Open-Source-Software bildet die Grundlage moderner Systeme, einschließlich unserer eigenen. Wir nutzen Codex Security, um die Open-Source-Repositorys zu scannen, auf die wir uns am meisten verlassen, und teilen wichtige Sicherheitsergebnisse, die wir identifizieren, mit den Maintainer:innen, um diese Grundlage zu stärken.
In unseren Gesprächen mit Maintainer:innen zeichnete sich ein wiederkehrendes Muster ab: Die Herausforderung liegt nicht in einem Mangel an Schwachstellenmeldungen, sondern in der Vielzahl an Meldungen von geringer Qualität. Maintainer:innen haben uns gesagt, dass sie weniger Fehlalarme und eine nachhaltigere Möglichkeit benötigen, um echte Sicherheitsprobleme aufzudecken, ohne zusätzlichen Triage-Aufwand zu verursachen. Diese Gespräche haben maßgeblich geprägt, wie wir mit Codex Security die Open-Source-Community unterstützen. Anstatt große Mengen spekulativer Ergebnisse zu generieren, entwickeln wir ein System, das Probleme mit hoher Zuverlässigkeit priorisiert, auf die die Maintainer:innen schnell reagieren können.
Im Rahmen dieser Arbeit haben wir kritische Schwachstellen an eine Reihe weit verbreiteter Open-Source-Projekte gemeldet, darunter OpenSSH(wird in einem neuen Fenster geöffnet), GnuTLS(wird in einem neuen Fenster geöffnet), GOGS(wird in einem neuen Fenster geöffnet), Thorium(wird in einem neuen Fenster geöffnet) libssh, PHP, Chromium und weitere. Vierzehn CVEs wurden vergeben – bei zwei davon mit doppelter Meldung – und wir haben einige Beispiele im Anhang zusammengestellt.
Wir haben vor Kurzem damit begonnen, eine erste Kohorte von Open-Source-Maintainer:innen in Codex für OSS aufzunehmen – unser Programm zur Unterstützung des Ökosystems mit kostenlosen ChatGPT Pro- und ChatGPT Plus-Konten, Code-Review und Codex Security. Projekte wie vLLM haben Codex Security bereits eingesetzt, um Probleme im Rahmen ihres normalen Arbeitsablaufs zu finden und zu beheben.
Wir planen, das Programm in den kommenden Wochen auszuweiten, damit mehr Maintainer:innen einen direkten Weg zu besserer Sicherheit, stärkeren Review-Workflows und Unterstützung für die Open-Source-Arbeit haben, von der das Ökosystem abhängt. Wenn du Open-Source-Maintainer:in bist und Interesse hast, melde dich bitte.
In den kommenden Tagen werden wir Codex Security schrittweise für ChatGPT Enterprise-, Business- und Edu-Kund:innen verfügbar machen. Schau dir unsere Dokumentation(wird in einem neuen Fenster geöffnet) an, um mehr über die Einrichtung von Codex Security für dein Team zu erfahren.
- GnuTLS certtool Heap-Buffer Overflow (Off-by-One) – CVE-2025-32990(wird in einem neuen Fenster geöffnet)
- GnuTLS Heap Buffer Overread in SCT Extension Parsing – CVE-2025-32989(wird in einem neuen Fenster geöffnet)
- GnuTLS Double-Free in otherName SAN Export – CVE-2025-32988(wird in einem neuen Fenster geöffnet)
- 2FA Bypass GOGS – CVE-2025-64175(wird in einem neuen Fenster geöffnet)
- Unauth bypass GOGS – CVE-2026-25242(wird in einem neuen Fenster geöffnet)
- Path traversal (arbitrary write) – download_ephemeral, download_children (agent) – CVE-2025-35430(wird in einem neuen Fenster geöffnet)
- LDAP injection (filters & DN) – LdapUserMap::new / get_unix_info / basic_auth_ldap – CVE-2025-35431(wird in einem neuen Fenster geöffnet)
- Unauthenticated DoS & mail abuse – resend_email_verification – CVE-2025-35432(wird in einem neuen Fenster geöffnet) , CVE-2025-35436(wird in einem neuen Fenster geöffnet)
- Session not rotated on password change – User::update_user – CVE-2025-35433(wird in einem neuen Fenster geöffnet)
- Disabled TLS verification – Elasticsearch client – CVE-2025-35434(wird in einem neuen Fenster geöffnet)
- DoS: division by zero – /api/streams/depth/.../{split} – CVE-2025-35435(wird in einem neuen Fenster geöffnet)
- gpg-agent stack buffer overflow via PKDECRYPT --kem=CMS (ECC KEM) – CVE-2026-24881(wird in einem neuen Fenster geöffnet)
- Stack-based buffer overflow in TPM2 PKDECRYPT for RSA and ECC due to missing ciphertext length validation – CVE-2026-24882(wird in einem neuen Fenster geöffnet)
- CMS/PKCS7 AES-GCM ASN.1 params stack buffer overflow – CVE-2025-15467(wird in einem neuen Fenster geöffnet)
- PKCS#12 PBMAC1 PBKDF2 keyLength overflow + MAC bypass – CVE-2025-11187(wird in einem neuen Fenster geöffnet)


