16. Mai 2025

Neu: Codex

Ein Cloud-basierter Software-Engineering-Agent, der viele Aufgaben parallel bearbeiten kann, unterstützt von codex-1. Jetzt für ChatGPT Pro-, Team- und Enterprise-Benutzer verfügbar, bald auch für Plus-Benutzer.

Codex ausprobieren

Dashboard mit der Frage „Was sollen wir als Nächstes programmieren?“ mit einem Prompt-Feld, Repo-/Branch-Selektoren und einer Aufgabenliste auf einem pastellfarbenen Code-Hintergrund.

Laden …

Update vom 3. Juni 2025: Codex ist jetzt für Benutzer von ChatGPT Plus verfügbar. Wir ermöglichen es Benutzern außerdem, Codex während der Aufgabenausführung Internetzugang zu gewähren. Weitere Einzelheiten findest du im Changelog⁠(wird in einem neuen Fenster geöffnet) und in der Dokumentation⁠(wird in einem neuen Fenster geöffnet).

Heute führen wir eine Research-Preview für Codex ein: ein Cloud-basierter Software-Engineering-Agent, der viele Aufgaben parallel bearbeiten kann. Codex kann Aufgaben wie das Schreiben von Funktionen, das Beantworten von Fragen zur Codebasis, die Fehlerbehebung und Vorschläge für Pull Requests zur Überprüfung für dich ausführen. Jede Aufgabe wird in einer eigenen Cloud-Sandbox-Umgebung ausgeführt, in der dein Repository bereits vorhanden ist.

Codex wird von codex-1 betrieben, einer für die Softwareentwicklung optimierten Version von OpenAI o3. Es wurde mithilfe von Reinforcement Learning anhand realer Codierungsaufgaben in verschiedenen Umgebungen trainiert, um Code zu generieren, der den menschlichen Stil und die PR-Präferenzen genau widerspiegelt, Anweisungen präzise befolgt und iterativ Tests ausführen kann, bis ein positives Ergebnis erzielt wird. Wir beginnen heute mit der Einführung von Codex für ChatGPT Pro-, Enterprise- und Team-Benutzer. Der Support für Plus und Edu folgt in Kürze.

Wie Codex funktioniert

Heute kannst du über die Seitenleiste in ChatGPT auf Codex zugreifen und ihm neue Codierungsaufgaben zuweisen, indem du einen Prompt eingibst und auf „Code“ klickst. Wenn du Codex eine Frage zu deiner Codebasis stellen möchtest, klicke auf „Fragen“. Jede Aufgabe wird unabhängig in einer separaten, isolierten Umgebung verarbeitet, in der deine Codebasis bereits vorhanden ist. Codex kann Dateien lesen und bearbeiten sowie Befehle ausführen, darunter Test-Harnische, Lint-Prüfungen und Type Checker. Die Erledigung der Aufgabe dauert je nach Komplexität zwischen 1 und 30 Minuten. Du kannst den Fortschritt von Codex in Echtzeit überwachen.

Sobald Codex eine Aufgabe abgeschlossen hat, werden die Änderungen in der Umgebung übernommen. Codex liefert überprüfbare Beweise für seine Aktionen durch Zitate aus Terminalprotokollen und Test-Outputs, sodass du jeden Schritt der Aufgabenerledigung nachvollziehen kannst. Anschließend kannst du die Ergebnisse überprüfen, weitere Überarbeitungen anfordern, einen GitHub-Pull-Request öffnen oder die Änderungen direkt in deine lokale Umgebung integrieren. Im Produkt kannst du die Codex-Umgebung so konfigurieren, dass sie deiner realen Entwicklungsumgebung möglichst nahe kommt.

Codex kann durch AGENTS.md-Dateien geleitet werden, die in deinem Repository abgelegt sind. Dabei handelt es sich um Textdateien, ähnlich wie README.md, in denen du Codex mitteilen kannst, wie es in deiner Codebasis navigieren soll, welche Befehle zum Testen ausgeführt werden sollen und wie es die Standardverfahren deines Projekts am besten einhält. Wie menschliche Entwickler erbringen Codex-Agenten die beste Leistung, wenn sie über konfigurierte Entwicklungsumgebungen, zuverlässige Test-Setups und eine klare Dokumentation verfügen.

Bei Code-Bewertungen und internen Benchmarks zeigt codex-1 auch ohne AGENTS.md-Dateien oder benutzerdefiniertes Scaffolding eine starke Leistung.

23 von SWE-Bench verifizierte Beispiele, die auf unserer internen Infrastruktur nicht ausgeführt werden konnten, wurden ausgeschlossen. Codex-1 wurde mit einer maximalen Kontextlänge von 192.000 Token und mittlerem „Reasoning-Aufwand“ getestet. Dies ist die Einstellung, die heute im Produkt verfügbar sein wird. Details zu den o3‑Bewertungen findest du hier⁠.

Unsere interne SWE-Aufgaben-Benchmark ist ein kuratierter Satz realer interner SWE-Aufgaben bei OpenAI.

Aufbau sicherer und vertrauenswürdiger Agenten

Wir veröffentlichen Codex als Research-Preview im Einklang mit unserer iterativen Bereitstellungsstrategie. Bei der Entwicklung von Codex haben wir Sicherheit und Transparenz priorisiert, damit Benutzer die Ergebnisse überprüfen können – eine Sicherheitsmaßnahme, die immer wichtiger wird, da KI-Modelle immer komplexere Programmieraufgaben selbstständig bewältigen und Sicherheitsaspekte sich weiterentwickeln. Benutzer können die Arbeit von Codex anhand von Zitaten, Terminalprotokollen und Testergebnissen überprüfen. Bei Unsicherheiten oder Testfehlern teilt der Codex-Agent diese Probleme explizit mit und ermöglicht den Benutzern so, fundierte Entscheidungen zum weiteren Vorgehen zu treffen. Es ist für Benutzer weiterhin unerlässlich, den gesamten vom Agenten generierten Code vor der Integration und Ausführung manuell zu überprüfen und zu validieren.

Screenshot der Codeüberprüfung mit einer Überlagerung einer Testdatei zur Überprüfung zitierter Dateinamen sowie einer Zusammenfassung und bestandener Tests auf blauem Hintergrund.

Screenshot der Codeüberprüfung mit einer schwarzen Terminalüberlagerung, die einen bestandenen Test für zitierte Dateinamen zeigt; Zusammenfassung und Diff der Änderung ‘Fix /diff error with special characters’ auf einem pastellblauen Hintergrund.

Anpassung an menschliche Präferenzen

Ein Hauptziel beim Training von codex-1 bestand darin, die Ergebnisse eng an menschliche Programmierungspräferenzen und -standards anzupassen. Im Vergleich zu OpenAI o3 erstellt codex-1 durchweg sauberere Patches, die für eine sofortige menschliche Überprüfung und Integration in Standard-Workflows bereit sind.

Please fix the following issue in the astropy/astropy repository. Please resolve the issue in the problem below by editing and testing code files in your current code execution session. The repository is cloned in the /testbed folder. You must fully solve the problem for your answer to be considered correct. Problem statement:Modeling's `separability_matrix` does not compute separability correctly for nested CompoundModels Consider the following model: ```python from astropy.modeling import models as m from astropy.modeling.separable import separability_matrix cm = m.Linear1D(10) & m.Linear1D(5) ``` It's separability matrix as you might expect is a diagonal: ```python >>> separability_matrix(cm) array([[ True, False], [False, True]]) ``` If I make the model more complex: ```python >>> separability_matrix(m.Pix2Sky_TAN() & m.Linear1D(10) & m.Linear1D(5)) array([[ True, True, False, False], [ True, True, False, False], [False, False, True, False], [False, False, False, True]]) ``` The output matrix is again, as expected, the outputs and inputs to the linear models are separable and independent of each other. If however, I nest these compound models: ```python >>> separability_matrix(m.Pix2Sky_TAN() & cm) array([[ True, True, False, False], [ True, True, False, False], [False, False, True, True], [False, False, True, True]]) ``` Suddenly the inputs and outputs are no longer separable? This feels like a bug to me, but I might be missing something?

Codex

OpenAI o3

Missbrauch vorbeugen

Der Schutz vor bösartigen Anwendungen KI-gestützter Softwareentwicklung, wie etwa der Entwicklung von Malware, wird immer wichtiger. Gleichzeitig ist es unerlässlich, dass Schutzmaßnahmen legitime und nützliche Anwendungen nicht übermäßig behindern, wenn diese Techniken beinhalten, die manchmal auch zur Entwicklung von Malware verwendet werden, wie etwa Low-Level-Kernel-Engineering.

Um ein Gleichgewicht zwischen Sicherheit und Nutzen herzustellen, wurde Codex darauf trainiert, Anfragen zur Entwicklung bösartiger Software zu erkennen und präzise abzulehnen, während es legitime Aufgaben klar unterscheidet und unterstützt. Wir haben außerdem unsere Richtlinienrahmen verbessert und strenge Sicherheitsbewertungen integriert, um diese Grenzen wirksam zu verstärken. Um diese Bewertungen zu berücksichtigen, haben wir einen Zusatz zur o3‑Systemkarte⁠ veröffentlicht.

Sichere Ausführung

Der Codex-Agent arbeitet vollständig in einem sicheren, isolierten Container in der Cloud. Während der Ausführung der Aufgaben ist der Internetzugang deaktiviert, wodurch die Interaktion des Agenten ausschließlich auf den Code beschränkt ist, der explizit über GitHub-Repositorys bereitgestellt wird, und auf vorinstallierte Abhängigkeiten, die vom Benutzer über ein Setup-Skript konfiguriert werden. Der Agent kann nicht auf externe Websites, APIs oder andere Dienste zugreifen.

Frühe Anwendungsfälle

Die technischen Teams bei OpenAI haben begonnen, Codex als Teil ihres täglichen Toolkits zu verwenden. Es wird am häufigsten von OpenAI-Ingenieuren verwendet, um sich wiederholende, gut abgegrenzte Aufgaben wie Refactoring, Umbenennen und Schreiben von Tests auszulagern, die ansonsten den Fokus stören würden. Es ist gleichermaßen nützlich für die Entwicklung neuer Funktionen, die Verdrahtung von Komponenten, die Behebung von Fehlern und die Erstellung von Dokumentationen. Die Teams entwickeln in diesem Zusammenhang neue Gewohnheiten: Sie priorisieren Bereitschaftsprobleme, planen Aufgaben zu Beginn des Tages und delegieren Hintergrundarbeiten, um stetig voranzukommen. Indem Codex Kontextwechsel verringert und vergessene Aufgaben anzeigt, hilft es Ingenieuren dabei, schneller zu liefern und sich auf das Wesentliche zu konzentrieren.

Im Vorfeld der Veröffentlichung haben wir auch mit einer kleinen Gruppe externer Tester zusammengearbeitet, um besser zu verstehen, wie Codex für unterschiedliche Codebasen, Entwicklungsprozesse und Teams funktioniert.

Cisco⁠(wird in einem neuen Fenster geöffnet) untersucht, wie Codex seinen Entwicklungsteams dabei helfen kann, ehrgeizige Ideen schneller in die Tat umzusetzen. Als früher Designpartner hilft Cisco dabei, die Zukunft von Codex zu gestalten, indem das Unternehmen Codex für reale Anwendungsfälle im gesamten Produktportfolio evaluiert und dem OpenAI-Team Feedback liefert.
Temporal⁠(wird in einem neuen Fenster geöffnet) verwendet Codex, um die Entwicklung von Funktionen zu beschleunigen, Probleme zu beheben, Tests zu schreiben und auszuführen und große Codebasen zu refaktorieren. Darüber hinaus hilft Codex ihnen, konzentriert zu bleiben, indem komplexe Aufgaben im Hintergrund ausgeführt werden. So bleiben die Ingenieure fokussiert und die Iteration wird beschleunigt.
Superhuman⁠(wird in einem neuen Fenster geöffnet) verwendet Codex, um kleine, aber sich wiederholende Aufgaben wie die Verbesserung der Testabdeckung und die Behebung von Integrationsfehlern zu beschleunigen. Darüber hinaus kann das Unternehmen schneller liefern, indem Produktmanager leichte Codeänderungen vornehmen können, ohne einen Ingenieur hinzuziehen zu müssen, mit Ausnahme der Codeüberprüfung.
Kodiak⁠(wird in einem neuen Fenster geöffnet) verwendet Codex zum Schreiben von Tools zur Fehlerbehebung, zur Verbesserung der Testabdeckung und zum Refactoring von Code – und beschleunigt so die Entwicklung von Kodiak Driver, seiner autonomen Fahrtechnologie. Codex ist außerdem zu einem wertvollen Nachschlagewerk geworden, das Ingenieuren hilft, unbekannte Stack-Teile zu verstehen, indem relevante Zusammenhänge und frühere Änderungen ans Licht gebracht werden.

Basierend auf den Erkenntnissen früherer Tester empfehlen wir, mehreren Agenten gleichzeitig gut abgegrenzte Aufgaben zuzuweisen und mit unterschiedlichen Aufgabentypen und Prompts zu experimentieren, um die Fähigkeiten des Modells effektiv zu erkunden.

Updates zu Codex CLI

Letzten Monat haben wir Codex CLI eingeführt, einen Open-Source-Programmieragenten, der in deinem Terminal ausgeführt wird. Er bringt die Leistung von Modellen wie o3 und o4-mini in deinen lokalen Arbeitsablauf und erleichtert die Kopplung mit ihnen, um Aufgaben schneller zu erledigen.

Heute veröffentlichen wir auch eine kleinere Version von codex-1, eine Version von o4-mini, die speziell für die Verwendung in Codex CLI entwickelt wurde. Dieses neue Modell unterstützt schnellere Arbeitsabläufe in der CLI und ist für Code-Fragen und -Antworten sowie die Bearbeitung mit geringer Latenz optimiert, wobei die gleichen Stärken bei der Befolgung von Anweisungen und beim Stil erhalten bleiben. Es ist jetzt als Standardmodell in Codex CLI und in der API als codex-mini-latest verfügbar. Der zugrunde liegende Snapshot wird regelmäßig aktualisiert, während wir das Codex-mini-Modell weiter verbessern.

Wir machen es außerdem einfacher, dein Entwicklerkonto mit Codex CLI zu verbinden. Anstatt ein API-Token manuell zu generieren und zu konfigurieren, kannst du dich jetzt mit deinem ChatGPT‑Konto anmelden und die API-Organisation auswählen, die du verwenden möchtest. Wir generieren und konfigurieren den API-Schlüssel automatisch für dich. Plus- und Pro-Benutzer, die sich mit ChatGPT bei Codex CLI anmelden, können außerdem für die nächsten 30 Tage kostenlose API-Guthaben im Wert von 5 bzw. 50 US-Dollar einlösen.

Codex-Verfügbarkeit, Preisgestaltung und Einschränkungen

Wir beginnen heute mit der Einführung von Codex für ChatGPT Pro-, Enterprise- und Team-Benutzer weltweit. Der Support für Plus und Edu folgt in Kürze. In den kommenden Wochen erhalten Benutzer umfassenden Zugriff ohne zusätzliche Kosten, sodass du die Möglichkeiten von Codex erkunden kannst. Anschließend führen wir eingeschränkten Zugriff und flexible Preisoptionen ein, mit denen du bei Bedarf zusätzliche Nutzung erwerben kannst. Wir planen, den Zugriff zeitnah auf Plus- und Edu-Benutzer zu erweitern.

Für Entwickler, die mit codex-mini-latest arbeiten, ist das Modell auf der Responses API verfügbar zum Preis von 1,50 USD pro 1 Million Eingabetokens und 6 USD pro 1 Million Ausgabetokens, mit einem Prompt-Caching-Rabatt von 75 %.

Codex befindet sich noch in der Frühentwicklungsphase. Im Rahmen der Research-Preview fehlen derzeit Funktionen wie Bildeingaben für die Frontend-Arbeit und die Möglichkeit, den Agenten während seiner Arbeit zu korrigieren. Darüber hinaus dauert das Delegieren an einen Remote-Agenten länger als die interaktive Bearbeitung, was eine gewisse Gewöhnung erfordern kann. Im Laufe der Zeit wird die Interaktion mit Codex-Agenten immer mehr einer asynchronen Zusammenarbeit mit Kollegen ähneln. Mit der Weiterentwicklung der Modellfunktionen erwarten wir, dass Agenten über längere Zeiträume hinweg komplexere Aufgaben bewältigen können.

Wie geht‘s weiter?

Wir stellen uns eine Zukunft vor, in der Entwickler nach Wunsch einen Teil der Arbeit selbst erledigen und den Rest an Agenten delegieren – und dabei mit KI schneller und produktiver arbeiten können. Um dies zu erreichen, entwickeln wir eine Reihe von Codex-Tools, die sowohl die Zusammenarbeit in Echtzeit als auch die asynchrone Delegierung unterstützen.

Die Kopplung mit KI-Tools wie Codex CLI und anderen hat sich schnell zum Branchenstandard entwickelt und hilft Entwicklern, beim Programmieren schneller voranzukommen. Wir sind jedoch davon überzeugt, dass der von Codex in ChatGPT eingeführte asynchrone Multi-Agenten-Workflow für Ingenieure zum Standardverfahren für die Erstellung von qualitativ hochwertigem Code werden wird.

Letztendlich sehen wir, dass diese beiden Interaktionsmodi – Echtzeit-Pairing und Aufgabendelegation – zusammenlaufen. Entwickler werden in ihren IDEs und alltäglichen Tools mit KI-Agenten zusammenarbeiten, um Fragen zu stellen, Vorschläge zu erhalten und längere Aufgaben auszulagern – alles in einem einheitlichen Workflow.

Für die Zukunft planen wir die Einführung von stärker interaktiven und flexiblen Agenten-Workflows. Entwickler können bald mitten in der Aufgabe Anleitungen geben, bei Implementierungsstrategien zusammenarbeiten und proaktive Updates zum Fortschritt erhalten. Wir planen außerdem tiefere Integrationen über alle Tools hinweg, die du bereits verwendest: Heute wird Codex mit GitHub verbunden, und schon bald kannst du Aufgaben von Codex CLI, ChatGPT Desktop oder sogar Tools wie deinem Issue-Tracker oder CI-System zuweisen.

Die Softwareentwicklung ist eine der ersten Branchen, die durch KI erhebliche Produktivitätssteigerungen verzeichnet und Einzelpersonen und kleinen Teams neue Möglichkeiten eröffnet. Wir sind bezüglich dieser Erfolge zwar optimistisch, arbeiten aber auch mit Partnern zusammen, um die Auswirkungen einer breiten Übernahme von Agenten auf die Arbeitsabläufe der Entwickler, die Kompetenzentwicklung der einzelnen Mitarbeiter, die Kompetenzstufen und die geografische Lage besser zu verstehen.

Dies ist erst der Anfang – und wir sind gespannt, was du mit Codex erstellen wirst.

Livestream-Wiederholung

Anhang

Systemnachricht

Wir teilen die codex-1-Systemnachricht, um Entwicklern dabei zu helfen, das Standardverhalten des Modells zu verstehen und Codex so anzupassen, dass es in benutzerdefinierten Arbeitsabläufen effektiv funktioniert. Beispielsweise fordert die codex-1-Systemnachricht Codex dazu auf, alle in der Datei „AGENTS.md“ genannten Tests auszuführen. Wenn du jedoch unter Zeitdruck stehst, kannst du Codex bitten, diese Tests zu überspringen.

1# Instructions
2- The user will provide a task.
3- The task involves working with Git repositories in your current working directory.
4- Wait for all terminal commands to be completed (or terminate them) before finishing.
5
6# Git instructions
7If completing the user's task requires writing or modifying files:
8- Do not create new branches.
9- Use git to commit your changes.
10- If pre-commit fails, fix issues and retry.
11- Check git status to confirm your commit. You must leave your worktree in a clean state.
12- Only committed code will be evaluated.
13- Do not modify or amend existing commits.
14
15# AGENTS.md spec
16- Containers often contain AGENTS.md files. These files can appear anywhere in the container's filesystem. Typical locations include `/`, `~`, and in various places inside of Git repos.
17- These files are a way for humans to give you (the agent) instructions or tips for working within the container.
18- Some examples might be: coding conventions, info about how code is organized, or instructions for how to run or test code.
19- AGENTS.md files may provide instructions about PR messages (messages attached to a GitHub Pull Request produced by the agent, describing the PR). These instructions should be respected.
20- Instructions in AGENTS.md files:
21  - The scope of an AGENTS.md file is the entire directory tree rooted at the folder that contains it.
22  - For every file you touch in the final patch, you must obey instructions in any AGENTS.md file whose scope includes that file.
23  - Instructions about code style, structure, naming, etc. apply only to code within the AGENTS.md file's scope, unless the file states otherwise.
24  - More-deeply-nested AGENTS.md files take precedence in the case of conflicting instructions.
25  - Direct system/developer/user instructions (as part of a prompt) take precedence over AGENTS.md instructions.
26- AGENTS.md files need not live only in Git repos. For example, you may find one in your home directory.
27- If the AGENTS.md includes programmatic checks to verify your work, you MUST run all of them and make a best effort to validate that the checks pass AFTER all code changes have been made.
28  - This applies even for changes that appear simple, i.e. documentation. You still must run all of the programmatic checks.
29
30# Citations instructions
31- If you browsed files or used terminal commands, you must add citations to the final response (not the body of the PR message) where relevant. Citations reference file paths and terminal outputs with the following formats:
32  1) `【F:<file_path>†L<line_start>(-L<line_end>)?】`
33  - File path citations must start with `F:`. `file_path` is the exact file path of the file relative to the root of the repository that contains the relevant text.
34  - `line_start` is the 1-indexed start line number of the relevant output within that file.
35  2) `【<chunk_id>†L<line_start>(-L<line_end>)?】`
36  - Where `chunk_id` is the chunk_id of the terminal output, `line_start` and `line_end` are the 1-indexed start and end line numbers of the relevant output within that chunk.
37- Line ends are optional, and if not provided, line end is the same as line start, so only 1 line is cited.
38- Ensure that the line numbers are correct, and that the cited file paths or terminal outputs are directly relevant to the word or clause before the citation.
39- Do not cite completely empty lines inside the chunk, only cite lines that have content.
40- Only cite from file paths and terminal outputs, DO NOT cite from previous pr diffs and comments, nor cite git hashes as chunk ids.
41- Use file path citations that reference any code changes, documentation or files, and use terminal citations only for relevant terminal output.
42- Prefer file citations over terminal citations unless the terminal output is directly relevant to the clauses before the citation, i.e. clauses on test results.
43  - For PR creation tasks, use file citations when referring to code changes in the summary section of your final response, and terminal citations in the testing section.
44  - For question-answering tasks, you should only use terminal citations if you need to programmatically verify an answer (i.e. counting lines of code). Otherwise, use file citations.

Autor

OpenAI