16 mei 2025

Maak kennis met Codex

Een agent voor software-engineering in de cloud die aan veel taken tegelijkertijd kan werken en draait op codex-1. De agent is nu beschikbaar voor ChatGPT Pro-, Team- en Enterprise-gebruikers, en binnenkort ook voor Plus-gebruikers.

Codex uitproberen

Dashboard waarin wordt gevraagd 'What should we code next?' met een promptvenster, opties voor repository/branch en een taaklijst, tegen een achtergrond van pastelkleuren en met een programmeerthema.

Bezig met laden...

Vandaag brengen we een onderzoeksversie uit van Codex, een agent voor software-engineering in de cloud die aan veel taken tegelijkertijd kan werken. Codex kan taken voor je uitvoeren zoals het schrijven van functies, het beantwoorden van vragen over je codebase, het oplossen van fouten en het voorstellen van pull requests voor beoordeling. Elke taak wordt uitgevoerd in een aparte sandboxomgeving in de cloud waarin je repository vooraf is geladen.

Codex draait op codex-1, een versie van OpenAI o3 die is geoptimaliseerd voor software-engineering. We hebben het model getraind met een proces voor versterkend leren, gebaseerd op programmeertaken uit de praktijk in uiteenlopende omgevingen. Hierdoor leerde het model code te genereren die sterk lijkt op de stijl en PR-voorkeuren van mensen en instructies nauwkeurig op te volgen. Het kan bovendien iteratieve tests uitvoeren totdat het gewenste resultaat is behaald. We rollen Codex vandaag uit voor ChatGPT Pro-, Enterprise- en Team-gebruikers. Binnenkort wordt de agent ook beschikbaar voor Plus en Edu.

Zo werkt Codex

Je kunt Codex openen via de zijbalk in ChatGPT en de agent nieuwe programmeertaken toewijzen door een prompt te typen en op 'Code' te klikken. Als je Codex een vraag wilt stellen over je codebase, klik je op 'Ask'. Elke taak wordt onafhankelijk verwerkt in een aparte, geïsoleerde omgeving waarin je codebase vooraf is geladen. Codex kan bestanden lezen en bewerken, en opdrachten uitvoeren zoals test harnessses, linters en typecheckers. Het duurt meestal tussen één en dertig minuten om taken te voltooien, afhankelijk van de moeilijkheidsgraad. Je kunt de voortgang van Codex in realtime monitoren.

Nadat een taak is voltooid, past Codex de wijzigingen toe in de betreffende omgeving. Je kunt de handelingen van Codex verifiëren aan de hand van verwijzingen in de terminal-logboeken en testuitvoer. Met deze informatie kun je elke stap volgen die tijdens de taakuitvoering is genomen. Je kunt vervolgens de resultaten bekijken, meer revisies aanvragen, een GitHub-pull-request openen of de wijzigingen rechtstreeks integreren in je lokale omgeving. In het product kun je de Codex-omgeving zo configureren dat die zo veel mogelijk overeenkomt met je eigen ontwikkelomgeving.

Je kunt Codex aansturen met behulp van AGENTS.MD-bestanden die je in je repository hebt gezet. Dit zijn tekstbestanden die lijken op README.MD en waarin je uitlegt hoe Codex door je codebase moet navigeren, welke commando's het moet gebruiken om tests uit te voeren en hoe de standaardwerkwijzen voor je project het beste kunnen worden gevolgd. Net als menselijke ontwikkelaars werken Codex-agents het beste als de ontwikkelomgeving al goed geconfigureerd is, de testinfrastructuur betrouwbaar is en de documentatie duidelijk is.

Bij evaluaties en interne metingen van programmeerprestaties laat codex-1 sterke resultaten zien, zelfs zonder AGENTS.md-bestanden of op maat gemaakte projectstructuur.

23 voorbeeldtaken uit de SWE-Bench Verified-testset konden niet worden uitgevoerd in onze interne infrastructuur en zijn daarom buiten beschouwing gelaten. Codex-1 is getest met een maximale contextlengte van 192.000 tokens en een gemiddeld niveau van redeneerinspanning, wat ook de instelling is die nu in het product beschikbaar is. Kijk hier⁠ voor meer informatie over de evaluaties van o3.

Onze interne benchmark voor software-engineering bestaat uit een zorgvuldig samengestelde verzameling echte programmeertaken binnen OpenAI.

Veilige en betrouwbare agents bouwen

We brengen Codex uit als een onderzoeksversie, in overeenstemming met onze strategie voor een stapsgewijze, gecontroleerde uitrol. Bij het ontwerpen van Codex hebben we beveiliging en transparantie vooropgesteld, zodat gebruikers zelf kunnen verifiëren wat het model precies doet. Dat is belangrijk, zeker nu AI-modellen steeds vaker zelfstandig programmeertaken uitvoeren en de veiligheidsvereisten blijven veranderen. Gebruikers kunnen het werk van Codex controleren aan de hand van verwijzingen, terminal-logboeken en testresultaten. Als de Codex-agent ergens over twijfelt of een test mislukt, geeft het dat duidelijk aan. Zo kan de gebruiker een geïnformeerde beslissing nemen over hoe verder te gaan. Toch blijft het belangrijk dat gebruikers alle door de agent gegenereerde code handmatig controleren en goedkeuren voordat ze deze integreren of uitvoeren.

Er wordt een screenshot van een code-review getoond waarop een overlay van een testbestand te zien is dat controleert of bestandsnamen tussen aanhalingstekens juist zijn. Daarnaast worden een samenvatting en geslaagde tests weergegeven, alles tegen een blauwe achtergrond.

Er wordt een screenshot van een code-review getoond met een zwarte terminal-overlay. Hierin staat dat één test voor de bestandsnamen tussen aanhalingstekens is geslaagd. Daarnaast worden een samenvatting en een diff van de wijziging 'Fix /diff error with special characters' weergegeven, alles tegen een pastelblauwe achtergrond.

Afstemmen op menselijke voorkeuren

Een belangrijk doel tijdens het trainen van codex-1 was om de uitvoer zo veel mogelijk te laten aansluiten bij de voorkeuren en standaarden van menselijke programmeurs. Vergeleken met OpenAI o3 genereert codex-1 consistent overzichtelijkere patches die direct gereed zijn voor handmatige controle en kunnen worden geïntegreerd in standaardworkflows.

Please fix the following issue in the astropy/astropy repository. Please resolve the issue in the problem below by editing and testing code files in your current code execution session. The repository is cloned in the /testbed folder. You must fully solve the problem for your answer to be considered correct. Problem statement:Modeling's `separability_matrix` does not compute separability correctly for nested CompoundModels Consider the following model: ```python from astropy.modeling import models as m from astropy.modeling.separable import separability_matrix cm = m.Linear1D(10) & m.Linear1D(5) ``` It's separability matrix as you might expect is a diagonal: ```python >>> separability_matrix(cm) array([[ True, False], [False, True]]) ``` If I make the model more complex: ```python >>> separability_matrix(m.Pix2Sky_TAN() & m.Linear1D(10) & m.Linear1D(5)) array([[ True, True, False, False], [ True, True, False, False], [False, False, True, False], [False, False, False, True]]) ``` The output matrix is again, as expected, the outputs and inputs to the linear models are separable and independent of each other. If however, I nest these compound models: ```python >>> separability_matrix(m.Pix2Sky_TAN() & cm) array([[ True, True, False, False], [ True, True, False, False], [False, False, True, True], [False, False, True, True]]) ``` Suddenly the inputs and outputs are no longer separable? This feels like a bug to me, but I might be missing something?

Codex

OpenAI o3

Misbruik voorkomen

Bescherming tegen kwaadaardig gebruik van AI bij software-engineering, zoals het ontwikkelen van malware, wordt steeds belangrijker. Tegelijkertijd is het belangrijk dat beschermingsmaatregelen legitieme en nuttige toepassingen niet onnodig in de weg staan, ook als daarbij technieken worden gebruikt die ook voor malware worden gehanteerd, zoals 'low-level kernel engineering'.

Codex is zo getraind dat het een goede balans heeft tussen veiligheid en bruikbaarheid. Zo herkent en weigert het nauwkeurig verzoeken die bedoeld zijn om kwaadaardige software te ontwikkelen, maar onderscheidt en ondersteunt het tegelijkertijd duidelijk legitieme taken. We hebben ook onze beleidskaders verbeterd en strengere veiligheidsevaluaties toegevoegd om deze grens tussen toelaatbare en kwaadaardige toepassingen beter te bewaken. Daarnaast hebben we een aanvulling op de o3‑systeemkaart⁠ gepubliceerd waarin deze evaluaties zijn vastgelegd.

Veilige uitvoering

De Codex-agent werkt volledig binnen een veilige, geïsoleerde container in de cloud. Tijdens het uitvoeren van een taak heeft de agent geen toegang tot internet en kan deze uitsluitend werken met de code die is verstrekt via de GitHub-repository's en vooraf geïnstalleerde afhankelijkheden die door de gebruiker via een configuratiescript zijn geconfigureerd. De agent heeft geen toegang tot externe websites, API's of andere diensten.

Eerste toepassingen

Technische teams van OpenAI gebruiken Codex inmiddels als een van de standaardtools voor hun dagelijkse werkzaamheden. Engineers van OpenAI gebruiken de agent vooral om repetitieve, duidelijk afgebakende taken uit te besteden, zoals het herstructureren van code, het verduidelijken van code-elementen en het schrijven van tests, taken die hen anders uit hun concentratie zouden halen. Codex is ook handig bij het opzetten van een basisstructuur voor nieuwe functies, het verbinden van onderdelen, het oplossen van fouten en het schrijven van conceptversies van documentatie. Teams die de agent gebruiken, ontwikkelen nieuwe gewoontes om efficiënter te werken. Zo zetten ze deze in om urgente problemen te beoordelen, taken aan het begin van de dag te plannen en minder belangrijk werk uit te besteden. Met Codex hoeven engineers minder vaak te schakelen en worden vergeten taken onder de aandacht gebracht. Hierdoor kunnen ze werk sneller opleveren en zich beter concentreren op wat belangrijk is.

In aanloop naar de release hebben we ook gewerkt met een kleine groep externe testers om beter te begrijpen hoe Codex presteert met verschillende codebases, ontwikkelprocessen en teams.

Cisco⁠(opent in een nieuw venster) verkent hoe Codex hun engineeringteams kan helpen om ambitieuze ideeën sneller tot leven te brengen. Cisco is vanaf het eerste moment betrokken geweest bij het ontwerp. Het helpt de toekomst van Codex vorm te geven door het te evalueren voor praktische toepassingen in het productportfolio van het bedrijf en feedback te geven aan het OpenAI-team.
Temporal⁠(opent in een nieuw venster) gebruikt Codex om sneller functies te ontwikkelen, fouten op te lossen, tests te schrijven en uit te voeren, en grote codebases te herstructureren. Het bedrijf laat de agent ook complexe taken op de achtergrond uitvoeren, zodat engineers geconcentreerd kunnen blijven doorwerken en de iteraties sneller kunnen worden doorlopen.
Superhuman⁠(opent in een nieuw venster) gebruikt Codex om snelle, maar repetitieve taken sneller te voltooien, zoals het verbeteren van het testbereik en het herstellen van integratiefouten. Behalve voor code-reviews zijn er geen engineers meer nodig om kleine codewijzigingen door te voeren, want dat kunnen productmanagers nu zelf doen. Zo kan het bedrijf software sneller opleveren.
Kodiak⁠(opent in een nieuw venster) gebruikt Codex om tools voor het oplossen van fouten te schrijven, het testbereik te verbeteren en code te herstructureren. Op deze manier versnelt het de ontwikkeling van Kodiak Driver, de technologie voor zelfstandig rijden van het bedrijf. Codex is ook een waardevol naslaghulpmiddel geworden waarmee engineers onbekende onderdelen van de stack beter kunnen begrijpen door de relevante context en eerdere wijzigingen zichtbaar te maken.

Om op een effectieve manier te ontdekken wat het model allemaal kan, raden we op basis van de ervaringen van de eerste testers aan om goed afgebakende taken aan meerdere agents tegelijkertijd toe te wijzen en te experimenteren met verschillende soorten taken en prompts.

Updates voor Codex CLI

Afgelopen maand brachten we Codex CLI uit, een eenvoudige opensourceagent voor programmeren die je in je terminal gebruikt. Met de agent voeg je krachtige modellen zoals o3 en o4-mini toe aan je lokale workflows, zodat je ze eenvoudig kunt gebruiken om taken sneller te voltooien.

Vandaag brengen we ook een kleinere versie uit van codex-1, een versie van o4-mini die specifiek is ontworpen voor gebruik in Codex CLI. Dit nieuwe model is ontworpen om sneller te werken in de CLI en is geoptimaliseerd om heel snel te reageren bij het beantwoorden van vragen over code en het bewerken van code. Het model blijft daarnaast ook heel goed in het opvolgen van instructies en het aanhouden van een stijl. Dit is vanaf nu het standaardmodel in Codex CLI. In de API is het beschikbaar onder de naam codex-mini-latest. De basisversie wordt regelmatig bijgewerkt terwijl we blijven werken aan verbeteringen van het Codex-minimodel.

We maken het ook veel makkelijker om je ontwikkelaarsaccount te verbinden met Codex CLI. In plaats van handmatig een API-token te genereren en configureren, kun je je nu aanmelden met je ChatGPT‑account en de gewenste API-organisatie selecteren. We genereren en configureren de API-sleutel automatisch voor je. Plus- en Pro-gebruikers die zich met ChatGPT aanmelden bij Codex CLI, kunnen respectievelijk vijf en vijftig dollar aan gratis API-tegoed verzilveren. Deze aanbieding gaat later vandaag van start en is dertig dagen geldig.

Beschikbaarheid, prijzen en beperkingen van Codex

We rollen Codex vanaf vandaag uit voor ChatGPT Pro-, Enterprise- en Team-gebruikers over de hele wereld. Binnenkort wordt de agent ook beschikbaar voor Plus en Edu. Gebruikers hebben de komende weken uitgebreide toegang zonder extra kosten, zodat ze de mogelijkheden van Codex kunnen ontdekken. Daarna wordt het gebruik beperkt tot een bepaalde limiet, maar kun je via flexibele prijsmodellen extra toegang kopen als je die nodig hebt. We zijn van plan om Plus- en Edu-gebruikers binnenkort ook toegang te geven.

Voor ontwikkelaars die codex-mini-latest gebruiken: het model is beschikbaar op de Responses-API en kost anderhalve dollar per miljoen invoertokens en zes dollar per miljoen uitvoertokens, met een korting van 75% voor prompts uit de geheugenopslag.

De ontwikkeling van Codex bevindt zich nog in een vroeg stadium. Aangezien het een onderzoeksversie is, kun je momenteel niet werken met afbeeldingsinvoer om frontendcode te genereren of de agent corrigeren terwijl deze bezig is. Als je een taak uitbesteedt aan een externe agent, duurt dat bovendien langer dan wanneer je zelf de code bewerkt. Dit kan even wennen zijn. Op termijn zal het werken met Codex-agents steeds meer gaan lijken op asynchrone samenwerking met collega's. Naarmate de modellen beter worden, verwachten we dat agents complexere taken over langere perioden kunnen uitvoeren.

De toekomst

We stellen ons een toekomst voor waar ontwikkelaars zelf bepalen welke taken ze willen doen en de rest overlaten aan agents, zodat ze sneller en productiever kunnen zijn met AI. Om die visie realiteit te maken, bouwen we een set Codex-tools waarmee je zowel in realtime kunt samenwerken met de agent als taken kunt uitbesteden voor later.

Het werken met AI-tools zoals Codex CLI is snel een standaardpraktijk geworden in de softwarebranche. Ontwikkelaars gebruiken deze tools tijdens het programmeren om sneller te kunnen werken. Toch verwachten we dat de asynchrone workflow met meerdere agents, die via Codex in ChatGPT is geïntroduceerd, de standaard wordt voor het produceren van code van hoge kwaliteit door engineers.

Uiteindelijk denken we dat deze twee soorten interactie, in realtime werken en taken uitbesteden, zullen samensmelten. Ontwikkelaars zullen samenwerken met AI-agents in hun IDE's en dagelijkse tools om vragen te stellen, suggesties te krijgen en langere taken uit te besteden, allemaal in één workflow.

We kijken vooruit en zijn van plan om in de toekomst nog interactievere en flexibelere manieren te introduceren om met agents te werken. Ontwikkelaars kunnen binnenkort tijdens een taak aanwijzingen geven, samenwerken aan implementatiestrategieën en proactieve updates krijgen over de voortgang. We voorzien ook diepere integraties met de tools die je al gebruikt: op dit moment is er al een koppeling met GitHub en binnenkort kun je taken toewijzen vanuit Codex CLI, ChatGPT Desktop en zelfs tools zoals je tracker voor problemen of je CI-systeem.

Software-engineering is een van de eerste branches die grote productiviteitsverbeteringen ziet dankzij AI en dit zorgt voor nieuwe kansen voor individuele ontwikkelaars en kleine teams. Hoewel we optimistisch zijn over deze voordelen, werken we ook samen met partners om beter te begrijpen wat het gebruik van agents op grote schaal betekent voor de manier van werken van ontwikkelaars en de manier waarop verschillende mensen, met uiteenlopende vaardigheidsniveaus en uit verschillende landen, hun vaardigheden ontwikkelen.

Dit is nog maar het begin, en we kunnen niet wachten om te zien wat je gaat bouwen met Codex.

Herhaling van livestream

Bijlage

Systeembericht

We delen het codex-1-systeembericht zodat ontwikkelaars beter begrijpen hoe Codex standaard werkt en hoe ze Codex kunnen aanpassen zodat het goed functioneert in hun eigen workflows. In het codex-1-systeembericht wordt Codex bijvoorbeeld aangemoedigd om alle tests uit te voeren die in het AGENTS.md-bestand worden beschreven. Maar als je weinig tijd hebt, kun je Codex ook vragen om deze tests over te slaan.

1# Instructions
2- The user will provide a task.
3- The task involves working with Git repositories in your current working directory.
4- Wait for all terminal commands to be completed (or terminate them) before finishing.
5
6# Git instructions
7If completing the user's task requires writing or modifying files:
8- Do not create new branches.
9- Use git to commit your changes.
10- If pre-commit fails, fix issues and retry.
11- Check git status to confirm your commit. You must leave your worktree in a clean state.
12- Only committed code will be evaluated.
13- Do not modify or amend existing commits.
14
15# AGENTS.md spec
16- Containers often contain AGENTS.md files. These files can appear anywhere in the container's filesystem. Typical locations include `/`, `~`, and in various places inside of Git repos.
17- These files are a way for humans to give you (the agent) instructions or tips for working within the container.
18- Some examples might be: coding conventions, info about how code is organized, or instructions for how to run or test code.
19- AGENTS.md files may provide instructions about PR messages (messages attached to a GitHub Pull Request produced by the agent, describing the PR). These instructions should be respected.
20- Instructions in AGENTS.md files:
21  - The scope of an AGENTS.md file is the entire directory tree rooted at the folder that contains it.
22  - For every file you touch in the final patch, you must obey instructions in any AGENTS.md file whose scope includes that file.
23  - Instructions about code style, structure, naming, etc. apply only to code within the AGENTS.md file's scope, unless the file states otherwise.
24  - More-deeply-nested AGENTS.md files take precedence in the case of conflicting instructions.
25  - Direct system/developer/user instructions (as part of a prompt) take precedence over AGENTS.md instructions.
26- AGENTS.md files need not live only in Git repos. For example, you may find one in your home directory.
27- If the AGENTS.md includes programmatic checks to verify your work, you MUST run all of them and make a best effort to validate that the checks pass AFTER all code changes have been made.
28  - This applies even for changes that appear simple, i.e. documentation. You still must run all of the programmatic checks.
29
30# Citations instructions
31- If you browsed files or used terminal commands, you must add citations to the final response (not the body of the PR message) where relevant. Citations reference file paths and terminal outputs with the following formats:
32  1) `【F:<file_path>†L<line_start>(-L<line_end>)?】`
33  - File path citations must start with `F:`. `file_path` is the exact file path of the file relative to the root of the repository that contains the relevant text.
34  - `line_start` is the 1-indexed start line number of the relevant output within that file.
35  2) `【<chunk_id>†L<line_start>(-L<line_end>)?】`
36  - Where `chunk_id` is the chunk_id of the terminal output, `line_start` and `line_end` are the 1-indexed start and end line numbers of the relevant output within that chunk.
37- Line ends are optional, and if not provided, line end is the same as line start, so only 1 line is cited.
38- Ensure that the line numbers are correct, and that the cited file paths or terminal outputs are directly relevant to the word or clause before the citation.
39- Do not cite completely empty lines inside the chunk, only cite lines that have content.
40- Only cite from file paths and terminal outputs, DO NOT cite from previous pr diffs and comments, nor cite git hashes as chunk ids.
41- Use file path citations that reference any code changes, documentation or files, and use terminal citations only for relevant terminal output.
42- Prefer file citations over terminal citations unless the terminal output is directly relevant to the clauses before the citation, i.e. clauses on test results.
43  - For PR creation tasks, use file citations when referring to code changes in the summary section of your final response, and terminal citations in the testing section.
44  - For question-answering tasks, you should only use terminal citations if you need to programmatically verify an answer (i.e. counting lines of code). Otherwise, use file citations.

Auteur

OpenAI