Maak kennis met Codex
Een agent voor software-engineering in de cloud die aan veel taken tegelijkertijd kan werken en draait op codex-1. De agent is nu beschikbaar voor ChatGPT Pro-, Team- en Enterprise-gebruikers, en binnenkort ook voor Plus-gebruikers.

Vandaag brengen we een onderzoeksversie uit van Codex, een agent voor software-engineering in de cloud die aan veel taken tegelijkertijd kan werken. Codex kan taken voor je uitvoeren zoals het schrijven van functies, het beantwoorden van vragen over je codebase, het oplossen van fouten en het voorstellen van pull requests voor beoordeling. Elke taak wordt uitgevoerd in een aparte sandboxomgeving in de cloud waarin je repository vooraf is geladen.
Codex draait op codex-1, een versie van OpenAI o3 die is geoptimaliseerd voor software-engineering. We hebben het model getraind met een proces voor versterkend leren, gebaseerd op programmeertaken uit de praktijk in uiteenlopende omgevingen. Hierdoor leerde het model code te genereren die sterk lijkt op de stijl en PR-voorkeuren van mensen en instructies nauwkeurig op te volgen. Het kan bovendien iteratieve tests uitvoeren totdat het gewenste resultaat is behaald. We rollen Codex vandaag uit voor ChatGPT Pro-, Enterprise- en Team-gebruikers. Binnenkort wordt de agent ook beschikbaar voor Plus en Edu.
Je kunt Codex openen via de zijbalk in ChatGPT en de agent nieuwe programmeertaken toewijzen door een prompt te typen en op 'Code' te klikken. Als je Codex een vraag wilt stellen over je codebase, klik je op 'Ask'. Elke taak wordt onafhankelijk verwerkt in een aparte, geïsoleerde omgeving waarin je codebase vooraf is geladen. Codex kan bestanden lezen en bewerken, en opdrachten uitvoeren zoals test harnessses, linters en typecheckers. Het duurt meestal tussen één en dertig minuten om taken te voltooien, afhankelijk van de moeilijkheidsgraad. Je kunt de voortgang van Codex in realtime monitoren.
Nadat een taak is voltooid, past Codex de wijzigingen toe in de betreffende omgeving. Je kunt de handelingen van Codex verifiëren aan de hand van verwijzingen in de terminal-logboeken en testuitvoer. Met deze informatie kun je elke stap volgen die tijdens de taakuitvoering is genomen. Je kunt vervolgens de resultaten bekijken, meer revisies aanvragen, een GitHub-pull-request openen of de wijzigingen rechtstreeks integreren in je lokale omgeving. In het product kun je de Codex-omgeving zo configureren dat die zo veel mogelijk overeenkomt met je eigen ontwikkelomgeving.
Je kunt Codex aansturen met behulp van AGENTS.MD-bestanden die je in je repository hebt gezet. Dit zijn tekstbestanden die lijken op README.MD en waarin je uitlegt hoe Codex door je codebase moet navigeren, welke commando's het moet gebruiken om tests uit te voeren en hoe de standaardwerkwijzen voor je project het beste kunnen worden gevolgd. Net als menselijke ontwikkelaars werken Codex-agents het beste als de ontwikkelomgeving al goed geconfigureerd is, de testinfrastructuur betrouwbaar is en de documentatie duidelijk is.
Bij evaluaties en interne metingen van programmeerprestaties laat codex-1 sterke resultaten zien, zelfs zonder AGENTS.md-bestanden of op maat gemaakte projectstructuur.
23 voorbeeldtaken uit de SWE-Bench Verified-testset konden niet worden uitgevoerd in onze interne infrastructuur en zijn daarom buiten beschouwing gelaten. Codex-1 is getest met een maximale contextlengte van 192.000 tokens en een gemiddeld niveau van redeneerinspanning, wat ook de instelling is die nu in het product beschikbaar is. Kijk hier voor meer informatie over de evaluaties van o3.
Onze interne benchmark voor software-engineering bestaat uit een zorgvuldig samengestelde verzameling echte programmeertaken binnen OpenAI.
We brengen Codex uit als een onderzoeksversie, in overeenstemming met onze strategie voor een stapsgewijze, gecontroleerde uitrol. Bij het ontwerpen van Codex hebben we beveiliging en transparantie vooropgesteld, zodat gebruikers zelf kunnen verifiëren wat het model precies doet. Dat is belangrijk, zeker nu AI-modellen steeds vaker zelfstandig programmeertaken uitvoeren en de veiligheidsvereisten blijven veranderen. Gebruikers kunnen het werk van Codex controleren aan de hand van verwijzingen, terminal-logboeken en testresultaten. Als de Codex-agent ergens over twijfelt of een test mislukt, geeft het dat duidelijk aan. Zo kan de gebruiker een geïnformeerde beslissing nemen over hoe verder te gaan. Toch blijft het belangrijk dat gebruikers alle door de agent gegenereerde code handmatig controleren en goedkeuren voordat ze deze integreren of uitvoeren.


Een belangrijk doel tijdens het trainen van codex-1 was om de uitvoer zo veel mogelijk te laten aansluiten bij de voorkeuren en standaarden van menselijke programmeurs. Vergeleken met OpenAI o3 genereert codex-1 consistent overzichtelijkere patches die direct gereed zijn voor handmatige controle en kunnen worden geïntegreerd in standaardworkflows.
Bescherming tegen kwaadaardig gebruik van AI bij software-engineering, zoals het ontwikkelen van malware, wordt steeds belangrijker. Tegelijkertijd is het belangrijk dat beschermingsmaatregelen legitieme en nuttige toepassingen niet onnodig in de weg staan, ook als daarbij technieken worden gebruikt die ook voor malware worden gehanteerd, zoals 'low-level kernel engineering'.
Codex is zo getraind dat het een goede balans heeft tussen veiligheid en bruikbaarheid. Zo herkent en weigert het nauwkeurig verzoeken die bedoeld zijn om kwaadaardige software te ontwikkelen, maar onderscheidt en ondersteunt het tegelijkertijd duidelijk legitieme taken. We hebben ook onze beleidskaders verbeterd en strengere veiligheidsevaluaties toegevoegd om deze grens tussen toelaatbare en kwaadaardige toepassingen beter te bewaken. Daarnaast hebben we een aanvulling op de o3‑systeemkaart gepubliceerd waarin deze evaluaties zijn vastgelegd.
De Codex-agent werkt volledig binnen een veilige, geïsoleerde container in de cloud. Tijdens het uitvoeren van een taak heeft de agent geen toegang tot internet en kan deze uitsluitend werken met de code die is verstrekt via de GitHub-repository's en vooraf geïnstalleerde afhankelijkheden die door de gebruiker via een configuratiescript zijn geconfigureerd. De agent heeft geen toegang tot externe websites, API's of andere diensten.
Technische teams van OpenAI gebruiken Codex inmiddels als een van de standaardtools voor hun dagelijkse werkzaamheden. Engineers van OpenAI gebruiken de agent vooral om repetitieve, duidelijk afgebakende taken uit te besteden, zoals het herstructureren van code, het verduidelijken van code-elementen en het schrijven van tests, taken die hen anders uit hun concentratie zouden halen. Codex is ook handig bij het opzetten van een basisstructuur voor nieuwe functies, het verbinden van onderdelen, het oplossen van fouten en het schrijven van conceptversies van documentatie. Teams die de agent gebruiken, ontwikkelen nieuwe gewoontes om efficiënter te werken. Zo zetten ze deze in om urgente problemen te beoordelen, taken aan het begin van de dag te plannen en minder belangrijk werk uit te besteden. Met Codex hoeven engineers minder vaak te schakelen en worden vergeten taken onder de aandacht gebracht. Hierdoor kunnen ze werk sneller opleveren en zich beter concentreren op wat belangrijk is.
In aanloop naar de release hebben we ook gewerkt met een kleine groep externe testers om beter te begrijpen hoe Codex presteert met verschillende codebases, ontwikkelprocessen en teams.
- Cisco(opent in een nieuw venster) verkent hoe Codex hun engineeringteams kan helpen om ambitieuze ideeën sneller tot leven te brengen. Cisco is vanaf het eerste moment betrokken geweest bij het ontwerp. Het helpt de toekomst van Codex vorm te geven door het te evalueren voor praktische toepassingen in het productportfolio van het bedrijf en feedback te geven aan het OpenAI-team.
- Temporal(opent in een nieuw venster) gebruikt Codex om sneller functies te ontwikkelen, fouten op te lossen, tests te schrijven en uit te voeren, en grote codebases te herstructureren. Het bedrijf laat de agent ook complexe taken op de achtergrond uitvoeren, zodat engineers geconcentreerd kunnen blijven doorwerken en de iteraties sneller kunnen worden doorlopen.
- Superhuman(opent in een nieuw venster) gebruikt Codex om snelle, maar repetitieve taken sneller te voltooien, zoals het verbeteren van het testbereik en het herstellen van integratiefouten. Behalve voor code-reviews zijn er geen engineers meer nodig om kleine codewijzigingen door te voeren, want dat kunnen productmanagers nu zelf doen. Zo kan het bedrijf software sneller opleveren.
- Kodiak(opent in een nieuw venster) gebruikt Codex om tools voor het oplossen van fouten te schrijven, het testbereik te verbeteren en code te herstructureren. Op deze manier versnelt het de ontwikkeling van Kodiak Driver, de technologie voor zelfstandig rijden van het bedrijf. Codex is ook een waardevol naslaghulpmiddel geworden waarmee engineers onbekende onderdelen van de stack beter kunnen begrijpen door de relevante context en eerdere wijzigingen zichtbaar te maken.
Om op een effectieve manier te ontdekken wat het model allemaal kan, raden we op basis van de ervaringen van de eerste testers aan om goed afgebakende taken aan meerdere agents tegelijkertijd toe te wijzen en te experimenteren met verschillende soorten taken en prompts.
Afgelopen maand brachten we Codex CLI uit, een eenvoudige opensourceagent voor programmeren die je in je terminal gebruikt. Met de agent voeg je krachtige modellen zoals o3 en o4-mini toe aan je lokale workflows, zodat je ze eenvoudig kunt gebruiken om taken sneller te voltooien.
Vandaag brengen we ook een kleinere versie uit van codex-1, een versie van o4-mini die specifiek is ontworpen voor gebruik in Codex CLI. Dit nieuwe model is ontworpen om sneller te werken in de CLI en is geoptimaliseerd om heel snel te reageren bij het beantwoorden van vragen over code en het bewerken van code. Het model blijft daarnaast ook heel goed in het opvolgen van instructies en het aanhouden van een stijl. Dit is vanaf nu het standaardmodel in Codex CLI. In de API is het beschikbaar onder de naam codex-mini-latest. De basisversie wordt regelmatig bijgewerkt terwijl we blijven werken aan verbeteringen van het Codex-minimodel.
We maken het ook veel makkelijker om je ontwikkelaarsaccount te verbinden met Codex CLI. In plaats van handmatig een API-token te genereren en configureren, kun je je nu aanmelden met je ChatGPT‑account en de gewenste API-organisatie selecteren. We genereren en configureren de API-sleutel automatisch voor je. Plus- en Pro-gebruikers die zich met ChatGPT aanmelden bij Codex CLI, kunnen respectievelijk vijf en vijftig dollar aan gratis API-tegoed verzilveren. Deze aanbieding gaat later vandaag van start en is dertig dagen geldig.
We rollen Codex vanaf vandaag uit voor ChatGPT Pro-, Enterprise- en Team-gebruikers over de hele wereld. Binnenkort wordt de agent ook beschikbaar voor Plus en Edu. Gebruikers hebben de komende weken uitgebreide toegang zonder extra kosten, zodat ze de mogelijkheden van Codex kunnen ontdekken. Daarna wordt het gebruik beperkt tot een bepaalde limiet, maar kun je via flexibele prijsmodellen extra toegang kopen als je die nodig hebt. We zijn van plan om Plus- en Edu-gebruikers binnenkort ook toegang te geven.
Voor ontwikkelaars die codex-mini-latest gebruiken: het model is beschikbaar op de Responses-API en kost anderhalve dollar per miljoen invoertokens en zes dollar per miljoen uitvoertokens, met een korting van 75% voor prompts uit de geheugenopslag.
De ontwikkeling van Codex bevindt zich nog in een vroeg stadium. Aangezien het een onderzoeksversie is, kun je momenteel niet werken met afbeeldingsinvoer om frontendcode te genereren of de agent corrigeren terwijl deze bezig is. Als je een taak uitbesteedt aan een externe agent, duurt dat bovendien langer dan wanneer je zelf de code bewerkt. Dit kan even wennen zijn. Op termijn zal het werken met Codex-agents steeds meer gaan lijken op asynchrone samenwerking met collega's. Naarmate de modellen beter worden, verwachten we dat agents complexere taken over langere perioden kunnen uitvoeren.
We stellen ons een toekomst voor waar ontwikkelaars zelf bepalen welke taken ze willen doen en de rest overlaten aan agents, zodat ze sneller en productiever kunnen zijn met AI. Om die visie realiteit te maken, bouwen we een set Codex-tools waarmee je zowel in realtime kunt samenwerken met de agent als taken kunt uitbesteden voor later.
Het werken met AI-tools zoals Codex CLI is snel een standaardpraktijk geworden in de softwarebranche. Ontwikkelaars gebruiken deze tools tijdens het programmeren om sneller te kunnen werken. Toch verwachten we dat de asynchrone workflow met meerdere agents, die via Codex in ChatGPT is geïntroduceerd, de standaard wordt voor het produceren van code van hoge kwaliteit door engineers.
Uiteindelijk denken we dat deze twee soorten interactie, in realtime werken en taken uitbesteden, zullen samensmelten. Ontwikkelaars zullen samenwerken met AI-agents in hun IDE's en dagelijkse tools om vragen te stellen, suggesties te krijgen en langere taken uit te besteden, allemaal in één workflow.
We kijken vooruit en zijn van plan om in de toekomst nog interactievere en flexibelere manieren te introduceren om met agents te werken. Ontwikkelaars kunnen binnenkort tijdens een taak aanwijzingen geven, samenwerken aan implementatiestrategieën en proactieve updates krijgen over de voortgang. We voorzien ook diepere integraties met de tools die je al gebruikt: op dit moment is er al een koppeling met GitHub en binnenkort kun je taken toewijzen vanuit Codex CLI, ChatGPT Desktop en zelfs tools zoals je tracker voor problemen of je CI-systeem.
Software-engineering is een van de eerste branches die grote productiviteitsverbeteringen ziet dankzij AI en dit zorgt voor nieuwe kansen voor individuele ontwikkelaars en kleine teams. Hoewel we optimistisch zijn over deze voordelen, werken we ook samen met partners om beter te begrijpen wat het gebruik van agents op grote schaal betekent voor de manier van werken van ontwikkelaars en de manier waarop verschillende mensen, met uiteenlopende vaardigheidsniveaus en uit verschillende landen, hun vaardigheden ontwikkelen.
Dit is nog maar het begin, en we kunnen niet wachten om te zien wat je gaat bouwen met Codex.
Systeembericht
We delen het codex-1-systeembericht zodat ontwikkelaars beter begrijpen hoe Codex standaard werkt en hoe ze Codex kunnen aanpassen zodat het goed functioneert in hun eigen workflows. In het codex-1-systeembericht wordt Codex bijvoorbeeld aangemoedigd om alle tests uit te voeren die in het AGENTS.md-bestand worden beschreven. Maar als je weinig tijd hebt, kun je Codex ook vragen om deze tests over te slaan.