16 mai 2025

Présentation de Codex

Un agent d’ingénierie logicielle basé sur le nuage, capable de travailler sur de nombreuses tâches en parallèle, alimenté par codex-1. Disponible dès aujourd'hui pour les utilisateurs de ChatGPT Pro, Business et Enterprise, et bientôt pour les utilisateurs de ChatGPT Plus.

Essayer Codex

Dashboard asking ‘What should we code next?’ with a prompt box, repo/branch selectors, and a task list on a pastel code-themed backdrop.

Chargement…

Mise à jour du 3 juin 2025 : Codex est maintenant disponible pour les utilisateurs de ChatGPT Plus. Nous permettons également aux utilisateurs d'autoriser Codex à accéder à Internet pendant l'exécution des tâches. Veuillez consulter le journal des modifications⁠(s'ouvre dans une nouvelle fenêtre) et la documentation⁠(s'ouvre dans une nouvelle fenêtre) pour plus de détails.

Nous lançons aujourd’hui une préversion de recherche de Codex : un agent d’ingénierie logicielle basé sur le nuage, capable de travailler sur de nombreuses tâches en parallèle. Parmi celles-ci, Codex peut rédiger des fonctionnalités, répondre à des questions sur votre base de code, corriger les bugs et proposer des requêtes de fusion à vérifier. Chaque tâche s’exécute dans un environnement sandbox cloud qui lui est propre, préchargé avec votre référentiel.

Codex est alimenté par codex-1, une version d’OpenAI o3 optimisée pour l’ingénierie logicielle. Il a été formé dans le cadre de l’apprentissage par renforcement sur des tâches de codage réelles dans des environnements divers et variés afin de générer du code qui imite de près le style humain et les préférences PR, suit les instructions à la lettre et peut exécuter des tests de manière itérative jusqu’à obtenir un résultat concluant. Nous commençons à déployer Codex aujourd'hui pour les utilisateurs de ChatGPT Pro, Enterprise et Business, avec un soutien pour Plus et Edu à venir bientôt.

Fonctionnement de Codex

Aujourd'hui, vous pouvez accéder à Codex via la barre latérale de ChatGPT et lui attribuer de nouvelles tâches de codage en saisissant une invite et en cliquant sur « Code ». Si vous souhaitez poser une question à Codex concernant votre base de code, cliquez sur « Demander ». Chaque tâche est traitée de manière indépendante dans un environnement isolé, préchargé avec votre base de code. Codex peut lire et modifier des fichiers, ainsi qu’exécuter des commandes, notamment des harnais de test, des linters et des vérificateurs de type. La réalisation d’une tâche prend généralement entre 1 et 30 minutes, selon sa complexité, et vous pouvez suivre la progression de Codex en temps réel.

Lorsque Codex accomplit une tâche, il applique les modifications dans son environnement. Codex fournit des preuves vérifiables de ses actions grâce à des citations des journaux du terminal et des résultats de test, vous permettant de retracer chaque étape effectuée lors de l’exécution de la tâche. Vous pouvez ensuite vérifier les résultats, demander des révisions supplémentaires, ouvrir une demande de fusion GitHub ou directement intégrer les modifications dans votre environnement local. Au niveau du produit, vous pouvez configurer l’environnement Codex afin qu’il corresponde autant que possible à votre environnement de développement.

Vous pouvez utiliser des fichiers AGENTS.md, placés dans votre référentiel, pour guider Codex. Ce sont des fichiers texte, similaires à README.md, où vous pouvez indiquer à Codex comment naviguer dans votre base de code, quelles commandes exécuter pour les tests, et comment respecter au mieux les pratiques standard de votre projet. À l'instar des développeurs humains, les agents Codex fonctionnent de manière optimale lorsqu'ils disposent d'environnements de développement configurés, de configurations de test fiables et d'une documentation claire.

Dans les évaluations de codage et les références internes, codex-1 affiche d’excellents résultats, même sans fichier AGENTS.md ni structure de base personnalisée.

23 échantillons vérifiés par SWE-Bench qui n'étaient pas exécutables sur notre infrastructure interne ont été exclus. codex-1 a été testé avec une longueur de contexte maximale de 192 000 tokens et un « effort de raisonnement » moyen, qui est le paramètre qui sera disponible dans le produit aujourd'hui. Pour plus de détails sur les évaluations d'o3, voir ici⁠.

Notre référence SWE interne est constitué d’une sélection de vraies tâches SWE internes rencontrées chez OpenAI.

Élaboration d’agents sécurisés et fiables

Nous lançons Codex en tant que préversion de recherche, en accord avec notre stratégie de déploiement itératif. Lors de sa conception, nous avons privilégié la sécurité et la transparence afin que les utilisateurs puissent vérifier les résultats. Cette mesure de protection connaît une importance croissante, car les modèles d’IA traitent de manière indépendante des tâches de codage de plus en plus complexes et que les considérations en matière de sécurité évoluent. Les utilisateurs peuvent vérifier le travail de Codex grâce aux citations, aux journaux du terminal et aux résultats de test. Lorsqu’il doute ou qu’il échoue un test, l’agent Codex communique clairement ces problèmes, permettant ainsi aux utilisateurs de prendre des décisions éclairées sur la marche à suivre. Néanmoins, il est important que les utilisateurs continuent de vérifier et valider manuellement le code généré par un agent avant de l’intégrer et l’exécuter.

Code-review screenshot with a test-file overlay verifying quoted filenames, plus summary and passing tests on a blue backdrop.

Code-review screenshot with a black terminal overlay showing one passing test for quoted filenames; summary and diff of the ‘Fix /diff error with special characters’ change visible on a blue-pastel background.

Alignement aux préférences humaines

Lors de la formation de codex-1, l’un des objectifs principaux était d’aligner les sorties aux préférences et conventions humaines en matière de code. Comparé à OpenAI o3, codex-1 produit systématiquement des correctifs plus propres, prêts pour une vérification humaine immédiate et une intégration dans les flux de travail standard.

Please fix the following issue in the astropy/astropy repository. Please resolve the issue in the problem below by editing and testing code files in your current code execution session. The repository is cloned in the /testbed folder. You must fully solve the problem for your answer to be considered correct. Problem statement:Modeling's `separability_matrix` does not compute separability correctly for nested CompoundModels Consider the following model: ```python from astropy.modeling import models as m from astropy.modeling.separable import separability_matrix cm = m.Linear1D(10) & m.Linear1D(5) ``` It's separability matrix as you might expect is a diagonal: ```python >>> separability_matrix(cm) array([[ True, False], [False, True]]) ``` If I make the model more complex: ```python >>> separability_matrix(m.Pix2Sky_TAN() & m.Linear1D(10) & m.Linear1D(5)) array([[ True, True, False, False], [ True, True, False, False], [False, False, True, False], [False, False, False, True]]) ``` The output matrix is again, as expected, the outputs and inputs to the linear models are separable and independent of each other. If however, I nest these compound models: ```python >>> separability_matrix(m.Pix2Sky_TAN() & cm) array([[ True, True, False, False], [ True, True, False, False], [False, False, True, True], [False, False, True, True]]) ``` Suddenly the inputs and outputs are no longer separable? This feels like a bug to me, but I might be missing something?

Codex

OpenAI o3

Prévention des abus

La protection contre les applications malveillantes de l'ingénierie logicielle pilotée par l'IA, telles que le développement de logiciels malveillants, est de plus en plus cruciale. Parallèlement, il est important que les mesures de protection n'entravent pas indûment les applications légitimes et utiles qui peuvent impliquer des techniques parfois également utilisées pour le développement de logiciels malveillants, telles que l'ingénierie du noyau de bas niveau.

Afin de trouver un juste équilibre entre sécurité et utilité, Codex a été formé dans le but d’identifier et refuser les demandes de développement de logiciels malveillants, tout en sachant reconnaître et prendre en charge les tâches légitimes. Nous avons également renforcé nos cadres stratégiques et incorporé des évaluations de sécurité rigoureuses pour renforcer efficacement ces limites. Nous avons publié un addenda à la fiche système o3⁠ pour refléter ces évaluations.

Exécution sécurisée

L'agent Codex fonctionne entièrement dans un conteneur sécurisé et isolé dans le nuage. Lors de l’exécution d’une tâche, l’accès Internet est désactivé, limitant les interactions de l’agent uniquement au code fourni explicitement via les référentiels GitHub et les dépendances pré-installées configurées par l’utilisateur à l’aide d’un script d’installation. L’agent ne peut pas accéder aux sites Web, aux API ou à d’autres services externes.

Premiers cas d’utilisation

Chez OpenAI, Codex fait partie de la boîte à outils des équipes techniques. Il est majoritairement utilisé par les ingénieurs d’OpenAI pour déléguer les tâches répétitives et bien définies (refactorisation, renommage, rédaction de tests) qui, en temps normal, interrompent la concentration. Il sert à échafauder de nouvelles fonctionnalités, connecter des composants, corriger des bugs et rédiger la documentation. Les équipes développent de nouvelles habitudes autour de cela : priorisation des problèmes en astreinte, planification des tâches en début de journée et délégation des tâches secondaires pour continuer à avancer. En réduisant les allers-retours entre les différents contextes et en faisant remonter les tâches oubliées, Codex permet aux ingénieurs de gagner en productivité et en concentration.

Avant la sortie, nous avons également travaillé avec un petit groupe de testeurs externes afin de mieux comprendre comment Codex fonctionne à travers des bases de code, des processus de développement et des équipes variés.

Cisco⁠(s'ouvre dans une nouvelle fenêtre) explore comment Codex peut aider ses équipes d'ingénierie à concrétiser plus rapidement des idées ambitieuses. Étant l’un de nos premiers partenaires de conception, Cisco nous aide à façonner l’avenir de Codex en l’évaluant dans des cas d’utilisation réels de leur gamme de produits et en fournissant des commentaires à l’équipe OpenAI.
Temporal⁠(s'ouvre dans une nouvelle fenêtre) utilise Codex pour accélérer le développement de fonctionnalités, déboguer des problèmes, rédiger et exécuter des tests, et refactoriser de grandes bases de code. Cela les aide également à rester concentrés en exécutant des tâches complexes en arrière-plan — permettant aux ingénieurs de rester dans leur élan tout en accélérant l’itération.
Superhuman⁠(s'ouvre dans une nouvelle fenêtre) utilise Codex pour accélérer les tâches mineures mais répétitives telles que l'amélioration de la couverture des tests et la correction des échecs d'intégration. Cela les aide également à accélérer la livraison en permettant aux responsables produit de contribuer à des modifications de code légères sans faire appel à un ingénieur, sauf pour la vérification du code.
Kodiak⁠(s'ouvre dans une nouvelle fenêtre) utilise Codex pour l'aider à écrire des outils de débogage, à améliorer la couverture des tests et à refactoriser le code, ce qui accélère le développement du Kodiak Driver, leur technologie de conduite autonome. Codex est également devenu un outil de référence précieux, aidant les ingénieurs à comprendre des parties de la pile qu’ils ne connaissent pas en faisant remonter le contexte pertinent et les modifications passées.

D’après les enseignements des premiers testeurs, nous recommandons d’assigner des tâches bien définies à plusieurs agents en même temps, et de tester différents types de tâches et invites pour explorer au mieux les capacités du modèle.

Mises à jour de Codex CLI

Le mois dernier, nous avons lancé Codex CLI, un agent de codage à source ouverte léger qui s'exécute dans votre terminal. Il apporte la puissance des modèles comme o3 et o4-mini dans votre flux de travail local, ce qui facilite leur utilisation conjointe pour accomplir les tâches plus rapidement.

Aujourd’hui, nous lançons également une version allégée de codex-1, une version d’o4-mini conçue spécialement pour une utilisation dans Codex CLI. En plus d’être capable de suivre des instructions et d’imiter le style humain (ses points forts), ce nouveau modèle prend en charge des flux de travail rapides dans la CLI et est optimisé pour les questions-réponses et les modifications liées au code à faible latence. Il est disponible dès maintenant en tant que modèle par défaut dans Codex CLI et dans l’API, sous le nom de codex-mini-latest. Le cliché instantané sous-jacent sera régulièrement mis à jour à mesure que nous continuerons à améliorer le modèle Codex-mini.

De plus, la connexion de votre compte de développeur à Codex CLI est simplifiée. Au lieu de générer et configurer manuellement un token API, vous pouvez désormais vous connecter avec votre compte ChatGPT et sélectionner l’organisation API que vous souhaitez utiliser. Nous nous occuperons de générer et configurer la clé API à votre place. Les utilisateurs Plus et Pro qui se connectent à Codex CLI avec ChatGPT peuvent également profiter de 5 $ et 50 $ de crédits API gratuits, respectivement, dès aujourd’hui et durant les 30 prochains jours.

Disponibilité, tarification et limites de Codex

À partir d'aujourd'hui, nous déployons Codex pour les utilisateurs de ChatGPT Pro, Enterprise et Business à l'échelle mondiale, avec un soutien pour Plus et Edu à venir bientôt. Les utilisateurs bénéficieront d’un accès généreux sans frais supplémentaires pendant les prochaines semaines afin de découvrir ce que Codex peut faire, après quoi nous déploierons un accès limité et proposerons des options de tarification flexibles permettant d’acheter une utilisation supplémentaire à la demande. Par la suite, l’accès sera étendu aux utilisateurs Plus et Edu.

Pour les développeurs qui utilisent codex-mini-latest, le modèle est disponible sur l’API Responses et tarifé à 1,50 $ par million de jetons d’entrée et 6 $ par million de jetons de sortie, avec une réduction de 75 % sur la mise en cache des invites.

Codex n’est qu’au début de son développement. S’agissant d’une préversion, il ne possède pas encore toutes les fonctionnalités, comme les entrées d’images pour les tâches en front-end, et la possibilité de rectifier l’agent pendant son fonctionnement. Par ailleurs, le fait de déléguer le travail à un agent distant est plus long que le fait de réaliser des modifications interactives, ce qui demande un certain temps pour s’y habituer. À terme, l’interaction avec les agents Codex ressemblera de plus en plus à une collaboration asynchrone avec des collègues. Les capacités des modèles étant en évolution, nous prévoyons que les agents traitent des tâches plus complexes sur des périodes prolongées.

Évolutions prévues

Nous imaginons un futur dans lequel les développeurs choisiront les tâches qu’ils souhaitent réaliser eux-mêmes, et délégueront le reste à des agents, afin de gagner en vitesse et en productivité grâce à l’IA. Pour y parvenir, nous développons une suite d'outils Codex qui offrent un soutien à la fois à la collaboration en temps réel et à la délégation asynchrone.

Collaborer avec des outils intelligents comme Codex CLI et d’autres est rapidement devenu la norme dans le secteur, aidant les développeurs à coder plus rapidement. Cependant, nous pensons que le flux de travail asynchrone et multi-agent introduit par Codex dans ChatGPT deviendra la nouvelle façon dont les ingénieurs produisent un code de haute qualité.

Au bout du compte, nous voyons ces deux modes d’interaction, la collaboration en temps réel et la délégation de tâches, converger. Les développeurs travailleront main dans la main avec les agents IA dans leur environnement de développement et leurs outils quotidiens pour poser des questions, obtenir des suggestions et déléguer les tâches plus longues, le tout dans un flux de travail unifié.

À plus long terme, nous prévoyons d’introduire des flux de travail avec agent encore plus interactifs et flexibles. Les développeurs pourront bientôt apporter des instructions en milieu de tâche, collaborer sur les stratégies d’implémentation et recevoir des mises à jour proactives sur leur progression. Nous imaginons également des intégrations plus poussées avec les outils que vous utilisez déjà : aujourd’hui, Codex se connecte à GitHub, et bientôt vous pourrez attribuer des tâches depuis Codex CLI, ChatGPT Desktop, ou même des outils comme votre système de suivi des problèmes ou d’intégration continue.

L’ingénierie logicielle est l’un des premiers secteurs à connaître une augmentation significative de la productivité grâce à l’IA, ouvrant de nouvelles possibilités pour les particuliers et les petites équipes. Bien que nous soyons optimistes quant à ces progrès, nous collaborons également avec des partenaires pour mieux comprendre les implications d'une adoption généralisée des agents sur les flux de travail des développeurs, le développement des compétences des individus, les niveaux de compétence et les régions géographiques.

Et ce n’est que le début. Nous sommes impatients de découvrir vos projets de développement avec Codex.

Retransmission en direct

Annexe

Message système

Voici le message système de codex-1 qui permet aux développeurs de comprendre le comportement par défaut du modèle et d’adapter Codex pour qu’il fonctionne efficacement dans des flux de travail personnalisés. Par exemple, le message système de codex-1 encourage Codex à exécuter tous les tests mentionnés dans le fichier AGENTS.md, mais si vous manquez de temps, vous pouvez demander à Codex de les passer.

Texte en clair

1# Instructions
2- The user will provide a task.
3- The task involves working with Git repositories in your current working directory.
4- Wait for all terminal commands to be completed (or terminate them) before finishing.
5
6# Git instructions
7If completing the user's task requires writing or modifying files:
8- Do not create new branches.
9- Use git to commit your changes.
10- If pre-commit fails, fix issues and retry.
11- Check git status to confirm your commit. You must leave your worktree in a clean state.
12- Only committed code will be evaluated.
13- Do not modify or amend existing commits.
14
15# AGENTS.md spec
16- Containers often contain AGENTS.md files. These files can appear anywhere in the container's filesystem. Typical locations include `/`, `~`, and in various places inside of Git repos.
17- These files are a way for humans to give you (the agent) instructions or tips for working within the container.
18- Some examples might be: coding conventions, info about how code is organized, or instructions for how to run or test code.
19- AGENTS.md files may provide instructions about PR messages (messages attached to a GitHub Pull Request produced by the agent, describing the PR). These instructions should be respected.
20- Instructions in AGENTS.md files:
21  - The scope of an AGENTS.md file is the entire directory tree rooted at the folder that contains it.
22  - For every file you touch in the final patch, you must obey instructions in any AGENTS.md file whose scope includes that file.
23  - Instructions about code style, structure, naming, etc. apply only to code within the AGENTS.md file's scope, unless the file states otherwise.
24  - More-deeply-nested AGENTS.md files take precedence in the case of conflicting instructions.
25  - Direct system/developer/user instructions (as part of a prompt) take precedence over AGENTS.md instructions.
26- AGENTS.md files need not live only in Git repos. For example, you may find one in your home directory.
27- If the AGENTS.md includes programmatic checks to verify your work, you MUST run all of them and make a best effort to validate that the checks pass AFTER all code changes have been made.
28  - This applies even for changes that appear simple, i.e. documentation. You still must run all of the programmatic checks.
29
30# Citations instructions
31- If you browsed files or used terminal commands, you must add citations to the final response (not the body of the PR message) where relevant. Citations reference file paths and terminal outputs with the following formats:
32  1) `【F:<file_path>†L<line_start>(-L<line_end>)?】`
33  - File path citations must start with `F:`. `file_path` is the exact file path of the file relative to the root of the repository that contains the relevant text.
34  - `line_start` is the 1-indexed start line number of the relevant output within that file.
35  2) `【<chunk_id>†L<line_start>(-L<line_end>)?】`
36  - Where `chunk_id` is the chunk_id of the terminal output, `line_start` and `line_end` are the 1-indexed start and end line numbers of the relevant output within that chunk.
37- Line ends are optional, and if not provided, line end is the same as line start, so only 1 line is cited.
38- Ensure that the line numbers are correct, and that the cited file paths or terminal outputs are directly relevant to the word or clause before the citation.
39- Do not cite completely empty lines inside the chunk, only cite lines that have content.
40- Only cite from file paths and terminal outputs, DO NOT cite from previous pr diffs and comments, nor cite git hashes as chunk ids.
41- Use file path citations that reference any code changes, documentation or files, and use terminal citations only for relevant terminal output.
42- Prefer file citations over terminal citations unless the terminal output is directly relevant to the clauses before the citation, i.e. clauses on test results.
43  - For PR creation tasks, use file citations when referring to code changes in the summary section of your final response, and terminal citations in the testing section.
44  - For question-answering tasks, you should only use terminal citations if you need to programmatically verify an answer (i.e. counting lines of code). Otherwise, use file citations.

Auteur

OpenAI