16 mai 2025

Découvrez Codex

Un agent d’ingénierie logicielle basé sur le cloud, capable de travailler sur de nombreuses tâches en parallèle, alimenté par codex-1. Disponible aujourd’hui pour les utilisateurs de ChatGPT Pro, Team et Enterprise, et prochainement pour les utilisateurs Plus.

Essayer Codex

Tableau de bord posant la question « What should we code next? » (Que devons-nous coder ensuite ?), avec une boîte de dialogue, des sélecteurs de référentiels/branches et une liste de tâches, sur un fond au thème pastel.

Chargement...

Mise à jour du 3 juin 2025 : Codex est maintenant disponible pour les utilisateurs ChatGPT Plus. Nous permettons également aux utilisateurs de fournir à Codex un accès Internet pendant l'exécution des tâches. Reportez-vous au journal des modifications⁠(ouverture dans une nouvelle fenêtre) et aux documents⁠(ouverture dans une nouvelle fenêtre) pour plus d’informations.

Nous lançons, aujourd’hui, une préversion de Codex, un agent d’ingénierie logicielle basé sur le cloud, capable de travailler sur de nombreuses tâches en parallèle. Parmi celles-ci, Codex peut écrire des fonctionnalités, répondre à des questions sur votre base de code, corriger les bugs et proposer des requêtes de fusion à examiner. Chaque tâche s’exécute dans un environnement sandbox cloud qui lui est propre, préchargé avec votre référentiel.

Codex est alimenté par codex-1, une version d’OpenAI o3 optimisée pour l’ingénierie logicielle. Dans le cadre de son apprentissage par renforcement, il a été entraîné sur des tâches de codage réelles dans des environnements divers et variés. Il peut donc générer du code qui imite de près le style humain et les préférences en termes de requêtes de fusion, suit les instructions à la lettre et peut exécuter des tests de manière itérative jusqu’à obtenir un résultat concluant. Nous avons commencé à déployer Codex pour les utilisateurs de ChatGPT Pro, Enterprise et Team, mais les abonnements Plus et Edu seront prochainement pris en charge.

Fonctionnement de Codex

Dès maintenant, vous pouvez accéder à Codex par la barre latérale dans ChatGPT et lui attribuer de nouvelles tâches de codage en saisissant un prompt, puis en cliquant sur « Code ». Si vous souhaitez lui poser une question sur votre base de code, cliquez sur « Ask ». Chaque tâche est traitée de manière indépendante dans un environnement isolé, préchargé avec votre base de code. Codex peut lire et modifier des fichiers, mais aussi exécuter des commandes, comme les harnais de test, le linting et la vérification. La réalisation d’une tâche prend entre 1 et 30 minutes, en fonction de sa complexité, et vous pouvez suivre la progression de Codex en temps réel.

Lorsque Codex accomplit une tâche, il applique les modifications dans son environnement. Vous pouvez suivre les étapes réalisées, grâce aux citations de journaux du terminal et les résultats de test, faisant office de preuves vérifiables. Vous pouvez ensuite examiner les résultats, demander des révisions supplémentaires, ouvrir une requête de fusion GitHub ou directement intégrer les modifications dans votre environnement local. Au niveau du produit, vous pouvez configurer l’environnement Codex afin qu’il corresponde autant que possible à votre environnement de développement.

Vous pouvez utiliser des fichiers AGENTS.md, placés dans votre référentiel, pour guider Codex. Il s’agit de fichiers texte, semblables à README.md, dans lesquels vous expliquez à Codex comment naviguer dans votre base de code, quelles commandes de test exécuter et comment suivre au mieux les conventions de votre projet. Comme les développeurs humains, les agents Codex offrent de meilleurs résultats lorsqu’on leur donne des environnements de développement configurés, des environnements de test fiables et une documentation claire.

Dans les évaluations de codage et les benchmarks internes, codex-1 affiche d’excellents résultats, même sans fichier AGENTS.md ou structure de base personnalisée.

Les échantillons de la vérification SWE-Bench 2023 non exécutables dans notre infrastructure interne ont été exclus. Les réglages du test de codex-1 étaient 192 000 jetons, soit la fenêtre contextuelle maximale, et un « effort de raisonnement » intermédiaire, ce qui correspond aux réglages actuels du produit. Pour plus d’informations sur les évaluations d’o3, cliquez ici⁠.

Notre benchmark SWE interne est constitué d’une sélection de vraies tâches SWE, rencontrées chez OpenAI.

Élaboration d’agents sécurisés et fiables

Nous lançons une préversion de Codex, en accord avec notre stratégie de déploiement itératif. Lors de sa conception, nous avons privilégié la sécurité et la transparence afin que les utilisateurs puissent vérifier les résultats. Cette mesure de protection connaît une importance croissante, car les modèles IA traitent de manière indépendante un plus grand nombre de tâches de codage complexes et que les considérations en matière de sécurité évoluent. Les utilisateurs peuvent vérifier le travail de Codex grâce aux citations, aux journaux du terminal et aux résultats de test. Lorsqu’il doute ou qu’il échoue un test, l’agent Codex communique clairement ces problèmes, permettant ainsi aux utilisateurs de prendre des décisions éclairées sur la marche à suivre. Néanmoins, il est important que les utilisateurs continuent de vérifier et valider manuellement le code généré par un agent avant de l’intégrer et l’exécuter.

Capture d’écran de la vérification d’un code avec un fichier test superposé qui vérifie les noms de fichiers cités, les résumés et les tests, sur un fond bleu.

Capture d’écran de la vérification d’un code avec un terminal noir superposé montrant un test validé pour les noms de fichiers cités ; résumé et différence de la modification « Fix /diff error with special characters » (corriger l’erreur /diff liée aux caractères spéciaux) visible sur un fond bleu pastel.

Alignement aux préférences humaines

Lors de l’entraînement de codex-1, l’un des objectifs principaux était d’aligner les résultats aux préférences et conventions humaines en matière de code. Par rapport à OpenAI o3, codex-1 produit systématiquement des patchs propres, pouvant être tout de suite vérifiés par un humain et intégrés à des workflows standard.

Please fix the following issue in the astropy/astropy repository. Please resolve the issue in the problem below by editing and testing code files in your current code execution session. The repository is cloned in the /testbed folder. You must fully solve the problem for your answer to be considered correct. Problem statement:Modeling's `separability_matrix` does not compute separability correctly for nested CompoundModels Consider the following model: ```python from astropy.modeling import models as m from astropy.modeling.separable import separability_matrix cm = m.Linear1D(10) & m.Linear1D(5) ``` It's separability matrix as you might expect is a diagonal: ```python >>> separability_matrix(cm) array([[ True, False], [False, True]]) ``` If I make the model more complex: ```python >>> separability_matrix(m.Pix2Sky_TAN() & m.Linear1D(10) & m.Linear1D(5)) array([[ True, True, False, False], [ True, True, False, False], [False, False, True, False], [False, False, False, True]]) ``` The output matrix is again, as expected, the outputs and inputs to the linear models are separable and independent of each other. If however, I nest these compound models: ```python >>> separability_matrix(m.Pix2Sky_TAN() & cm) array([[ True, True, False, False], [ True, True, False, False], [False, False, True, True], [False, False, True, True]]) ``` Suddenly the inputs and outputs are no longer separable? This feels like a bug to me, but I might be missing something?

Codex

OpenAI o3

Prévention des abus

Il devient crucial de se protéger des applications malveillantes issues de l’ingénierie logicielle à base d’intelligence artificielle, comme le développement de malware. Néanmoins, il est également important que les mesures de protection ne nuisent pas inutilement aux applications légitimes et bénéfiques, qui, parfois, utilisent des techniques que l’on retrouve dans le développement de malware, tel que la programmation de noyaux de bas niveau.

Afin de trouver un juste équilibre entre sécurité et utilité, Codex a été entraîné dans le but d’identifier et refuser les demandes de développement de logiciels malveillants, tout en sachant reconnaître et prendre en charge les tâches légitimes. Nous avons également renforcé nos cadres stratégiques et incorporé des évaluations de sécurité rigoureuses pour renforcer efficacement ces limites. Nous avons publié un addendum à la fiche système d’o3⁠ afin qu’elle tienne compte de ces évaluations.

Exécution sécurisée

L’agent Codex fonctionne dans un conteneur cloud sécurisé et isolé. Lors de l’exécution d’une tâche, l’accès Internet est désactivé afin de limiter les interactions de l’agent au code fourni explicitement via les référentiels GitHub et les dépendances pré-installées, configurées par l’utilisateur à l’aide du script d’installation. L’agent ne peut pas accéder aux sites web, aux API ou à d’autres services externes.

Premiers cas d’utilisation

Chez OpenAI, Codex fait partie de la boîte à outils des équipes techniques. Il est majoritairement utilisé par les ingénieurs d’OpenAI pour déléguer les tâches répétitives et bien définies (refactorisation, renommage, écriture de tests) qui, en temps normal, interrompent la concentration. Il sert à échafauder de nouvelles fonctionnalités, connecter des composants, corriger des bugs et rédiger la documentation. Par ailleurs, les équipes développent de nouvelles habitudes autour de cet outil : priorisation des problèmes, planification des tâches en début de journée et délégation de tâches secondaires pour continuer à avancer. En réduisant les allers-retours entre les différents contextes et en faisant remonter les tâches oubliées, Codex permet aux ingénieurs de gagner en productivité et en concentration.

Avant la sortie de Codex, nous avons également fait appel à un petit groupe de testeurs externes afin de mieux comprendre le comportement de l’agent avec des bases de code, des équipes et des processus de développement différents.

Cisco⁠(ouverture dans une nouvelle fenêtre) cherche à évaluer la façon dont Codex peut accélérer la réalisation des idées ambitieuses de ses équipes d’ingénierie. Étant l’un de nos premiers partenaires de conception, Cisco nous aide à façonner l’avenir de Codex en l’évaluant dans des cas d’utilisation réels de leur gamme de produits et en fournissant un retour à l’équipe OpenAI.
Temporal⁠(ouverture dans une nouvelle fenêtre) utilise Codex pour accélérer le développement de fonctionnalités, déboguer les erreurs, écrire et exécuter des tests, et restructurer des bases de code volumineuses. De plus, en exécutant des tâches en arrière-plan, Codex permet aux ingénieurs de rester concentrés tout en accélérant l’itération.
Superhuman⁠(ouverture dans une nouvelle fenêtre) utilise Codex pour accélérer les tâches, certes, petites mais répétitives, comme l’amélioration de la couverture de code ou la correction des échecs d’intégration. Il aide également l’entreprise à accélérer sa productivité en permettant aux responsables produit de contribuer aux modifications de code légères sans faire appel à un ingénieur, sauf en cas de vérification.
Kodiak⁠(ouverture dans une nouvelle fenêtre) utilise Codex pour développer des outils de débogage, améliorer la couverture de code et restructurer le code, permettant ainsi d’accélérer le développement de Kodiak Driver, leur technologie de conduite autonome. Codex est également devenu un outil de référence précieux, car il aide les ingénieurs à comprendre des parties de la pile qu’ils ne connaissent pas en faisant remonter le contexte pertinent et les modifications passées.

D’après les enseignements des premiers testeurs, nous recommandons d’assigner des tâches bien définies à plusieurs agents en même temps, et de tester différents types de tâches et prompts pour explorer au mieux les capacités du modèle.

Nouveautés de Codex CLI

Le mois dernier, nous avons lancé une version plus légère de Codex CLI, un agent de codage open-source qui s’exécute dans votre terminal. Il offre la même puissance que les modèles o3 et o4-mini dans votre workflow local, vous permettant de facilement collaborer et ainsi réaliser vos tâches plus rapidement.

Aujourd’hui, nous lançons également une version allégée de codex-1, une version d’o4-mini conçue spécialement pour une utilisation dans Codex CLI En plus d’être capable de suivre des instructions et d’imiter le style humain (ses points forts), ce nouveau modèle prend en charge des workflows rapides dans la CLI et est optimisé pour les questions-réponses et les modifications liées au code à faible latence. Il est disponible dès maintenant en tant que modèle par défaut dans Codex CLI et dans l’API, sous le nom de codex-mini-latest. La base sera régulièrement mise à jour au fil des améliorations du modèle Codex-mini.

De plus, la connexion de votre compte de développeur à Codex CLI est simplifiée. Au lieu de générer et configurer manuellement un jeton API, vous pouvez désormais vous connecter avec votre compte ChatGPT et sélectionner l’organisation API que vous souhaitez utiliser. Nous nous occuperons de générer et configurer la clé API à votre place. Les utilisateurs Plus et Pro qui se connectent à Codex CLI avec ChatGPT peuvent également profiter de 5 $ et 50 $ de crédits API, respectivement, dès aujourd’hui et durant les 30 prochains jours.

Disponibilité, tarification et limites de Codex

Dès aujourd’hui, nous déployons Codex pour les utilisateurs de ChatGPT Pro, Enterprise et Team du monde entier, avant d’élargir prochainement la prise en charge aux abonnements Plus et Edu. Durant les prochaines semaines, les utilisateurs pourront bénéficier d’un accès généreux sans frais supplémentaires pour découvrir les fonctionnalités de Codex. Après quoi, nous déploierons un accès limité et proposerons des options de tarification flexibles basées sur une utilisation à la demande. Par la suite, l’accès sera étendu aux utilisateurs Plus et Edu.

Pour les développeurs qui travaillent avec codex-mini-latest, le modèle est disponible sur l’API Responses, au tarif de 1,50 $ par million de jetons d’entrée et 6 $ par million de jetons de sortie, avec une réduction de 75 % sur la mise en cache des prompts.

Codex n’est qu’au début de son développement. S’agissant d’une préversion, il ne possède pas encore toutes les fonctionnalités, comme les entrées d’images pour les tâches en front-end, et ne peut pas être rectifié pendant son fonctionnement. Par ailleurs, le fait de déléguer le travail à un agent distant est plus long que le fait de réaliser des modifications interactives, ce qui demande un certain temps pour s’y habituer. À terme, l’interaction avec les agents Codex ressemblera fortement à une collaboration asynchrone avec des collègues de travail. Les capacités des modèles étant en évolution, nous prévoyons que les agents traitent des tâches plus complexes sur des périodes prolongées.

Évolutions prévues

Nous imaginons un futur dans lequel les développeurs choisiront les tâches qu’ils souhaitent réaliser eux-mêmes, et délégueront le reste à des agents, afin de gagner en vitesse et en productivité grâce à l’IA. Pour ce faire, nous développons une suite d’outils Codex qui prend en charge la collaboration en temps réel et la délégation asynchrone.

Collaborer avec des outils intelligents, comme Codex CLI est devenu la norme, car les développeurs sont plus productifs. Cependant, nous pensons que le workflow asynchrone et multi-agent, introduit par Codex dans ChatGPT deviendra la nouvelle façon de produire un code de haute qualité.

Au bout du compte, nous voyons ces deux modes d’interaction, la collaboration en temps réel et la délégation de tâches, converger. Les développeurs travailleront main dans la main avec les agents IA dans leur environnement de développement et leurs outils quotidiens pour poser des questions, obtenir des suggestions et déléguer les tâches chronophages, le tout dans un workflow unifié.

À plus long terme, nous prévoyons d’introduire des workflows avec agent encore plus interactifs et flexibles. Les développeurs pourront bientôt apporter des instructions en milieu de tâche, collaborer sur les stratégies d’implémentation et recevoir des mises à jour proactives sur leur progression. Nous imaginons également des intégrations profondes dans les outils déjà utilisés. Aujourd’hui, Codex se connecte à GitHub, mais bientôt vous pourrez assigner des tâches depuis Codex CLI, la version bureau de ChatGPT ou même des outils comme le suivi des bugs ou le système d’intégration continue.

L’ingénierie logicielle est l’un des premiers secteurs à connaître une augmentation significative de sa productivité grâce à l’IA, ouvrant ainsi la voie à de nouvelles possibilités pour les particuliers et les petites équipes. Bien qu’optimistes, nous collaborons avec des partenaires afin de mieux comprendre les conséquences d’une adoption globale des agents sur les workflows des développeurs, le développement de compétences individuelles, les niveaux de compétences et les régions.

Et ce n’est que le début. Nous sommes impatients de découvrir vos projets de développement avec Codex.

Revoir l’événement vidéo

Annexe

Message système

Voici le message système de codex-1 qui permet aux développeurs de comprendre le comportement par défaut du modèle et d’adapter Codex, pour une efficacité accrue dans les workflows personnalisés. Par exemple, le message système de codex-1 encourage Codex à exécuter tous les tests mentionnés dans le fichier AGENTS.md, mais si vous manquez de temps, vous pouvez demander à Codex de les passer.

1# Instructions
2- The user will provide a task.
3- The task involves working with Git repositories in your current working directory.
4- Wait for all terminal commands to be completed (or terminate them) before finishing.
5
6# Git instructions
7If completing the user's task requires writing or modifying files:
8- Do not create new branches.
9- Use git to commit your changes.
10- If pre-commit fails, fix issues and retry.
11- Check git status to confirm your commit. You must leave your worktree in a clean state.
12- Only committed code will be evaluated.
13- Do not modify or amend existing commits.
14
15# AGENTS.md spec
16- Containers often contain AGENTS.md files. These files can appear anywhere in the container's filesystem. Typical locations include `/`, `~`, and in various places inside of Git repos.
17- These files are a way for humans to give you (the agent) instructions or tips for working within the container.
18- Some examples might be: coding conventions, info about how code is organized, or instructions for how to run or test code.
19- AGENTS.md files may provide instructions about PR messages (messages attached to a GitHub Pull Request produced by the agent, describing the PR). These instructions should be respected.
20- Instructions in AGENTS.md files:
21  - The scope of an AGENTS.md file is the entire directory tree rooted at the folder that contains it.
22  - For every file you touch in the final patch, you must obey instructions in any AGENTS.md file whose scope includes that file.
23  - Instructions about code style, structure, naming, etc. apply only to code within the AGENTS.md file's scope, unless the file states otherwise.
24  - More-deeply-nested AGENTS.md files take precedence in the case of conflicting instructions.
25  - Direct system/developer/user instructions (as part of a prompt) take precedence over AGENTS.md instructions.
26- AGENTS.md files need not live only in Git repos. For example, you may find one in your home directory.
27- If the AGENTS.md includes programmatic checks to verify your work, you MUST run all of them and make a best effort to validate that the checks pass AFTER all code changes have been made.
28  - This applies even for changes that appear simple, i.e. documentation. You still must run all of the programmatic checks.
29
30# Citations instructions
31- If you browsed files or used terminal commands, you must add citations to the final response (not the body of the PR message) where relevant. Citations reference file paths and terminal outputs with the following formats:
32  1) `【F:<file_path>†L<line_start>(-L<line_end>)?】`
33  - File path citations must start with `F:`. `file_path` is the exact file path of the file relative to the root of the repository that contains the relevant text.
34  - `line_start` is the 1-indexed start line number of the relevant output within that file.
35  2) `【<chunk_id>†L<line_start>(-L<line_end>)?】`
36  - Where `chunk_id` is the chunk_id of the terminal output, `line_start` and `line_end` are the 1-indexed start and end line numbers of the relevant output within that chunk.
37- Line ends are optional, and if not provided, line end is the same as line start, so only 1 line is cited.
38- Ensure that the line numbers are correct, and that the cited file paths or terminal outputs are directly relevant to the word or clause before the citation.
39- Do not cite completely empty lines inside the chunk, only cite lines that have content.
40- Only cite from file paths and terminal outputs, DO NOT cite from previous pr diffs and comments, nor cite git hashes as chunk ids.
41- Use file path citations that reference any code changes, documentation or files, and use terminal citations only for relevant terminal output.
42- Prefer file citations over terminal citations unless the terminal output is directly relevant to the clauses before the citation, i.e. clauses on test results.
43  - For PR creation tasks, use file citations when referring to code changes in the summary section of your final response, and terminal citations in the testing section.
44  - For question-answering tasks, you should only use terminal citations if you need to programmatically verify an answer (i.e. counting lines of code). Otherwise, use file citations.

Auteur

OpenAI