18 décembre 2025

Présentation de GPT‑5.2‑Codex

Le modèle de programmation agentique le plus avancé pour l’ingénierie logicielle à l’échelle professionnelle et la cybersécurité défensive.

$ npm i -g @openai/codex

Aujourd’hui, nous lançons GPT‑5.2‑Codex, le modèle de programmation agentique le plus avancé à ce jour pour l’ingénierie logicielle complexe et réelle. GPT‑5.2‑Codex⁠ est une version de GPT‑5.2 spécifiquement optimisée pour la programmation agentique dans Codex. Elle intègre des améliorations pour le travail de longue durée grâce à la compaction du contexte, offre de meilleures performances sur les modifications de code à grande échelle (refactorisations, migrations), une prise en charge renforcée des environnements Windows, ainsi que des capacités de cybersécurité renforcées.

Alors que nos modèles repoussent les limites de l’IA, nous constatons que ces progrès se traduisent également par des avancées significatives dans des domaines spécialisés, comme la cybersécurité⁠. Par exemple, la semaine dernière, un chercheur en sécurité utilisant GPT‑5.1‑Codex‑Max avec Codex CLI a divulgué⁠(s'ouvre dans une nouvelle fenêtre) de manière responsable une vulnérabilité dans React susceptible d’entraîner une exposition du code source.

GPT‑5.2‑Codex s’appuie sur des capacités de cybersécurité plus avancées que tous les modèles que nous avons publiés jusqu’à présent. Ces avancées peuvent contribuer à renforcer la cybersécurité à grande échelle, mais elles soulèvent également de nouveaux risques à double usage qui nécessitent un déploiement prudent. Bien que GPT‑5.2‑Codex n’atteigne pas encore un niveau de capacité en cybersécurité classé « Élevé » selon notre cadre de préparation, nous concevons son déploiement⁠ en anticipant l’évolution de ses capacités.

Nous lançons aujourd’hui GPT‑5.2‑Codex sur toutes les interfaces Codex disponibles pour les utilisateurs payants de ChatGPT, et nous travaillons à l’activation sécurisée de l’accès à GPT‑5.2‑Codex pour les utilisateurs de l’API dans les semaines à venir. En parallèle, nous testons un programme d’accès de confiance, sur invitation, à des fonctionnalités et des modèles plus permissifs, destiné à des professionnels et organisations validés, spécialisés dans les activités de cybersécurité défensive. Nous pensons que cette approche de déploiement permet de trouver un juste équilibre entre accessibilité et sécurité.

Une nouvelle référence en ingénierie logicielle appliquée à des cas concrets

GPT‑5.2‑Codex s’appuie sur les points forts de GPT‑5.2⁠ en matière de travail professionnel complexe et sur les capacités de programmation agentique de pointe et d’utilisation du terminal de GPT‑5.1‑Codex‑Max⁠. GPT‑5.2‑Codex est désormais plus performant dans la compréhension des contextes longs, l’appel fiable d’outils, l’amélioration de la factualité et la compaction native, ce qui en fait un partenaire plus fiable pour les tâches de codage de longue durée, tout en restant économe en tokens dans son raisonnement.

GPT‑5.2‑Codex atteint des performances de pointe sur SWE-Bench Pro et Terminal-Bench 2.0, des benchmarks conçus pour évaluer les performances des agents sur une large gamme de tâches dans des environnements de terminal réalistes. Il est également beaucoup plus efficace et fiable pour la programmation agentique dans les environnements Windows natifs, en s’appuyant sur les capacités introduites dans GPT‑5.1‑Codex‑Max.

Avec ces améliorations, Codex est plus à même de travailler dans de grands dépôts sur des sessions prolongées, tout en conservant l’intégralité du contexte. Il peut accomplir de manière plus fiable des tâches complexes comme des refactorisations de grande ampleur, des migrations de code et le développement de fonctionnalités, en continuant d’itérer sans perdre le fil, même lorsque les plans évoluent ou que certaines tentatives échouent.

Dans SWE-Bench Pro⁠⁠⁠⁠, un modèle reçoit un dépôt de code et doit générer un correctif pour accomplir une tâche réaliste d’ingénierie logicielle. Terminal-Bench 2.0 est un outil de référence pour évaluer les agents IA dans des environnements de terminal réels. Les tâches comprennent la compilation du code, l’entraînement de modèles et la configuration de serveurs.

Des performances visuelles améliorées permettent à GPT‑5.2‑Codex d’interpréter plus précisément les captures d’écran, les schémas techniques, les graphiques et les interfaces utilisateur partagés lors des sessions de programmation.

Codex peut prendre des maquettes et les transformer rapidement en prototypes fonctionnels, et vous pouvez collaborer avec Codex pour mener ces prototypes jusqu’à la mise en production.

Prototype

généré par GPT‑5.2‑Codex à partir de la maquette

Repousser les frontières de la cybersécurité

Lorsque nous analysons l’évolution des performances sur l’une de nos évaluations clés en cybersécurité, nous observons un premier saut avec GPT‑5‑Codex, un second avec GPT‑5.1‑Codex‑Max, et désormais un troisième avec GPT‑5.2‑Codex. Nous nous attendons à ce que les futurs modèles d’IA continuent sur cette trajectoire. Dans le cadre de notre préparation, nous planifions et évaluons chaque nouveau modèle en anticipant qu’il puisse atteindre des niveaux élevés de capacité en cybersécurité, tels que mesurés par notre cadre de préparation⁠⁠(s'ouvre dans une nouvelle fenêtre). Bien que GPT‑5.2‑Codex n’ait pas encore atteint le niveau de capacité élevé en cybersécurité, nous nous préparons pour les futurs modèles qui franchiront ce seuil. En raison de l’augmentation des capacités cyber, nous avons ajouté des garde-fous supplémentaires au niveau du modèle et du produit, détaillés dans la fiche système⁠.

L’évaluation professionnelle Capture-the-Flag (CTF) évalue la capacité du modèle à résoudre des défis réels avancés et multi-étapes (nécessitant des compétences en cybersécurité de niveau professionnel) dans un environnement Linux.

Capacités cybernétiques dans le monde réel

La société moderne repose sur les logiciels, et leur fiabilité dépend d’une cybersécurité forte : maintenir en ligne les systèmes critiques dans les secteurs bancaire, de la santé, des communications et des services essentiels, protéger les données sensibles et garantir que les gens puissent faire confiance aux logiciels sur lesquels ils comptent chaque jour. Les vulnérabilités peuvent exister bien avant que quiconque ne les connaisse, et leur découverte, validation et correction dépendent souvent d’une communauté d’ingénieurs et de chercheurs en sécurité indépendants, équipés des outils adéquats.

Le 11 décembre 2025, l’équipe React a publié trois vulnérabilités de sécurité affectant les applications construites avec les composants serveur React. Ce qui rendait cette divulgation notable, au-delà des vulnérabilités elles-mêmes, c’était aussi la manière dont elles ont été mises au jour.

Andrew MacPherson, chercheur en sécurité principal chez Privy (une entreprise de Stripe), utilisait GPT‑5.1‑Codex‑Max avec Codex CLI et d’autres agents de programmation pour reproduire et étudier une vulnérabilité critique distincte de React, divulguée la semaine précédente, connue sous le nom de React2Shell⁠(s'ouvre dans une nouvelle fenêtre) (CVE-2025-55182⁠(s'ouvre dans une nouvelle fenêtre)). Son objectif était d’évaluer dans quelle mesure le modèle pouvait soutenir la recherche de vulnérabilités dans des conditions réelles.

Il a d’abord tenté plusieurs analyses en mode zero-shot, en demandant au modèle d’examiner le correctif et d’identifier la vulnérabilité qu’il traitait. Cette approche s’étant révélée infructueuse, il est passé à une stratégie de prompts itératifs à plus grande échelle. Lorsque ces approches ont échoué, il a guidé Codex à travers des workflows de sécurité défensive éprouvés : mise en place d’un environnement de test local, raisonnement sur les surfaces d’attaque potentielles et utilisation du fuzzing pour sonder le système avec des entrées volontairement malformées. Lorsqu’il a tenté de reproduire le problème original React2Shell, Codex a mis en évidence des comportements inattendus, nécessitant une enquête plus approfondie. En l’espace d’une semaine, ce processus a conduit à la découverte de trois vulnérabilités jusque-là inconnues, qui ont été divulguées de manière responsable à l’équipe React.

Diagramme de flux intitulé « Découverte de vulnérabilités avec Codex : CVE-2025-55183 », montrant un workflow qui démarre à partir d’un dépôt Git et l’analyse du code par Codex pour détecter des vulnérabilités. Une tentative zero-shot échoue, suivie d’un processus guidé par un expert qui examine la base de code, identifie des cibles potentielles, construit un banc de test et effectue des tests de fuzzing sur une application d’exemple, avec revalidation. Les résultats sont vérifiés pour produire une preuve de concept, aboutissant à une divulgation responsable et à l’application d’un correctif dans le dépôt.

Cela illustre comment les systèmes d’IA avancés peuvent accélérer de façon marquée le travail de sécurité défensive sur des logiciels largement utilisés en production. Dans le même temps, les mêmes capacités qui permettent aux défenseurs d’aller plus vite peuvent aussi faciliter des usages malveillants.

À mesure que les systèmes agentiques deviennent plus performants dans les tâches pertinentes pour la cybersécurité, nous faisons de leur déploiement responsable une priorité essentielle, en associant chaque gain de capacité à des protections renforcées, des contrôles d’accès plus stricts et une collaboration continue avec la communauté de la sécurité.

Renforcer la cyberdéfense grâce à un accès sécurisé

Les équipes de sécurité peuvent rencontrer des restrictions lorsqu’elles tentent d’imiter des acteurs de menace, d’analyser des logiciels malveillants afin d’en faciliter la remédiation, ou de tester la résilience de l’infrastructure critique. Nous développons un programme d’accès de confiance afin de lever ces freins pour les utilisateurs et organisations éligibles et de permettre à des défenseurs de confiance d’utiliser des capacités avancées d’IA appliquées à la cybersécurité pour accélérer la cyberdéfense.

Initialement, le programme pilote sera accessible uniquement sur invitation, pour des professionnels de la sécurité vérifiés disposant d’un historique de divulgation responsable, ainsi que pour des organisations présentant un cas d’usage clair en cybersécurité professionnelle. Les participants éligibles auront accès à nos modèles les plus avancés, dans le cadre de cas d’usage strictement défensifs, afin de permettre des travaux légitimes à double usage.

Si vous êtes un professionnel de la sécurité ou faites partie d’une organisation menant des activités de sécurité éthiques, comme la recherche de vulnérabilités ou des exercices de red team autorisés, nous vous invitons à manifester votre intérêt pour rejoindre le programme et à partager vos retours sur les attentes que vous souhaiteriez voir prises en compte ici⁠(s'ouvre dans une nouvelle fenêtre).

Conclusion

GPT‑5.2‑Codex représente une avancée dans la manière dont l’IA avancée peut soutenir l’ingénierie logicielle en conditions réelles, ainsi que des domaines spécialisés comme la cybersécurité, en aidant développeurs et défenseurs à relever des travaux complexes et de longue haleine, tout en renforçant les outils disponibles pour la recherche en sécurité responsable.

En déployant GPT‑5.2‑Codex progressivement, en associant l’accès à des garde-fous renforcés, et en collaborant étroitement avec la communauté de la sécurité, nous visons à maximiser l’impact défensif tout en limitant les risques de détournement. Ce que nous apprendrons de cette version guidera directement la manière dont nous élargirons l’accès au fil du temps, à mesure que les frontières du logiciel et du cyberespace continueront de progresser.

Auteur

OpenAI

Poursuivez votre lecture

Afficher tout

oai Science Academic Research Academic Research 1x1

Accélérer les découvertes scientifiques avec ChatGPT pour les chercheurs universitaires

Entreprise29 juill. 2026

Comment GPT-5.6 allie intelligence et efficacité de pointe

Ingénierie29 juill. 2026

How AI is expanding what we do at work > Cover image

Comment l’IA élargit le travail des gens

Entreprise27 juill. 2026