Passer au contenu principal
OpenAI

19 novembre 2025

ProduitVersions

Repoussez les limites du développement avec GPT‑5.1‑Codex‑Max

Chargement...

Introduction

Voici GPT‑5.1‑Codex‑Max, notre nouveau modèle de programmation agentique de pointe, désormais disponible dans Codex.  GPT‑5.1‑Codex‑Max repose sur une mise à jour de notre modèle de raisonnement de base, entraîné sur des tâches agentiques couvrant le génie logiciel, les mathématiques, la recherche, et plus encore. GPT‑5.1‑Codex‑Max est plus rapide, plus intelligent et plus économique en jetons à chaque étape du cycle de développement, et franchit une nouvelle étape vers un partenaire de programmation fiable.

GPT‑5.1‑Codex‑Max est conçu pour des tâches longues et détaillées. C'est notre premier modèle nativement entraîné à fonctionner sur plusieurs fenêtres de contexte grâce à un procédé appelé compaction, ce qui lui permet de travailler de manière cohérente sur des millions de jetons au sein d'une même tâche. Cela permet le refactoring à l'échelle d'un projet, des sessions de débogage approfondies et des boucles d'agent de plusieurs heures.

GPT‑5.1‑Codex‑Max est disponible dans Codex aujourd'hui pour une utilisation en ligne de commande (CLI), extension d'IDE, cloud et revue de code. Un accès via l'API arrivera prochainement.

Des capacités de codage de pointe

GPT‑5.1‑Codex‑Max a été entraîné sur des tâches de génie logiciel réelles, comme la création de PR, la revue de code, le développement frontend et les questions-réponses, et surpasse nos modèles précédents sur de nombreuses évaluations de codage de pointe. Les gains du modèle sur les benchmarks s'accompagnent aussi d'améliorations en usage réel : GPT‑5.1‑Codex‑Max est le premier modèle que nous avons entraîné à fonctionner dans des environnements Windows, et son entraînement inclut désormais des tâches conçues pour en faire un meilleur collaborateur dans la CLI Codex.

*Toutes les évaluations ont été effectuées avec la compaction activée et un effort de raisonnement Extra High.
*Terminal-Bench 2.0 a été exécuté avec Codex CLI dans l'environnement de test
Harbor de Laude Institute(ouverture dans une nouvelle fenêtre)

Vitesse et coût

GPT‑5.1‑Codex‑Max présente des améliorations significatives d'efficacité en jetons grâce à un raisonnement plus efficace. Sur SWE-bench Verified, GPT‑5.1‑Codex‑Max avec un effort de raisonnement « moyen » obtient de meilleures performances que GPT‑5.1‑Codex avec le même effort de raisonnement, tout en utilisant 30 % de jetons de réflexion en moins. Pour les tâches qui ne sont pas sensibles à la latence, nous introduisons également un nouvel effort de raisonnement Extra High (« xhigh »), qui réfléchit encore plus longtemps pour fournir une meilleure réponse. Nous recommandons tout de même le niveau moyen comme valeur par défaut pour la plupart des tâches.

Nous nous attendons à ce que ces gains d'efficacité en jetons se traduisent par de réelles économies pour les développeurs.

Par exemple, GPT‑5.1‑Codex‑Max est capable de produire des interfaces frontend de haute qualité avec une fonctionnalité et une esthétique comparables, mais à un coût bien inférieur à celui de GPT‑5.1‑Codex.

Prompt: Generate a single self-contained browser app that renders an interactive CartPole RL sandbox with canvas graphics, a tiny policy-gradient controller, metrics, and an SVG network visualizer.

Fonctionnalités

  • Must be able to actually train a policy to make model better at cart pole
  • Visualizer for the activations/weights when the model is training or at inference
  • Steps in the episode, rewards this episode
  • Last survival time and best survival time in steps

Save to index.html

Tâches de longue durée

La compaction permet à GPT‑5.1‑Codex‑Max de mener à bien des tâches qui auraient auparavant échoué en raison des limites de fenêtre de contexte, comme des opérations de refactoring complexes et de longues boucles d'agent, en élaguant son historique tout en préservant le contexte le plus important sur de longues périodes. Dans les applications Codex, GPT‑5.1‑Codex‑Max compacte automatiquement sa session lorsqu'il approche de la limite de sa fenêtre de contexte, lui offrant ainsi une nouvelle fenêtre de contexte. Il répète ce processus jusqu'à ce que la tâche soit terminée.

La capacité à maintenir un travail cohérent sur de longues périodes est une aptitude fondamentale sur la voie de systèmes d'IA plus généraux et plus fiables. GPT‑5.1‑Codex‑Max peut travailler de manière autonome pendant plusieurs heures d'affilée. Dans nos évaluations internes, nous avons observé que GPT‑5.1‑Codex‑Max travaille sur certaines tâches pendant plus de 24 heures. Il itère de manière persistante sur son implémentation, corrige les échecs de tests et finit par fournir un résultat concluant.

Dans cet exemple, GPT‑5.1‑Codex‑Max remanie de manière autonome le dépôt open source Codex CLI.

À mesure que la longueur de la session se rapproche de la fenêtre de contexte du modèle, celui-ci compacte automatiquement la session pour libérer de l'espace et poursuivre la tâche sans perdre les progrès réalisés.

La vidéo a été raccourcie et accélérée pour plus de clarté.

Élaboration d’agents IA sécurisés et fiables

GPT‑5.1‑Codex‑Max obtient des performances nettement meilleures sur les évaluations qui exigent un raisonnement soutenu sur le long terme. Parce qu'il peut travailler de manière cohérente sur plusieurs fenêtres de contexte grâce à la compaction, le modèle fournit de meilleurs résultats sur des défis comme le codage à long terme et la cybersécurité. Nous avons analysé les résultats de ce modèle sur des évaluations internes et externes dans la fiche système de GPT‑5.1‑Codex‑Max.

GPT‑5.1‑Codex‑Max n'atteint pas le niveau de capacité High en cybersécurité dans notre Cadre de préparation, mais il s'agit du modèle de cybersécurité le plus performant que nous ayons déployé à ce jour, et les capacités agentiques en cybersécurité évoluent rapidement. En conséquence, nous prenons des mesures pour nous préparer à un niveau High en cybersécurité, renforcer nos protections dans le domaine cyber et faire en sorte que les défenseurs puissent tirer parti de ces capacités accrues grâce à des programmes comme Aardvark.

Lors du lancement de GPT‑5‑Codex, nous avons mis en place une surveillance spécialisée en cybersécurité, afin de détecter et de perturber les activités malveillantes. Même si nous n'avons pas constaté d'augmentation significative des abus à grande échelle, nous préparons des mesures d'atténuation supplémentaires pour encadrer ces capacités avancées. Nos équipes ont déjà perturbé des opérations malveillantes tentant de détourner nos modèles, et les activités suspectes sont transmises à nos systèmes de surveillance de conformité pour examen.

Codex est conçu pour s'exécuter par défaut dans un environnement isolé (sandbox) : les écritures de fichiers sont limitées à son espace de travail et l'accès réseau est désactivé, sauf si un développeur l'active. Nous recommandons de maintenir Codex dans ce mode à accès restreint, car l'activation d'Internet ou de la recherche web peut introduire des risques d'attaques par injection de prompts via des contenus non fiables.

À mesure que Codex devient plus performant sur des tâches de longue durée, il devient d'autant plus important que les développeurs examinent le travail de l'agent avant d'apporter des modifications ou de déployer en production. Pour faciliter cet examen, Codex génère des journaux de terminal et référence ses appels d'outils ainsi que les résultats de tests. Même si ses revues de code réduisent le risque de déployer en production des bogues issus du modèle ou d'erreurs humaines, Codex doit être considéré comme un relecteur supplémentaire et non comme un substitut aux revues humaines.

Les capacités en cybersécurité peuvent être utilisées à la fois à des fins défensives et offensives. C'est pourquoi nous adoptons une approche de déploiement itératif : tirer des enseignements des usages réels, mettre à jour les garde-fous et préserver des outils défensifs essentiels, tels que l'analyse automatique de vulnérabilités et l'aide à la remédiation.

Disponibilité

GPT‑5.1‑Codex‑Max est disponible dans Codex avec les formules ChatGPT Plus, Pro, Business, Edu et Enterprise. Pour en savoir plus sur le fonctionnement des limites d'utilisation selon votre formule, consultez notre documentation(ouverture dans une nouvelle fenêtre).

Si vous utilisez Codex CLI via une clé API, sachez que nous prévoyons de donner accès à GPT‑5.1‑Codex‑Max via l'API prochainement.

À partir d'aujourd'hui, GPT‑5.1‑Codex‑Max deviendra le modèle par défaut dans les interfaces Codex. À la différence de GPT‑5.1, qui est un modèle généraliste, nous recommandons d'utiliser GPT‑5.1‑Codex‑Max ainsi que la famille de modèles Codex uniquement pour des tâches de programmation agentique dans Codex ou des environnements similaires.

Conclusion

GPT‑5.1‑Codex‑Max illustre les progrès accomplis par les modèles dans leur capacité à mener des tâches de programmation de long terme, gérer des workflows complexes et produire des implémentations de haute qualité avec beaucoup moins de jetons. Combiné aux améliorations continues de notre CLI, de notre extension d'IDE, de notre intégration cloud et de nos outils de revue de code, ce modèle se traduit par une productivité d'ingénierie considérablement accrue : en interne, 95 % des ingénieurs d'OpenAI utilisent Codex chaque semaine et ces ingénieurs génèrent environ 70 % de pull requests supplémentaires depuis l'adoption de Codex. À mesure que nous repoussons les frontières de ce que les agents sont capables de faire, nous sommes impatients de voir ce que vous construirez avec eux.

Annexe : Évaluation des modèles

GPT‑5.1‑Codex (high)

GPT‑5.1‑Codex‑Max (xhigh)

SWE-bench Verified (n=500)

73,7 %

77,90 %

SWE-Lancer IC SWE

66,3 %

79,9 %

Terminal-Bench 2.0

52,8 %

58,1 %

Auteur

OpenAI