Nous lançons GPT‑5.2, la série de modèles la plus performante à ce jour pour le travail intellectuel des professionnels.
Aujourd’hui, l’utilisateur moyen de ChatGPT Enterprise estime que l’IA lui fait gagner 40 à 60 minutes par jour, et les utilisateurs intensifs déclarent gagner plus de 10 heures par semaine. Nous avons conçu GPT‑5.2 pour créer encore plus de valeur économique pour les utilisateurs ; il est plus performant pour créer des feuilles de calcul, concevoir des présentations, écrire du code, analyser des images, comprendre de très longs contextes, utiliser des outils et gérer des projets complexes en plusieurs étapes.
GPT‑5.2 établit un nouveau niveau de référence sur de nombreux benchmarks, dont GDPval, où il surpasse les professionnels du secteur sur des tâches d’expertise bien définies couvrant 44 métiers.
GPT‑5.2 Thinking | GPT‑5.1 Thinking | |
GDPval (victoires ou ex æquo) | 70,9 % | 38,8 % (GPT‑5) |
SWE-Bench Pro (public) | 55,6 % | 50,8 % |
SWE-bench Verified | 80,0 % | 76,30 % |
GPQA Diamond (sans outils) | 92,4 % | 88,10 % |
CharXiv Reasoning (avec Python) | 88,7 % | 80,3 % |
HMMT (février 2025) | 99,4 % | 96,3 % |
FrontierMath (niveaux 1 à 3) | 40,3 % | 31,0 % |
ARC-AGI-1 (Verified) | 86,2 % | 72,80 % |
ARC-AGI-2 (Verified) | 52,9 % | 17,6 % |
Notion(ouverture dans une nouvelle fenêtre), Box(ouverture dans une nouvelle fenêtre), Shopify(ouverture dans une nouvelle fenêtre), Harvey(ouverture dans une nouvelle fenêtre) et Zoom(ouverture dans une nouvelle fenêtre) ont constaté que GPT‑5.2 offre un raisonnement de pointe sur des tâches complexes et prolongées et une excellente maîtrise de l’appel d’outils. Databricks(ouverture dans une nouvelle fenêtre), Hex(ouverture dans une nouvelle fenêtre) et Triple Whale(ouverture dans une nouvelle fenêtre) ont jugé GPT‑5.2 particulièrement performant pour la data science agentique et les tâches d’analyse documentaire. Cognition(ouverture dans une nouvelle fenêtre), Warp(ouverture dans une nouvelle fenêtre), Charlie Labs(ouverture dans une nouvelle fenêtre), JetBrains(ouverture dans une nouvelle fenêtre) et Augment Code(ouverture dans une nouvelle fenêtre) indiquent que GPT‑5.2 offre des performances de pointe en programmation agentique, avec des améliorations mesurables en programmation interactive, revues de code et détection de bugs.
Dans ChatGPT, GPT‑5.2 Instant, Thinking et Pro commencent à être déployés dès aujourd’hui, en commençant par les formules payantes. Dans l’API, ils sont dès à présent disponibles pour tous les développeurs.
Globalement, GPT‑5.2 apporte des améliorations significatives en intelligence générale, compréhension de longs contextes, appel d’outils de façon agentique et vision, ce qui le rend plus performant que tous les modèles précédents pour exécuter de bout en bout des tâches complexes ancrées dans le réel.
GPT‑5.2 Thinking est à ce jour le meilleur modèle pour des usages professionnels concrets. Sur GDPval, un benchmark qui mesure des tâches de travail intellectuel bien spécifiées dans 44 professions, GPT‑5.2 Thinking établit un nouveau score record et devient notre premier modèle à égaler ou dépasser le niveau d’un expert humain. Concrètement, d’après des juges humains experts, GPT‑5.2 Thinking fait mieux que les meilleurs professionnels du secteur ou les égale dans 70,9 % des comparaisons sur les tâches d’expertise de GDPval. Ces tâches incluent la création de présentations, de feuilles de calcul et d’autres livrables. GPT‑5.2 Thinking a exécuté les tâches GDPval plus de 11 fois plus rapidement et pour moins de 1 % du coût d’experts humains, ce qui laisse penser qu’avec une supervision adéquate, GPT‑5.2 peut réellement épauler le travail professionnel. Les estimations de vitesse et de coût reposent sur des mesures historiques ; la vitesse dans ChatGPT peut varier.
Dans GDPval, les modèles accomplissent des tâches de travail intellectuel bien définies couvrant 44 professions issues des 9 principaux secteurs qui contribuent au PIB des États-Unis. Les tâches requièrent de véritables livrables, tels que des présentations commerciales, des feuilles de calcul comptables, des plannings de soins d’urgence, des schémas de fabrication ou de courtes vidéos. Dans ChatGPT, GPT‑5.2 Thinking propose des outils supplémentaires que GPT‑5 Thinking n’a pas.
En examinant un résultat particulièrement réussi, l’un des juges de GDPval a commenté : « C’est un progrès enthousiasmant et très visible en termes de qualité… on dirait que le travail a été produit par une entreprise professionnelle avec des équipes dédiées, avec une mise en page étonnamment bien conçue et de très bons conseils pour les deux livrables, même si nous avons encore quelques petites erreurs à corriger sur l’un d’eux. »
De plus, sur notre benchmark interne de tâches de modélisation sur feuille de calcul pour des analystes débutants en banque d’investissement — par exemple construire un modèle financier « trois états » pour une entreprise du Fortune 500 avec une mise en forme et des références correctes, ou bâtir un modèle de leveraged buyout pour un retrait de la cote — le score moyen par tâche de GPT‑5.2 Thinking est supérieur de 9,3 % à celui de GPT‑5.1, passant de 59,1 % à 68,4 %.
Des comparaisons détaillées montrent une plus grande sophistication et une meilleure mise en forme dans les feuilles de calcul et les diapositives générées par GPT‑5.2 Thinking :

Prompt : Crée un modèle de planification des effectifs : effectifs, plan de recrutement, attrition et impact sur le budget. Inclus les départements engineering, marketing, juridique et ventes.
Pour utiliser les nouvelles fonctionnalités de création de feuilles de calcul et de présentations dans ChatGPT, vous devez disposer d’un abonnement payant et sélectionner GPT‑5.2 Thinking ou Pro. Les générations complexes peuvent prendre plusieurs minutes.
GPT‑5.2 Thinking établit un nouveau standard de 55,6 % sur SWE-bench Pro, une évaluation rigoureuse du génie logiciel en conditions réelles. Contrairement à SWE-bench Verified, qui ne teste que Python, SWE-bench Pro teste quatre langages et vise à être plus résistant à la contamination, plus exigeant, plus diversifié et plus pertinent sur le plan industriel.
Dans SWE-Bench Pro(ouverture dans une nouvelle fenêtre), un modèle reçoit un dépôt de code et doit générer un correctif pour résoudre une tâche de génie logiciel réaliste.
Sur SWE-Bench Verified (non représenté sur le graphique), GPT‑5.2 Thinking atteint un nouveau score record de 80 %.
Concrètement, pour un usage professionnel quotidien, cela se traduit par un modèle capable de déboguer avec fiabilité plus du code en production, de mettre en œuvre des demandes de fonctionnalités, de remanier de larges bases de code et de livrer des correctifs de bout en bout avec moins d’intervention manuelle.
GPT‑5.2 Thinking est également plus performant que GPT‑5.1 Thinking en développement front-end. Les premiers testeurs l’ont jugé nettement plus performant pour le développement front-end et les interfaces utilisateur complexes ou non conventionnelles — notamment lorsqu’elles impliquent des éléments 3D — ce qui en fait un partenaire quotidien puissant pour les ingénieurs sur l’ensemble de la pile. Voici quelques exemples de ce qu’il peut produire à partir d’un seul prompt :
Prompt : Crée une application monopage dans un seul fichier HTML répondant aux exigences suivantes :
- Nom : Ocean Wave Simulation
- Objectif : afficher des vagues animées réalistes.
- Fonctionnalités : modifier la vitesse du vent, la hauteur des vagues et l’éclairage.
- L’interface doit être apaisante et réaliste.
Les premiers testeurs ont partagé leurs retours sur les capacités de GPT‑5.2 en matière de code :
« GPT‑5.2 représente le plus grand bond en avant des modèles GPT pour la programmation agentique depuis GPT-5, et c’est un modèle de codage à l’état de l’art dans sa gamme de prix. Le simple changement de numéro de version ne reflète pas l’ampleur du saut en intelligence. Nous sommes ravis d’en faire le modèle par défaut dans Windsurf et sur plusieurs charges de travail clés de Devin. »
GPT‑5.2 Thinking hallucine moins que GPT‑5.1 Thinking. Sur un ensemble de requêtes désidentifiées issues de ChatGPT, les réponses comportant des erreurs étaient 38 % moins fréquentes (en valeur relative). Pour les professionnels, cela se traduit par moins d’erreurs lors de l’utilisation du modèle pour la recherche, la rédaction, l’analyse et l’aide à la décision, ce qui le rend plus fiable pour le travail intellectuel au quotidien.
Le niveau d’effort de raisonnement était réglé sur la valeur maximale disponible et un outil de recherche était activé. Les erreurs ont été détectées par d’autres modèles, qui peuvent eux aussi en commettre. Les taux d’erreur au niveau des affirmations individuelles sont nettement inférieurs aux taux d’erreur au niveau de la réponse, car la plupart des réponses contiennent de nombreuses affirmations.
Comme tous les modèles, GPT‑5.2 Thinking est imparfait. Pour toute utilisation critique, vérifiez toujours ses réponses.
GPT‑5.2 Thinking établit un nouveau record de raisonnement sur de longs contextes, avec des performances de pointe sur OpenAI MRCRv2, une évaluation qui mesure la capacité d’un modèle à intégrer des informations réparties sur de longs documents. Sur des tâches réelles comme l’analyse approfondie de documents, qui exigent de relier des informations réparties sur des centaines de milliers de jetons, GPT‑5.2 Thinking est nettement plus précis que GPT‑5.1 Thinking. En particulier, c’est le premier modèle que nous voyons atteindre une précision proche de 100 % sur la variante MRCR à 4 aiguilles (jusqu’à 256 000 jetons).
Concrètement, cela permet aux professionnels d’utiliser GPT‑5.2 pour travailler sur de longs documents — rapports, contrats, articles de recherche, transcriptions, projets multifichiers — tout en conservant cohérence et précision sur des centaines de milliers de jetons. GPT‑5.2 est ainsi particulièrement adapté à l’analyse approfondie, à la synthèse et aux workflows complexes impliquant de multiples sources.
Dans OpenAI-MRCR(ouverture dans une nouvelle fenêtre) (résolution de coréférence en plusieurs étapes), plusieurs requêtes utilisateur identiques (« aiguilles ») sont insérées dans de longues « bottes de foin » composées de requêtes et de réponses similaires, et le modèle doit reproduire la réponse à la nième aiguille. La version 2 de cet eval corrige environ 5 % des tâches dont les valeurs de vérité terrain étaient incorrectes. Le taux moyen de correspondance (mean match ratio) mesure le taux moyen de correspondance de chaîne entre la réponse du modèle et la bonne réponse. Les points à 256k jetons d’entrée maximum représentent des moyennes sur 128k–256k jetons d’entrée, et ainsi de suite. Ici, 256k correspond à 256 * 1 024 = 262 114 jetons. Le niveau d’effort de raisonnement était réglé sur la valeur maximale disponible.
Pour les tâches qui bénéficient d’un raisonnement au-delà de la fenêtre de contexte maximale, GPT‑5.2 Thinking est compatible avec notre nouveau point de terminaison (endpoint) Responses /compact, qui étend la fenêtre de contexte effective du modèle. Cela permet à GPT‑5.2 Thinking de prendre en charge des workflows plus longs et plus intensifs en appels d’outils, qui seraient autrement limités par la longueur du contexte. Pour en savoir plus, consultez notre documentation API(ouverture dans une nouvelle fenêtre).
GPT‑5.2 Thinking est à ce jour notre meilleur modèle de vision ; il réduit de moitié environ les taux d’erreur sur le raisonnement à partir de graphiques et la compréhension d’interfaces logicielles.
Pour un usage professionnel quotidien, cela signifie que le modèle interprète plus précisément les tableaux de bord, captures d’écran produit, schémas techniques et rapports visuels, ce qui soutient les workflows en finance, opérations, ingénierie, design et support client, où l’information visuelle est centrale.
Dans CharXiv Reasoning(ouverture dans une nouvelle fenêtre), les modèles répondent à des questions sur des graphiques issus d’articles scientifiques. Un outil Python est activé et le niveau d’effort de raisonnement est réglé au maximum.
Dans ScreenSpot-Pro(ouverture dans une nouvelle fenêtre), les modèles doivent raisonner à partir de captures d’écran haute résolution d’interfaces graphiques issues de différents environnements professionnels. Un outil Python est activé et le niveau d’effort de raisonnement est réglé au maximum. Sans cet outil Python, les scores sont nettement plus faibles. Nous recommandons d’activer l’outil Python pour ce type de tâches de vision.
Par rapport aux modèles précédents, GPT‑5.2 Thinking comprend mieux la façon dont les éléments sont positionnés dans une image, ce qui l’aide pour les tâches où la disposition relative joue un rôle clé dans la résolution du problème. Dans l’exemple ci-dessous, nous demandons au modèle d’identifier les composants présents dans une image en entrée (en l’occurrence, une carte mère) et de renvoyer des libellés avec des boîtes englobantes approximatives. Même sur une image de faible qualité, GPT‑5.2 identifie les principales zones et place des boîtes qui correspondent approximativement à la position réelle de chaque composant, tandis que GPT‑5.1 n’étiquette que quelques éléments et montre une compréhension bien plus limitée de leur agencement spatial.
GPT‑5.1

GPT‑5.2

GPT‑5.2 Thinking atteint un nouveau record de 98,7 % sur Tau2-bench Telecom, ce qui démontre sa capacité à utiliser des outils de manière fiable sur des tâches longues et en plusieurs étapes.
Pour les cas d’usage sensibles à la latence, GPT‑5.2 Thinking obtient également de bien meilleurs résultats avec reasoning.effort=’none’, dépassant nettement GPT‑5.1 et GPT‑4.1.
Dans τ2-bench(ouverture dans une nouvelle fenêtre), les modèles utilisent des outils pour mener à bien des tâches de support client au cours d’échanges en plusieurs étapes avec un utilisateur simulé. Pour le domaine Télécom, nous avons ajouté dans le message système une brève consigne générale afin d’améliorer les performances. Nous excluons le sous-ensemble Airline en raison d’un étiquetage de référence de moindre qualité.
Pour les professionnels, cela se traduit par des workflows de bout en bout plus finis — résolution de demandes de support client, récupération de données dans plusieurs systèmes, exécution d’analyses et génération de livrables finaux — avec moins de ruptures entre les différentes étapes.
Par exemple, lorsqu’une question complexe de service client nécessite une résolution en plusieurs étapes, le modèle peut coordonner plus efficacement un workflow complet faisant intervenir plusieurs agents. Dans l’exemple ci-dessous, un voyageur signale un vol retardé, une correspondance manquée, une nuit passée à New York et un besoin spécifique de siège pour des raisons médicales. GPT‑5.2 gère l’ensemble de la chaîne de tâches — nouvelle réservation, siège avec assistance particulière et indemnisation — et fournit un résultat plus complet que GPT‑5.1.
GPT‑5.1

GPT‑5.2

L’une de nos ambitions pour l’IA est qu’elle accélère la recherche scientifique au bénéfice de toutes et tous. Dans cette optique, nous travaillons en étroite collaboration avec des scientifiques et recueillons leurs retours pour comprendre comment l’IA peut accélérer leurs travaux, et le mois dernier nous avons partagé ici quelques premières expériences menées en collaboration.
Nous pensons que GPT‑5.2 Pro et GPT‑5.2 Thinking sont les meilleurs modèles au monde pour aider les scientifiques et accélérer leurs travaux. Sur GPQA Diamond, un benchmark de questions-réponses de niveau master conçu pour être « à l’épreuve de Google », GPT‑5.2 Pro atteint 93,2 %, suivi de près par GPT‑5.2 Thinking avec 92,4 %.
Dans GPQA Diamond(ouverture dans une nouvelle fenêtre), les modèles répondent à des questions à choix multiple en physique, chimie et biologie. Aucun outil n’est activé et le niveau d’effort de raisonnement est réglé au maximum.
Sur FrontierMath (niveaux 1 à 3), un benchmark d’exercices de mathématiques de niveau expert, GPT‑5.2 Thinking établit un nouveau record, en résolvant 40,3 % des problèmes.
Dans FrontierMath(ouverture dans une nouvelle fenêtre), les modèles résolvent des problèmes de mathématiques de niveau expert. Un outil Python est activé et le niveau d’effort de raisonnement est réglé au maximum.
Nous voyons déjà les modèles d’IA accélérer de manière significative les progrès en mathématiques et en sciences, de manière concrète. Par exemple, dans des travaux récents menés avec GPT‑5.2 Pro, des chercheurs ont étudié une question ouverte en théorie de l’apprentissage statistique. Dans un cadre restreint et précisément défini, le modèle a proposé une démonstration qui a ensuite été vérifiée par les auteurs et relue avec des experts externes, illustrant comment des modèles de pointe peuvent contribuer à la recherche mathématique sous étroite supervision humaine.
Sur ARC-AGI-1 (Verified), un benchmark conçu pour mesurer les capacités de raisonnement général, GPT‑5.2 est le premier modèle à franchir le seuil des 90 %, en progressant depuis les 87 % de o3‑preview l’an dernier tout en réduisant d’environ 390 fois le coût nécessaire pour atteindre ce niveau de performance.
Sur ARC-AGI-2 (Verified), qui est plus difficile et isole mieux le raisonnement « fluide », GPT‑5.2 Thinking établit un nouveau record pour les modèles à raisonnement détaillé (« chain-of-thought »), avec un score de 52,9 %. GPT‑5.2 Pro va encore plus loin, avec un score de 54,2 %, et repousse ainsi la capacité du modèle à raisonner sur des problèmes nouveaux et abstraits.
Les progrès constatés sur ces évaluations reflètent le renforcement des capacités de GPT‑5.2 en matière de raisonnement en plusieurs étapes, de précision quantitative et de résolution fiable de tâches techniques complexes.
Voici ce que disent nos premiers testeurs à propos de GPT‑5.2 :
« GPT‑5.2 a rendu possible un changement complet d’architecture pour nous. Nous avons fusionné un système multi-agent fragile en un seul méga-agent doté de plus de 20 outils. Et surtout, ça fonctionne, tout simplement. Le méga-agent est plus rapide, plus intelligent et cent fois plus facile à maintenir. Nous observons une latence nettement plus faible, un appel d’outils bien plus robuste, et nous n’avons plus besoin de prompts système interminables, car GPT-5.2 exécute proprement à partir d’un simple prompt d’une ligne. C’est presque magique. »
Dans ChatGPT, les utilisateurs devraient constater que GPT‑5.2 est plus agréable à utiliser au quotidien : plus structuré, plus fiable, tout en restant plaisant à utiliser en conversation.
GPT‑5.2 Instant est un modèle rapide et polyvalent pour le travail et l’apprentissage au quotidien, avec des améliorations nettes sur les questions de recherche d’information, les guides pratiques et présentations rapides, la rédaction technique et la traduction, tout en conservant le ton plus chaleureux introduit avec GPT‑5.1 Instant. Les premiers testeurs ont notamment relevé des explications plus claires, qui mettent en avant les informations essentielles dès le début.
GPT‑5.2 Thinking est conçu pour le travail de fond et aide les utilisateurs à traiter des tâches plus complexes avec davantage de finesse : notamment pour programmer, résumer de longs documents, répondre à des questions sur des fichiers importés, dérouler des raisonnements mathématiques et logiques étape par étape, et soutenir la planification comme la prise de décision, avec une structure plus claire et des détails plus utiles.
GPT‑5.2 Pro est notre option la plus avancée et la plus fiable pour les questions difficiles, lorsque la qualité de la réponse vaut la peine d’attendre un peu plus, avec des premiers tests montrant moins d’erreurs majeures et de meilleures performances dans des domaines complexes comme la programmation.
GPT‑5.2 s’appuie sur les travaux de recherche sur les complétions sûres introduits avec GPT‑5, qui apprennent au modèle à fournir la réponse la plus utile tout en restant dans des limites de sécurité strictes.
Avec cette version, nous avons poursuivi notre travail pour renforcer les réponses de nos modèles dans les conversations sensibles, avec des améliorations significatives dans la façon dont ils répondent aux prompts exprimant de la détresse, des idées suicidaires ou d’automutilation, une santé mentale fragile ou une dépendance émotionnelle au modèle. Ces interventions ciblées ont permis de réduire le nombre de réponses indésirables, aussi bien dans GPT‑5.2 Instant que dans GPT‑5.2 Thinking, par rapport aux modèles GPT‑5.1 et GPT‑5 Instant et Thinking. Vous trouverez davantage de détails dans la fiche système.
Nous commençons également à déployer progressivement notre modèle de prédiction de l’âge, afin d’appliquer automatiquement des protections de contenu pour les utilisateurs de moins de 18 ans, et ainsi limiter leur accès aux contenus sensibles. Cette approche vient compléter les protections déjà en place pour les utilisateurs dont nous savons qu’ils ont moins de 18 ans, ainsi que nos paramètres de contrôle parental.
GPT‑5.2 est une étape dans une série continue d’améliorations, et nous sommes loin d’avoir terminé. Même si cette version apporte des progrès significatifs en termes d’intelligence et de productivité, nous savons qu’il reste des domaines où les utilisateurs attendent davantage. Dans ChatGPT, nous travaillons sur des problèmes connus comme les refus excessifs, tout en continuant à relever le niveau global en matière de sécurité et de fiabilité. Ces évolutions sont complexes et nous nous attachons à bien les réussir.
GPT‑5.2 | GPT‑5.1 | GPT‑5.2 | GPT‑5.1 | |
Santé mentale | 0,995 | 0,883 | 0,915 | 0,684 |
Dépendance émotionnelle | 0,938 | 0,945 | 0,955 | 0,785 |
Automutilation | 0,938 | 0,925 | 0,963 | 0,937 |
Dans ChatGPT, nous commencerons aujourd’hui à déployer GPT‑5.2 (Instant, Thinking et Pro), en commençant par les forfaits payants (Plus, Pro, Go, Business, Entreprise). Nous déployons GPT‑5.2 progressivement afin de garder l’expérience ChatGPT aussi fluide et fiable que possible ; si vous ne le voyez pas dans un premier temps, réessayez un peu plus tard. Dans ChatGPT, GPT‑5.1 restera disponible pour les utilisateurs des formules payantes pendant trois mois dans la section des modèles hérités, après quoi nous le retirerons.
ChatGPT | API |
ChatGPT‑5.2 Instant | GPT‑5.2‑chat‑latest |
ChatGPT‑5.2 Thinking | GPT‑5.2 |
ChatGPT‑5.2 Pro | GPT‑5.2 Pro |
Sur notre plateforme API, GPT‑5.2 La fonctionnalité de réflexion est disponible dès aujourd’hui dans les API Responses et Chat Completions sous l’identifiant gpt-5.2, et GPT‑5.2 Instant sous l’identifiant gpt-5.2-chat-latest. GPT‑5.2 Pro est disponible dans l’API Responses sous l’identifiant gpt-5.2-pro. Les développeurs peuvent désormais configurer le paramètre de raisonnement dans GPT‑5.2 Pro, ainsi que les deux modèles GPT‑5.2 Pro et GPT‑5.2 Thinking prennent à présent en charge un cinquième niveau d’effort de raisonnement, xhigh, pour les tâches où la qualité prime sur tout le reste.
GPT‑5.2 est proposé à 1,75 $ par million de jetons en entrée et 14 $ par million de jetons en sortie, avec une remise de 90 % sur les entrées mises en cache. Lors de plusieurs évaluations basées sur des agents, nous avons constaté que, malgré un coût par jeton plus élevé, atteindre un niveau de qualité donné revenait finalement moins cher grâce à la plus grande efficacité des jetons de GPT‑5.2.
Le tarif des abonnements ChatGPT reste inchangé, mais dans l’API, GPT‑5.2 est facturé plus cher par jeton que GPT‑5.1, car il s’agit d’un modèle plus performant. Il reste toutefois moins cher que d’autres modèles de pointe, afin que les utilisateurs puissent continuer à l’utiliser largement dans leur travail quotidien et leurs applications essentielles.
Modèle | Saisie | Entrées mises en cache | Sortie |
gpt-5.2 / gpt-5.2-chat-latest | 1,75 $ | 0,175 $ | 14 $ |
gpt-5.2-pro | 21 $ | - | 168 $ |
gpt-5.1 / | 1,25 $ | 0,125 $ | 10 $ |
gpt-5-pro | 15 $ | - | 120 $ |
Nous n’avons actuellement aucun projet de suppression de GPT‑5.1, GPT‑5 ou GPT‑4.1 dans l’API et nous communiquerons tout plan de mise hors service avec un préavis suffisant pour les développeurs. Même si GPT‑5.2 fonctionnera très bien dans Codex dès son lancement, nous prévoyons de publier une version de GPT‑5.2 optimisée pour Codex dans les prochaines semaines.
GPT‑5.2 a été conçu en collaboration avec nos partenaires de longue date NVIDIA et Microsoft. Les centres de données Azure et les GPU NVIDIA, notamment les H100, H200 et GB200-NVL72, constituent l’infrastructure d’entraînement à grande échelle d’OpenAI et permettent des gains significatifs en termes d’intelligence des modèles. Cette collaboration nous permet de faire évoluer nos capacités de calcul en toute confiance et de mettre de nouveaux modèles sur le marché plus rapidement.
Vous trouverez ci-dessous un panorama complet des scores de benchmark pour GPT‑5.2 Thinking, ainsi qu’un sous-ensemble de résultats pour GPT‑5.2 Pro.
Professionnel
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| GDPval (ties allowed, wins or ties) | 70.9% | 74.1% | 38.8% (GPT-5) |
| GDPval (ties allowed, clear wins) | 49.8% | 60.0% | 35.5% (GPT-5) |
| GDPval (no ties) | 61.0% | 67.6% | 37.1% (GPT-5) |
| Investment banking spreadsheet tasks (internal) | 68.4% | 71.7% | 59.1% |
Programmation
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| SWE-Bench Pro, Public | 55.6% | - | 50.8% |
| SWE-bench Verified | 80.0% | - | 76.3% |
| SWE-Lancer, IC Diamond* | 74.6% | - | 69.7% |
Véracité
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| ChatGPT answers without errors (w/ search) | 93.9% | - | 91.2% |
| ChatGPT answers without errors (no search) | 88.0% | - | 87.3% |
Contexte long
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| OpenAI MRCRv2, 8 needles, 4k–8k | 98.2% | - | 65.3% |
| OpenAI MRCRv2, 8 needles, 8k–16k | 89.3% | - | 47.8% |
| OpenAI MRCRv2, 8 needles, 16k–32k | 95.3% | - | 44.0% |
| OpenAI MRCRv2, 8 needles, 32k–64k | 92.0% | - | 37.8% |
| OpenAI MRCRv2, 8 needles, 64k–128k | 85.6% | - | 36.0% |
| OpenAI MRCRv2, 8 needles, 128k–256k | 77.0% | - | 29.6% |
| BrowseComp Long Context 128k | 92.0% | - | 90.0% |
| BrowseComp Long Context 256k | 89.8% | - | 89.5% |
| GraphWalks bfs <128k | 94.0% | - | 76.8% |
| Graphwalks parents <128k | 89.0% | - | 71.5% |
Vision
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| CharXiv reasoning (no tools) | 82.1% | - | 67.0% |
| CharXiv reasoning (w/ Python) | 88.7% | - | 80.3% |
| MMMU Pro (no tools) | 79.5% | - | - |
| MMMU Pro (w/ Python) | 80.4% | - | 79.0% |
| Video MMMU (no tools) | 85.9% | - | 82.9% |
| Screenspot Pro (w/ Python) | 86.3% | - | 64.2% |
Utilisation d’outils
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| Tau2-bench Telecom | 98.7% | - | 95.6% |
| Tau2-bench Retail | 82.0% | - | 77.9% |
| BrowseComp | 65.8% | 77.9% | 50.8% |
| Scale MCP-Atlas | 60.6% | - | 44.5% |
| Toolathlon | 46.3% | - | 36.1% |
Académique
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| GPQA Diamond (no tools) | 92.4% | 93.2% | 88.1% |
| HLE (no tools) | 34.5% | 36.6% | 25.7% |
| HLE (w/ search, Python) | 45.5% | 50.0% | 42.7% |
| MMMLU | 89.6% | - | 89.5% |
| HMMT, Feb 2025 (no tools) | 99.4% | 100.0% | 96.3% |
| AIME 2025 (no tools) | 100.0% | 100.0% | 94.0% |
| FrontierMath Tier 1–3 (w/ Python) | 40.3% | - | 31.0% |
| FrontierMath Tier 4 (w/ Python) | 14.6% | - | 12.5% |
Raisonnement abstrait
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| ARC-AGI-1 (Verified) | 86.2% | 90.5% | 72.8% |
| ARC-AGI-2 (Verified) | 52.9% | 54.2% (high) | 17.6% |
Les modèles ont été exécutés avec le niveau d’effort de raisonnement maximal disponible dans notre API (xhigh pour GPT‑5.2 Thinking et Pro, et high pour GPT‑5.1 Thinking), à l’exception des évaluations professionnelles, pour lesquelles GPT‑5.2 Thinking a été exécuté avec un effort de raisonnement heavy, le niveau maximal disponible dans ChatGPT Pro. Les benchmarks ont été réalisés dans un environnement de recherche, qui peut dans certains cas produire des résultats légèrement différents de ceux de ChatGPT en production.
* Pour SWE-Lancer, nous avons omis 40 problèmes sur 237 qui n’étaient pas compatibles avec notre infrastructure.


