Présentation de GPT‑5 pour les développeurs
Le meilleur modèle pour le code et les tâches agentiques.
Aujourd'hui, nous lançons GPT‑5 sur notre plateforme API, notre meilleur modèle à ce jour pour les tâches de codage et d'agent.
GPT‑5 est à la pointe de la technologie (SOTA) dans les principales références en matière de codage, avec un score de 74,9 % sur SWE-bench Verified et de 88 % sur Aider polyglot. Nous avons fait de GPT‑5 un allié de choix pour le codage. Il se distingue par sa capacité à générer du code de haut niveau et à gérer des tâches telles que la correction de bogues, l’édition de code et l’analyse de bases de code complexes. Le modèle est orientable et collaboratif — il peut suivre des instructions très détaillées avec une grande précision et fournir des explications préalables de ses actions avant et entre les appels d’outils. Le modèle excelle également dans le codage frontal, surpassant OpenAI o3 dans le développement Web frontal dans 70 % des cas lors des tests internes.
Nous avons formé GPT‑5 à des tâches de codage réelles en collaboration avec les premiers testeurs issus de jeunes entreprises et autres entreprises. Cursor déclare que GPT‑5 est « le modèle le plus intelligent [qu'ils aient] utilisé » et « remarquablement intelligent, facile à diriger, et possède même une personnalité [qu'ils] n'ont pas observée dans d'autres modèles ». Windsurf a partagé que GPT‑5 est à la fine pointe de la technologie selon leurs évaluations et « présente un taux d'erreur d'appel d'outil deux fois inférieur à celui des autres modèles de pointe ». Vercel affirme : « C'est le meilleur modèle frontal d'IA, atteignant des performances optimales tant sur le plan esthétique que sur celui de la qualité du code, ce qui le place dans une catégorie à part. »
GPT‑5 excelle également dans les tâches agentiques de longue durée, atteignant des résultats SOTA sur τ2-bench telecom (96,7 %), une référence d'appel d'outils publié il y a tout juste 2 mois. La gestion optimisée des outils de GPT‑5 lui permet d’enchaîner de manière fiable plusieurs dizaines d’appels d’outils — à la fois en séquence et en parallèle — sans perdre le fil, ce qui le rend bien plus performant pour exécuter de bout en bout des tâches complexes et concrètes. Il suit également les instructions des outils avec plus de précision, gère mieux les erreurs des outils et excelle dans la récupération de contenu sur de longs contextes. Manus affirme que GPT‑5 « a atteint la meilleure performance [qu'ils] aient jamais observée avec un seul modèle sur [leurs] critères internes. » Notion affirme que « la rapidité de réponse [du modèle], notamment en mode de raisonnement faible, fait de GPT‑5 un modèle idéal lorsque vous devez résoudre des tâches complexes en une seule fois. » Inditex a partagé : « Ce qui distingue vraiment [GPT‑5], c'est la profondeur de son raisonnement : des réponses nuancées et à plusieurs niveaux qui reflètent une véritable compréhension du sujet. »
Nous introduisons de nouvelles fonctionnalités dans notre API pour offrir aux développeurs un meilleur contrôle sur les réponses du modèle. Le GPT‑5 offre un nouveau paramètre de verbosité (valeurs : faible, moyenne, élevée) qui permet de contrôler si les réponses sont courtes et précises ou longues et complètes. Le paramètre reasoning_effort de GPT‑5 peut désormais être réglé sur une valeur minimale pour obtenir un retour des réponses plus rapidement, sans raisonnement approfondi préalable. Nous avons également ajouté un nouveau type d’outil — les outils personnalisés — qui permettent à GPT‑5 d’appeler des outils avec du texte brut au lieu du JSON. Les outils personnalisés prennent en charge la contrainte par des grammaires indépendantes du contexte fournies par le développeur.
Nous lançons GPT‑5 en trois tailles dans l’API—gpt-5, gpt-5-mini et gpt-5-nano—pour offrir aux développeurs plus de flexibilité dans le compromis entre performance, coût et latence. Dans ChatGPT, GPT‑5 fonctionne via un système mêlant modèles de raisonnement, de non-raisonnement et de routage. Dans l’API, GPT‑5 est le modèle de raisonnement qui délivre les performances maximales. Il convient de noter que GPT‑5 avec un raisonnement minimal est un modèle différent du modèle sans raisonnement de ChatGPT, et qu'il est mieux adapté aux développeurs. Le modèle sans raisonnement utilisé dans ChatGPT est disponible sous le nom de gpt-5-chat-latest.
Pour lire à propos de GPT‑5 dans ChatGPT et découvrir d'autres améliorations de ChatGPT, consultez notre blogue de recherche. Pour en savoir plus sur l'enthousiasme des entreprises à utiliser GPT‑5, consultez notre blogue d'entreprise.
GPT‑5 est le modèle de codage le plus puissant que nous ayons jamais publié. Il surpasse o3 dans tous les références de codage et les cas d'utilisation réels, et a été optimisé pour exceller dans les produits de codage agentique tels que Cursor, Windsurf, GitHub Copilot et Codex CLI. GPT‑5 a impressionné nos testeurs alpha, établissant des records lors de nombreuses de leurs évaluations internes privées.
Premiers commentaires sur GPT‑5 pour des tâches de codage concrètes
« GPT‑5 est le modèle de codage le plus performant que nous ayons utilisé. » Notre équipe a trouvé que GPT-5 est d’une intelligence remarquable, facile à piloter, et qu’il possède même une personnalité que nous n’avons vue dans aucun autre modèle. Il ne se contente pas de débusquer les bogues les plus subtils et profondément cachés, il peut aussi faire tourner des agents en arrière-plan sur plusieurs étapes pour mener à bien des tâches complexes — des problèmes qui bloquaient auparavant les autres modèles. Il est devenu notre outil quotidien pour tout, de la définition et la planification des PR à la réalisation de développements de bout en bout. »
Sur SWE-bench Verified, une évaluation basée sur de véritables tâches d’ingénierie logicielle, GPT‑5 obtient un score de 74,9 %, en hausse par rapport aux 69,1 % de o3. Notamment, GPT‑5 atteint son score élevé avec une plus grande efficacité et rapidité : par rapport à o3 à un niveau élevé de raisonnement, GPT‑5 utilise 22 % moins de jetons de sortie et 45 % moins d’appels d’outils.
Dans SWE-bench Verified, un modèle reçoit un référentiel de code et une description du problème, et doit générer un correctif pour résoudre le problème. Les étiquettes textuelles indiquent l’effort de raisonnement. Nos scores excluent 23 problèmes sur 500 dont les solutions n’ont pas passé de manière fiable sur notre infrastructure. GPT‑5 a reçu une courte invite insistant sur la vérification approfondie des solutions. Cette même invite n’a pas amélioré les résultats d’o3.
Sur Aider polyglot, une évaluation de l’édition de code, GPT‑5 établit un nouveau record de 88%, soit une réduction d’un tiers du taux d’erreur par rapport à o3.
Dans Aider polygot(s'ouvre dans une nouvelle fenêtre) (diff), un modèle reçoit un exercice de codage d'Exercism et doit rédiger sa solution sous forme de diff de code. Les modèles de raisonnement ont été exécutés avec un effort de raisonnement élevé.
Nous avons également découvert que GPT‑5 est particulièrement performant pour analyser des bases de code et mettre en lumière la logique qui relie leurs différents éléments. Dans une base de code aussi complexe que la pile d'apprentissage par renforcement d'OpenAI, nous constatons que GPT‑5 peut nous aider à raisonner sur notre code et à répondre à des questions à son sujet, ce qui accélère notre travail quotidien.
Lorsqu'il s'agit de produire du code frontal pour des applis Web, GPT‑5 est plus esthétique, ambitieux et précis. Dans des comparaisons côte à côte avec o3, GPT‑5 a été préféré par nos testeurs dans 70 % des cas.
Voici quelques exemples amusants et sélectionnés avec soin de ce que GPT‑5 peut faire à partir d'une seule invite :
Invite : Veuillez créer une page de destination attrayante et réaliste pour un service proposant aux amateurs de café un abonnement mensuel de 200 $ comprenant la location de matériel et des conseils pour torréfier le café et préparer le meilleur espresso possible. Le public cible est constitué de personnes d'âge moyen vivant dans la région de la baie de San Francisco, travaillant dans le secteur des technologies, ayant fait des études, disposant d'un revenu disponible et passionnées par l'art et la science du café. Optimisez la conversion pour un abonnement de 6 mois.
Consultez plus d'exemples de GPT‑5 dans notre galerie ici(s'ouvre dans une nouvelle fenêtre).
GPT‑5 est un meilleur collaborateur, en particulier dans les produits de codage agentique tels que Cursor, Windsurf, GitHub Copilot et Codex CLI. En pleine exécution, GPT‑5 sait expliquer où il en est, annoncer la suite et résumer les progrès réalisés. Par rapport à nos modèles précédents, GPT‑5 est plus proactif dans la réalisation de tâches ambitieuses, sans attendre votre feu vert ni reculer devant une grande complexité.
Voici un exemple de ce à quoi GPT‑5 peut ressembler lorsqu’il s’attaque à une tâche complexe (dans ce cas, la création d’un site Web pour un restaurant) :
Après qu’un utilisateur demande un site Web pour son restaurant, GPT‑5 génère un plan rapide, structure l’appli, installe les dépendances, crée le contenu du site, lance une compilation pour vérifier les erreurs de compilation, résume son travail et propose les prochaines étapes possibles. Pour vous faire gagner du temps, cette vidéo a été accélérée environ 3 fois; la création complète du site a pris environ trois minutes.
Au-delà du codage agentique, GPT‑5 est généralement plus performant dans les tâches agentique. GPT‑5 établit de nouveaux records dans les tests de référence en matière de suivi d'instructions (69,6 % sur Scale MultiChallenge, selon la notation o3‑mini) et d'appel d'outils (96,7 % sur τ2-bench telecom). Grâce à une intelligence des outils améliorée, GPT‑5 peut enchaîner ses actions de manière plus fiable pour accomplir des tâches concrètes.
Premiers commentaires sur les tâches agentiques avec GPT‑5
« GPT-5 marque une avancée majeure. Il a obtenu les meilleures performances jamais enregistrées par un seul modèle lors de nos références internes. GPT-5 a surpassé toutes nos attentes sur différents types de tâches agentiques, même sans que nous touchions au code ou que nous adaptions les invites. Les nouveaux préambules et un contrôle plus précis de l’utilisation des outils ont permis un bond significatif dans la stabilité et la maniabilité de nos agents. »
GPT‑5 dépasse ses prédécesseurs en matière de suivi d’instructions, affichant des performances de haut niveau sur COLLIE, Scale MultiChallenge et notre évaluation interne du suivi des instructions.
Dans COLLIE(s'ouvre dans une nouvelle fenêtre), les modèles doivent rédiger des textes qui respectent diverses contraintes. Dans Scale MultiChallenge(s'ouvre dans une nouvelle fenêtre), les modèles sont mis au défi lors de conversations à plusieurs virages pour utiliser correctement quatre types d'informations provenant des messages précédents. Nos résultats reposent sur o3‑mini comme outil de notation, qui a montré une meilleure précision que GPT‑4o. Lors de notre évaluation interne de l’API OpenAI portant sur le respect des consignes, les modèles doivent suivre des instructions complexes issues de commentaires concrets de développeurs. Les modèles de raisonnement ont été exécutés avec un effort de raisonnement élevé.
Nous avons repensé la gestion des outils pour qu’elle réponde parfaitement aux attentes des développeurs. GPT‑5 se distingue par une meilleure exécution des instructions des outils, une gestion plus fine des erreurs des outils, et une capacité accrue à effectuer de façon proactive de nombreux appels d’outils en série ou en parallèle. Sur demande, GPT‑5 peut également afficher des messages préliminaires avant et entre les appels d’outils afin de tenir les utilisateurs informés de la progression lors de tâches agentiques plus longues.
Il y a deux mois, τ2-bench telecom a été publié par Sierra.ai comme une référence exigeant pour l'utilisation d'outils, mettant en lumière comment la performance des modèles de langage chute de manière significative lors de l'interaction avec un état de l'environnement modifiable par les utilisateurs. Dans leur publication(s'ouvre dans une nouvelle fenêtre), aucun modèle n'a obtenu un score supérieur à 49 %. GPT‑5 a obtenu un score de 97 %.
Dans τ2-bench(s'ouvre dans une nouvelle fenêtre), un modèle doit utiliser des outils pour accomplir une tâche de service à la clientèle, où il peut y avoir un utilisateur capable de communiquer et d'agir sur l'état du monde. Les modèles de raisonnement ont été exécutés avec un effort de raisonnement élevé.
GPT‑5 affiche aussi de nets progrès dans la gestion de contextes longs. OpenAI-MRCR, qui évalue la récupération d’information sur des contextes longs, confirme que GPT‑5 devance o3 et GPT‑4.1, surtout sur les entrées les plus longues.
Dans OpenAI-MRCR(s'ouvre dans une nouvelle fenêtre) (résolution de co-référence multi-tours), plusieurs demandes identiques de type « aiguille » sont insérées dans de longues « bottes de foin » de demandes et réponses similaires, et le modèle est invité à reproduire la réponse à la i-ème aiguille. Le taux moyen de correspondance mesure la similarité moyenne entre la réponse du modèle et la réponse attendue. Les points à 256 k jetons d’entrée maximum représentent des moyennes sur la plage de 128 k à 256 k jetons d’entrée, et ainsi de suite. Ici, 256 k représente 256 * 1 024 = 262 114 jetons. Les modèles de raisonnement ont été exécutés avec un effort de raisonnement élevé.
Nous mettons également en source ouverte BrowseComp Long Context(s'ouvre dans une nouvelle fenêtre), une nouvelle référence pour évaluer les questions-réponses à contexte long. Dans cette référence, le modèle reçoit une requête utilisateur ainsi qu’une longue liste de résultats de recherche pertinents, et doit répondre à la question en se basant sur ces résultats. Nous avons conçu BrowseComp Long Context pour qu'il soit réaliste, difficile et qu'il fournisse des réponses fiables et correctes. Pour les entrées comprises entre 128 000 et 256 000 tokens, GPT‑5 donne la bonne réponse dans 89 % des cas.
Dans l’API, tous les modèles GPT‑5 peuvent gérer un maximum de 272 000 jetons d’entrée et émettre un maximum de 128 000 jetons de raisonnement et de sortie, pour une longueur totale de contexte de 400 000 jetons.
GPT‑5 se montre plus fiable que nos modèles précédents. En réponse aux invites des références LongFact et FactScore, GPT‑5 commet environ 80 % d'erreurs factuelles en moins que o3. Cela en fait un allié de choix pour les tâches agentiques où chaque détail compte, notamment pour le code, les données et la prise de décision.
Plus le score est élevé, moins il est performant. LongFact(s'ouvre dans une nouvelle fenêtre) et FActScore(s'ouvre dans une nouvelle fenêtre) consistent en des questions ouvertes visant à rechercher des faits. Nous utilisons un outil de notation basé sur un modèle LLM avec navigation pour vérifier les réponses aux invites de ces références et mesurer la proportion de déclarations factuellement incorrectes. Les détails de l'implémentation et de la notation se trouvent dans la fiche système. Les modèles de raisonnement ont utilisé un effort de raisonnement élevé. La recherche n’était pas activée.
Dans l’ensemble, GPT‑5 a été formé pour mieux évaluer ses propres limites et mieux réagir aux situations inattendues. Nous avons également formé GPT‑5 à être beaucoup plus précis sur les questions de santé (lisez-en plus dans notre blogue de recherche). Comme pour tous les modèles de langage, nous vous recommandons de vérifier les réponses de GPT‑5 dans les situations à fort enjeu.
Les développeurs peuvent contrôler le temps de réflexion de GPT‑5 à l'aide du paramètre reasoning_effort dans l'API. En plus des valeurs précédentes—faible, moyenne (par défault) et élevé—GPT‑5 offre également un soutien minimal, qui réduit le raisonnement de GPT‑5 pour fournir une réponse rapidement.
Des valeurs plus élevées de reasoning_effort maximisent la qualité, tandis que des valeurs plus basses maximisent la vitesse. Toutes les tâches ne bénéficient pas également d'un raisonnement supplémentaire. Nous vous recommandons donc de faire des essais pour déterminer ce qui fonctionne le mieux pour les cas d'utilisation qui vous intéressent.
Par exemple, le raisonnement supérieur à faible ajoute peu à la récupération de contexte long relativement simple, mais ajoute quelques points de pourcentage au raisonnement CharXiv(s'ouvre dans une nouvelle fenêtre), une référence en matière de raisonnement visuel.
L’effort de raisonnement de GPT‑5 produit des résultats différents selon les tâches. Dans CharXiv Reasoning, il a eu accès à un outil Python.
Pour aider à orienter la longueur par défault des réponses de GPT‑5, nous avons introduit un nouveau paramètre d'API, verbosité, qui prend les valeurs faible, moyen (par défault) et élevé. Si des instructions explicites entrent en conflit avec les paramètres de verbosité, les instructions explicites prévalent. Par exemple, si vous demandez à GPT‑5 de « rédiger un essai de 5 paragraphes », la réponse du modèle devrait toujours comporter 5 paragraphes, quel que soit le niveau de verbosité (cependant, la longueur des paragraphes peut être plus longue ou plus courte).
Verbosité=faible
Verbosité=moyenne
Verbosité=élevée
Lorsqu’on le lui demande, GPT‑5 affiche des messages préliminaires pour l’utilisateur avant et entre chaque appel d’outil. Contrairement aux messages de raisonnement cachés, ces messages visibles permettent à GPT‑5 de communiquer ses plans et son avancement à l’utilisateur, aidant ainsi les utilisateurs finaux à comprendre son approche et l’intention derrière les appels aux outils.
Nous introduisons un nouveau type d’outil — les outils personnalisés — qui permet à GPT‑5 d’appeler un outil avec du texte brut au lieu de JSON. Pour contraindre GPT‑5 à suivre des formats d’outils personnalisés, les développeurs peuvent fournir une expression régulière, ou même une grammaire sans contexte plus complète(s'ouvre dans une nouvelle fenêtre).
Auparavant, notre interface pour les outils définis par les développeurs exigeait qu’ils soient appelés avec JSON, un format courant utilisé par les API Web et les développeurs en général. Cependant, pour que le JSON soit valide, le modèle doit traiter correctement tous les guillemets, barres obliques inverses, sauts de ligne et autres caractères spéciaux. Bien que nos modèles soient bien formés pour générer du JSON, sur de longues entrées comme des centaines de lignes de code ou un rapport de 5 pages, le risque d’erreur augmente. Grâce aux outils personnalisés, GPT‑5 peut écrire les entrées des outils en texte brut, sans devoir traiter chaque caractère spécial.
Les outils personnalisés n’impactent pas les résultats de GPT‑5 sur SWE-bench Verified, qui restent au même niveau.
GPT‑5 repousse les limites en matière de sécurité et constitue un modèle plus robuste, plus fiable et plus utile. GPT‑5 hallucine beaucoup moins que nos modèles précédents, communique plus honnêtement ses actions et ses capacités à l’utilisateur, et fournit la réponse la plus utile possible tout en respectant les limites de sécurité. Vous pouvez en savoir plus dans notre blogue de recherche.
GPT‑5 est maintenant disponible sur la plateforme API en trois tailles : gpt-5, gpt-5-mini et gpt-5-nano. Il est disponible dans l'API de réponses, l'API de complétions de clavardage, et est le paramètre par défaut dans Codex CLI. Le prix du GPT‑5 est de 1,25 $ pour 1 million de jetons d'entrée et de 10 $ pour 1 million de jetons de sortie, celui du GPT‑5 mini est de 0,25 $ pour 1 million de jetons d'entrée et de 2 $ pour 1 million de jetons de sortie, et celui du GPT‑5 nano est de 0,05 $ pour 1 million de jetons d'entrée et de 0,40 $ pour 1 million de jetons de sortie.
Ces modèles offrent un soutien aux paramètres d'API reasoning_effort et verbosity, ainsi qu'aux outils personnalisés. Ils supportent également l’appel parallèle d’outils, des outils intégrés (recherche Web, recherche de fichiers, génération d’images, et plus encore), des fonctionnalités principales de l’API (diffusion, sorties structurées, et plus encore), ainsi que des fonctionnalités d’économie comme la mise en cache des invites et l’API Batch.
La version de GPT‑5 sans raisonnement, utilisée dans ChatGPT, est disponible dans l’API sous le nom gpt-5-chat-latest, au même tarif de 1,25 $/1 M jetons d'entrée et 10 $/1 M jetons de sortie.
GPT‑5 arrive également sur les plateformes Microsoft, notamment Microsoft 365 Copilot, Copilot, GitHub Copilot et Azure AI Foundry.
Consultez la documentation(s'ouvre dans une nouvelle fenêtre) de GPT‑5, les détails de tarification(s'ouvre dans une nouvelle fenêtre) et le guide d'invite(s'ouvre dans une nouvelle fenêtre) pour commencer.
Intelligence
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| AIME ’25(no tools) | 94,6 % | 91,1 % | 85,2 % | 88,9 % | 92,7 % | 46,4 % | 40,2 % | - |
| FrontierMath(with python tool only) | 26,3 % | 22,1 % | 9,6 % | 15,8 % | 15,4 % | - | - | - |
| GPQA diamond(no tools) | 85,7 % | 82,3 % | 71,2 % | 83,3 % | 81,4 % | 66,3 % | 65,0 % | 50,3 % |
| HLE[1](no tools) | 24,8 % | 16,7 % | 8,7 % | 20,2 % | 14,7 % | 5,4 % | 3,7 % | - |
| HMMT 2025(no tools) | 93,3 % | 87,8 % | 75,6 % | 81,7 % | 85,0 % | 28,9 % | 35,0 % | - |
[1] *Il y a une petite différence avec les chiffres rapportés dans notre précédent article de blogue, car ils étaient exécutés sur une ancienne version de HLE.
Multimodal
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| MMMU | 84,2 % | 81,6 % | 75,6 % | 82,9 % | 81,6 % | 74,8 % | 72,7 % | 55,4 % |
| MMMU-Pro(avg across standard and vision sets) | 78,4 % | 74,1 % | 62,6 % | 76,4 % | 73,4 % | 60,3 % | 58,9 % | 33,0 % |
| CharXiv reasoning(python enabled) | 81,1 % | 75,5 % | 62,7 % | 78,6 % | 72,0 % | 56,7 % | 56,8 % | 40,5 % |
| VideoMMMU, max frame 256 | 84,6 % | 82,5 % | 66,8 % | 83,3 % | 79,4 % | 60,9 % | 55,1 % | 30,2 % |
| ERQA | 65,7 % | 62,9 % | 50,1 % | 64,0 % | 56,5 % | 44,3 % | 42,3 % | 26,5 % |
Codage
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| SWE-Lancer: IC SWE Diamond Freelance Coding Tasks | 112 k $ US | 75 k $ US | 49 k $ US | 86 k $ US | 66 k $ US | 34 k $ US | 31 k $ US | 9 k $ US |
| SWE-bench Verified[2] | 74,9 % | 71,0 % | 54,7 % | 69,1 % | 68,1 % | 54,6 % | 23,6 % | - |
| Aider polyglot(diff) | 88,0 % | 71,6 % | 48,4 % | 79,6 % | 58,2 % | 52,9 % | 31,6 % | 6,2 % |
[2] 23 problèmes sur 500 ont été exclus, faute de pouvoir être exécutés sur notre infrastructure. La liste complète des 23 tâches omises est : « astropy__astropy-7606 », « astropy__astropy-8707 », « astropy__astropy-8872 », « django__django-10097 », « django__django-7530 », « matplotlib__matplotlib-20488 », « matplotlib__matplotlib-20676 », « matplotlib__matplotlib-20826 », « matplotlib__matplotlib-23299 », « matplotlib__matplotlib-24970 », « matplotlib__matplotlib-25479 », « matplotlib__matplotlib-26342 », « psf__requests-6028 », « pylint-dev__pylint-6528 », « pylint-dev__pylint-7080 », « pylint-dev__ pylint-7277', 'pytest-dev__pytest-5262', 'pytest-dev__pytest-7521', 'scikit-learn__scikit-learn-12973', 'sphinx-doc__sphinx-10466', 'sphinx-doc__sphinx-7462', 'sphinx-dev__pytest-8265' et 'sphinx-doc__sphinx-9367'.
Respect des instructions
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| Scale multichallenge[3](o3-mini grader) | 69,6 % | 62,3 % | 54,9 % | 60,4 % | 57,5 % | 46,2 % | 42,2 % | 31,1 % |
| Internal API instruction following eval(hard) | 64,0 % | 65,8 % | 56,1 % | 47,4 % | 44,7 % | 49,1 % | 45,1 % | 31,6 % |
| COLLIE | 99,0 % | 98,5 % | 96,9 % | 98,4 % | 96,1 % | 65,8 % | 54,6 % | 42,5 % |
[3] Remarque : nous avons constaté que l’outil de notation par défaut de MultiChallenge (GPT-4o) évaluait incorrectement de nombreuses réponses des modèles. En remplaçant l'outil de notation par un modèle de raisonnement, comme o3-mini, nous constatons une amélioration significative de la précision de la notation sur les échantillons que nous avons examinés.
Appel de fonction
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| Tau2-bench airline | 62,6 % | 60,0 % | 41,0 % | 64,8 % | 60,2 % | 56,0 % | 51,0 % | 14,0 % |
| Tau2-bench retail | 81,1 % | 78,3 % | 62,3 % | 80,2 % | 70,5 % | 74,0 % | 66,0 % | 21,5 % |
| Tau2-bench telecom | 96,7 % | 74,1 % | 35,5 % | 58,2 % | 40,5 % | 34,0 % | 44,0 % | 12,1 % |
Contexte long
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| OpenAI-MRCR: 2 needle 128k | 95,2 % | 84,3 % | 43,2 % | 55,0 % | 56,4 % | 57,2 % | 47,2 % | 36,6 % |
| OpenAI-MRCR: 2 needle 256k | 86,8 % | 58,8 % | 34,9 % | - | - | 56,2 % | 45,5 % | 22,6 % |
| Graphwalks bfs <128k | 78,3 % | 73,4 % | 64,0 % | 77,3 % | 62,3 % | 61,7 % | 61,7 % | 25,0 % |
| Graphwalks parents <128k | 73,3 % | 64,3 % | 43,8 % | 72,9 % | 51,1 % | 58,0 % | 60,5 % | 9,4 % |
| BrowseComp Long Context 128k | 90,0 % | 89,4 % | 80,4 % | 88,3 % | 80,0 % | 85,9 % | 89,0 % | 89,4 % |
| BrowseComp Long Context 256k | 88,8 % | 86,0 % | 68,4 % | - | - | 75,5 % | 81,6 % | 19,1 % |
| VideoMME(long, with subtitle category) | 86,7 % | 78,5 % | 65,7 % | 84,9 % | 79,5 % | 78,7 % | 68,4 % | 55,2 % |
Hallucinations
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| LongFact-Concepts hallucination rate(no tools)[lower is better] | 1,0 % | 0,7 % | 1,0 % | 5,2 % | 3,0 % | 0,7 % | 1,1 % | - |
| LongFact-Objects hallucination rate(no tools)[lower is better] | 1,2 % | 1,3 % | 2,8 % | 6,8 % | 8,9 % | 1,1 % | 1,8 % | - |
| FActScore hallucination rate(no tools)[lower is better] | 2,8 % | 3,5 % | 7,3 % | 23,5 % | 38,7 % | 6,7 % | 10,9 % | - |


