Passer au contenu principal
OpenAI

7 août 2025

Produit

Découvrez GPT‑5 pour les développeurs

Le meilleur modèle pour le code et les tâches agentiques.

Chargement...

Introduction

GPT‑5 débarque aujourd’hui sur notre API, offrant des performances inégalées pour le code et les tâches agentiques.

GPT‑5 excelle sur les principaux tests de codage, obtenant un score de 74,9 % sur SWE-bench Verified et 88 % sur Aider polyglot. Nous avons fait de GPT‑5 un allié de choix pour le codage. Il se distingue par sa capacité à générer du code de haut niveau et à gérer des tâches telles que la correction de bugs, l’édition de code et l’analyse de bases de code complexes. Aussi collaboratif que maniable, ce modèle exécute des instructions complexes avec précision et fournit des explications claires sur ses actions avant et entre l’utilisation des outils.  Il est également très performant en codage front-end, dépassant OpenAI o3 sur 70 % des projets web lors de tests internes.

Nous avons entraîné GPT‑5 sur des tâches de codage concrètes, en collaboration avec les premiers testeurs issus de start-ups et d’entreprises. Selon Cursor, GPT‑5 est « le modèle le plus performant [qu’ils aient] testé », « d’une intelligence remarquable, facile à piloter et doté d’une personnalité unique ». Windsurf indique que GPT‑5 est à la pointe sur ses évaluations et « commet deux fois moins d’erreurs lors de l’utilisation des outils que les autres modèles de référence ». D’après Vercel, « cet excellent modèle IA front-end combine performances esthétiques de pointe et qualité de code, le plaçant dans une classe à part ».

GPT‑5 se distingue aussi sur les tâches agentiques prolongées, atteignant 96,7 % sur τ2-bench telecom, un benchmark dédié aux appels d’outils lancé il y a tout juste deux mois. Sa gestion optimisée des outils permet à GPT‑5 d’orchestrer plusieurs dizaines d’appels d’outils simultanés ou successifs et de réaliser des tâches concrètes complexes de bout en bout. Il suit les instructions des outils avec encore plus de précision, gère mieux les erreurs et retrouve facilement des informations dans de longs contextes. Manus souligne que GPT‑5 « établit un nouveau record de performance sur [leurs] benchmarks internes pour un seul modèle ». D’après Notion, « la réactivité du modèle, notamment en mode faible raisonnement, en fait un choix idéal pour accomplir des tâches complexes en une seule fois ». D’après Inditex, « la force de GPT‑5 réside dans son raisonnement approfondi, capable de fournir des réponses nuancées et structurées, témoignant d’une véritable expertise ».

Notre API s’enrichit de nouvelles fonctionnalités pour permettre aux développeurs de gérer plus précisément les réponses du modèle. GPT‑5 intègre un nouveau paramètre de verbosité (valeurs : faible, moyenne, élevée) pour déterminer si les réponses doivent être concises ou détaillées. Il est possible de régler le paramètre reasoning_effort au minimum pour obtenir des réponses plus rapides, sans passer par un raisonnement complexe. Les outils personnalisés font également leur apparition et permettent à GPT‑5 d’appeler des outils avec du texte brut au lieu du JSON. Avec les outils personnalisés, les développeurs peuvent encadrer les réponses grâce à des grammaires indépendantes du contexte.

GPT‑5 est désormais disponible dans l’API en trois variantes, gpt-5, gpt-5-mini et gpt-5-nano, offrant aux développeurs plus de souplesse pour équilibrer performance, coût et latence. Dans ChatGPT, GPT‑5 fonctionne via un système mêlant modèles de raisonnement, de non-raisonnement et de routage. Dans l’API, GPT‑5 est le modèle de raisonnement qui délivre les performances maximales. La version de GPT‑5 avec raisonnement minimal n’est pas le modèle de non-raisonnement de ChatGPT : elle est calibrée pour répondre aux besoins des développeurs. Le modèle de non-raisonnement intégré à ChatGPT est disponible sous le nom gpt-5-chat-latest.

Pour tout savoir sur GPT‑5 et les dernières évolutions de ChatGPT, rendez-vous sur notre blog dédié à la recherche. Découvrez pourquoi GPT‑5 séduit autant les entreprises dans notre blog dédié aux entreprises.

Codage

La puissance de GPT‑5 repousse les limites du code. Plus performant qu’o3, aussi bien sur les benchmarks qu’en situation concrète, il s’illustre particulièrement dans des solutions de codage pilotées par IA telles que Cursor, Windsurf, GitHub Copilot et Codex CLI. GPT‑5 a fait sensation auprès de nos testeurs alpha, en réalisant des performances record sur leurs tests internes exclusifs. 

Premiers commentaires sur GPT‑5 pour des tâches de codage concrètes

« GPT‑5 est le modèle de codage le plus performant que nous ayons utilisé. Notre équipe a été frappée par l’intelligence de GPT‑5, sa maniabilité et sa personnalité inédite pour un modèle de ce type. GPT‑5 débusque non seulement les bugs les plus subtils, mais fait aussi tourner des agents multi-étapes en arrière-plan pour réaliser des tâches complexes, que les autres modèles n’arrivaient pas à terminer. Il est devenu indispensable au quotidien, que ce soit pour planifier des PR ou finaliser des builds complets. »
Michael Truell, co-fondateur et PDG de Cursor

Sur SWE-bench Verified, qui mesure les performances sur de véritables tâches d’ingénierie logicielle, GPT‑5 creuse l’écart avec un score de 74,9 %, contre 69,1 % pour o3. Plus rapide et plus efficace, GPT‑5 décroche ce score avec 22 % de jetons de sortie et 45 % d’appels d’outils en moins qu’o3 à niveau de raisonnement élevé.

Dans SWE-bench Verified, chaque modèle reçoit un dépôt de code et une description d’incident et doit générer un patch pour le résoudre. Les étiquettes textuelles indiquent l’effort de raisonnement. Nous avons exclu 23 problèmes sur 500 dont les solutions n’ont pas été fiables sur notre infrastructure. GPT‑5 a reçu un court prompt insistant sur la vérification approfondie des solutions. Ce même prompt n’a pas amélioré les résultats d’o3.

Aider polyglot, l’évaluation phare en édition de code, consacre GPT‑5 avec un score de 88 %, soit un tiers d’erreurs en moins face à o3.

Dans Aider polygot(ouverture dans une nouvelle fenêtre) (diff), le modèle reçoit un exercice de codage d’Exercism et doit proposer sa solution sous forme de diff de code. Les modèles de raisonnement ont été mis à l’épreuve avec un effort de raisonnement élevé.

Nous avons également découvert que GPT‑5 est particulièrement performant pour analyser des bases de code et mettre en lumière la logique qui relie leurs différents éléments. Face à la complexité de la base de code de la stack d’apprentissage par renforcement d’OpenAI, GPT‑5 nous aide à raisonner plus vite et à obtenir des réponses précises, boostant ainsi notre productivité. 

Ingénierie front-end

GPT‑5 fait passer le front-end des applis web au niveau supérieur grâce à un sens du design affûté, une ambition assumée et une exécution précise. Face à o3, GPT‑5 a conquis nos testeurs, qui l’ont choisi dans 70 % des cas.

Voici un petit florilège, soigneusement choisi, des surprises que GPT‑5 réserve en un seul prompt :

Prompt : Please generate a beautiful, realistic landing page for a service that provides the ultimate coffee enthusiast a $200/month subscription that provides equipment rental and coaching for coffee roasting and creating the ultimate espresso. The target audience is a bay area middle-aged person who might work in tech and is educated, has disposable income, and is passionate about the art and science of coffee. Optimize for conversion for a 6 month signup.

Découvrez d’autres créations signées GPT‑5 dans notre galerie par ici(ouverture dans une nouvelle fenêtre).

Codage collaboratif

Plus qu’un outil, GPT‑5 se révèle être un véritable coéquipier, notamment dans des solutions de codage pilotées par IA comme Cursor, Windsurf, GitHub Copilot et Codex CLI. En pleine exécution, GPT‑5 sait expliquer où il en est, annoncer la suite et résumer les progrès réalisés. Contrairement à nos anciens modèles, GPT‑5 ne recule devant aucun défi, aussi ambitieux ou complexe soit-il, et agit sans attendre de validation.

Découvrez GPT‑5 à l’œuvre sur un défi concret : concevoir le site web d’un restaurant de A à Z :

Lorsqu’un utilisateur demande un site web pour son restaurant, GPT‑5 génère un plan rapide, structure l’application, installe les dépendances, crée le contenu du site, lance une compilation pour vérifier les erreurs, résume son travail et propose les prochaines étapes possibles. Pour vous faire gagner du temps, cette vidéo a été accélérée environ 3 fois ; la création complète du site a pris environ trois minutes.

Tâches agentiques

GPT‑5 ne se limite pas au code : il brille aussi dans toutes sortes de tâches agentiques. Qu’il s’agisse de suivre des instructions ou d’utiliser des outils, GPT‑5 établit de nouvelles références, atteignant 69,6 % sur Scale MultiChallenge (évalué par o3‑mini) et 96,7 % sur τ2-bench telecom. Grâce à sa gestion des outils optimisée, GPT‑5 coordonne ses actions de manière plus fiable pour exécuter des tâches concrètes.

Premiers commentaires sur les tâches agentiques avec GPT‑5

« GPT-5 marque une avancée majeure. Il établit un nouveau record de performance sur nos benchmarks internes pour un seul modèle. GPT-5 a surpassé toutes nos attentes sur différents types de tâches agentiques, même sans que nous touchions au code ou que nous adaptions les prompts. Grâce aux nouveaux préambules et à un contrôle plus fin des outils, nos agents sont à la fois plus stables et plus maniables. »
Yichao « Peak » Ji, co-fondateur et directeur scientifique chez Manus

Suivi d’instructions

GPT‑5 dépasse ses prédécesseurs en matière de suivi d’instructions, affichant des performances de haut niveau sur COLLIE, Scale MultiChallenge et nos évaluations internes.

Dans COLLIE(ouverture dans une nouvelle fenêtre),les modèles doivent rédiger des textes conformes à plusieurs contraintes. Dans Scale MultiChallenge(ouverture dans une nouvelle fenêtre), ils doivent gérer des conversations à tour de rôle en exploitant correctement quatre types d’informations provenant des messages précédents. Nos résultats reposent sur o3‑mini, qui a montré une meilleure précision que GPT‑4o. Lors de notre évaluation interne de l’API OpenAI, les modèles doivent respecter des consignes complexes basées sur des retours concrets de développeurs. Les modèles de raisonnement ont été mis à l’épreuve avec un effort de raisonnement élevé.

Appel d’outil

Nous avons repensé la gestion des outils pour qu’elle réponde parfaitement aux attentes des développeurs. GPT‑5 se distingue par une meilleure exécution des instructions, une gestion plus fine des erreurs et la capacité d’effectuer, de façon proactive, de nombreux appels d’outils en série ou en parallèle. Sur demande, GPT‑5 peut afficher des messages préliminaires et intermédiaires entre les appels d’outils pour suivre la progression des tâches agentiques longues.

Publié il y a deux mois par Sierra.ai, τ2-bench telecom est un benchmark de référence exigeant, montrant combien les performances des modèles de langage peuvent décroître face à un environnement qui peut évoluer en fonction des actions des utilisateurs. Dans sa publication(ouverture dans une nouvelle fenêtre), aucun modèle n’a dépassé les 49 %. GPT‑5 a obtenu un score de 97 %.

Dans τ2-bench(ouverture dans une nouvelle fenêtre), le modèle doit utiliser des outils pour accomplir une tâche de service client, dans un contexte où l’utilisateur peut communiquer et agir sur l’environnement. Les modèles de raisonnement ont été mis à l’épreuve avec un effort de raisonnement élevé.

GPT‑5 affiche aussi de nets progrès dans la gestion de contextes longs. OpenAI-MRCR, qui évalue la récupération d’information sur des contextes longs, confirme que GPT‑5 devance o3 et GPT‑4.1, surtout sur les saisies les plus longues.

Le test OpenAI-MRCR(ouverture dans une nouvelle fenêtre) (multi-round co-reference resolution) consiste à glisser plusieurs requêtes identiques (« aiguilles ») dans de longs ensembles (« meules de foin ») de requêtes et réponses analogues, et à demander au modèle de restituer la réponse correspondant à la iᵉ aiguille. Le taux moyen de correspondance indique la similarité moyenne entre la réponse du modèle et la réponse attendue. Les points affichés pour 256 k jetons d’entrée maximum représentent la moyenne sur la plage de 128 k à 256 k jetons, et ainsi de suite. Pour rappel, 256 k correspond à 256×1 024= 262 144 jetons. Les modèles de raisonnement ont été mis à l’épreuve avec un effort de raisonnement élevé.

Nous rendons également disponible en open source BrowseComp Long Context(ouverture dans une nouvelle fenêtre), benchmark de référence qui mesure la qualité des réponses dans des contextes longs. Le principe : fournir au modèle une requête utilisateur et un grand nombre de résultats pertinents, afin qu’il construise sa réponse en s’appuyant exclusivement sur ces données. BrowseComp Long Context a été pensé pour refléter des situations réalistes, poser un vrai défi et fournir des réponses exactes et vérifiables. GPT‑5 répond correctement 89 % du temps sur des saisies comprises entre 128 000 et 256 000 jetons.

L’API permet aux modèles GPT‑5 de gérer jusqu’à 272 000 jetons d’entrée et 128 000 jetons de sortie, pour un contexte total de 400 000 jetons.

Véracité

GPT‑5 se montre plus fiable que nos modèles précédents. Sur des prompts des benchmarks LongFact et FactScore, GPT‑5 commet 80 % moins d’erreurs factuelles qu’o3. Cela en fait un allié de choix pour les tâches agentiques où chaque détail compte, notamment pour le code, les données et la prise de décision.

Plus le score est élevé, moins il est performant. LongFact(ouverture dans une nouvelle fenêtre) et FActScore(ouverture dans une nouvelle fenêtre) posent des questions ouvertes pour tester la véracité des faits. Nous vérifions les réponses avec un évaluateur LLM équipé de navigation et mesurons la proportion d’affirmations incorrectes. Pour en savoir plus sur la mise en œuvre et l’évaluation consultez la fiche système(ouverture dans une nouvelle fenêtre). Les modèles de raisonnement ont été mis à l’épreuve avec un effort de raisonnement élevé. La recherche était désactivée.

Dans l’ensemble, GPT‑5 a été entraîné pour mieux évaluer ce qu’il sait ou non et mieux réagir aux situations inattendues. Nous avons également entraîné GPT‑5 pour améliorer significativement sa précision sur les questions de santé (plus de détails dans notre blog consacré à la recherche). Comme pour tous les modèles de langage, nous vous recommandons de vérifier les réponses de GPT‑5 dans les situations à fort enjeu.

Nouvelles fonctionnalités

Effort de raisonnement minimal

Les développeurs peuvent ajuster le temps de réflexion de GPT‑5 grâce au paramètre reasoning_effort de l’API. En plus des valeurs précédentes (faible, moyen (par défaut), et élevé), GPT‑5 propose également l’option minimal, qui privilégie la rapidité de réponse en limitant le raisonnement.

Plus la valeur de reasoning_effort est élevée, meilleure est la qualité des réponses ; plus elle est faible, plus la réponse est rapide. En fonction des tâches, plus de raisonnement n’est pas toujours synonyme de meilleure performance. Essayez différentes options selon vos besoins.

Sur des tâches relativement simples de récupération sur longs contextes, un effort de raisonnement supérieur à faible a peu d’effet, mais améliore nettement les scores sur le benchmark de raisonnement visuel CharXiv Reasoning(ouverture dans une nouvelle fenêtre).

L’effort de raisonnement de GPT‑5 produit des résultats différents selon les tâches. Dans CharXiv Reasoning, il a eu accès à un outil Python.

Verbosité

L’API inclut désormais le paramètre verbosité, qui permet d’ajuster la longueur des réponses de GPT‑5 selon trois niveaux : faible, moyenne (par défaut) et élevée. En cas de conflit, les instructions explicites passent avant le paramètre de verbosité. Par exemple, si vous demandez à GPT‑5 de « rédiger un essai de 5 paragraphes », la réponse comprendra toujours 5 paragraphes, quelle que soit le niveau de verbosité (la longueur des paragraphes peut en revanche varier).

Verbosity=low

Why is the sky blue?

Because of Rayleigh scattering. Air molecules are much smaller than the wavelength of visible light, so they scatter short wavelengths (blue/violet) far more than long ones (red). The scattered blue light comes to your eyes from all directions, making the sky look blue. We don’t see violet as much because the Sun emits less of it, our eyes are less sensitive to it, and some is absorbed in the upper atmosphere. At sunrise and sunset, the longer path through air removes more blue, leaving the sky reddish.

Verbosity=medium

Why is the sky blue?

Because of Rayleigh scattering. Sunlight contains all colors, but air molecules scatter shorter wavelengths (blue/violet) much more strongly than longer wavelengths (red). The scattering strength goes roughly as 1/(wavelength)^4, so blue light gets redirected across the sky and into your eyes.

We don’t see a violet sky because:

  • The Sun emits slightly less violet than blue.
  • The upper atmosphere absorbs some violet/UV.
  • Human eyes are less sensitive to violet.

At sunrise and sunset, sunlight passes through more atmosphere, scattering out most of the blues along the way and leaving the longer red/orange wavelengths to dominate.

Verbosity=high

Why is the sky blue?

The sky looks blue because sunlight gets scattered by the tiny molecules in Earth’s atmosphere. This process is called Rayleigh scattering.

Key points:

  • Sunlight is made of many colors (wavelengths). Shorter wavelengths, like violet and blue, are scattered much more strongly by air molecules than longer wavelengths like red. The scattering strength increases sharply as wavelength gets shorter.
  • As sunlight passes through the atmosphere, the shorter-wavelength light (especially blue) is scattered in all directions, so no matter where you look away from the Sun, you see that scattered blue light — the “blue sky.”

Why not violet?

  • The Sun emits less violet than blue.
  • Our eyes are less sensitive to violet.
  • Some violet/UV is absorbed higher up by ozone.

Together, that makes the scattered light we perceive look mainly blue.

Why are sunsets red/orange?

  • Near sunrise and sunset, sunlight travels a much longer path through the atmosphere.
  • Much of the blue light gets scattered out of the direct path before it reaches your eyes, leaving the remaining direct sunlight enriched in reds and oranges.

Other influences:

  • Haze, pollution, smoke, or dust have larger particles that scatter light less selectively (called Mie scattering), making the sky look paler or whitish.
  • The blue sky is partially polarized due to the scattering geometry, which is why polarized sunglasses can darken parts of it.
  • On worlds with different atmospheres and particle sizes (like Mars), skies can look butterscotch or reddish for similar scattering reasons.

If Earth had no atmosphere, there would be nothing to scatter sunlight, and the sky would appear black even in daytime, with the Sun as a bright disk.

Messages préliminaires avant chaque appel d’outil

Lorsqu’on le lui demande, GPT‑5 affiche des messages préliminaires pour l’utilisateur avant et entre chaque appel d’outil. Plutôt que de rester invisibles, ces messages montrent à l’utilisateur comment GPT‑5 organise et exécute ses appels d’outils, ainsi que son avancement.

Outils personnalisés

Grâce aux nouveaux outils personnalisés, GPT‑5 peut désormais interagir avec un outil directement en texte, sans passer par JSON. Afin que GPT‑5 respecte les formats des outils personnalisés, les développeurs peuvent spécifier une regex, ou aller plus loin avec une grammaire hors-contexte(ouverture dans une nouvelle fenêtre) complète.

Auparavant, il fallait utiliser JSON pour appeler les outils définis par les développeurs, le format standard pour les API web et les développeurs en général. Cependant, pour que le JSON soit valide, le modèle doit traiter correctement tous les guillemets, barres obliques inverses, sauts de ligne et autres caractères spéciaux. Si nos modèles savent générer du JSON, des erreurs peuvent apparaître sur de grandes saisies, comme un long code ou un rapport volumineux. Grâce aux outils personnalisés, GPT‑5 écrit les saisies en texte brut, sans devoir traiter chaque caractère spécial.

Les outils personnalisés n’impactent pas les résultats de GPT‑5 sur SWE-bench Verified, qui restent au même niveau.

Sécurité

Avec JSON ou des outils personnalisés, GPT‑5 obtient des résultats comparables sur SWE-bench Verified. GPT‑5 hallucine beaucoup moins que nos modèles précédents, explique clairement ce qu’il fait et fournit des réponses utiles tout en restant sécurisé. Vous trouverez plus d’informations à ce sujet sur notre blog dédié à la recherche.

Disponibilité et tarification

GPT‑5 est maintenant disponible via l’API en trois formats : gpt-5, gpt-5-mini et gpt-5-nano. Il est disponible sur les API Responses et Chat Completions et est le modèle par défaut de Codex CLI. GPT‑5 est proposé au tarif de 1,25 $ pour 1 million de jetons d’entrée et 10 $ pour 1 million de jetons de sortie, GPT‑5 mini à 0,25 $/1 M en saisie et 2 $/1 M en sortie, et GPT‑5 nano à 0,05 $/1 M et 0,40 $/1 M.

Ces modèles prennent en charge les paramètres API reasoning_effort et verbosité, ainsi que les outils personnalisés. Ils prennent également en charge l’appel d’outils en parallèle, les outils intégrés (recherche web, recherche de fichiers, génération d’images, etc.), les fonctionnalités clés de l’API (streaming, sorties structurées, etc.) ainsi que des fonctionnalités économiques comme la mise en cache des saisies et l’API Batch.

La version de GPT‑5 sans raisonnement, utilisée dans ChatGPT, est disponible dans l’API sous le nom gpt-5-chat-latest, au même tarif de 1,25 $/1 M jetons en saisie et 10 $/1 M en sortie.

GPT‑5 arrive également sur les plateformes Microsoft, notamment Microsoft 365 Copilot, Copilot, GitHub Copilot et Azure AI Foundry.

Benchmarks détaillés

Intelligence
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
AIME ’25(no tools)94,6 %91,1 %85,2 %88,9 %92,7 %46,4 %40,2 %-
FrontierMath(with python tool only)26,3 %22,1 %9,6 %15,8 %15,4 %---
GPQA diamond(no tools)85,7 %82,3 %71,2 %83,3 %81,4 %66,3 %65,0 %50,3 %
HLE[1](no tools)24,8 %16,7 %8,7 %20,2 %14,7 %5,4 %3,7 %-
HMMT 2025(no tools)93,3 %87,8 %75,6 %81,7 %85,0 %28,9 %35,0 %-

[1] Le léger écart avec les chiffres de notre article précédent s’explique par le fait que ces évaluations utilisaient une ancienne version de HLE.

Multimodal
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
MMMU84,2 %81,6 %75,6 %82,9 %81,6 %74,8 %72,7 %55,4 %
MMMU-Pro(avg across standard and vision sets)78,4 %74,1 %62,6 %76,4 %73,4 %60,3 %58,9 %33,0 %
CharXiv reasoning(python enabled)81,1 %75,5 %62,7 %78,6 %72,0 %56,7 %56,8 %40,5 %
VideoMMMU, max frame 25684,6 %82,5 %66,8 %83,3 %79,4 %60,9 %55,1 %30,2 %
ERQA65,7 %62,9 %50,1 %64,0 %56,5 %44,3 %42,3 %26,5 %
Codage
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
SWE-Lancer: IC SWE Diamond Freelance Coding Tasks112 k $US75 k $US49 k $US86 k $US66 k $US34 k $US31 k $US9 k $US
SWE-bench Verified[2]74,9 %71,0 %54,7 %69,1 %68,1 %54,6 %23,6 %-
Aider polyglot(diff)88,0 %71,6 %48,4 %79,6 %58,2 %52,9 %31,6 %6,2 %

[2] 23 problèmes sur 500 ont été exclus, faute de pouvoir être exécutés sur notre infrastructure. Voici la liste complète des 23 tâches exclues : 'astropy__astropy-7606', 'astropy__astropy-8707', 'astropy__astropy-8872', 'django__django-10097', 'django__django-7530', 'matplotlib__matplotlib-20488', 'matplotlib__matplotlib-20676', 'matplotlib__matplotlib-20826', 'matplotlib__matplotlib-23299', 'matplotlib__matplotlib-24970', 'matplotlib__matplotlib-25479', 'matplotlib__matplotlib-26342', 'psf__requests-6028', 'pylint-dev__pylint-6528', 'pylint-dev__pylint-7080', 'pylint-dev__pylint-7277', 'pytest-dev__pytest-5262', 'pytest-dev__pytest-7521', 'scikit-learn__scikit-learn-12973', 'sphinx-doc__sphinx-10466', 'sphinx-doc__sphinx-7462', 'sphinx-doc__sphinx-8265' et 'sphinx-doc__sphinx-9367'.

Suivi d’instructions
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
Scale multichallenge[3](o3-mini grader)69,6 %62,3 %54,9 %60,4 %57,5 %46,2 %42,2 %31,1 %
Internal API instruction following eval(hard)64,0 %65,8 %56,1 %47,4 %44,7 %49,1 %45,1 %31,6 %
COLLIE99,0 %98,5 %96,9 %98,4 %96,1 %65,8 %54,6 %42,5 %

[3] Remarque : nous avons constaté que l’outil de notation par défaut de MultiChallenge (GPT-4o) évaluait incorrectement de nombreuses réponses des modèles. En remplaçant cet outil par un modèle de raisonnement comme o3-mini, l’exactitude de la notation est bien meilleure sur les échantillons que nous avons vérifiés.

Appel de fonction
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
Tau2-bench airline62,6 %60,0 %41,0 %64,8 %60,2 %56,0 %51,0 %14,0 %
Tau2-bench retail81,1 %78,3 %62,3 %80,2 %70,5 %74,0 %66,0 %21,5 %
Tau2-bench telecom96,7 %74,1 %35,5 %58,2 %40,5 %34,0 %44,0 %12,1 %
Contexte long
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
OpenAI-MRCR: 2 needle 128k95,2 %84,3 %43,2 %55,0 %56,4 %57,2 %47,2 %36,6 %
OpenAI-MRCR: 2 needle 256k86,8 %58,8 %34,9 %--56,2 %45,5 %22,6 %
Graphwalks bfs <128k78,3 %73,4 %64,0 %77,3 %62,3 %61,7 %61,7 %25,0 %
Graphwalks parents <128k73,3 %64,3 %43,8 %72,9 %51,1 %58,0 %60,5 %9,4 %
BrowseComp Long Context 128k90,0 %89,4 %80,4 %88,3 %80,0 %85,9 %89,0 %89,4 %
BrowseComp Long Context 256k88,8 %86,0 %68,4 %--75,5 %81,6 %19,1 %
VideoMME(long, with subtitle category)86,7 %78,5 %65,7 %84,9 %79,5 %78,7 %68,4 %55,2 %
Hallucinations
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
LongFact-Concepts hallucination rate(no tools)[lower is better]1,0 %0,7 %1,0 %5,2 %3,0 %0,7 %1,1 %-
LongFact-Objects hallucination rate(no tools)[lower is better]1,2 %1,3 %2,8 %6,8 %8,9 %1,1 %1,8 %-
FActScore hallucination rate(no tools)[lower is better]2,8 %3,5 %7,3 %23,5 %38,7 %6,7 %10,9 %-

Auteur

OpenAI