Découvrez GPT‑5 pour les développeurs
Le meilleur modèle pour le code et les tâches agentiques.
GPT‑5 débarque aujourd’hui sur notre API, offrant des performances inégalées pour le code et les tâches agentiques.
GPT‑5 excelle sur les principaux tests de codage, obtenant un score de 74,9 % sur SWE-bench Verified et 88 % sur Aider polyglot. Nous avons fait de GPT‑5 un allié de choix pour le codage. Il se distingue par sa capacité à générer du code de haut niveau et à gérer des tâches telles que la correction de bugs, l’édition de code et l’analyse de bases de code complexes. Aussi collaboratif que maniable, ce modèle exécute des instructions complexes avec précision et fournit des explications claires sur ses actions avant et entre l’utilisation des outils. Il est également très performant en codage front-end, dépassant OpenAI o3 sur 70 % des projets web lors de tests internes.
Nous avons entraîné GPT‑5 sur des tâches de codage concrètes, en collaboration avec les premiers testeurs issus de start-ups et d’entreprises. Selon Cursor, GPT‑5 est « le modèle le plus performant [qu’ils aient] testé », « d’une intelligence remarquable, facile à piloter et doté d’une personnalité unique ». Windsurf indique que GPT‑5 est à la pointe sur ses évaluations et « commet deux fois moins d’erreurs lors de l’utilisation des outils que les autres modèles de référence ». D’après Vercel, « cet excellent modèle IA front-end combine performances esthétiques de pointe et qualité de code, le plaçant dans une classe à part ».
GPT‑5 se distingue aussi sur les tâches agentiques prolongées, atteignant 96,7 % sur τ2-bench telecom, un benchmark dédié aux appels d’outils lancé il y a tout juste deux mois. Sa gestion optimisée des outils permet à GPT‑5 d’orchestrer plusieurs dizaines d’appels d’outils simultanés ou successifs et de réaliser des tâches concrètes complexes de bout en bout. Il suit les instructions des outils avec encore plus de précision, gère mieux les erreurs et retrouve facilement des informations dans de longs contextes. Manus souligne que GPT‑5 « établit un nouveau record de performance sur [leurs] benchmarks internes pour un seul modèle ». D’après Notion, « la réactivité du modèle, notamment en mode faible raisonnement, en fait un choix idéal pour accomplir des tâches complexes en une seule fois ». D’après Inditex, « la force de GPT‑5 réside dans son raisonnement approfondi, capable de fournir des réponses nuancées et structurées, témoignant d’une véritable expertise ».
Notre API s’enrichit de nouvelles fonctionnalités pour permettre aux développeurs de gérer plus précisément les réponses du modèle. GPT‑5 intègre un nouveau paramètre de verbosité (valeurs : faible, moyenne, élevée) pour déterminer si les réponses doivent être concises ou détaillées. Il est possible de régler le paramètre reasoning_effort au minimum pour obtenir des réponses plus rapides, sans passer par un raisonnement complexe. Les outils personnalisés font également leur apparition et permettent à GPT‑5 d’appeler des outils avec du texte brut au lieu du JSON. Avec les outils personnalisés, les développeurs peuvent encadrer les réponses grâce à des grammaires indépendantes du contexte.
GPT‑5 est désormais disponible dans l’API en trois variantes, gpt-5, gpt-5-mini et gpt-5-nano, offrant aux développeurs plus de souplesse pour équilibrer performance, coût et latence. Dans ChatGPT, GPT‑5 fonctionne via un système mêlant modèles de raisonnement, de non-raisonnement et de routage. Dans l’API, GPT‑5 est le modèle de raisonnement qui délivre les performances maximales. La version de GPT‑5 avec raisonnement minimal n’est pas le modèle de non-raisonnement de ChatGPT : elle est calibrée pour répondre aux besoins des développeurs. Le modèle de non-raisonnement intégré à ChatGPT est disponible sous le nom gpt-5-chat-latest.
Pour tout savoir sur GPT‑5 et les dernières évolutions de ChatGPT, rendez-vous sur notre blog dédié à la recherche. Découvrez pourquoi GPT‑5 séduit autant les entreprises dans notre blog dédié aux entreprises.
La puissance de GPT‑5 repousse les limites du code. Plus performant qu’o3, aussi bien sur les benchmarks qu’en situation concrète, il s’illustre particulièrement dans des solutions de codage pilotées par IA telles que Cursor, Windsurf, GitHub Copilot et Codex CLI. GPT‑5 a fait sensation auprès de nos testeurs alpha, en réalisant des performances record sur leurs tests internes exclusifs.
Premiers commentaires sur GPT‑5 pour des tâches de codage concrètes
« GPT‑5 est le modèle de codage le plus performant que nous ayons utilisé. Notre équipe a été frappée par l’intelligence de GPT‑5, sa maniabilité et sa personnalité inédite pour un modèle de ce type. GPT‑5 débusque non seulement les bugs les plus subtils, mais fait aussi tourner des agents multi-étapes en arrière-plan pour réaliser des tâches complexes, que les autres modèles n’arrivaient pas à terminer. Il est devenu indispensable au quotidien, que ce soit pour planifier des PR ou finaliser des builds complets. »
Sur SWE-bench Verified, qui mesure les performances sur de véritables tâches d’ingénierie logicielle, GPT‑5 creuse l’écart avec un score de 74,9 %, contre 69,1 % pour o3. Plus rapide et plus efficace, GPT‑5 décroche ce score avec 22 % de jetons de sortie et 45 % d’appels d’outils en moins qu’o3 à niveau de raisonnement élevé.
Dans SWE-bench Verified, chaque modèle reçoit un dépôt de code et une description d’incident et doit générer un patch pour le résoudre. Les étiquettes textuelles indiquent l’effort de raisonnement. Nous avons exclu 23 problèmes sur 500 dont les solutions n’ont pas été fiables sur notre infrastructure. GPT‑5 a reçu un court prompt insistant sur la vérification approfondie des solutions. Ce même prompt n’a pas amélioré les résultats d’o3.
Aider polyglot, l’évaluation phare en édition de code, consacre GPT‑5 avec un score de 88 %, soit un tiers d’erreurs en moins face à o3.
Dans Aider polygot(ouverture dans une nouvelle fenêtre) (diff), le modèle reçoit un exercice de codage d’Exercism et doit proposer sa solution sous forme de diff de code. Les modèles de raisonnement ont été mis à l’épreuve avec un effort de raisonnement élevé.
Nous avons également découvert que GPT‑5 est particulièrement performant pour analyser des bases de code et mettre en lumière la logique qui relie leurs différents éléments. Face à la complexité de la base de code de la stack d’apprentissage par renforcement d’OpenAI, GPT‑5 nous aide à raisonner plus vite et à obtenir des réponses précises, boostant ainsi notre productivité.
GPT‑5 fait passer le front-end des applis web au niveau supérieur grâce à un sens du design affûté, une ambition assumée et une exécution précise. Face à o3, GPT‑5 a conquis nos testeurs, qui l’ont choisi dans 70 % des cas.
Voici un petit florilège, soigneusement choisi, des surprises que GPT‑5 réserve en un seul prompt :
Prompt : Please generate a beautiful, realistic landing page for a service that provides the ultimate coffee enthusiast a $200/month subscription that provides equipment rental and coaching for coffee roasting and creating the ultimate espresso. The target audience is a bay area middle-aged person who might work in tech and is educated, has disposable income, and is passionate about the art and science of coffee. Optimize for conversion for a 6 month signup.
Découvrez d’autres créations signées GPT‑5 dans notre galerie par ici(ouverture dans une nouvelle fenêtre).
Plus qu’un outil, GPT‑5 se révèle être un véritable coéquipier, notamment dans des solutions de codage pilotées par IA comme Cursor, Windsurf, GitHub Copilot et Codex CLI. En pleine exécution, GPT‑5 sait expliquer où il en est, annoncer la suite et résumer les progrès réalisés. Contrairement à nos anciens modèles, GPT‑5 ne recule devant aucun défi, aussi ambitieux ou complexe soit-il, et agit sans attendre de validation.
Découvrez GPT‑5 à l’œuvre sur un défi concret : concevoir le site web d’un restaurant de A à Z :
Lorsqu’un utilisateur demande un site web pour son restaurant, GPT‑5 génère un plan rapide, structure l’application, installe les dépendances, crée le contenu du site, lance une compilation pour vérifier les erreurs, résume son travail et propose les prochaines étapes possibles. Pour vous faire gagner du temps, cette vidéo a été accélérée environ 3 fois ; la création complète du site a pris environ trois minutes.
GPT‑5 ne se limite pas au code : il brille aussi dans toutes sortes de tâches agentiques. Qu’il s’agisse de suivre des instructions ou d’utiliser des outils, GPT‑5 établit de nouvelles références, atteignant 69,6 % sur Scale MultiChallenge (évalué par o3‑mini) et 96,7 % sur τ2-bench telecom. Grâce à sa gestion des outils optimisée, GPT‑5 coordonne ses actions de manière plus fiable pour exécuter des tâches concrètes.
Premiers commentaires sur les tâches agentiques avec GPT‑5
« GPT-5 marque une avancée majeure. Il établit un nouveau record de performance sur nos benchmarks internes pour un seul modèle. GPT-5 a surpassé toutes nos attentes sur différents types de tâches agentiques, même sans que nous touchions au code ou que nous adaptions les prompts. Grâce aux nouveaux préambules et à un contrôle plus fin des outils, nos agents sont à la fois plus stables et plus maniables. »
GPT‑5 dépasse ses prédécesseurs en matière de suivi d’instructions, affichant des performances de haut niveau sur COLLIE, Scale MultiChallenge et nos évaluations internes.
Dans COLLIE(ouverture dans une nouvelle fenêtre),les modèles doivent rédiger des textes conformes à plusieurs contraintes. Dans Scale MultiChallenge(ouverture dans une nouvelle fenêtre), ils doivent gérer des conversations à tour de rôle en exploitant correctement quatre types d’informations provenant des messages précédents. Nos résultats reposent sur o3‑mini, qui a montré une meilleure précision que GPT‑4o. Lors de notre évaluation interne de l’API OpenAI, les modèles doivent respecter des consignes complexes basées sur des retours concrets de développeurs. Les modèles de raisonnement ont été mis à l’épreuve avec un effort de raisonnement élevé.
Nous avons repensé la gestion des outils pour qu’elle réponde parfaitement aux attentes des développeurs. GPT‑5 se distingue par une meilleure exécution des instructions, une gestion plus fine des erreurs et la capacité d’effectuer, de façon proactive, de nombreux appels d’outils en série ou en parallèle. Sur demande, GPT‑5 peut afficher des messages préliminaires et intermédiaires entre les appels d’outils pour suivre la progression des tâches agentiques longues.
Publié il y a deux mois par Sierra.ai, τ2-bench telecom est un benchmark de référence exigeant, montrant combien les performances des modèles de langage peuvent décroître face à un environnement qui peut évoluer en fonction des actions des utilisateurs. Dans sa publication(ouverture dans une nouvelle fenêtre), aucun modèle n’a dépassé les 49 %. GPT‑5 a obtenu un score de 97 %.
Dans τ2-bench(ouverture dans une nouvelle fenêtre), le modèle doit utiliser des outils pour accomplir une tâche de service client, dans un contexte où l’utilisateur peut communiquer et agir sur l’environnement. Les modèles de raisonnement ont été mis à l’épreuve avec un effort de raisonnement élevé.
GPT‑5 affiche aussi de nets progrès dans la gestion de contextes longs. OpenAI-MRCR, qui évalue la récupération d’information sur des contextes longs, confirme que GPT‑5 devance o3 et GPT‑4.1, surtout sur les saisies les plus longues.
Le test OpenAI-MRCR(ouverture dans une nouvelle fenêtre) (multi-round co-reference resolution) consiste à glisser plusieurs requêtes identiques (« aiguilles ») dans de longs ensembles (« meules de foin ») de requêtes et réponses analogues, et à demander au modèle de restituer la réponse correspondant à la iᵉ aiguille. Le taux moyen de correspondance indique la similarité moyenne entre la réponse du modèle et la réponse attendue. Les points affichés pour 256 k jetons d’entrée maximum représentent la moyenne sur la plage de 128 k à 256 k jetons, et ainsi de suite. Pour rappel, 256 k correspond à 256×1 024= 262 144 jetons. Les modèles de raisonnement ont été mis à l’épreuve avec un effort de raisonnement élevé.
Nous rendons également disponible en open source BrowseComp Long Context(ouverture dans une nouvelle fenêtre), benchmark de référence qui mesure la qualité des réponses dans des contextes longs. Le principe : fournir au modèle une requête utilisateur et un grand nombre de résultats pertinents, afin qu’il construise sa réponse en s’appuyant exclusivement sur ces données. BrowseComp Long Context a été pensé pour refléter des situations réalistes, poser un vrai défi et fournir des réponses exactes et vérifiables. GPT‑5 répond correctement 89 % du temps sur des saisies comprises entre 128 000 et 256 000 jetons.
L’API permet aux modèles GPT‑5 de gérer jusqu’à 272 000 jetons d’entrée et 128 000 jetons de sortie, pour un contexte total de 400 000 jetons.
GPT‑5 se montre plus fiable que nos modèles précédents. Sur des prompts des benchmarks LongFact et FactScore, GPT‑5 commet 80 % moins d’erreurs factuelles qu’o3. Cela en fait un allié de choix pour les tâches agentiques où chaque détail compte, notamment pour le code, les données et la prise de décision.
Plus le score est élevé, moins il est performant. LongFact(ouverture dans une nouvelle fenêtre) et FActScore(ouverture dans une nouvelle fenêtre) posent des questions ouvertes pour tester la véracité des faits. Nous vérifions les réponses avec un évaluateur LLM équipé de navigation et mesurons la proportion d’affirmations incorrectes. Pour en savoir plus sur la mise en œuvre et l’évaluation consultez la fiche système(ouverture dans une nouvelle fenêtre). Les modèles de raisonnement ont été mis à l’épreuve avec un effort de raisonnement élevé. La recherche était désactivée.
Dans l’ensemble, GPT‑5 a été entraîné pour mieux évaluer ce qu’il sait ou non et mieux réagir aux situations inattendues. Nous avons également entraîné GPT‑5 pour améliorer significativement sa précision sur les questions de santé (plus de détails dans notre blog consacré à la recherche). Comme pour tous les modèles de langage, nous vous recommandons de vérifier les réponses de GPT‑5 dans les situations à fort enjeu.
Les développeurs peuvent ajuster le temps de réflexion de GPT‑5 grâce au paramètre reasoning_effort de l’API. En plus des valeurs précédentes (faible, moyen (par défaut), et élevé), GPT‑5 propose également l’option minimal, qui privilégie la rapidité de réponse en limitant le raisonnement.
Plus la valeur de reasoning_effort est élevée, meilleure est la qualité des réponses ; plus elle est faible, plus la réponse est rapide. En fonction des tâches, plus de raisonnement n’est pas toujours synonyme de meilleure performance. Essayez différentes options selon vos besoins.
Sur des tâches relativement simples de récupération sur longs contextes, un effort de raisonnement supérieur à faible a peu d’effet, mais améliore nettement les scores sur le benchmark de raisonnement visuel CharXiv Reasoning(ouverture dans une nouvelle fenêtre).
L’effort de raisonnement de GPT‑5 produit des résultats différents selon les tâches. Dans CharXiv Reasoning, il a eu accès à un outil Python.
L’API inclut désormais le paramètre verbosité, qui permet d’ajuster la longueur des réponses de GPT‑5 selon trois niveaux : faible, moyenne (par défaut) et élevée. En cas de conflit, les instructions explicites passent avant le paramètre de verbosité. Par exemple, si vous demandez à GPT‑5 de « rédiger un essai de 5 paragraphes », la réponse comprendra toujours 5 paragraphes, quelle que soit le niveau de verbosité (la longueur des paragraphes peut en revanche varier).
Verbosity=low
Verbosity=medium
Verbosity=high
Lorsqu’on le lui demande, GPT‑5 affiche des messages préliminaires pour l’utilisateur avant et entre chaque appel d’outil. Plutôt que de rester invisibles, ces messages montrent à l’utilisateur comment GPT‑5 organise et exécute ses appels d’outils, ainsi que son avancement.
Grâce aux nouveaux outils personnalisés, GPT‑5 peut désormais interagir avec un outil directement en texte, sans passer par JSON. Afin que GPT‑5 respecte les formats des outils personnalisés, les développeurs peuvent spécifier une regex, ou aller plus loin avec une grammaire hors-contexte(ouverture dans une nouvelle fenêtre) complète.
Auparavant, il fallait utiliser JSON pour appeler les outils définis par les développeurs, le format standard pour les API web et les développeurs en général. Cependant, pour que le JSON soit valide, le modèle doit traiter correctement tous les guillemets, barres obliques inverses, sauts de ligne et autres caractères spéciaux. Si nos modèles savent générer du JSON, des erreurs peuvent apparaître sur de grandes saisies, comme un long code ou un rapport volumineux. Grâce aux outils personnalisés, GPT‑5 écrit les saisies en texte brut, sans devoir traiter chaque caractère spécial.
Les outils personnalisés n’impactent pas les résultats de GPT‑5 sur SWE-bench Verified, qui restent au même niveau.
Avec JSON ou des outils personnalisés, GPT‑5 obtient des résultats comparables sur SWE-bench Verified. GPT‑5 hallucine beaucoup moins que nos modèles précédents, explique clairement ce qu’il fait et fournit des réponses utiles tout en restant sécurisé. Vous trouverez plus d’informations à ce sujet sur notre blog dédié à la recherche.
GPT‑5 est maintenant disponible via l’API en trois formats : gpt-5, gpt-5-mini et gpt-5-nano. Il est disponible sur les API Responses et Chat Completions et est le modèle par défaut de Codex CLI. GPT‑5 est proposé au tarif de 1,25 $ pour 1 million de jetons d’entrée et 10 $ pour 1 million de jetons de sortie, GPT‑5 mini à 0,25 $/1 M en saisie et 2 $/1 M en sortie, et GPT‑5 nano à 0,05 $/1 M et 0,40 $/1 M.
Ces modèles prennent en charge les paramètres API reasoning_effort et verbosité, ainsi que les outils personnalisés. Ils prennent également en charge l’appel d’outils en parallèle, les outils intégrés (recherche web, recherche de fichiers, génération d’images, etc.), les fonctionnalités clés de l’API (streaming, sorties structurées, etc.) ainsi que des fonctionnalités économiques comme la mise en cache des saisies et l’API Batch.
La version de GPT‑5 sans raisonnement, utilisée dans ChatGPT, est disponible dans l’API sous le nom gpt-5-chat-latest, au même tarif de 1,25 $/1 M jetons en saisie et 10 $/1 M en sortie.
GPT‑5 arrive également sur les plateformes Microsoft, notamment Microsoft 365 Copilot, Copilot, GitHub Copilot et Azure AI Foundry.
Pour commencer, consultez ladocumentation(ouverture dans une nouvelle fenêtre), la tarification précise(ouverture dans une nouvelle fenêtre) et le guide de création de prompts(ouverture dans une nouvelle fenêtre) de GPT‑5.
Intelligence
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| AIME ’25(no tools) | 94,6 % | 91,1 % | 85,2 % | 88,9 % | 92,7 % | 46,4 % | 40,2 % | - |
| FrontierMath(with python tool only) | 26,3 % | 22,1 % | 9,6 % | 15,8 % | 15,4 % | - | - | - |
| GPQA diamond(no tools) | 85,7 % | 82,3 % | 71,2 % | 83,3 % | 81,4 % | 66,3 % | 65,0 % | 50,3 % |
| HLE[1](no tools) | 24,8 % | 16,7 % | 8,7 % | 20,2 % | 14,7 % | 5,4 % | 3,7 % | - |
| HMMT 2025(no tools) | 93,3 % | 87,8 % | 75,6 % | 81,7 % | 85,0 % | 28,9 % | 35,0 % | - |
[1] Le léger écart avec les chiffres de notre article précédent s’explique par le fait que ces évaluations utilisaient une ancienne version de HLE.
Multimodal
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| MMMU | 84,2 % | 81,6 % | 75,6 % | 82,9 % | 81,6 % | 74,8 % | 72,7 % | 55,4 % |
| MMMU-Pro(avg across standard and vision sets) | 78,4 % | 74,1 % | 62,6 % | 76,4 % | 73,4 % | 60,3 % | 58,9 % | 33,0 % |
| CharXiv reasoning(python enabled) | 81,1 % | 75,5 % | 62,7 % | 78,6 % | 72,0 % | 56,7 % | 56,8 % | 40,5 % |
| VideoMMMU, max frame 256 | 84,6 % | 82,5 % | 66,8 % | 83,3 % | 79,4 % | 60,9 % | 55,1 % | 30,2 % |
| ERQA | 65,7 % | 62,9 % | 50,1 % | 64,0 % | 56,5 % | 44,3 % | 42,3 % | 26,5 % |
Codage
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| SWE-Lancer: IC SWE Diamond Freelance Coding Tasks | 112 k $US | 75 k $US | 49 k $US | 86 k $US | 66 k $US | 34 k $US | 31 k $US | 9 k $US |
| SWE-bench Verified[2] | 74,9 % | 71,0 % | 54,7 % | 69,1 % | 68,1 % | 54,6 % | 23,6 % | - |
| Aider polyglot(diff) | 88,0 % | 71,6 % | 48,4 % | 79,6 % | 58,2 % | 52,9 % | 31,6 % | 6,2 % |
[2] 23 problèmes sur 500 ont été exclus, faute de pouvoir être exécutés sur notre infrastructure. Voici la liste complète des 23 tâches exclues : 'astropy__astropy-7606', 'astropy__astropy-8707', 'astropy__astropy-8872', 'django__django-10097', 'django__django-7530', 'matplotlib__matplotlib-20488', 'matplotlib__matplotlib-20676', 'matplotlib__matplotlib-20826', 'matplotlib__matplotlib-23299', 'matplotlib__matplotlib-24970', 'matplotlib__matplotlib-25479', 'matplotlib__matplotlib-26342', 'psf__requests-6028', 'pylint-dev__pylint-6528', 'pylint-dev__pylint-7080', 'pylint-dev__pylint-7277', 'pytest-dev__pytest-5262', 'pytest-dev__pytest-7521', 'scikit-learn__scikit-learn-12973', 'sphinx-doc__sphinx-10466', 'sphinx-doc__sphinx-7462', 'sphinx-doc__sphinx-8265' et 'sphinx-doc__sphinx-9367'.
Suivi d’instructions
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| Scale multichallenge[3](o3-mini grader) | 69,6 % | 62,3 % | 54,9 % | 60,4 % | 57,5 % | 46,2 % | 42,2 % | 31,1 % |
| Internal API instruction following eval(hard) | 64,0 % | 65,8 % | 56,1 % | 47,4 % | 44,7 % | 49,1 % | 45,1 % | 31,6 % |
| COLLIE | 99,0 % | 98,5 % | 96,9 % | 98,4 % | 96,1 % | 65,8 % | 54,6 % | 42,5 % |
[3] Remarque : nous avons constaté que l’outil de notation par défaut de MultiChallenge (GPT-4o) évaluait incorrectement de nombreuses réponses des modèles. En remplaçant cet outil par un modèle de raisonnement comme o3-mini, l’exactitude de la notation est bien meilleure sur les échantillons que nous avons vérifiés.
Appel de fonction
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| Tau2-bench airline | 62,6 % | 60,0 % | 41,0 % | 64,8 % | 60,2 % | 56,0 % | 51,0 % | 14,0 % |
| Tau2-bench retail | 81,1 % | 78,3 % | 62,3 % | 80,2 % | 70,5 % | 74,0 % | 66,0 % | 21,5 % |
| Tau2-bench telecom | 96,7 % | 74,1 % | 35,5 % | 58,2 % | 40,5 % | 34,0 % | 44,0 % | 12,1 % |
Contexte long
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| OpenAI-MRCR: 2 needle 128k | 95,2 % | 84,3 % | 43,2 % | 55,0 % | 56,4 % | 57,2 % | 47,2 % | 36,6 % |
| OpenAI-MRCR: 2 needle 256k | 86,8 % | 58,8 % | 34,9 % | - | - | 56,2 % | 45,5 % | 22,6 % |
| Graphwalks bfs <128k | 78,3 % | 73,4 % | 64,0 % | 77,3 % | 62,3 % | 61,7 % | 61,7 % | 25,0 % |
| Graphwalks parents <128k | 73,3 % | 64,3 % | 43,8 % | 72,9 % | 51,1 % | 58,0 % | 60,5 % | 9,4 % |
| BrowseComp Long Context 128k | 90,0 % | 89,4 % | 80,4 % | 88,3 % | 80,0 % | 85,9 % | 89,0 % | 89,4 % |
| BrowseComp Long Context 256k | 88,8 % | 86,0 % | 68,4 % | - | - | 75,5 % | 81,6 % | 19,1 % |
| VideoMME(long, with subtitle category) | 86,7 % | 78,5 % | 65,7 % | 84,9 % | 79,5 % | 78,7 % | 68,4 % | 55,2 % |
Hallucinations
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| LongFact-Concepts hallucination rate(no tools)[lower is better] | 1,0 % | 0,7 % | 1,0 % | 5,2 % | 3,0 % | 0,7 % | 1,1 % | - |
| LongFact-Objects hallucination rate(no tools)[lower is better] | 1,2 % | 1,3 % | 2,8 % | 6,8 % | 8,9 % | 1,1 % | 1,8 % | - |
| FActScore hallucination rate(no tools)[lower is better] | 2,8 % | 3,5 % | 7,3 % | 23,5 % | 38,7 % | 6,7 % | 10,9 % | - |


