25 septembre 2025

Mesurer la performance de nos modèles sur des tâches réelles.

Nous introduisons GDPval, une nouvelle évaluation qui mesure la performance des modèles sur des tâches économiquement précieuses et réelles à travers 44 professions.

Lire l’article Visitez evals.openai.com

Notre mission est de veiller à ce que l’intelligence artificielle générale profite à l’ensemble de l’humanité. Dans le cadre de notre mission, nous souhaitons communiquer de manière transparente sur les progrès réalisés par les modèles d'IA et leur capacité à aider les gens dans le monde réel. C’est pourquoi nous introduisons GDPval : une nouvelle évaluation conçue pour nous aider à suivre la performance de nos modèles et de ceux des autres sur des tâches économiquement précieuses et concrètes. Nous appelons cette évaluation GDPval parce que nous avons commencé avec le concept de produit intérieur brut (PIB) comme indicateur économique clé et avons extrait des tâches des professions principales dans les industries qui contribuent le plus au PIB.

Les gens spéculent souvent sur l'impact plus large de l'IA sur la société, mais la manière la plus claire de comprendre son potentiel est d'examiner ce que les modèles peuvent déjà accomplir. L'historique montre que les grandes technologies, de l'internet aux smartphones, ont mis plus de dix ans pour passer de l'invention à une adoption généralisée. Des évaluations comme GDPval aident à ancrer les conversations sur les améliorations futures de l'IA dans des preuves plutôt que des conjectures, et peuvent nous aider à suivre l'évolution des modèles au fil du temps.

Les évaluations précédentes de l'IA, telles que les tests académiques complexes et les défis de codage compétitifs, ont été essentielles pour repousser les limites des capacités de raisonnement des modèles, mais elles sont souvent insuffisantes pour le type de tâches que de nombreuses personnes accomplissent dans leur travail quotidien.

Pour combler cet écart, nous avons développé des évaluations qui mesurent des capacités de plus en plus réalistes et pertinentes sur le plan économique. Cette progression est passée des références académiques classiques comme MMLU (questions d'examen sur des dizaines de sujets), à des évaluations plus appliquées comme SWE-Bench (tâches de correction de bogues en ingénierie logicielle), MLE-Bench (tâches d'ingénierie de l'apprentissage automatique telles que la formation et l'analyse de modèles), et Paper-Bench (raisonnement scientifique et critique d'articles de recherche), et plus récemment à des évaluations basées sur le marché comme SWE-Lancer (projets d'ingénierie logicielle en freelance basés sur des paiements réels).

GDPval marque une nouvelle étape de cette tendance. Elle évalue les performances des modèles sur des tâches issues directement du travail de connaissances réel de professionnels expérimentés dans une large gamme de métiers et de secteurs, offrant une image plus claire de la façon dont les modèles se comportent sur des tâches économiquement précieuses. L’évaluation des modèles sur des tâches professionnelles réalistes nous aide à comprendre non seulement comment ils performent en laboratoire, mais aussi quel soutien ils peuvent apporter aux gens dans leur travail quotidien.

Ce que mesure GDPVal

GDPval, la première version de cette évaluation, couvre 44 professions sélectionnées parmi les 9 principaux secteurs qui contribuent au PIB des États-Unis. L'ensemble complet GDPval comprend 1 320 tâches spécialisées (dont 220 dans l'ensemble open source doré), chacune méticuleusement conçue et vérifiée par des professionnels expérimentés ayant en moyenne plus de 14 ans d'expérience dans ces domaines. Chaque tâche est fondée sur des produits de travail réels, tels qu'un mémoire juridique, un plan d'ingénierie, une conversation de soutien client ou un plan de soins infirmiers.

GDPval se distingue par son réalisme et la diversité des tâches évaluées. Contrairement à d'autres évaluations liées à la valeur économique qui se concentrent sur des domaines spécifiques (p. ex., SWE-Lancer), GDPval couvre de nombreuses tâches et professions. Et contrairement aux benchmarks qui impliquent de créer artificiellement des tâches dans le style d'un examen académique ou d'un test (p. ex., Humanity’s Last Exam ou MMLU), GDPval se concentre sur des tâches basées sur des livrables qui sont soit un véritable travail ou produit existant aujourd'hui, soit un produit de travail construit de manière similaire.

Contrairement aux évaluations traditionnelles, les tâches de GDPval ne sont pas de simples invites textuelles. Elles sont accompagnées de fichiers de référence et de contexte, et les livrables attendus incluent des documents, des diapositives, des diagrammes, des feuilles de calcul et des fichiers multimédias. Ce réalisme fait de GDPval un test plus réaliste de la façon dont les modèles pourraient apporter un soutien aux professionnels.

GDPval est une étape préliminaire qui ne reflète pas toutes les subtilités de nombreuses tâches économiques. Bien qu'elle couvre 44 professions et des centaines de tâches liées aux connaissances, elle est limitée à des évaluations ponctuelles, ce qui ne permet pas de saisir les cas où un modèle aurait besoin de construire un contexte ou de s'améliorer à travers plusieurs brouillons. Les versions futures s'étendront à des flux de travail plus interactifs et à des tâches enrichies par le contexte pour mieux refléter la complexité du travail des connaissances dans le monde réel (voir plus dans notre section Limitations ci-dessous).

Méthodologie de sélection des professions

GDPval couvre des tâches dans 9 industries et 44 professions, et ses futures versions continueront d'élargir la couverture. Les 9 premiers secteurs ont été choisis parmi ceux qui contribuent à plus de 5 % du PIB des États-Unis, selon les données de la Federal Reserve Bank of St. Louis. Ensuite, nous avons sélectionné les 5 professions dans chaque secteur qui contribuent le plus aux salaires et rémunérations totaux et qui relèvent majoritairement du travail de connaissances, en utilisant les données sur les salaires et l'emploi du rapport sur l'emploi du Bureau of Labor Statistics (BLS) des États-Unis de mai 2024⁠(s'ouvre dans une nouvelle fenêtre). Pour déterminer si les professions relevaient principalement du travail de connaissances, nous avons utilisé les données de tâches provenant de O*NET⁠(s'ouvre dans une nouvelle fenêtre), une base de données d'informations professionnelles des États-Unis parrainée par le Département du Travail des États-Unis. Nous avons classé chaque tâche de chaque profession dans O*NET comme travail de connaissance ou travail manuel/physique (nécessitant des actions à réaliser dans le monde physique). Une profession est qualifiée globalement de « travail de connaissances prédominant » si au moins 60 % de ses tâches sont classées comme n’impliquant pas de travail physique ou manuel. Nous avons choisi ce seuil de 60 % comme point de départ pour la première version de GDPval, en nous concentrant sur les professions où l'IA pourrait avoir l'impact le plus important sur la productivité réelle.

Ce processus a permis d'inclure 44 professions.

Immobilier, location et crédit-bail

Concierges
Gestionnaires immobiliers, immobiliers et associations communautaires
Agents de vente immobilière
Courtiers immobiliers
Commis de comptoir et de location

Gouvernement

Travailleurs de loisirs
Agents de conformité
Chefs d'équipe de police et de détectives
Gestionnaires des services administratifs
Travailleurs sociaux pour les enfants, les familles et les écoles

Industrie manufacturière

Ingénieurs en mécanique
Ingénieurs en procédés industriels
Acheteurs et agents d'approvisionnement
Commis à l'expédition, à la réception et à l'inventaire
Superviseurs de première ligne des travailleurs de la production et de l'exploitation

Services professionnels, scientifiques et techniques

Développeurs de logiciels
Avocats
Comptables et vérificateurs
Gestionnaires des systèmes informatiques et d'information
Chefs de projet

Soins de santé et assistance sociale

Infirmiers autorisés
Infirmières praticiennes
Gestionnaires des services médicaux et de santé
Encadrants administratifs et de soutien de première ligne
Secrétaires médicaux et adjoints administratifs

Finance et assurance

Représentants du service à la clientèle
Analystes financiers et d'investissement
Directeurs financiers
Conseillers en gestion de patrimoine
Agents de vente de titres, de matières premières et de services financiers

Commerce de détail

Pharmaciens
Superviseurs de première ligne des vendeurs au détail
Directeurs généraux et des opérations
Détectives privés et enquêteurs

Commerce de gros

Gestionnaires des ventes
Commis aux commandes
Superviseurs de première ligne des employés de vente hors commerce de détail
Représentants commerciaux B2B, hors produits techniques et scientifiques
Représentants commerciaux B2B, produits techniques et scientifiques

Information

Techniciens audio et vidéo
Producteurs et directeurs
Analystes, journalistes et reporters
Monteurs de films et de vidéos
Éditeurs

GDPval couvre 44 professions des connaissances dans 9 secteurs, allant des développeurs de logiciels et avocats aux infirmières autorisées et ingénieurs en mécanique. Ces professions ont été choisies pour leur importance économique et représentent les types de travail quotidien où l'IA peut apporter une assistance significative aux professionnels.

Création de l’ensemble de données

Pour chaque profession, nous avons collaboré avec des professionnels expérimentés pour créer des tâches représentatives de leur travail quotidien. En moyenne, ces professionnels totalisaient 14 ans d’expérience et avait fortement progressé dans leur carrière. Nous avons délibérément recruté un éventail d'experts, tels que des avocats de divers domaines de pratique et de cabinets de tailles variées, afin de maximiser la représentativité.

Chaque tâche a été soumise à un processus de révision en plusieurs étapes pour s'assurer qu'elle était représentative d'un travail réel, réalisable par un autre professionnel et claire pour l'évaluation. En moyenne, chaque tâche a fait l'objet de 5 examens d'experts, y compris des vérifications par d'autres rédacteurs de tâches, des réviseurs professionnels supplémentaires et une validation basée sur un modèle.

Le jeu de données résultant comprend 30 tâches entièrement vérifiées par profession (ensemble complet) avec 5 tâches par profession dans notre ensemble de référence open source, fournissant une base solide pour évaluer les performances des modèles sur le travail des connaissances réel.

Exemples de tâches de GDPval

Invite + contexte de la tâche

This is June 2025 and you are a Manufacturing Engineer, in an automobile assembly line. The product is a cable spooling truck for underground mining operations, and you are reviewing the final testing step. In the final testing step, a big spool of cable needs to be reeled in and reeled out 2 times, to ensure the cable spooling works as per requirement. The current operation requires 2 persons to work on this test. The first person needs to bring and position the spool near the test unit, the second person will connect the open end of the cable spool to the test unit and start the reel in step. While the cable is being unreeled from the spool, and onto the truck, the first person will need to rotate the spool in order to facilitate the unreeling. When the cable is fully reeled onto the truck, the next step is to perform the operation in reverse order, so the cable gets reeled out of the truck and back onto its own reel. This test is done another time to ensure functionality. This task is complicated, has associated risks, requires high labor and makes the work area cluttered. Your manager has requested you to develop a jig/fixture to simplify reel in and reel out of the cable reel spool, so the test can be done by one person. Attached to this request is an information document which provides basic details about the cable reel drum size, information to design the cable reel spooling jig and to structure the deliverable. The deliverable for this task will be a preliminary concept design only. Separate tasks will be done to calculate design foundations such as stress, strength, cost benefit analysis, etc. Design a jig using 3d modelling software and create a presentation using Microsoft PowerPoint. As part of the deliverable, upload only a pdf document summarizing the design, using snapshots of the 3d design created. The 3d design file is not required for submission.

Cable reel project requirements.pdf

Résultat d’un humain expérimenté

Chaque tâche de GDPval est conçue par un professionnel expérimenté et reflète un véritable travail de connaissances issu de son domaine. L'invite est une tâche réaliste créée par un expert du domaine, et le livrable d'or est la solution propre de l'expert.

Comment nous évaluons la performance des modèles

Pour évaluer la performance des modèles sur les tâches de GDPval, nous faisons appel à des « évaluateurs experts » — un groupe de professionnels expérimentés issus des mêmes professions représentées dans le jeu de données. Ces évaluateurs comparent à l'aveugle les livrables générés par les modèles à ceux produits par les rédacteurs de tâches, sans savoir lesquels sont générés par l'IA ou par des humains, et offrent des critiques et des classements. Ils indiquent ensuite pour chaque livrable généré par l’IA s’il est supérieur, équivalent ou inférieur aux autres.

Les rédacteurs de tâches ont également créé des rubriques de notation détaillées pour leurs professions, ce qui ajoute de la cohérence et de la transparence au processus d'évaluation. Nous avons également construit un « évaluateur automatisé », un système d'IA formé pour estimer comment des experts humains évalueraient un livrable donné. En d'autres termes, au lieu de procéder à une évaluation complète par des experts à chaque fois, l'évaluateur automatisé peut rapidement prédire quelle sortie les gens préféreraient probablement. Nous lançons cet outil sur evals.openai.com en tant que service de recherche expérimental, mais il n'est pas encore aussi fiable que des évaluateurs experts, donc nous ne l'utilisons pas pour les remplacer.

Résultats préliminaires

Nous avons constaté que les modèles de pointe actuels s'approchent déjà de la qualité du travail produit par les experts du secteur. Pour tester cela, nous avons mené des évaluations à l'aveugle où des experts de l'industrie ont comparé les livrables de plusieurs modèles de pointe—GPT‑4o, o4-mini, OpenAI o3, GPT‑5, Claude Opus 4.1, Gemini 2.5 Pro et Grok 4—à des travaux produits par des humains. Nous avons enregistré les cas dans lesquels les sorties des modèles ont été jugées supérieures (« victoires ») ou équivalentes (« égalités ») aux livrables des experts pour les 220 tâches de l’ensemble de référence de GDPval. Nos résultats sont illustrés dans le graphique ci-dessous. Claude Opus 4.1 était le modèle le plus performant de l'ensemble, se distinguant particulièrement par son esthétique (p. ex., mise en forme des documents, disposition des diapositives), tandis que GPT‑5 s'est distingué par sa précision (p. ex., recherche de connaissances spécifiques au domaine). Nous constatons également une nette progression au fil du temps sur ces tâches. Les performances ont plus que doublé de GPT‑4o (lancé au printemps 2024) à GPT‑5 (lancé à l'été 2025), suivant une tendance linéaire claire.

De plus, nous avons constaté que les modèles de pointe peuvent accomplir les tâches de GDPval environ 100 fois plus rapidement et à un coût 100 fois inférieur à celui des experts du secteur. Cependant, ces chiffres reflètent uniquement le temps d'inférence des modèles et les tarifs de facturation des API, et ne prennent donc pas en compte la supervision humaine, les itérations et les étapes d'intégration nécessaires dans un cadre professionnel pour utiliser nos modèles. Néanmoins, surtout pour les tâches où les modèles sont particulièrement performants, nous pensons qu'attribuer une tâche à un modèle avant de l'essayer avec un humain permettrait d'enregistrer du temps et de l'argent.

Des évaluateurs experts ont comparé les livrables des modèles les plus avancés à ceux des experts humains. Les modèles de pointe d'aujourd'hui approchent déjà de la qualité du travail produit par les experts de l'industrie. Claude Opus 4.1 a produit des résultats jugés aussi bons ou meilleurs que ceux des humains dans un peu moins de la moitié des tâches.

De GPT‑4o à GPT‑5, la performance sur les tâches de GDPval a plus que triplé en un an.

Enfin, nous avons formé progressivement une version interne et expérimentale de GPT‑5 pour évaluer si nous pouvions améliorer les performances sur GDPval. Nous avons constaté que ce processus a amélioré les performances, créant une voie pour d'autres améliorations potentielles. D'autres expériences contrôlées confirment cela : l'augmentation de la taille du modèle, l'encouragement de davantage d'étapes de raisonnement et l'enrichissement du contexte de la tâche ont chacun conduit à des gains mesurables.

Vous pouvez lire les résultats complets dans notre étude. Nous publions également un sous-ensemble doré des tâches de GDPval et un service de notation public pour que d'autres chercheurs puissent développer ces travaux.

L’avenir du travail et de l’IA

La montée en compétence de l’IA va certainement changer le marché du travail. Les premiers résultats de GDPval indiquent que les modèles peuvent déjà effectuer certaines tâches répétitives et bien définies plus rapidement et à moindre coût que les experts. Cependant, la plupart des emplois sont plus qu'une simple collection de tâches pouvant être consignées par écrit. GDPval met en lumière les situations où l'IA peut gérer des tâches routinières, permettant ainsi aux personnes de consacrer plus de temps aux aspects créatifs et nécessitant un jugement approfondi du travail. L’augmentation de l’humain par l’IA peut générer une croissance économique importante. Notre objectif est de faire en sorte que tout le monde puisse prendre l'« ascenseur ascendant » de l'IA en démocratisant l'accès à ces outils, en accompagnant les travailleurs au fil des changements et en créant des systèmes qui récompensent la contribution large.

Limites et prochaines étapes

GDPval est une première étape. Bien qu'elle couvre 44 professions et des centaines de tâches, nous continuons à affiner notre approche pour élargir la portée de nos tests et rendre les résultats plus significatifs. La version actuelle de l'évaluation est également en une seule passe, elle ne capture donc pas les cas où un modèle aurait besoin de construire un contexte ou de s'améliorer à travers plusieurs brouillons, par exemple, réviser un mémoire juridique après les commentaires du client ou itérer sur une analyse de données après avoir repéré une anomalie. De plus, dans le monde réel, les tâches ne sont pas toujours clairement définies par une invite et des fichiers de référence; par exemple, un avocat pourrait devoir naviguer dans l'ambiguïté et discuter avec son client avant de décider que la création d'un mémoire juridique est la bonne approche pour les aider. Nous planifions d’élargir GDPval pour inclure davantage de professions, de secteurs et de types de tâches, avec une interactivité accrue et plus de tâches impliquant la gestion de l’ambiguïté, dans le but à long terme de mieux mesurer les progrès dans le travail de connaissances diversifié.

Impliquez-vous

Si vous êtes un expert de l'industrie intéressé à contribuer à GDPval, veuillez manifester votre intérêt ici.
Si vous êtes un client travaillant avec OpenAI et que vous souhaitez contribuer à un futur cycle de GDPval, veuillez exprimer votre intérêt ici.

La participation de la communauté est essentielle—nous sommes ravis de construire GDPval ensemble avec des chercheurs, des praticiens et des organisations qui partagent notre objectif de rendre l'intelligence artificielle générale (AGI) plus utile pour les personnes au travail.

Auteur

OpenAI

Poursuivez votre lecture

Afficher tout

GPT-Red : débloquer l’autoamélioration pour la robustesse

Sécurité15 juill. 2026

Distinguer le signal du bruit dans les évaluations de code

Recherche8 juill. 2026

Présentation de GeneBench-Pro

Recherche30 juin 2026