25 septembre 2025

Mesurer les performances de nos modèles sur des tâches du monde réel

Nous annonçons la disponibilité de GDPval, une nouvelle évaluation permettant de mesurer les performances des modèles sur des tâches à valeur ajoutée réelles, liées à 44 professions.

Lire l’article Accéder à evals.openai.com

Notre mission : veiller à ce que l’intelligence artificielle générale profite à l’ensemble de l’humanité. Et pour la mener à bien, nous devons communiquer en toute transparence sur les progrès des modèles d’IA. C’est précisément l’objectif de GDPval, une nouvelle évaluation permettant de déterminer dans quelle mesure nos modèles et ceux de nos concurrents sont efficaces sur des tâches à valeur ajoutée du monde réel. Si nous l’avons baptisée ainsi, c’est tout simplement car nous avons basé notre réflexion sur la notion du produit intérieur brut (GDP en anglais) et choisi des tâches liées à des professions clés des secteurs qui contribuent le plus à cet indicateur économique.

L’impact global de l’IA sur la société fait encore débat, mais le moyen le plus évident de cerner son potentiel est de s’intéresser aux capacités des modèles existants. L’histoire nous montre que les grandes technologies, d’Internet au smartphone, ont mis plus de 10 ans avant d’être adoptées massivement. Des évaluations comme GDPval contribueront à appuyer les discussions autour des avancées de l’IA sur des données plutôt que des hypothèses, et permettront de suivre les progrès des modèles.

Les évaluations utilisées jusque-là, comme les examens académiques complexes ou les défis de codage, ont joué un rôle clé pour faire avancer les capacités de raisonnement des modèles. Malheureusement, elles sont peu adaptées aux tâches réalisées par de nombreuses personnes dans leur quotidien professionnel.

Pour combler cette lacune, nous avons travaillé sur des évaluations mesurant des capacités toujours plus réalistes et pertinentes sur le plan économique. Cette évolution s’est traduite par le passage d’évaluations académiques classiques comme MMLU (questions d’examen portant sur une douzaine de sujets) à des évaluations plus concrètes, comme SWE-Bench (tâches de correction de bugs relevant de l’ingénierie logicielle), MLE-Bench (tâches d’ingénierie de machine learning comme l’entraînement et l’analyse de modèles) et Paper-Bench (raisonnement scientifique et critique d’articles de recherche). Plus récemment, nous avons proposé des évaluations basées sur le marché, comme SWE-Lancer (projets d’ingénierie logicielle similaires à ceux réalisés par des indépendants, basés sur des missions effectivement réalisées et rémunérées).

GDPval marque une nouvelle étape de cette tendance. Elle mesure les performances des modèles sur des tâches réelles liées au travail de la connaissance pour divers rôles et secteurs, et donne ainsi une image plus nette de l’intérêt de l’IA sur des initiatives à valeur ajoutée. L’évaluation des modèles sur des tâches professionnelles réalistes nous aide à comprendre non seulement leurs performances en environnement contrôlé, mais aussi leur utilité dans le quotidien professionnel.

Ce que mesure GDPval

GDPval, la première version de cette évaluation, porte sur 44 professions sélectionnées parmi les 9 secteurs d’activité qui contribuent le plus au PIB des États-Unis. La suite complète inclut 1 320 tâches spécialisées (220 dans l’ensemble de référence open source), chacune étant pensée avec soin et validée par des professionnels disposant en moyenne de plus de 14 ans d’expérience dans le secteur concerné. Chaque tâche est basée sur des ressources réelles, comme un mémoire judiciaire, un plan d’ingénierie, une conversation de support client ou un plan de soins infirmiers.

GDPval se distingue à la fois par son réalisme et par la diversité des tâches évaluées. GDPval se démarque des évaluations liées à la valeur économique qui se concentrent sur des domaines spécifiques (comme SWE-Lancer) en couvrant de nombreuses tâches et professions. Et contrairement aux évaluations qui impliquent de créer artificiellement des tâches au format examen ou devoir (comme Humanity’s Last Exam ou MMLU), GDPval se concentre sur des livrables qui sont soit des travaux ou produits existants, soit des produits dont la structure leur est similaire.

Enfin, à la différence des évaluations classiques, les tâches de GDPval ne sont pas de simples prompts au format texte. Elles incluent des fichiers de référence et du contexte, et leurs livrables peuvent être des documents, des diapositives, des diagrammes, des feuilles de calcul ou des fichiers multimédias. GDPval montre ainsi de manière bien plus réaliste dans quelle mesure les modèles peuvent aider les professionnels.

Il s’agit d’une première version qui ne reflète pas pleinement les nuances de nombreuses tâches économiques. Elle tient compte de 44 rôles et de centaines de tâches relevant du travail de la connaissance, mais se limite à des évaluations en une passe et ne permet donc pas d’identifier les situations dans lesquelles un modèle aurait besoin de réunir du contexte ou d’améliorer itérativement sa réponse. Les versions à venir intégreront des workflows plus interactifs et des tâches associées à un contexte riche pour mieux refléter toute la complexité du travail de la connaissance (nous détaillons ce point dans la section Limitations ci-dessous).

Méthodologie de sélection des professions

GDPval couvre des tâches de 9 secteurs et 44 professions, et ses futures versions iront encore plus loin. Nous avons choisi ces 9 secteurs parmi ceux qui contribuent à plus de 5 % du PIB des États-Unis, tel qu’indiqué par la Federal Reserve Bank of St. Louis. Ensuite, nous avons choisi dans chacun de ces secteurs 5 professions qui représentent le cumul de salaires et rémunérations le plus élevé et qui relèvent majoritairement du travail de la connaissance. Pour les identifier, nous nous sommes appuyés sur les données de l’édition de mai 2024 du rapport sur l’emploi du Bureau of Labor Statistics (BLS) des États-Unis.⁠(ouverture dans une nouvelle fenêtre) Pour déterminer si les professions choisies relevaient principalement du travail de la connaissance, nous avons tiré parti des données de tâche d’O*NET⁠(ouverture dans une nouvelle fenêtre), une base de données d’informations sur l’emploi aux États-Unis alimentée par le Département du Travail. Nous avons classé chaque tâche de chaque profession référencée dans O*NET comme travail de la connaissance ou travail manuel (nécessitant des actions dans le monde physique). Une profession est qualifiée comme « relevant majoritairement du travail de la connaissance » si au moins 60 % de ses tâches n’impliquent pas d’activité physique ou manuelle. Ce seuil est un point de départ pour cette première version. Nous avons ainsi voulu nous concentrer sur les professionnels sur lesquels l’IA pourrait avoir l’impact le plus fort en matière de productivité.

Ce processus a abouti à la sélection de 44 professions.

Immobilier, location et gestion locative

Réceptionnistes
Syndics de copropriété
Négociateurs immobiliers
Agents immobiliers
Agents de location

Pouvoirs publics

Animateurs de loisirs
Chargés de conformité
Officiers de police
Responsables administratifs
Travailleurs sociaux

Industrie manufacturière

Ingénieurs en mécanique
Ingénieurs en procédés industriels
Acheteurs
Agents logistiques
Responsables d’atelier

Services professionnels, scientifiques et techniques

Développeurs de logiciels
Avocats
Comptables et auditeurs
Responsables de l’informatique et des systèmes d’information
Chefs de projet

Santé et assistance sociale

Infirmiers
Infirmiers en pratique avancée
Responsables de services médicaux
Encadrants administratifs
Secrétaires médicaux et assistants administratifs

Finance et assurance

Conseillers clientèle
Analystes financiers et en investissement
Directeurs financiers
Conseillers en gestion de patrimoine
Conseillers en produits financiers et boursiers

Commerce de détail

Pharmaciens
Responsables de rayon
Directeurs de magasin
Détectives privés

Vente en gros

Responsables des ventes
Gestionnaires de commandes
Chefs d’équipe commerciale
Représentants commerciaux B2B, hors produits techniques et scientifiques
Représentants commerciaux B2B, produits techniques et scientifiques

Informations

Techniciens audio et vidéo
Producteurs et réalisateurs
Analystes, reporters et journalistes
Monteurs audiovisuels
Éditeurs

GDPval porte sur 44 professions dans 9 secteurs, des développeurs aux avocats, en passant par les infirmiers et les ingénieurs en mécanique. Ces professions ont été sélectionnées pour leur importance économique et dont le quotidien inclut des tâches pour lesquelles l’IA peut apporter une aide efficace.

Création de l’ensemble de données

Pour chaque profession, nous avons travaillé avec des professionnels expérimentés afin de créer des tâches représentatives de leur quotidien. En moyenne, ces professionnels totalisaient 14 ans d’expérience et avait fortement progressé dans leur carrière. Nous avons volontairement recruté une large palette d’experts, par exemple des avocats spécialisés dans différents domaines et provenant de cabinets de tailles diverses, pour obtenir une représentativité maximale.

Chaque tâche a fait l’objet d’une vérification en plusieurs étapes pour garantir qu’elle est bien représentative d’une tâche concrète, réalisable par un professionnel et clairement évaluable. En moyenne, chaque tâche a été étudiée à 5 reprises par des experts, avec notamment des contrôles effectués par les préparateurs d’autres tâches, des vérificateurs professionnels supplémentaires et une validation par un modèle.

Il en a résulté 30 tâches pleinement vérifiées par profession (ensemble complet), et 5 tâches par profession pour notre ensemble open source de référence. Nous disposons ainsi d’une base solide pour évaluer les performances des modèles sur des tâches réelles.

Exemples de tâches de GDPval

Prompt + contexte de la tâche

This is June 2025 and you are a Manufacturing Engineer, in an automobile assembly line. The product is a cable spooling truck for underground mining operations, and you are reviewing the final testing step. In the final testing step, a big spool of cable needs to be reeled in and reeled out 2 times, to ensure the cable spooling works as per requirement. The current operation requires 2 persons to work on this test. The first person needs to bring and position the spool near the test unit, the second person will connect the open end of the cable spool to the test unit and start the reel in step. While the cable is being unreeled from the spool, and onto the truck, the first person will need to rotate the spool in order to facilitate the unreeling. When the cable is fully reeled onto the truck, the next step is to perform the operation in reverse order, so the cable gets reeled out of the truck and back onto its own reel. This test is done another time to ensure functionality. This task is complicated, has associated risks, requires high labor and makes the work area cluttered. Your manager has requested you to develop a jig/fixture to simplify reel in and reel out of the cable reel spool, so the test can be done by one person. Attached to this request is an information document which provides basic details about the cable reel drum size, information to design the cable reel spooling jig and to structure the deliverable. The deliverable for this task will be a preliminary concept design only. Separate tasks will be done to calculate design foundations such as stress, strength, cost benefit analysis, etc. Design a jig using 3d modelling software and create a presentation using Microsoft PowerPoint. As part of the deliverable, upload only a pdf document summarizing the design, using snapshots of the 3d design created. The 3d design file is not required for submission.

Cable reel project requirements.pdf

Résultat d’un humain expérimenté

Chaque tâche de GDPval a été créée par un professionnel expérimenté et correspond à un travail de la connaissance réel réalisé dans son métier. Le prompt est une demande d’exécution d’une tâche réaliste, créée par un expert du domaine, et le livrable de référence est la solution proposée par l’expert.

Notation des performances des modèles

Pour évaluer les performances des modèles sur les tâches de GDPval, nous faisons appel à des évaluateurs experts, à savoir des professionnels expérimentés occupant les professions représentées dans le jeu de données. Ces évaluateurs comparent les livrables générés par l’IA à ceux créés par les préparateurs des tâches, sans savoir qui a produit quoi, puis les critiquent et les classent. Ils indiquent ensuite pour chaque livrable généré par l’IA s’il est supérieur, équivalent ou inférieur aux autres.

Les préparateurs des tâches ont par ailleurs créé des barèmes détaillés pour chaque profession afin d’améliorer la cohérence et la transparence de la notation. En parallèle, nous avons développé un évaluateur automatisé, un système d’IA entraîné pour estimer comment des experts humains jugeraient un livrable. En d’autres termes, ce système évite de faire appel à des experts pour chaque évaluation et permet de prédire rapidement la sortie qui serait préférée. Nous mettons cet outil à disposition du public sur evals.openai.com en qualité d’outil de recherche expérimental. Il n’est pas encore aussi fiable que des évaluateurs professionnels, et nous ne l’utilisons donc pas pour les remplacer.

Premiers résultats

Nous avons constaté que les modèles les plus avancés actuels s’approchaient déjà de la qualité produite par les experts humains. Nous sommes arrivés à cette conclusion en demandant à des experts de comparer à l’aveugle des livrables générés par divers modèles populaires, comme GPT‑4o, OpenAI o4-mini, OpenAI o3, GPT‑5, Claude Opus 4.1, Gemini 2.5 Pro et Grok 4, à ceux produits par des humains. Nous avons enregistré les cas dans lesquels les sorties des modèles ont été jugées supérieures (« victoires ») ou équivalentes (« égalités ») aux livrables des experts pour les 220 tâches de l’ensemble de référence de GDPval. Nos résultats sont illustrés dans le graphique ci-dessous. Claude Opus 4.1 s’est montré le plus performant, avec un score particulièrement élevé sur l’aspect cosmétique ( mise en forme des documents et des diapositives, par exemple). GPT‑5 s’est quant à lui montré particulièrement efficace en matière de précision (recherche de connaissances spécifiques au secteur évalué). Nous avons également constaté une nette progression sur ces tâches. Les performances ont plus que doublé entre GPT‑4o (disponible depuis le printemps 2024) et GPT‑5 (disponible depuis l’été 2025), avec une évolution linéaire.

De plus, nous avons noté que les modèles avancés sont capables d’exécuter les tâches de GDPval environ 100 fois plus rapidement et pour 100 fois moins cher que les experts. Toutefois, ces chiffres sont uniquement basés sur le temps d’inférence des modèles et le tarif de facturation des API. Ils ne tiennent donc pas compte de la supervision humaine, des itérations et des étapes d’intégration nécessaires à l’utilisation des modèles dans un environnement professionnel. Pour autant, et en particulier sur les tâches pour lesquelles les modèles se montrent particulièrement efficaces, nous estimons que confier une tâche à un modèle avant de la proposer à un humain permettrait à la fois de gagner du temps et d’économiser de l’argent.

Des évaluateurs experts ont comparé les livrables des modèles les plus avancé à ceux d’experts humains. Les modèles les plus avancés actuels approchent déjà de la qualité produite par les experts humains. Claude Opus 4.1 a généré des sorties jugées équivalentes ou supérieures à celles des humains dans un peu moins de la moitié des cas.

En un an, avec le passage de GPT‑4o à GPT‑5, la performance sur les tâches de GDPval a triplé.

Enfin, nous avons entraîné de manière incrémentielle une version interne et expérimentale de GPT‑5 pour déterminer si nous pouvions améliorer les performances sur cette évaluation. Nous y sommes effectivement parvenus, ce qui ouvre la voie à de nouvelles améliorations potentielles. D’autres expériences avec des paramètres contrôlés confirment ce potentiel : l’augmentation de la taille du modèle, la favorisation d’un nombre supérieur d’étapes de raisonnement et l’attribution de contexte supplémentaire sur la tâche ont chacune donné des gains mesurables.

Le détail de nos résultats est présenté dans notre étude. Nous avons également publié un sous-ensemble de référence des tâches de GDPval, ainsi qu’un service de notation public pour permettre à d’autres chercheurs de s’emparer de ces travaux.

L’avenir du travail et de l’IA

La montée en compétence de l’IA va certainement changer le marché du travail. Les premiers résultats de GDPval montrent que les modèles sont déjà capables de prendre en charge certaines tâches répétitives et bien cadrées plus rapidement et pour moins cher que des experts. Pour autant, la plupart des emplois ne se résument pas à une liste de tâches pouvant être décrites dans un document. GDPval met en lumière les situations dans lesquelles l’IA peut se charger de tâches routinières et permettre ainsi aux collaborateurs humains de passer davantage de temps sur les questions demandant plus de créativité et d’exercice du jugement. L’augmentation de l’humain par l’IA peut générer une croissance économique importante. Notre objectif est de faire en sorte que tout le monde puisse prendre l’ascenseur de l’IA en démocratisant l’accès à ces outils, en accompagnant les travailleurs au fil des changements et en créant des systèmes qui encouragent la contribution du plus grand nombre.

Limites et évolutions prévues

GDPval ne constitue qu’une première étape. Elle couvre déjà 44 professions et des centaines de tâches, mais nous continuons à affiner notre approche pour étendre la portée de nos tests et rendre ses résultats plus significatifs. Par ailleurs, la version actuelle de l’évaluation repose sur une stratégie en une passe et ne couvre donc pas les cas dans lesquels un modèle aurait besoin de réunir du contexte ou d’améliorer sa sortie par itération, par exemple pour reprendre un mémoire judiciaire après réception des commentaires du client ou relancer une analyse de données après la détection d’une anomalie. De plus, dans le monde réel, les tâches ne sont pas toujours définies clairement par un prompt et des fichiers de référence. Par exemple, un avocat peut devoir lever une ambiguïté en échangeant avec son client avant de décider que la création d’un mémoire judiciaire est la solution appropriée à son cas. Nous prévoyons d’inclure plus de professions, de secteurs et de types de tâches dans GDPval, ainsi que de renforcer son interactivité. Nous ajouteront plus de tâches en lien avec l’ambiguïté, avec l’objectif à long terme de mieux évaluer les progrès sur diverses tâches liées au travail de la connaissance.

Contribuez

Si vous êtes un expert de votre secteur et souhaitez contribuer à GDPval, n’hésitez pas à remplir ce formulaire.
Si vous travaillez avec OpenAI et souhaitez contribuer à l’évolution de GDPval, remplissez ce formulaire.

La participation de la communauté est essentielle. Nous avons hâte de poursuivre nos travaux sur GDPval avec des chercheurs, professionnels et entreprises qui partagent notre objectif, à savoir de rendre l’AGI plus utile dans le contexte professionnel.

Auteur

OpenAI

Poursuivez votre lecture

Tout afficher

GPT-Red: Unlocking Self-Improvement for Robustness

Sécurité15 juil. 2026

Distinguer le signal du bruit dans les évaluations de code

Recherches8 juil. 2026

Présentation de GeneBench-Pro

Recherches30 juin 2026