19 novembre 2025

Comment les évaluations ouvrent un nouveau chapitre de l'IA en entreprise

Ce guide d'introduction montre aux dirigeants d'entreprise comment les protocoles d'évaluation transforment des objectifs métier en résultats cohérents.

Chargement...

Plus d'un million d'entreprises⁠ dans le monde s'appuient sur l'IA pour gagner en efficacité et créer de la valeur. Mais certaines peinent à obtenir les résultats escomptés. D'où vient cet écart ?

Chez OpenAI, nous utilisons l'IA en interne pour atteindre nos objectifs ambitieux. Parmi les principaux outils que nous utilisons figurent les évaluations, des méthodes permettant de mesurer et d'améliorer la capacité d'un système d'IA à répondre aux attentes.

À l'instar d'un cahier des charges produit bien défini, les évaluations rendent des objectifs flous et des idées abstraites spécifiques et explicites. Utilisées de manière stratégique, les évaluations peuvent rendre un produit orienté client ou un outil interne plus fiable à grande échelle, réduire les erreurs les plus graves, se prémunir contre les risques de sous-performance et offrir à l'organisation une trajectoire mesurable vers un meilleur retour sur investissement (ROI).

Chez OpenAI, nos modèles sont nos produits ; nos chercheurs s'appuient donc sur des évaluations de pointe⁠(ouverture dans une nouvelle fenêtre) rigoureuses ¹ pour mesurer leurs performances dans différents domaines. Si ces évaluations de pointe nous aident à livrer plus rapidement de meilleurs modèles, elles ne permettent pas de capturer toutes les nuances nécessaires pour garantir les performances du modèle sur un flux de travail spécifique dans un contexte métier donné. C'est pourquoi nos équipes internes ont également créé des dizaines d'évaluations contextuelles conçues pour évaluer les performances dans le cadre d'un produit ou d'un flux de travail interne spécifique. C'est aussi pourquoi les dirigeants devraient apprendre à concevoir des évaluations contextuelles adaptées aux besoins et à l'environnement opérationnel de leur organisation.

Ce guide s'adresse aux dirigeants qui souhaitent mettre en place des évaluations au sein de leur organisation. Les évaluations contextuelles, chacune élaborée pour le flux de travail ou le produit d'une organisation donnée, constituent un domaine en plein développement et des processus définitifs restent à établir. Par conséquent, cet article propose un cadre général qui a fait ses preuves dans de nombreux cas de figure. Nous nous attendons à ce que ce domaine évolue et que de nouveaux cadres apparaissent, adaptés à des contextes et objectifs métier spécifiques. Par exemple, un excellent cadre d'évaluation pour un produit grand public innovant intégrant l'IA pourra nécessiter un processus différent de celui d'une évaluation conçue pour une automatisation interne fondée sur une procédure opérationnelle standard. Nous pensons que le cadre présenté ci-dessous servira de recueil de bonnes pratiques dans les deux cas et constituera un guide utile pour construire des évaluations adaptées aux besoins de votre organisation.

Fonctionnement des évaluations : Définir → Mesurer → Améliorer

Schéma intitulé « Eval Blog » montrant un enchaînement de composants et de processus d'évaluation, sur un fond clair avec des blocs colorés et des flèches représentant la logique d'évaluation des modèles.

1. Définir : préciser ce que signifie « excellent »

Commencez par une petite équipe autonome capable de formuler clairement l'objectif de votre système d'IA, par exemple : « Convertir les e-mails entrants qualifiés en démos planifiées, tout en respectant notre identité de marque. »

Cette équipe doit réunir des personnes disposant à la fois de compétences techniques et d'une expertise métier (dans l'exemple ci-dessus, il est essentiel d'intégrer des spécialistes des ventes). Elle doit être en mesure de définir les principaux résultats à mesurer, de décrire le flux de travail de bout en bout et d'identifier chaque point de décision important auquel votre système d'IA sera confronté. Pour chaque étape de ce flux, l'équipe doit définir à quoi ressemble la réussite et ce qu'il faut éviter. Ce processus permet de créer une correspondance entre des dizaines d'exemples d'entrées (comme des e-mails entrants) et les sorties que l'on souhaite voir produire par le système. L'ensemble d'exemples de référence ainsi obtenu doit constituer une base évolutive et incontournable, reflétant le jugement de vos meilleurs experts sur ce que signifie un résultat « excellent ».

Ne vous laissez pas submerger par une page blanche et n'essayez pas de tout résoudre d'un seul coup. Le processus est itératif et parfois chaotique. Des prototypes précoces peuvent vous aider énormément. Passer en revue 50 à 100 résultats d'une première version du système permet de comprendre comment et à quel moment il se trompe. Cette « analyse d'erreurs » aboutira à une taxonomie des différents types d'erreurs (et de leur fréquence) à suivre au fur et à mesure que votre système progresse.

Ce processus n'est pas uniquement technique : il est transversal et centré sur la définition des objectifs métier et des processus souhaités. Il ne faut pas demander aux équipes techniques, isolément, de définir ce qui sert le mieux les clients ou les besoins des autres équipes, comme le produit, les ventes ou les RH. Par conséquent, les experts métier, les responsables techniques et les autres parties prenantes clés doivent partager la responsabilité du dispositif.

2. Mesurer : tester dans des conditions réelles

L'étape suivante consiste à mesurer.L'objectif de la mesure est de faire ressortir de manière fiable des exemples concrets montrant comment et à quel moment le système échoue.Pour cela, créez un environnement de test dédié qui reflète au plus près les conditions réelles, et pas seulement une démo ou un bac à sable de prompts.Évaluez les performances à partir de votre jeu de référence et de votre analyse d'erreurs, en reproduisant les mêmes contraintes et cas limites que ceux auxquels le système sera réellement confronté.

Des grilles d'évaluation peuvent aider à objectiver l'analyse des résultats, mais il est possible de trop se focaliser sur des critères superficiels au détriment de vos objectifs globaux. De plus, certaines qualités sont difficiles, voire impossibles, à mesurer. Dans certains cas, les indicateurs métier classiques joueront un rôle clé. Dans d'autres, il vous faudra inventer de nouveaux indicateurs. Associez en permanence vos experts métier et veillez à aligner étroitement le processus sur vos objectifs prioritaires.

Pour tester réellement le système, utilisez autant que possible des exemples issus de situations réelles et incluez (ou inventez) des cas limites rares mais coûteux en cas de mauvaise gestion.

Certains cadres d'évaluation peuvent être mis à l'échelle grâce à un « évaluateur LLM » (LLM grader), un modèle d'IA qui évalue les résultats comme le ferait un expert ; toutefois, un contrôle humain reste indispensable. Votre expert métier doit vérifier régulièrement la précision de ces évaluateurs LLM et examiner directement les journaux d'activité de votre système.

Les évaluations peuvent vous aider à décider quand un système est prêt à être lancé, mais le travail ne s'arrête pas au lancement. Vous devez mesurer en continu la qualité des résultats réellement produits par votre système à partir de données issues de situations réelles. Comme pour tout produit, les signaux provenant de vos utilisateurs finaux (externes ou internes) sont particulièrement importants et doivent être intégrés à votre cadre d'évaluation.

3. Améliorer : tirer parti des erreurs

La dernière étape consiste à mettre en place un processus d'amélioration continue. La résolution des problèmes mis au jour par vos évaluations peut prendre de nombreuses formes : affiner les prompts, ajuster l'accès aux données, mettre à jour le cadre d'évaluation lui-même pour mieux refléter vos objectifs, etc. Au fur et à mesure que vous découvrez de nouveaux types d'erreurs, intégrez-les à votre analyse d'erreurs et traitez-les. Chaque itération s'appuie sur la précédente : de nouveaux critères et des attentes plus claires vis-à-vis du comportement du système permettent de faire émerger de nouveaux cas limites et des problèmes subtils et persistants à corriger.

Pour soutenir cette boucle d'itération, mettez en place une boucle de données (data flywheel). Journalisez les entrées, les sorties et les résultats ; échantillonnez ces journaux à intervalles réguliers et orientez automatiquement les cas ambigus ou coûteux vers un examen par des experts. Ajoutez ces jugements d'experts à votre cadre d'évaluation et à votre analyse d'erreurs, puis utilisez-les pour mettre à jour vos prompts, vos outils ou vos modèles. Grâce à cette boucle, vous définirez plus clairement vos attentes vis-à-vis du système, l'alignerez plus finement sur ces attentes et identifierez d'autres résultats et indicateurs pertinents à suivre. Déployé à grande échelle, ce processus produit un vaste jeu de données contextualisé, différencié et difficile à reproduire : un actif précieux que votre organisation pourra exploiter pour bâtir le meilleur produit ou processus sur votre marché.

Même si les évaluations offrent un moyen structuré d'améliorer votre système d'IA, de nouveaux modes de défaillance peuvent apparaître. En pratique, à mesure que les modèles, les données et les objectifs métier évoluent, vos évaluations doivent elles aussi être continuellement maintenues, enrichies et soumises à des tests de résistance.

Pour les déploiements client, les évaluations ne remplacent pas les tests A/B traditionnels ni l'expérimentation produit. Elles complètent ces démarches et peuvent s'éclairer mutuellement, tout en donnant de la visibilité sur l'impact réel de vos changements sur les performances en situation réelle.

Ce que les évaluations impliquent pour les dirigeants

Chaque grande transition technologique redéfinit l'excellence opérationnelle et les avantages concurrentiels. Des cadres comme les OKR et les KPI ont aidé les organisations à se structurer autour de la « mesure de ce qui compte » à l'ère de l'analyse big data. Les évaluations sont le prolongement naturel de cette démarche de mesure à l'ère de l'IA.

Travailler avec des systèmes probabilistes exige de nouveaux types de mesures et une réflexion plus poussée sur les arbitrages. Les dirigeants doivent décider quand la précision est essentielle, quand une certaine flexibilité est possible, et comment équilibrer vitesse et fiabilité.

Les évaluations sont difficiles à mettre en place pour la même raison qu'il est difficile de concevoir d'excellents produits : elles exigent de la rigueur, une vision claire et un sens affûté de la qualité. Bien conçues, les évaluations deviennent des éléments de différenciation uniques. Dans un monde où l'information circule librement et où l'expertise se démocratise, votre avantage dépend de la capacité de vos systèmes à fonctionner efficacement dans votre contexte propre. Des évaluations robustes génèrent des avantages cumulatifs et un savoir-faire institutionnel à mesure que vos systèmes s'améliorent.

Au fond, les évaluations reposent sur une compréhension profonde du contexte métier et des objectifs. Si vous ne pouvez pas définir ce que signifie « excellent » pour votre cas d'usage, vous avez peu de chances d'y parvenir. En ce sens, les évaluations mettent en lumière une leçon clé de l'ère de l'IA : les compétences managériales sont aussi des compétences en IA. Des objectifs clairs, des retours directs, un jugement éclairé et une bonne compréhension de votre proposition de valeur, de votre stratégie et de vos processus restent essentiels, peut-être plus que jamais.

À mesure que de nouvelles bonnes pratiques et de nouveaux cadres verront le jour, nous les partagerons. D'ici là, nous vous encourageons à expérimenter les évaluations et à identifier les processus qui fonctionnent le mieux pour vos besoins. Pour démarrer, identifiez le problème à résoudre et votre expert métier, réunissez une petite équipe et, si vous construisez sur notre API, explorez la documentation de notre plateforme⁠(ouverture dans une nouvelle fenêtre).

N'attendez pas que l'« excellent » se matérialise. Définissez-le, mesurez-le et progressez vers cet objectif.

2025

Auteur

OpenAI

Notes de bas de page

1
Si vous souhaitez soutenir notre travail sur la prochaine génération de modèles d'IA, nous vous invitons à contribuer à GDPVal⁠, notre dernier référentiel d'évaluation des performances des modèles d'IA sur des tâches réelles. Si vous êtes un expert du secteur et souhaitez contribuer à GDPval, vous pouvez manifester votre intérêt ici⁠. Si vous êtes client d'OpenAI et que vous souhaitez participer à une prochaine phase de GDPval, vous pouvez également manifester votre intérêt ici⁠.

Poursuivez votre lecture

Tout afficher

Distinguer le signal du bruit dans les évaluations de code

Recherches8 juil. 2026

Présentation de GeneBench-Pro

Recherches30 juin 2026

A near-autonomous AI chemist improves a challenging reaction

Un chimiste IA quasi autonome améliore une réaction difficile en chimie médicinale

Recherches17 juin 2026