Passer au contenu principal
OpenAI

19 novembre 2025

Sécurité

Renforcer notre écosystème de sécurité grâce à des tests externes

Notre approche des évaluations par des tiers pour une IA de pointe.

Chargement...

Chez OpenAI, nous pensons que les évaluations par des tiers indépendants et de confiance jouent un rôle essentiel dans le renforcement de l’écosystème de sécurité d’une IA de pointe. Les évaluations par des tiers sont des évaluations menées sur des modèles de pointe pour confirmer ou fournir des preuves supplémentaires aux affirmations concernant des mesures essentielles en matière de sécurité et d’atténuation. Ces évaluations aident à valider les affirmations en matière de sécurité, à se protéger contre les zones d’ombre et à accroître la transparence concernant les capacités et les risques. En invitant des experts externes à tester nos modèles de pointe, nous souhaitons également renforcer la confiance dans la pertinence de nos évaluations des capacités et des mesures de sécurité, et contribuer à améliorer l’écosystème de sécurité dans son ensemble.

Depuis le lancement de GPT‑4, OpenAI a collaboré avec divers partenaires externes pour tester et évaluer nos modèles. D’une manière générale, nos collaborations avec des tiers prennent trois formes :

  • des évaluations indépendantes des principaux domaines de capacités et de risques tels que la biosécurité, la cybersécurité, l’auto-amélioration de l’IA et la planification stratégique ;
  • des examens méthodologiques qui évaluent la façon dont nous évaluons et interprétons les risques ;
  • l’évaluation par des experts en la matière (SME), dans le cadre de laquelle des experts évaluent le modèle directement via des tâches SME réelles et apportent une contribution structurée à notre évaluation de ses capacités et des mesures de sécurité associées.[[fn :1]]

Ce blog explique comment nous utilisons chacune de ces formes d’évaluation externe, pourquoi elles sont importantes, comment elles influencent les décisions de déploiement, et les principes que nous appliquons pour structurer ces collaborations. Dans un esprit de transparence, nous vous informons également sur les conditions de confidentialité et de publication qui régissent nos collaborations avec des testeurs tiers. 

Pourquoi est-ce important ? 

Les évaluateurs tiers ajoutent une couche d’évaluation indépendante à notre travail interne, renforçant ainsi la rigueur et fournissant des protections supplémentaires contre l’auto-confirmation. Leur contribution apporte des preuves supplémentaires à nos propres évaluations, ce qui nous permet de prendre des décisions de déploiement responsables pour les systèmes puissants.

Nous considérons également que les évaluations par des tiers font partie de la construction d’un écosystème de sécurité résilient. Nos équipes réalisent des tests internes approfondis dans les domaines des capacités et des risques, mais les organisations indépendantes apportent des perspectives et des approches méthodologiques supplémentaires. Nous nous efforçons de travailler avec un groupe diversifié d’organismes d’évaluation qualifiés qui évaluent régulièrement les modèles de pointe à nos côtés.

Enfin, nous souhaitons faire preuve de transparence quant à la manière dont ces contributions permettent de façonner notre processus de sécurité. Nous rendons régulièrement publiques les évaluations de tiers, en incluant par exemple des résumés des évaluations préalables au déploiement dans les fiches système, et en encourageant les organisations évaluatrices à publier des travaux plus détaillés après un examen de confidentialité et d’exactitude. Une telle transparence permet d’instaurer la confiance en montrant comment les contributions externes influencent les évaluations de nos capacités et de nos mesures de protection. 

Des relations durables fondées sur la confiance, la transparence et le partage des connaissances permettent à l’ensemble de l’écosystème de garder une longueur d’avance sur les risques émergents et de favoriser des évaluations adaptables et exploitables, nécessaires au renforcement des normes et à une gouvernance plus éclairée des systèmes d’IA de pointe.

Évaluations indépendantes effectuées par des laboratoires externes

Depuis le lancement de GPT‑4(ouverture dans une nouvelle fenêtre), nous avons encouragé des évaluations indépendantes sur les premiers points de contrôle des modèles avant leur déploiement. Depuis lors, nous avons élargi notre collaboration avec diverses organisations tiers qui possèdent une expertise approfondie en matière d’évaluation des capacités et des domaines de risque clés. Nous définissons les travaux de laboratoire indépendants comme des tests ouverts où des équipes externes appliquent leurs propres méthodes pour formuler une affirmation ou une évaluation concernant une capacité particulière. 

À titre d’exemple, pour la GPT‑5 OpenAI a coordonné un large éventail d’évaluations externes des capacités dans des domaines de risque clés tels que l’autonomie, la manipulation, la tromperie et la subversion de la surveillance à long terme, la faisabilité de la planification en laboratoire et les évaluations de la cybersécurité offensive.  

Ces évaluations indépendantes complètent les évaluations menées conformément au Cadre de préparation d’OpenAI et incluent des critères tels que l’évaluation de l’horizon temporel(ouverture dans une nouvelle fenêtre) METR ou l’évaluation des capacités virologiques (VCT)(ouverture dans une nouvelle fenêtre) de SecureBio. 

Pour soutenir ces évaluations, nous avons fourni un accès sécurisé aux premiers points de contrôle des modèles, à certains résultats d’évaluation pour concrétiser les améliorations de capacité que nous constatons, à la conservation des données zero-party lorsque cela est nécessaire, et à des modèles avec moins de mesures d’atténuation. Par exemple, les organisations qui effectuent des tests dans les domaines de la cybersécurité et de la biosécurité ont testé des modèles avec et sans mesures d’atténuation de la sécurité afin de sonder les capacités sous-jacentes. D’autres organisations ont obtenu un accès direct à la chaîne de pensée pour leur permettre d’inspecter les étapes de raisonnement du modèle. Cette étape de transparence accrue a permis aux évaluateurs d’identifier des cas de manipulation2 ou de comportement manipulateurs qui n’auraient pu être discernés qu’en lisant la chaîne de pensée. L’accès a été assuré en mettant en place des contrôles de sécurité, et nous continuons à mettre à jour ces contrôles à mesure que les capacités du modèle et les besoins de test évoluent.

Examen de la méthodologie

Dans certains contextes, les évaluateurs externes sont bien placés pour procéder à un examen méthodologique, apportant des perspectives supplémentaires aux cadres et aux éléments probants sur lesquels les laboratoires de pointe s’appuient pour évaluer les risques. Par exemple, lors du lancement de gpt-oss, nous avons utilisé la mise au point contradictoire pour estimer les capacités les plus défavorables pour les modèles open weight, comme décrit dans l’estimation des risques dans les pires scénarios pour les LLM open weight. La question centrale en matière de sécurité était de savoir si un acteur malveillant pouvait affiner le modèle pour atteindre une capacité avancée dans des domaines tels que la biologie ou la cybernétique, conformément au Cadre de préparation. Étant donné que cela nécessitait un réglage fin et contradictoire à forte intensité de ressources, nous avons invité des évaluateurs tiers à examiner et à formuler des recommandations sur nos méthodes et résultats internes, plutôt que d’effectuer des travaux redondants.

Ce processus s’est étalé sur plusieurs semaines et a consisté à partager des évaluations, des informations sur les réglages fins et contradictoires, et de la collecte de recommandations structurées sur l’amélioration de la méthodologie et des évaluations des risques dans les pires scénarios. Les commentaires des évaluateurs ont conduit à des modifications du processus final de réglage fin et contradictoire, et ont démontré la valeur de la confirmation méthodologique. Nous avons noté les éléments adoptés dans le document et dans la fiche système pour gpt-oss, et nous avons fourni des justifications pour ceux que nous n’avons pas adoptés.

Dans ce cas, l’examen méthodologique était plus approprié que les évaluations indépendantes : les évaluations impliquaient la réalisation d’expériences à grande échelle, dans les pires scénarios, ce qui nécessite une infrastructure et une expertise technique qui n’est généralement pas disponible en dehors des grands laboratoires d’IA. Cela signifie que les évaluations indépendantes n’auraient probablement pas été en mesure de fournir directement des informations sur les pires scénarios, et qu’il était plus productif de demander aux évaluateurs externes de se concentrer sur la confirmation des affirmations. Des évaluateurs externes ont examiné les méthodes et les preuves(ouverture dans une nouvelle fenêtre), mettant en évidence les lacunes pertinentes pour la prise de décision qui ont été traitées dans le cadre de la boucle de réotraction des recommandations. Nous espérons étendre cette approche à d’autres domaines dans lesquels les besoins d’accès ou d’infrastructure empêchent un tiers de mener directement les évaluations lui-même, ou lorsqu’il n’existe pas encore d’évaluations externes. 

Questions des experts en la matière (SME)

Une autre façon d’impliquer des experts externes est de faire appel à des experts en la matière (SME), qui évaluent directement le modèle et fournissent des informations structurées par le biais d’enquêtes sur l’évaluation de ses capacités. Cela diffère des équipes rouges, qui ont pour but de mettre à l’épreuve des mesures de sécurité spécifiques. Cela nous permet de compléter les évaluations du Cadre de Préparation par des informations spécifiques à un domaine qui reflètent le jugement des experts et un contexte réel que les évaluations statiques ne peuvent pas saisir à elles seules. Par exemple, nous avons invité un panel d’experts en la matière à utiliser un modèle utile pour essayer leurs propres scénarios biologiques de bout en bout pour l’agent ChatGPT et GPT‑5. Ils ont évalué dans quelle mesure le modèle pouvait améliorer les performances d’un expert par rapport à un novice moins expérimenté, en fonction de l’utilité des conseils fournis dans leurs scénarios.  L’objectif était de recueillir des informations supplémentaires sur la capacité du système à rapprocher matériellement un novice motivé d’une exécution compétente : les SME ont soumis à l’épreuve nos affirmations concernant l’« amélioration des performances novices » dans le cadre de flux de travail réalistes conçus par leurs soins et ont fourni des commentaires détaillés sur les points où le modèle offrait une aide matérielle, étape par étape, par rapport à des résumés moins utiles. Cet exercice a été inclus dans l’évaluation globale pour le déploiement de ces modèles et a été partagé dans les fiches système pour les deux lancements. 

Qu’est-ce qui fait le succès d’une collaboration d’évaluation par un tiers ?

Dans un souci de transparence, nous partageons plus d’informations sur ce à quoi les évaluateurs tiers s’engagent lorsqu’ils collaborent avec nous, ainsi que sur les principes qui guident nos collaborations :

  • Transparence et respect de la confidentialité : les évaluateurs tiers signent des accords de non-divulgation permettant le partage d’informations confidentielles et non publiques afin d’étayer leurs évaluations. Dans l’annexe de cet article, nous incluons des extraits pertinents de contrats avec des évaluateurs tiers qui définissent les droits relatifs à la publication et les attentes en matière d’examen. Nous appliquons le principe de transparence et nous nous efforçons de permettre des publications qui favorisent la compréhension de la sécurité et des évaluations connexes sans compromettre les informations confidentielles ou la propriété intellectuelle. Dans ce cadre, nous examinons et approuvons les publications issues d’évaluations de tiers pour garantir la confidentialité et l’exactitude factuelle. Au cours des dernières années, plusieurs évaluateurs tiers ont publié leurs travaux parallèlement à notre publication de résumés d’évaluation dans les fiches système. Voici quelques exemples de travaux qui ont été publiés après vérification de la confidentialité et de l’exactitude :  [rapport METR GPT‑5 (ouverture dans une nouvelle fenêtre), rapport Apollo Research sur OpenAI o1(ouverture dans une nouvelle fenêtre), évaluation irrégulière GPT‑5(ouverture dans une nouvelle fenêtre)
  • Divulgation réfléchie d’informations et accès sécurisé et sensible : par défaut, nous fournissons des informations et un accès aux modèles destinés à être rendus publics ou prêts à être déployés en production. Lorsque les évaluations le nécessitent, nous fournissons un accès plus approfondi, par exemple à des modèles utiles ou à des informations non publiques. OpenAI fournit ces formes d’accès lorsque cela est nécessaire pour des questions de sécurité essentielles pour les évaluateurs tiers. Il est important de noter que ces types d’accès sensibles nécessitent des mesures de sécurité strictes, et nous continuons à mettre à jour ces contrôles à mesure que les capacités du modèle et les besoins de test évoluent.
  • Incitations financières équilibrées : nous pensons qu’il est important de veiller à ce que l’écosystème d’évaluation par des tiers soit bien financé et durable. Pour cette raison, nous offrons une compensation à tous nos évaluateurs tiers, et certains choisissent de la refuser en fonction de la philosophie de leur organisation à cet égard. Les formes de rémunération comprennent le paiement direct pour le travail accompli et/ou la subvention des coûts d’utilisation du modèle par le biais de crédits API ou autres. Aucun paiement n’est jamais conditionné aux résultats d’une évaluation par un tiers.

Ensemble, ces facteurs permettent aux évaluations réalisées par des tiers de protéger les informations sensibles et de favoriser la transparence en matière de sécurité de l’IA, tout en créant des possibilités de rémunération pour le temps consacré par les évaluateurs tiers. 

Perspectives d’avenir

Pour l’avenir, nous estimons qu’il est nécessaire de continuer à renforcer l’écosystème des organisations capables de réaliser des évaluations crédibles et pertinentes pour la prise de décision concernant les systèmes d’IA de pointe. Une évaluation efficace par des tiers nécessite une expertise spécialisée, un financement stable et une rigueur méthodologique. Un investissement continu dans des organismes d’évaluation qualifiés, le progrès des sciences de la mesure et la sécurité des accès sensibles sont essentiels pour veiller à ce que les évaluations parviennent à suivre le rythme des progrès accomplis concernant les capacités des modèles. 

Les évaluations par des tiers sont un moyen d’apporter une perspective externe à notre travail sur le plan de la sécurité, et elles fonctionnent parallèlement à d’autres mécanismes. Nous collaborons également avec des experts externes à travers des efforts structurés d’équipes rouges, des projets d’alignement collectif, un travail avec le CAISI américain et l’AISI britannique, ainsi que des groupes consultatifs tels que le Réseau mondial de médecins et le Comité d’experts sur le bien-être et l’IA pour orienter notre travail sur la santé mentale et le bien-être des utilisateurs. Ces efforts apportent différentes formes d’expertise et permettent de constituer une base plus large et plus fiable pour évaluer et gérer les systèmes d’IA avancés.

Annexe

Vous trouverez ci-dessous des extraits de nos accords avec des tiers qui collaborent avec nous sur les évaluations de pré-déploiement. 

Research Publications: [...] Hereunder, Supplier hereby retains, or OpenAI licenses back to Supplier, as applicable, the right to use the Supplier Work Product created or discovered by Supplier for research, academic publication, scientific and/or educational purposes, provided such uses (a) are not commercial in nature, (b) do not disclose OpenAI’s Confidential Information (except as expressly permitted in advance by OpenAI in writing) and (c) are submitted to OpenAI for review and approval in writing prior to any publication or disclosure. OpenAI’s “Confidential Information” includes without limitation OpenAI’s Non-Public Models and outputs thereof, including any Supplier Work Product that was created or discovered through use of the. Non-Public Models. “Non-Public Models” means OpenAI’s artificial intelligence and machine learning models, including versions and snapshots thereof, that have not been released to the general public at the time of Supplier’s proposed publication date.

Confidential Information. For purposes of this Agreement, “Confidential Information” means and will include: (i) any information, materials or knowledge regarding OpenAI and its business, financial condition, products, programming techniques, customers, suppliers, technology or research and development that is disclosed to Supplier or to which Supplier has or obtains access in connection with performing Services; (ii) the Supplier Work Product; and (iii) the terms and conditions of this Agreement. Confidential Information will not include any information that: (a) is or becomes part of the public domain through no fault of Supplier or any representative or agent of Supplier; (b) is demonstrated by Supplier to have been rightfully in Supplier’s possession at the time of disclosure, without restriction as to use or disclosure; or (c) Supplier rightfully receives from a third party who has the right to disclose it and who provides it without restriction as to use or disclosure. Supplier agrees to hold all Confidential Information in strict confidence, not to use it in any way, commercially or otherwise, other than to perform Services for OpenAI, and not to disclose it to others. Supplier further agrees to take all actions reasonably necessary to protect the confidentiality of all Confidential Information including, without limitation, implementing and enforcing procedures to minimize the possibility of unauthorized use or disclosure of Confidential Information.

Without granting any right or license, the Disclosing Party agrees that the foregoing shall not apply with respect to (a) any information after 2 years following the disclosure thereof, except for any information that is a trade secret, which shall remain subject to the confidentiality obligations of this Agreement for as long as it is a trade secret, (b) any information included in a Researcher’s noncommercial research or academic publication to the extent such information is either (i) approved in writing by OpenAI prior to publication or (ii) resulting from the version of OpenAI Technology that has been made generally available to the public by OpenAI (and not, for the avoidance of doubt, any information, results, or output from version of the OpenAI Technology that were not made generally available to the public); or (c) any information that the Receiving Party can document (i) is or becomes (through no improper action or inaction by the Receiving Party or any affiliate, agent, consultant or employee of the Receiving Party) generally available to the public, (ii) was in its possession or known by it without restriction prior to receipt from the Disclosing Party, (iii) was rightfully disclosed to it by a third party without restriction, or (iv) was independently developed without use of any Proprietary Information of the Disclosing Party by officers, directors, employees, consultants, representatives, advisors or affiliates of the Receiving Party who have had no access to any such Proprietary Information. The Receiving Party may make disclosures required by law or court order provided the Receiving Party uses diligent reasonable efforts to limit disclosure and to obtain confidential treatment or a protective order and allows the Disclosing Party to participate in the proceeding.

Auteur

OpenAI

Notes de bas de page

  1. 1

    Cela diffère du principe des équipes rouges, qui visent à tester les mesures de protection de manière granulaire et à fournir des données pour faire évoluer l’évaluation.

  2. 2

    Lorsqu’un modèle réduit intentionnellement ses performances ou cache ses véritables capacités lorsqu’il détecte qu’il fait l’objet d’une évaluation ou d’un test.

  3. 3

    Les modèles utiles répondent à toutes les demandes, même si celles-ci sont nuisibles. Ils sont créés par des méthodes de post-entraînement qui permettent d’obtenir ce comportement.