Mise à jour de notre Document de spécification des modèles
Nous avons actualisé notre Document de spécification des modèles sur la base des commentaires d’acteurs externes et de nos recherches continues visant à façonner le comportement des modèles d’IA.
Nous avons procédé à une mise à jour majeure de notre Document de spécification des modèles, un document qui explique le comportement que nous attendons de nos modèles d’IA. Avec cette mise à jour, nous réaffirmons notre volonté de personnalisation et de transparence, mais aussi d’offrir la possibilité d’explorer, de débattre et de créer avec l’IA sans restrictions arbitraires tout en veillant à ce que des garde-fous restent actifs pour limiter tout danger concret. Cette nouvelle version s’appuie sur les bases que nous avons dévoilées en mai dernier et sur leur application dans différents contextes, qu’il s’agisse de la recherche sur l’alignement ou de la gestion de notre service pour des utilisateurs du monde entier.
Dans cet article, nous allons également révéler quelques résultats préliminaires concernant le respect des principes de ce document par nos modèles sur de multiples scénarios. Nous avons constaté de réels progrès, mais il reste aussi des points à améliorer. Le Document de spécification des modèles, comme nos modèles, continuera d’évoluer au fil de son application, de son partage et des retours des diverses parties prenantes. Pour favoriser son utilisation et la collaboration, nous distribuons cette version de notre document sous une licence publique Creative Commons CC0. Développeurs et chercheurs peuvent ainsi l’utiliser et l’adapter librement dans leurs propres travaux.
L’objectif d’OpenAI est de créer des modèles utiles, sûrs et alignés sur les besoins des utilisateurs et développeurs, sans perdre de vue notre mission, à savoir créer une intelligence artificielle générale qui profite à toute l’humanité. Pour atteindre cet objectif, nous devons déployer graduellement des modèles qui ouvrent de nouveaux horizons à nos développeurs et utilisateurs tout en évitant qu’ils aient des conséquences négatives sur nos utilisateurs ou des tiers et en préservant notre légitimité.
Ces objectifs pouvant parfois entrer en conflit, le Document de spécification des modèles permet de trouver des compromis en demandant aux modèles de suivre une hiérarchie claire, ainsi que des principes complémentaires qui viennent fixer leurs limites et comportements par défaut pour divers scénarios. Ce cadre donne la priorité au contrôle par les utilisateurs et les développeurs, tout en imposant des limites claires et bien définies :
- Hiérarchie : définit dans quel ordre le modèle exécute les instructions de la plateforme (OpenAI), du développeur et de l’utilisateur. Le Document de spécifications des modèles se compose principalement de directives que nous estimons utiles dans la plupart des cas, mais qui peuvent être remplacées par les utilisateurs et les développeurs. Ceux-ci peuvent ainsi personnaliser pleinement le comportement de leur modèle, dans les limites des règles fixées par la plateforme.
- Recherche la vérité en collaboration : tels des assistants humains à l’intégrité exemplaire, nos modèles doivent aider les utilisateurs à prendre eux-mêmes les meilleures décisions. Il faut donc parvenir à trouver un équilibre complexe entre deux objectifs : (1) éviter d’orienter les utilisateurs, en adoptant une posture neutre par défaut, tout en acceptant d’explorer n’importe quel sujet depuis n’importe quel point de vue et (2) chercher à comprendre les objectifs de l’utilisateur, clarifier les hypothèses et détails flous, et offrir des commentaires constructifs lorsque nécessaire, des demandes que nous avons entendues et sur lesquelles nous avons travaillé.
- Fournis les meilleurs résultats possibles : définit des normes de base en matière de compétence, notamment sur les plans de l’exactitude factuelle, la créativité et l’utilisation programmatique.
- Reste dans les limites : explique comment le modèle trouve un compromis entre autonomie de l’utilisateur et précautions permettant d’éviter les dégâts ou abus. Cette nouvelle version se veut complète en couvrant pleinement l’ensemble des requêtes des utilisateurs et développeurs que nous souhaitons voir nos modèles refuser.
- Sois accessible : décrit le style conversationnel par défaut du modèle : chaleureux, empathique et aidant, ainsi que les adaptations possibles.
- Utilise le registre approprié : fournit des directives par défaut sur la mise en forme et la remise des messages. Listes à puce, extraits de code concis ou conversation vocale, nous voulons que les messages soient clairs et utilisables.
Ce nouveau Document de spécification des modèles adopte pleinement la notion de liberté intellectuelle, qui considère que l’IA doit permettre l’exploration, le débat et la création sans restrictions arbitraires, même sur les sujets les plus difficiles ou controversés. Dans un monde où les outils d’IA façonnent de plus en plus les discours, le libre échange des informations et des points de vue est indispensable au progrès et à l’innovation.
Les sections « Reste dans les limites » et « Recherche la vérité en collaboration » incarnent cette philosophie. Par exemple, si le modèle ne doit jamais fournir des instructions détaillées permettant de fabriquer une bombe ou de violer la vie privée d’une personne, il est encouragé à donner des réponses réfléchies aux questions politiquement ou culturellement sensibles, sans promouvoir un point de vue plus qu’un autre. Pour résumer, nous avons renforcé le principe selon lequel aucune idée ne doit être interdite à la discussion dans la mesure où les réponses du modèle ne génèrent aucune conséquence significative pour l’utilisateur ou des tiers (p. ex. actes terroristes).
Pour mieux comprendre les performances de nos modèles dans le monde réel, nous avons commencé à constituer une bibliothèque de prompts complexes pensés pour déterminer dans quelle mesure ils respectent chacun des principes du document de spécification. Ces prompts ont été générés par des modèles et examinés par des experts humains de sorte qu’ils couvrent des scénarios classiques, mais aussi plus complexes.
Nos résultats préliminaires indiquent que nos modèles actuels respectent bien mieux le document de spécification que notre meilleur système de mai dernier. Une partie de cette différence peut s’expliquer par les mises à jour de nos politiques, mais nous estimons qu’elle provient en grande partie d’un meilleur alignement. Ces progrès sont encourageants, même si nous avons conscience qu’il reste une marge d’amélioration importante.
Nous considérons qu’il s’agit du début d’un processus amené à durer. Nous prévoyons de continuer à renforcer notre bibliothèque de prompts en lui ajoutant notamment des cas découverts par l’analyse des usages que nos modèles et le Document de spécification ne prennent pas encore totalement en compte.
Nous avons intégré dans cette nouvelle version les commentaires que nous avons reçus sur la première version, ainsi que des enseignements tirés de notre recherche sur l’alignement et le déploiement de nos modèles dans le monde réel. À l’avenir, nous souhaitons obtenir des commentaires du grand public. Pour créer des processus permettant d’y parvenir, nous avons réalisé des études pilotes réunissant environ 1 000 personnes, chacune devant examiner le comportement d’un modèle et les règles proposées, et nous faire part de son avis. Ces études ne reflètent pas encore une large diversité d’opinions, mais les premiers résultats nous ont amenés à procéder à quelques ajustements. Nous avons conscience qu’il s’agit d’un processus continu et progressif, et avons la volonté d’apprendre et d’affiner notre approche.
Nous publions cette nouvelle version du Document de spécification des modèles sous la licence publique Creative Commons CC0. Développeurs et chercheurs peuvent ainsi l’utiliser et l’adapter librement dans leurs propres travaux. Nous allons également distribuer sous licence open source les prompts d’évaluation que nous avons mentionnés plus haut, et comptons diffuser davantage d’extraits de code, d’artefacts et d’outils permettant d’évaluer les spécifications et l’alignement.
Vous trouverez ces prompts et la source du Document de spécification des modèle dans un nouveau référentiel Github(ouverture dans une nouvelle fenêtre), dans lequel nous prévoyons de publier régulièrement de nouvelles versions du document.
Au fil de la progression de nos systèmes d’IA, nous continuerons de faire évoluer ces principes, d’inviter la communauté à nous faire part de ses commentaires et de communiquer ouvertement sur nos progrès. Nous ne comptons pas publier d’article dans notre blog à chaque mise à jour du Document de spécification des modèles. Vous pourrez néanmoins toujours suivre les nouvelles versions disponibles à l’adresse model-spec.openai.com(ouverture dans une nouvelle fenêtre).
Nous cherchons à ajouter en permanence de nouveaux cas d’utilisation de manière sécurisée, en faisant évoluer notre approche sur la base de nos recherches continues et des progrès techniques réalisés. L’IA prend de plus en plus de place dans nos vies, et il est donc essentiel de continuer à apprendre, à améliorer les modèles et à échanger publiquement. Cette approche témoigne non seulement de ce que nous avons appris jusque-là, mais aussi de notre sentiment que l’IA est un voyage au long cours, un voyage dans lequel nous espérons que vous nous rejoindrez. Vous avez des commentaires sur ce Document de spécification ? Faites-nous en part ici.