Alignement de nos modèles de langage pour suivre des instructions
Nous avons entraîné des modèles de langage qui suivent beaucoup mieux les intentions des utilisateurs que GPT‑3, gagnent en véracité et limitent les risques de travers toxiques, grâce à des techniques mises au point dans le cadre de nos recherches sur l’alignement. Ces modèles InstructGPT, entraînés avec la contribution d’intervenants humains, sont désormais déployés comme modèles de langage par défaut sur notre API.
L’API d’OpenAI s’appuie sur les modèles de langage GPT‑3 qui peuvent être invités à réaliser des tâches en langage naturel à l’aide de prompts textuels soigneusement conçus. Mais ces modèles peuvent aussi générer des résultats erronés, toxiques, ou refléter des opinions malveillantes. Ceci est en partie dû au fait que GPT‑3 est entraîné pour deviner le mot suivant dans une séquence, à partir d’un large ensemble de données textuelles tirées d’Internet, plutôt que pour effectuer en toute sécurité la tâche souhaitée par l’utilisateur. En d’autres termes, ces modèles ne sont pas alignés sur les intentions des utilisateurs.
Pour rendre nos modèles plus sûrs, plus utiles et mieux alignés, nous nous appuyons sur une technique existante appelée apprentissage par renforcement à partir du feedback humain, ou reinforcement learning from human feedback (RLHF) en anglais. Sur la base des prompts soumis par nos clients à l’APIA, nos évaluateurs fournissent des démonstrations du comportement souhaité et classent les résultats de nos modèles. Nous utilisons ensuite ces données pour affiner le fonctionnement de GPT‑3.
Les modèles InstructGPT ainsi obtenus suivent bien mieux les instructions que GPT‑3. Ils inventent aussi moins souvent des faits et affichent une légère baisse dans la production de résultats toxiques. Nos évaluateurs préfèrent les sorties de notre modèle InstructGPT 1.3B à celles du modèle GPT‑3 175B, avec pourtant 100 fois moins de paramètres pris en compte. Des performances obtenues sans compromis sur les capacités de GPT‑3, telles que mesurées par les résultats de notre modèle sur des évaluations académiques de NLP.
Ces modèles InstructGPT, déployés en version bêta depuis plus d’un an, sont désormais les modèles de langage par défaut accessibles sur notre APIB. Nous sommes convaincus que l’amélioration des modèles de langage basée sur des évaluations humaines est la piste à suivre pour améliorer leur fiabilité et leur sécurité. Et c’est pourquoi nous continuerons à l’avenir dans cette direction.
Il s’agit de la première application de nos travaux de recherche sur l’alignement, que nous menons depuis plusieurs années1, 2, 3. Notre travail est également lié à des recherches récentes qui affinent les modèles de langage pour le suivi d’instructions en utilisant des ensembles de données NLP académiques, notamment FLAN4 et T05. Nous cherchons en particulier à améliorer l’utilité et la véracité des résultats obtenus tout en atténuant les inconvénients et les biais des modèles de langage6, 7, 8, 9, 10. Certaines de nos recherches précédentes dans cette direction ont montré qu’il était possible de limiter les résultats préjudiciables en procédant à un réglage fin sur un petit ensemble de données de démonstration avec intervention humaine11. D’autres recherches ont porté sur le filtrage de l’ensemble de données de pré-entraînement12, les jetons de contrôle spécifiques à la sécurité13, 14, ou encore le guidage de la génération par les modèles15, 16. Nous explorons ces idées et d’autres encore dans le cadre de nos recherches en cours sur l’alignement.
Nous avons d’abord évalué la qualité des résultats obtenus par InstructGPT sur la base des instructions de l’utilisateur, en demandant à des évaluateurs de les comparer à ceux de GPT‑3. Les résultats des modèles InstructGPT sont considérés comme bien meilleurs sur des prompts soumis à la fois à des modèles InstructGPT et GPT‑3 sur l’API. Ceci reste vrai si on ajoute un préfixe au prompt GPT‑3 pour lui indiquer d’adopter un «mode de suivi d’instructions».
Pour mesurer la sécurité de nos modèles, nous avons principalement utilisé un ensemble d’indicateurs existants sur des jeux de données publiquement accessibles. Comparé à GPT‑3, InstructGPT produit moins de résultats erronés (sur la base de TruthfulQA17) ou toxiques (sur la base de RealToxicityPrompts18). Nous avons aussi mené des évaluations sur un jeu de prompts de notre échantillon API, et nous avons constaté qu’InstructGPT a une moindre tendance à l’invention de faits (en d’autres termes, aux « hallucinations ») et génère des résultats plus appropriésC.
Enfin, nous avons constaté que les sorties d’InstructGPT sont préférées à celles de FLAN4 et T05 sur notre échantillon d’utilisateurs. Cela indique que les données utilisées pour entraîner FLAN et T0, principalement pour des tâches académiques de NLP (traitement du langage naturel), ne sont pas totalement représentatives de la manière dont les modèles de langage déployés sont utilisés dans la pratique.

Pour entraîner les modèles InstructGPT, nous avons principalement eu recours à l’apprentissage par renforcement basé sur du feedback humain (RLHF), une méthode que nous avons contribué à mettre au point lors de nos recherches antérieures sur l’alignement. Cette technique utilise les préférences humaines comme signal de récompense pour affiner nos modèles, un aspect important, car les problèmes de sécurité et d’alignement à résoudre sont complexes et subjectifs, et ne sont pas entièrement mesurables de manière simple et automatisée.
Nous avons commencé par collecter un ensemble de données de démonstration rédigées par des agents humains sur des prompts soumis à notre API, et nous l’avons utilisé pour l’entraînement de nos techniques d’apprentissage supervisé de référence. Nous avons ensuite collecté un ensemble de données basé sur la comparaison des résultats des deux modèles sur un ensemble plus large de prompts API, avec un étiquetage humain. Nous avons ensuite entraîné un modèle de récompense (RM) sur cet ensemble de données pour prédire le résultat préféré par nos évaluateurs. Enfin, nous avons utilisé ce RM comme fonction de récompense et nous avons affiné notre politique GPT‑3 pour maximiser cette récompense à l’aide de l’algorithme de PPO (optimisation de politique proximale).
Ce processus a « débloqué » en quelque sorte des capacités que GPT‑3 possédait déjà, mais qu’il était difficile d’obtenir par le seul biais de l’ingénierie de prompt : en effet, notre procédure d’apprentissage a une capacité limitée à enseigner au modèle de nouvelles capacités par rapport à ce qu’il apprend en phase de pré-entraînement, puisqu’elle utilise moins de 2 % des calculs et des données consommés par cette phase initiale.
L’une des limites de cette approche est qu’elle introduit une « taxe d’alignement » : l’alignement des modèles uniquement sur la réalisation des tâches demandées par les clients peut nuire à leurs performances sur d’autres tâches académiques de NLP. Un véritable inconvénient, et un frein à l’adoption de ce type de modèles, les utilisateurs ne souhaitant certainement pas une dégradation des performances sur les tâches qui comptent le plus pour eux. Nous avons trouvé une modification algorithmique simple qui minimise cette taxe d’alignement : pendant le réglage fin de l’apprentissage par renforcement, nous mixons une petite fraction des données originales utilisées pour entraîner GPT‑3, et nous lançons un entraînement sur ces données en utilisant la maximisation normale de la log-vraisemblance.D Cette méthode permet de maintenir les performances en matière de sécurité et de préférences humaines, tout en atténuant les baisses de performances dans les tâches académiques. Dans certains cas, elle surpasse même les performances de référence de GPT‑3.
Notre procédure aligne le comportement de nos modèles sur les préférences de nos évaluateurs, qui produisent directement les données utilisées pour entraîner nos modèles, et de nous, chercheurs, qui guidons les évaluateurs par le biais d’instructions écrites, de feedback direct sur des exemples spécifiques et de conversations informelles. Elle est aussi influencée par nos clients et les préférences implicites dans nos politiques d’API. Nous avons sélectionné des évaluateurs ayant obtenu de bons résultats lors d’un test de sélection portant sur l’aptitude à identifier et à répondre à des prompts sensibles. Toutefois, ces différentes sources d’influence sur les données ne garantissent pas l’alignement de nos modèles sur les préférences d’un groupe plus large d’utilisateurs.
Nous avons mené deux expériences pour creuser cette question. Tout d’abord, nous avons évalué GPT‑3 et InstructGPT avec l’aide d’évaluateurs sélectionnésE n’ayant produit aucune des données d’apprentissage, et nous avons constaté leur préférence pour les sorties des modèles InstructGPT, à peu près au même taux que nos évaluateurs d’apprentissage. Dans un deuxième temps, nous avons entraîné les modèles de récompense sur les données d’un sous-ensemble de nos évaluateurs, et nous avons constaté leurs capacités efficaces de généralisation pour prédire les préférences d’un autre sous-ensemble d’évaluateurs. Ces résultats suggèrent que nos modèles ne se sont pas adaptés de manière excessive aux préférences de nos évaluateurs d’entraînement. Toutefois, des travaux supplémentaires sont nécessaires pour étudier les performances de ces modèles sur des groupes d’utilisateurs plus larges et sur des entrées pour lesquelles les humains ne s’accordent pas sur les meilleurs résultats.
Malgré des progrès significatifs, nos modèles InstructGPT sont loin d’être totalement alignés ou totalement sûrs ; il leur arrive encore d’inventer des faits, de générer des résultats toxiques ou biaisés, ou des contenus violents ou à caractère sexuel sans y être explicitement invités. Mais la sécurité d’un système d’apprentissage automatique dépend non seulement du comportement des modèles sous-jacents, mais aussi de la manière dont ces modèles sont déployés. Pour améliorer la sécurité de notre API, nous continuerons à examiner les applications potentielles(ouverture dans une nouvelle fenêtre) avant leur mise en service, à fournir des filtres de contenu pour détecter les éléments non sécurisés et à surveiller les utilisations abusives.
Effet de bord de notre approche, l’entraînement de nos modèles à suivre les instructions données les rend plus propices à des usages malveillants, l’utilisateur pouvant orienter sa demande vers l’obtention de sorties non sûres. Pour résoudre ce problème, nos modèles doivent refuser certaines instructions ; y parvenir de manière fiable est un axe important de recherche que nous abordons avec enthousiasme.
En outre, dans de nombreux cas, il n’est pas souhaitable de s’aligner sur la préférence moyenne des évaluateurs. Pour produire par exemple un texte spécifiquement destiné à un groupe minoritaire, les préférences de ce groupe doivent faire l’objet d’une plus forte pondération. Actuellement, InstructGPT est entraîné à suivre des instructions en anglais ; il est donc biaisé par les valeurs culturelles des locuteurs anglophones. Nous menons des recherches pour comprendre les différences et les désaccords entre les préférences des évaluateurs, afin de pouvoir conditionner nos modèles aux valeurs de populations plus spécifiques. D’une manière plus générale, l’alignement des résultats sur les valeurs d’êtres humains spécifiques introduit des choix difficiles, avec des implications sociétales. C’est pourquoi nous devons mettre en place des processus responsables et inclusifs pour cette prise de décision.
Il s’agit ici de la première application de nos travaux de recherche sur l’alignement dans nos produits. Nos résultats montrent que ces techniques sont efficaces pour améliorer de manière significative l’alignement des systèmes d’IA à usage général sur les intentions humaines. Mais ce n’est qu’un début : nous continuerons à travailler sur ces techniques pour améliorer l’alignement de nos modèles actuels et futurs vers des outils sûrs et utiles pour les humains.
Si ces axes de recherche vous intéressent, sachez que nous recrutons(ouverture dans une nouvelle fenêtre) !
Notes de bas de page
- A
Nous n’utilisons que les prompts soumis via le Playground à une version antérieure des modèles InstructGPT déployée en janvier 2021. Nos annotateurs humains suppriment les informations personnelles identifiables de tous les prompts avant de les ajouter au jeu de données d’apprentissage.
- B
Les modèles InstructGPT déployés dans l’API sont des versions actualisées, entraînées à l’aide des mêmes données de feedback humain. Ils utilisent une méthode d’entraînement similaire mais légèrement différente que nous décrirons dans une prochaine publication.
- C
Nous avons aussi évalué le caractère potentiellement préjudiciable des sorties à partir de notre échantillon API sur d’autres dimensions : contenu à caractère sexuel ou violent, dénigrement d’un groupe protégé, incitation aux abus. Nous avons constaté qu’InstructGPT n’offre pas d’amélioration significative par rapport à GPT-3 sur ces paramètres ; le taux d’incidence est également faible pour les deux modèles .
- D
Nous avons trouvé cette approche plus efficace que la simple augmentation du coefficient KL.
- E
Ces évaluateurs sont recrutés auprès de Scale AI et Upwork, comme nos évaluateurs d’entraînement, mais ne sont pas soumis à un test de sélection.
Références
- 1
Christiano, P., Leike, J., Brown, T.B., Martic, M., Legg, S. and Amodei, D., 2017. Deep reinforcement learning from human preferences. arXiv preprint arXiv:1706.03741.
- 2
Stiennon, N., Ouyang, L., Wu, J., Ziegler, D.M., Lowe, R., Voss, C., Radford, A., Amodei, D. and Christiano, P., 2020.
- 3
Wu, J., Ouyang, L., Ziegler, D.M., Stiennon, N., Lowe, R., Leike, J. and Christiano, P., 2021. Recursively summarizing books with human feedback. arXiv preprint arXiv:2109.10862.
- 4
Wei, J., Bosma, M., Zhao, V.Y., Guu, K., Yu, A.W., Lester, B., Du, N., Dai, A.M. and Le, Q.V., 2021. Finetuned language models are zero-shot learners. arXiv preprint arXiv:2109.01652.
- 5
Sanh, V., Webson, A., Raffel, C., Bach, S.H., Sutawika, L., Alyafeai, Z., Chaffin, A., Stiegler, A., Scao, T.L., Raja, A. and Dey, M., 2021. Multitask prompted training enables zero-shot task generalization. arXiv preprint arXiv:2110.08207.
- 6
Bender, E.M., Gebru, T., McMillan-Major, A. and Shmitchell, S., 2021, March. On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?🦜. In Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency (pp. 610-623).
- 7
Bommasani, R., Hudson, D.A., Adeli, E., Altman, R., Arora, S., von Arx, S., Bernstein, M.S., Bohg, J., Bosselut, A., Brunskill, E. and Brynjolfsson, E., 2021. On the opportunities and risks of foundation models. arXiv preprint arXiv:2108.07258.
- 8
Kenton, Z., Everitt, T., Weidinger, L., Gabriel, I., Mikulik, V. and Irving, G., 2021. Alignment of Language Agents. arXiv preprint arXiv:2103.14659.
- 9
Weidinger, L., Mellor, J., Rauh, M., Griffin, C., Uesato, J., Huang, P.S., Cheng, M., Glaese, M., Balle, B., Kasirzadeh, A. and Kenton, Z., 2021. Ethical and social risks of harm from Language Models. arXiv preprint arXiv:2112.04359.
- 10
Tamkin, A., Brundage, M., Clark, J. and Ganguli, D., 2021. Understanding the Capabilities, Limitations, and Societal Impact of Large Language Models. arXiv preprint arXiv:2102.02503.
- 11
Solaiman, I. and Dennison, C., 2021. Process for Adapting Language Models to Society (PALMS) with Values-Targeted Datasets. arXiv preprint arXiv:2106.10328.
- 12
Ngo, H., Raterink, C., Araújo, J.G., Zhang, I., Chen, C., Morisot, A. and Frosst, N., 2021. Mitigating harm in language models with conditional-likelihood filtration. arXiv preprint arXiv:2108.07790.
- 13
Xu, J., Ju, D., Li, M., Boureau, Y.L., Weston, J. and Dinan, E., 2020. Recipes for safety in open-domain chatbots. arXiv preprint arXiv:2010.07079.
- 14
Keskar, N.S., McCann, B., Varshney, L.R., Xiong, C. and Socher, R., 2019. Ctrl: A conditional transformer language model for controllable generation. arXiv preprint arXiv:1909.05858.
- 15
Krause, B., Gotmare, A.D., McCann, B., Keskar, N.S., Joty, S., Socher, R. and Rajani, N.F., 2020. Gedi: Generative discriminator guided sequence generation. arXiv preprint arXiv:2009.06367.
- 16
Dathathri, S., Madotto, A., Lan, J., Hung, J., Frank, E., Molino, P., Yosinski, J. and Liu, R., 2019. Plug and play language models: A simple approach to controlled text generation. arXiv preprint arXiv:1912.02164.
- 17
Lin, S., Hilton, J. and Evans, O., 2021. TruthfulQA: Measuring how models mimic human falsehoods. arXiv preprint arXiv:2109.07958.
- 18
Gehman, S., Gururangan, S., Sap, M., Choi, Y. and Smith, N.A., 2020. RealToxicityPrompts: Evaluating neural toxic degeneration in language models. arXiv preprint arXiv:2009.11462.
- 19
Rudinger, R., Naradowsky, J., Leonard, B. and Van Durme, B., 2018. Gender bias in coreference resolution. arXiv preprint arXiv:1804.09301.
- 20
Nangia, N., Vania, C., Bhalerao, R. and Bowman, S.R., 2020. CrowS-pairs: A challenge dataset for measuring social biases in masked language models. arXiv preprint arXiv:2010.00133.
Auteurs
Remerciements
Nous tenons à remercier les co-auteurs de l’article : Long Ouyang, Jeff Wu, Roger Jiang, Diogo Almeida, Carroll Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller, Maddie Simens, Amanda Askell, Peter Welinder et Paul Christiano, ainsi que toutes celles et ceux qui nous ont fait part de leurs commentaires sur l’article et le post de blog. Nous tenons aussi à remercier l’équipe Comms pour son aide et ses conseils, et notamment Steve Dowling, Hannah Wong, Elie Georges, Alper Ercetin, Jared Salzano, Allan Diego et Justin Jay Wang. Enfin, nous tenons à remercier nos évaluateurs, sans qui la réalisation de ce projet n’aurait pas été possible.


