27 januari 2022

Taalmodellen afstemmen op het volgen van instructies

Bezig met laden...

We hebben taalmodellen getraind die veel beter zijn in het volgen van gebruikersintenties dan GPT‑3, terwijl ze ook waarheidsgetrouwer en minder giftig zijn, met behulp van technieken die zijn ontwikkeld door ons afstemmingsonderzoek. Deze InstructGPT-modellen, die zijn getraind met menselijke betrokkenheid, zijn nu uitgerold als de standaardtaalmodellen op onze API.

Bezig met laden...

De OpenAI API werkt met GPT‑3‑taalmodellen⁠, waarbij je met zorg ontworpen tekstprompts kunt gebruiken om natuurlijke taaltaken uit te voeren. Maar deze modellen kunnen ook resultaten genereren die niet waarheidsgetrouw of toxisch zijn, of schadelijke sentimenten weerspiegelen. Dit komt deels doordat GPT‑3 is getraind om het volgende woord te voorspellen op een grote dataset van internettekst, in plaats van om veilig de taaltaak uit te voeren die de gebruiker wil. Met andere woorden, deze modellen zijn niet afgestemd op hun gebruikers.

Om onze modellen veiliger, behulpzamer en beter op elkaar afgestemd te maken, gebruiken we een bestaande techniek die we versterkt leren van menselijke feedback (reinforcement learning from human feedback, RLHF)⁠noemen. Op vragen die door onze klanten aan de API worden gesteld, geven^A onze labelaars demonstraties van het gewenste modelgedrag en rangschikken ze verschillende uitvoer van onze modellen. Vervolgens gebruiken we deze gegevens om GPT‑3 te verfijnen.

De resulterende InstructGPT‑modellen zijn veel beter in het opvolgen van instructies dan GPT‑3. Ze verzinnen ook minder vaak feiten en vertonen een kleine afname in het genereren van toxische uitvoer. Onze labelaars geven de voorkeur aan de uitvoer van ons 1,3 miljard InstructGPT‑model boven die van het 175 miljard GPT‑3‑model, ondanks dat het meer dan 100 keer minder parameters heeft. Tegelijkertijd laten we zien dat we geen concessies hoeven te doen aan de capaciteiten van GPT‑3, zoals gemeten aan de hand van de prestaties van ons model op academische NLP-evaluaties.

Deze InstructGPT‑modellen, die al meer dan een jaar in bèta zijn op de API, zijn nu de standaard taalmodellen die toegankelijk zijn op onze API.^B Wij geloven dat het verfijnen van taalmodellen met menselijke feedback een krachtig tool is voor het verbeteren van hun veiligheid en betrouwbaarheid en we gaan zeker in deze richting door.

Dit is de eerste keer dat ons afstemmingsonderzoek, waar we alenkele⁠ jaren⁠ aan werken⁠,^{1, 2, 3} is toegepast op ons product. Ons werk sluit ook aan bij recent onderzoek waarbij taalmodellen worden verfijnd om instructies te volgen met behulp van academische NLP-datasets, met name FLAN⁴ en T0.⁵ Een belangrijke reden voor ons werk is om de bruikbaarheid en waarheidsgetrouwheid te verbeteren, terwijl we de nadelen en vooroordelen van taalmodellen^{6, 7, 8, 9, 10} willen beperken. Uit ons eerdere onderzoek⁠ in deze richting bleek dat we schadelijke resultaten kunnen verminderen door verfijning van een kleine, zorgvuldig samengestelde gegevensset van menselijke demonstraties.¹¹ Ander onderzoek heeft zich gefocust op het filteren van de pre-training gegevensset, ¹² veiligheidsspecifieke controletokens,^{13, 14} of het sturen van modelgeneraties.^{15, 16} We onderzoeken deze en andere ideeën in ons lopende onderzoek naar afstemming.

Resultaten

We evalueren eerst hoe goed de uitvoer van InstructGPT de instructies van de gebruiker opvolgt door labelaars de uitvoer van InstructGPT te laten vergelijken met die van GPT‑3. We constateren dat de InstructGPT‑modellen duidelijk de voorkeur krijgen bij prompts die zijn ingediend bij zowel de InstructGPT- als de GPT‑3‑modellen via de API Dit blijft het geval wanneer we een voorvoegsel aan de GPT‑3‑prompt toevoegen, zodat het model in een 'instructievolgende modus' komt.

Bezig met laden...

Om de veiligheid van onze modellen te meten, gebruiken we voornamelijk een reeks bestaande meetmethoden op openbaar beschikbare gegevenssets. Vergeleken met GPT‑3 produceert InstructGPT minder imiterende onwaarheden (volgens TruthfulQA¹⁷) en is het minder toxisch (volgens RealToxicityPrompts¹⁸). We voeren ook menselijke evaluaties uit op de promptverdeling van onze API, en constateren dat InstructGPT minder vaak feiten verzint ('hallucineert') en meer gepaste antwoorden genereert.^C

Bezig met laden...

Tot slot blijkt dat klanten de antwoorden van InstructGPT verkiezen boven die van FLAN⁴ en T0⁵. Dit geeft aan dat de gegevens die zijn gebruikt om FLAN en T0 te trainen, voornamelijk academische NLP-taken, niet volledig representatief zijn voor hoe taalmodellen in de praktijk worden gebruikt.

Methoden

Diagram showing three-step methodology to train InstructGPT models.

Om InstructGPT‑modellen te trainen, is onze belangrijkste techniek versterkt leren van menselijke feedback (reinforcement learning from human feedback, RLHF)⁠, een methode die we hebben helpen ontwikkelen in ons eerdere afstemmingsonderzoek. Deze techniek gebruikt menselijke voorkeuren als een beloningssignaal voor het verfijnen van onze modellen, wat belangrijk is omdat de veiligheids- en uitlijningsproblemen die we proberen op te lossen complex en subjectief zijn en niet volledig kunnen worden vastgelegd met eenvoudige automatische meetmethoden.

We verzamelen eerst een gegevensset van door mensen geschreven demonstraties van prompts die zijn ingediend bij onze API en gebruiken deze om onze basislijnen voor begeleid leren te trainen. Vervolgens verzamelen we een gegevensset van door mensen gelabelde vergelijkingen tussen twee modelantwoorden op een grotere set API-prompts. Vervolgens trainen we een beloningsmodel (reward model, RM) op deze gegevensset om te voorspellen aan welke uitvoer onze labelaars de voorkeur zouden geven. Tot slot gebruiken we dit RM als een beloningsfunctie en verfijnen we ons GPT‑3 beleid om deze beloning te maximaliseren met behulp van het PPO-algoritme⁠.

Een manier om over dit proces na te denken is dat het mogelijkheden 'ontsluit' die GPT‑3 al had, maar die moeilijk te ontlokken waren door alleen prompt engineering: dit komt omdat onze trainingsprocedure een beperkt vermogen heeft om het model nieuwe mogelijkheden aan te leren ten opzichte van wat er is geleerd tijdens de training vooraf, aangezien het minder dan 2% van de berekeningen en gegevens gebruikt ten opzichte van de training vooraf van het model.

Een beperking van deze aanpak is dat het een 'afstemmingsbelasting' introduceert: door de modellen alleen af te stemmen op klanttaken, kunnen ze slechter presteren op sommige andere, academische NLP-taken. Dit is onwenselijk, want als onze afstemmingstechnieken modellen slechter maken voor taken die mensen belangrijk vinden, dan wordt de kans kleiner dat ze in de praktijk worden toegepast. We hebben een eenvoudige algoritmische verandering gevonden die deze afstemmingsbelasting minimaliseert: tijdens de RL-fijnafstemming mengen we een klein deel van de oorspronkelijke gegevens bij die zijn gebruikt om GPT‑3 te trainen en trainen op deze gegevens met behulp van de normale logwaarschijnlijkheid optimalisatie.^D. Dit handhaaft ruwweg de prestaties op het gebied van veiligheid en menselijke voorkeuren, terwijl het de prestatiedalingen op academische taken vermindert en in verschillende gevallen zelfs de GPT‑3 baseline overtreft.

Generaliseren naar bredere voorkeuren

Onze procedure stemt het gedrag van onze modellen af op de voorkeuren van onze labelaars, die rechtstreeks de gegevens produceren die worden gebruikt om onze modellen te trainen en ons onderzoekers, die de labelaars begeleiden via schriftelijke instructies, directe feedback over specifieke voorbeelden en informele gesprekken. Het wordt ook beïnvloed door onze klanten en de voorkeuren die impliciet zijn opgenomen in ons API-beleid. We selecteerden labelaars die goed scoorden op een screeningstest voor hun vaardigheid in het herkennen van en reageren op gevoelige prompts. Deze verschillende invloeden op de gegevens bieden echter geen garantie dat onze modellen zijn afgestemd op de voorkeuren van een bredere groep.

We hebben twee experimenten uitgevoerd om dit te onderzoeken. Ten eerste evalueren we GPT‑3 en InstructGPT met behulp van uitgeschakelde labelaars^E die geen van de trainingsgegevens hebben geproduceerd, en ontdekten dat deze labelaars de voorkeur geven aan uitvoer van de InstructGPT‑modellen in ongeveer dezelfde mate als onze getrainde labelaars. Ten tweede trainen we beloningsmodellen op gegevens van een subset van onze labelaars en zien we dat ze goed generaliseren naar het voorspellen van de voorkeuren van een andere subset van labelaars. Dit suggereert dat onze modellen zich niet alleen hebben aangepast aan de voorkeuren van onze labelaars. Er is echter meer werk nodig om te bestuderen hoe deze modellen presteren op bredere groepen gebruikers en hoe ze presteren op invoer waarbij mensen het oneens zijn over het gewenste gedrag.

Beperkingen

Ondanks de aanzienlijke vooruitgang zijn onze InstructGPT‑modellen nog lang niet volledig op elkaar afgestemd of volledig veilig; ze genereren nog steeds giftige of bevooroordeelde output, verzinnen feiten en genereren seksuele en gewelddadige inhoud zonder expliciete vraag. Maar de veiligheid van een machine learning-systeem hangt niet alleen af van het gedrag van de onderliggende modellen, maar ook van de manier waarop deze modellen worden ingezet. Om de veiligheid van onze API te waarborgen, blijven we potentiële toepassingen beoordelen⁠(opent in een nieuw venster) voordat ze live gaan, bieden we inhoudsfilters om onveilige antwoorden te detecteren, en houden we toezicht op misbruik.

Een bijproduct van het trainen van onze modellen om gebruikersinstructies op te volgen, is dat ze vatbaarder worden voor misbruik als ze de opdracht krijgen om onveilige uitvoer te produceren. Om dit op te lossen, moeten onze modellen bepaalde instructies weigeren; dit op een betrouwbare manier doen is een belangrijk open onderzoeksprobleem dat we graag willen aanpakken.

Bovendien is het in veel gevallen niet wenselijk om aan te sluiten bij de gemiddelde voorkeur van de labelaar. Als er bijvoorbeeld tekst wordt gegenereerd die een onevenredig groot effect heeft op een minderheidsgroep, moeten de voorkeuren van die groep zwaarder wegen. Op dit moment is InstructGPT getraind om instructies in het Engels op te volgen; het is dus bevooroordeeld ten opzichte van de culturele waarden van Engelssprekende mensen. We doen onderzoek naar de verschillen en meningsverschillen in de voorkeuren van labelaars, zodat we onze modellen kunnen afstemmen op de waarden van specifiekere doelgroepen. Meer in het algemeen brengt het afstemmen van modeluitvoer op de waarden van specifieke mensen moeilijke keuzes met maatschappelijke gevolgen met zich mee, en uiteindelijk moeten we verantwoorde en inclusieve processen opzetten om deze beslissingen te nemen.

Volgende stappen:

Dit is de eerste toepassing van het afstemmingsonderzoek op ons product. Onze resultaten laten zien dat deze technieken effectief zijn in het significant verbeteren van de afstemming van AI-systemen voor algemeen gebruik met menselijke intenties. Dit is echter nog maar het begin: we zullen deze technieken blijven verbeteren om onze huidige en toekomstige modellen beter af te stemmen op taalhulpmiddelen die veilig en nuttig zijn voor mensen.

Als je geïnteresseerd bent in deze onderzoeksrichtingen, we nemen mensen aan⁠(opent in een nieuw venster)!

Voetnoten

A
We gebruiken alleen prompts die via de Playground zijn verzonden naar een eerdere versie van de InstructGPT-modellen die in januari 2021 is geïmplementeerd. Onze menselijke annotatoren verwijderen persoonlijk identificeerbare informatie uit alle prompts voordat ze worden toegevoegd aan de trainingsset.
B
De InstructGPT-modellen in de API zijn bijgewerkte versies die zijn getraind met dezelfde menselijke feedbackgegevens. Ze gebruiken een vergelijkbare maar iets andere trainingsmethode die we in een volgende publicatie zullen beschrijven.
C
We meten ook verschillende andere aspecten van mogelijk schadelijke uitvoer binnen onze API-distributie: of de uitvoer seksueel of gewelddadig materiaal bevat, een beschermde groep beledigt of aanzet tot misbruik. We constateren dat InstructGPT op deze meetpunten geen significante verbetering laat zien ten opzichte van GPT-3; het aantal incidenten is bij beide modellen even laag.
D
We vonden deze aanpak effectiever dan het simpelweg verhogen van de KL-coëfficiënt.
E
Deze labelaars worden net als onze trainingslabelaars ingekocht bij Scale AI en Upwork, maar ondergaan geen screeningtest.

Referenties

1
Christiano, P., Leike, J., Brown, T.B., Martic, M., Legg, S. en Amodei, D., 2017. Deep reinforcement learning from human preferences. arXiv preprint arXiv:1706.03741.
2
Stiennon, N., Ouyang, L., Wu, J., Ziegler, D.M., Lowe, R., Voss, C., Radford, A., Amodei, D. en Christiano, P., 2020.
3
Wu, J., Ouyang, L., Ziegler, D.M., Stiennon, N., Lowe, R., Leike, J. en Christiano, P., 2021. Recursively summarizing books with human feedback. arXiv preprint arXiv:2109.10862.
4
Wei, J., Bosma, M., Zhao, V.Y., Guu, K., Yu, A.W., Lester, B., Du, N., Dai, A.M. en Le, Q.V., 2021. Finetuned language models are zero-shot learners. arXiv preprint arXiv:2109.01652.
5
Sanh, V., Webson, A., Raffel, C., Bach, S.H., Sutawika, L., Alyafeai, Z., Chaffin, A., Stiegler, A., Scao, T.L., Raja, A. en Dey, M., 2021. Multitask prompted training enables zero-shot task generalization. arXiv preprint arXiv:2110.08207.
6
Bender, E.M., Gebru, T., McMillan-Major, A. en Shmitchell, S., 2021, March. On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?🦜. In Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency (pp. 610-623).
7
Bommasani, R., Hudson, D.A., Adeli, E., Altman, R., Arora, S., von Arx, S., Bernstein, M.S., Bohg, J., Bosselut, A., Brunskill, E. en Brynjolfsson, E., 2021. On the opportunities and risks of foundation models. arXiv preprint arXiv:2108.07258.
8
Kenton, Z., Everitt, T., Weidinger, L., Gabriel, I., Mikulik, V. en Irving, G., 2021. Alignment of Language Agents. arXiv preprint arXiv:2103.14659.
9
Weidinger, L., Mellor, J., Rauh, M., Griffin, C., Uesato, J., Huang, P.S., Cheng, M., Glaese, M., Balle, B., Kasirzadeh, A. en Kenton, Z., 2021. Ethical and social risks of harm from Language Models. arXiv preprint arXiv:2112.04359.
10
Tamkin, A., Brundage, M., Clark, J. en Ganguli, D., 2021. Understanding the Capabilities, Limitations, en Societal Impact of Large Language Models. arXiv preprint arXiv:2102.02503.
11
Solaiman, I. en Dennison, C., 2021. Process for Adapting Language Models to Society (PALMS) with Values-Targeted Datasets. arXiv preprint arXiv:2106.10328.
12
Ngo, H., Raterink, C., Araújo, J.G., Zhang, I., Chen, C., Morisot, A. en Frosst, N., 2021. Mitigating harm in language models with conditional-likelihood filtration. arXiv preprint arXiv:2108.07790.
13
Xu, J., Ju, D., Li, M., Boureau, Y.L., Weston, J. en Dinan, E., 2020. Recipes for safety in open-domain chatbots. arXiv preprint arXiv:2010.07079.
14
Keskar, N.S., McCann, B., Varshney, L.R., Xiong, C. en Socher, R., 2019. Ctrl: A conditional transformer language model for controllable generation. arXiv preprint arXiv:1909.05858.
15
Krause, B., Gotmare, A.D., McCann, B., Keskar, N.S., Joty, S., Socher, R. en Rajani, N.F., 2020. Gedi: Generative discriminator guided sequence generation. arXiv preprint arXiv:2009.06367.
16
Dathathri, S., Madotto, A., Lan, J., Hung, J., Frank, E., Molino, P., Yosinski, J. en Liu, R., 2019. Plug and play language models: A simple approach to controlled text generation. arXiv preprint arXiv:1912.02164.
17
Lin, S., Hilton, J. en Evans, O., 2021. TruthfulQA: Measuring how models mimic human falsehoods. arXiv preprint arXiv:2109.07958.
18
Gehman, S., Gururangan, S., Sap, M., Choi, Y. en Smith, N.A., 2020. RealToxicityPrompts: Evaluating neural toxic degeneration in language models. arXiv preprint arXiv:2009.11462.
19
Rudinger, R., Naradowsky, J., Leonard, B. en Van Durme, B., 2018. Gender bias in coreference resolution. arXiv preprint arXiv:1804.09301.
20
Nangia, N., Vania, C., Bhalerao, R. en Bowman, S.R., 2020. CrowS-pairs: A challenge dataset for measuring social biases in masked language models. arXiv preprint arXiv:2010.00133.

Auteurs

Ryan Lowe, Jan Leike

Dankbetuigingen

We willen graag onze medeauteurs van het artikel bedanken: Long Ouyang, Jeff Wu, Roger Jiang, Diogo Almeida, Carroll Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller, Maddie Simens, Amanda Askell, Peter Welinder en Paul Christiano en iedereen die feedback heeft gegeven op het artikel en de blogpost. We willen ook graag het Comms-team bedanken voor hun begeleiding en hulp, waaronder Steve Dowling, Hannah Wong, Elie Georges, Alper Ercetin, Jared Salzano, Allan Diego en Justin Jay Wang. Tot slot willen we onze labelaars bedanken, zonder wie dit project niet mogelijk zou zijn geweest.

Gerelateerde artikelen

Alles weergeven

Disrupting malicious uses of AI by state-affiliated threat actors

Beveiliging14 feb 2024

Building an early warning system for LLM-aided biological threat creation

Publicatie31 jan 2024

Democratic Inputs To AI Grant Program Update

Democratic inputs to AI grant program: lessons learned and implementation plans

Veiligheid16 jan 2024