27. januar 2022

Tilpasning av språkmodeller for å følge instruksjoner

Laster inn …

Vi har lært opp språkmodeller som er mye bedre til å følge brukerens hensikter enn GPT‑3, mens vi også gjør dem mer sannferdige og mindre giftige, med bruk av teknikker som er utviklet via tilpasningsforskningen vår. Disse InstructGPT-modellene, som er opplært med innspill fra mennesker, blir nå utrullet som standard språkmodell på API-en vår.

Laster inn …

OpenAI API-en er drevet av GPT‑3‑språkmodeller⁠ som kan overtales til å utføre oppgaver i naturlig språk med nøye utviklede tekstmeldinger. Men disse modellene kan også generere utdata som er usanne, giftige eller gjenspeiler skadelige meninger. Dette er delvis fordi GPT‑3 er lært opp til å forutsi det neste ordet i et stort datasett med intern tekst, i stedet for å trygt utføre språkoppgaven som brukeren ønsker. Med andre ord er ikke disse modellene tilpasset til brukerne.

For å gjøre modellene våre tryggere, nyttigere og mer tilpasset, bruker vi en eksisterende teknikk som kalles forsterkende læring fra menneskelig tilbakemelding (RLHF)⁠. På meldinger som sendes inn av kundene våre til API-en,^A gir annotatørene våre demonstrasjoner av ønsket modellatferd og rangerer flere utdata fra modellene våre. Deretter bruker vi disse dataene til å finjustere GPT‑3.

De resulterende InstructGPT‑modellene er mye bedre til å følge instruksjoner enn GPT‑3. De finner opp fakta sjeldnere og viser små nedganger i generering av giftige utdata. Annotatørerne våre foretrekker utdata fra 1.3B InstructGPT‑modellen fremfor utdata fra en 175B GPT‑3‑modell, til tross for at den har mer enn 100x færre parametre. Samtidig viser vi at vi ikke trenger å inngå kompromiss på funksjonaliteten til GPT‑3 som målt av modellytelsen på akademiske NLP-evalueringer.

Disse InstructGPT‑modellene som har vært i beta i API-en i mer enn ett år, er nå de standard språkmodellene som er tilgjengelige i API-en vår.^B Vi mener at finjustering av språkmodeller med innspill fra mennesker er et kraftig verktøy for forbedring av sikkerheten og påliteligheten, og vi kommer til å fortsette å gå i denne retningen.

Dette er første gangen tilpasningsforskningen vår, som vi har utført⁠ i flere⁠ år⁠,^{1, 2 og 3} er blitt tatt i bruk i produktet vårt. Arbeidet vårt er også knyttet til nylig forskning som finjusterer språkmodeller for å følge instruksjoner med akademiske NLP-datasett, særlig FLAN⁴ og T0.⁵ En hovedmotivasjon for arbeidet vårt er å øke nytte og sannferdighet mens vi reduserer skadene og skjevheten til språkmodeller.^{6, 7, 8, 9 og 10} Noe av den tidligere forskningen vår⁠ i denne retningen fant at vi kan redusere skadelige utdata ved å finjustere på små utvalgte datasett med menneskelige demonstrasjoner.¹¹ Annen forskning fokuserte på filtrering av datasettet for forhåndsopplæring,¹² sikkerhetsspesifikke kontrolltokener^{13 og 14} eller styring av modellgenereringer.^{15 og 16} Vi utforsker disse ideene og andre i den pågående tilpasningsforskningen vår.

Resultater

Først evaluerer vi hvor godt utdata fra InstructGPT følger brukerinstruksjoner, ved å få annotatørene våre til å sammenligne utdata med de fra GPT‑3. Vi har oppdaget at InstructGPT‑modeller foretrekkes i betydelig grad for meldinger som sendes inn til både InstructGPT- og GPT‑3‑modeller på API-et. Dette er sant når vi legger til en prefiks i GPT‑3‑melingen, slik at den går inn i “modus for å følge instruksjon”.

Laster inn …

For å måle sikkerheten til modellene våre bruker vi primært en pakke med eksisterende målinger på offentlig tilgjengelige datasett. Sammenlignet med GPT‑3 produserer InstructGPT færre imitative usannheter (ifølge TruthfulQA¹⁷) og er mindre giftig (ifølge RealToxicityPrompts¹⁸). Vi har også utført menneskelige evalueringer på distribusjonen av API-meldinger og oppdaget at InstructGPT finner opp fakta (“hallusinerer”) sjeldnere og genererer mer passende utdata.^C

Laster inn …

Til slutt oppdaget vi at InstructGPT‑utdata foretrekkes fremfor de fra FLAN⁴ og T0⁵ i kundedistribusjonen vår. Dette indikerer at dataene som brukes til å lære opp FLAN og T0, hovedsakelig akademiske NLP-oppgaver, ikke er helt representative for hvordan utrullede språkmodeller brukes i praksis.

Metoder

Diagram showing three-step methodology to train InstructGPT models.

For å lære opp InstructGPT‑modeller er kjerneteknikken vår forsterkende læring fra menneskelig tilbakemelding (RLHF)⁠, en metode vi bidro til å utvikle i den tidligere tilpasningsforskningen vår. Denne teknikken bruker menneskelige preferanser som et belønningssignal for å finjustere modellene våre, noe som er viktig siden sikkerhets- og tilpasningsproblemene vi prøver å løse, er komplekse og subjektive, og ikke er fanget opp fullt ut av enkle automatiske målinger.

Først samler vi inn et datasett av menneskeskrevne demonstrasjoner på meldinger sendt inn til API-et vårt og bruker dette til å lære opp læregrunnlinjene våre med tilsyn. Deretter samler vi inn et datasett med menneskemerkede sammenligninger mellom to modellutdata fra et større sett med API-meldinger. Så lærer vi opp en belønningsmodell (RM) på dette datasettet for å forutse hvilke utdata annotatørene våre foretrekker. Til slutt bruker vi denne RM-en som en belønningsfunksjon og finjusterer GPT‑3‑retningslinjene våre for å maksimere denne belønningen med PPO-algoritmen⁠.

Én måte å tenke på denne prosessen på er at den “låser opp” funksjonalitet som GPT‑3 allerede hadde, men som var vanskelig å fremkalle gjennom bare spørreteknikk: Dette er fordi opplæringsprosedyren vår har en begrenset evne til å lære modellen ny funksjonalitet relativt til det som læres under forhåndsopplæring, siden den bruker mindre enn 2 % av datakraften og dataene relativt til forhåndsopplæring av modell.

En begrensning av denne tilnærmelsen er at den introduserer en “tilpasningsskatt”: tilpasning av modeller bare på kundeoppgaver kan gjøre ytelsen verre enn på andre akademiske NLP-oppgaver. Dette er ikke ønskelig siden, hvis tilpasningsteknikkene våre gjør modeller verre til oppgaver folk bryr seg om, er det mindre sannsynlig at de blir tatt i bruk i praksis. Vi har oppdaget en enkel algoritmeendring som minimerer tilpasningsskatten: under RL-finjustering blander vi inn en liten andel av de opprinnelige dataene som ble brukt til å lære opp GPT‑3, og lærer opp med disse dataene med maksimering av normal logaritmisk sannsynlighet.^D Dette opprettholder grovt ytelsen på sikkerhet og menneskelig preferanse, mens det reduserer ytelsesreduksjon på akademiske oppgaver, og i flere tilfeller overgår den til og med GPT‑3‑grunnlinjen.

Generalisering for å utvide preferanser

Prosedyren vår tilpasser modellens atferd med preferansene til annotatørene våre, som direkte produserer dataene som brukes til å lære opp modellene, og oss forskere, som gir veiledning til annotatørene gjennom skriftlige instruksjoner, direkte tilbakemelding om spesifikke eksempler og uformelle samtaler. Den er også påvirket av kundene våre og preferansene som er implisitt i API-retningslinjene mine. Vi valgte annotatører som presterte godt på en screeningtest for egnethet for identifisering av og respondering på sensitive meldinger. Men disse forskjellige kildene for påvirkning av dataene garanterer ikke at modellene våre er tilpasset etter preferansene til en større gruppe.

Vi utførte to eksperimenter for å undersøke dette. Først evaluerte vi GPT‑3 og InstructGPT med annotatører for kontroll^E som ikke produserte noen av opplæringsdataene, og fant at disse etikettbrukerne foretrekker utdata fra InstructGPT‑modeller ved omtrent samme hyppighet som etikettbrukerne. Deretter lærte vi opp belønningsmodeller på data fra et undersett av annotatører, og fant at de generaliserer godt for å forutsi preferansene til et annen undersett av annotatører. Dette antyder at modellene ikke bare er blitt overtilpasset etter preferansene til annotatørene som lærer opp. Men mer arbeid kreves for å studere hvordan disse modellene presterer i bredere brukergrupper, og hvordan de presterer på inndata der mennesker er uenige om ønskelig atferd.

Begrensninger

Til tross for betydelig fremdrift er InstructGPT‑modellene våre langt fra helt tilpasset og helt sikre. De genererer fremdeles giftige eller partiske fakta, og genererer seksuelt og voldelig innhold uten uttrykkelige meldinger. Men sikkerheten til et maskinlæringssystem er ikke bare avhengig av atferden til de underliggende modellene, men også av hvordan disse modellene er utrullet. For å støtte sikkerheten til API-en vårt fortsetter vi å gjennomgå potensielle applikasjoner⁠(åpnes i et nytt vindu) før de aktiveres, gi innholdsfiltre for registrering av usikre fullførelser og overvåker for uriktig bruk.

Et biprodukt av opplæring av modellene våre til å følge brukerinstruksjoner, slik at de kan bli mer utsatt for uriktig bruk hvis de instrueres til å produsere usikre utdata. Løsning av dette krever at modellene våre nekter visse instruksjoner. Å gjøre dette pålitelig er et viktig åpent forskningsproblem som vi ser frem til å takle.

I tillegg er det i mange tilfeller muligens ikke ønskelig å tilpasse etter preferanser til den gjennomsnittlige annotatøren. For eksempel ved generering av tekst som uforholdsmessig påvirker en minoritetsgruppe, skal preferansene til den gruppen vektes tyngre. Akkurat nå er InstructGPT opplært til å følge instruksjoner på engelsk og er derfor innstilt mot de kulturelle verdiene til engelsktalende personer. Vi utfører research på forståelse av forskjellene og avvikene mellom preferansene til annotatører, slik at vi kan tilpasse modellene etter verdiene til mer spesifikke befolkninger. Mer generelt sett introduserer tilpasning av modellutdata etter verdiene til spesifikke personer vanskelige valg med samfunnskonsekvenser, og til syvende og sist må vi etablere ansvarlige, inklusive prosesser for å ta disse avgjørelsene.

Neste trinn

Dette er den første applikasjonen av tilpasningsforskningen til produktet vårt. Resultatene våre viser at disse teknikkene er effektive til å betydelig forbedre tilpasningen av AI-systemer med generelt formål med menneskelige hensikter. Men dette er bare starten: vi kommer til å fortsette å utvikle disse teknikkene for å forbedre tilpasningen av de nåværende og fremtidige modellene våre mot språkverktøy som er sikre og nyttige for mennesker.

Hvis du er interessert i disse forskningsretningene, ansetter vi⁠(åpnes i et nytt vindu)!

Fotnoter

A
Vi bruker bare meldinger sendt inn via Playground til en tidligere versjon av InstructGPT-modellene som ble utrullet i januar 2021. De menneskelige annotatørene våre fjerner personlig identifiserende informasjon fra alle meldinger før de legges til i opplæringssettet.
B
InstructGPT-modellene som er utrullet i API-en er oppdaterte versjoner opplært med de samme dataene fra menneskelig tilbakemelding. De blir en lignende, men litt annerledes opplæringsmetode som vi kommer til å beskrive i en kommende publikasjon.
C
Vi måler også flere andre dimensjoner av potensielt skadelige utdata på API-distribusjonen vår, uansett om utdataene inneholder seksuelt eller voldelig innhold, sverter en beskyttet klasse eller oppmuntrer til uriktig bruk. Vi har oppdaget at InstructGPT ikke forbedrer betydelig fra GPT-3 på disse målingene. Hendelsesraten er like lav for begge modeller.
D
Vi har oppdaget at denne tilnærmelsen er mer effektiv enn å øke KL-koeffisienten.
E
Disse annotatørene er hentet fra Scale AI og Upwork, på lignende måte som etikettbrukerne våre for opplæring, men de gjennomgår ikke en screeningtest.

Referanser

1
Christiano, P., Leike, J., Brown, T.B., Martic, M., Legg, S. and Amodei, D., 2017. Deep reinforcement learning from human preferences. arXiv preprint arXiv:1706.03741.
2
Stiennon, N., Ouyang, L., Wu, J., Ziegler, D.M., Lowe, R., Voss, C., Radford, A., Amodei, D. and Christiano, P., 2020.
3
Wu, J., Ouyang, L., Ziegler, D.M., Stiennon, N., Lowe, R., Leike, J. and Christiano, P., 2021. Recursively summarizing books with human feedback. arXiv preprint arXiv:2109.10862.
4
Wei, J., Bosma, M., Zhao, V.Y., Guu, K., Yu, A.W., Lester, B., Du, N., Dai, A.M. and Le, Q.V., 2021. Finetuned language models are zero-shot learners. arXiv preprint arXiv:2109.01652.
5
Sanh, V., Webson, A., Raffel, C., Bach, S.H., Sutawika, L., Alyafeai, Z., Chaffin, A., Stiegler, A., Scao, T.L., Raja, A. and Dey, M., 2021. Multitask prompted training enables zero-shot task generalization. arXiv preprint arXiv:2110.08207.
6
Bender, E.M., Gebru, T., McMillan-Major, A. and Shmitchell, S., 2021, March. On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?🦜. In Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency (pp. 610-623).
7
Bommasani, R., Hudson, D.A., Adeli, E., Altman, R., Arora, S., von Arx, S., Bernstein, M.S., Bohg, J., Bosselut, A., Brunskill, E. and Brynjolfsson, E., 2021. On the opportunities and risks of foundation models. arXiv preprint arXiv:2108.07258.
8
Kenton, Z., Everitt, T., Weidinger, L., Gabriel, I., Mikulik, V. and Irving, G., 2021. Alignment of Language Agents. arXiv preprint arXiv:2103.14659.
9
Weidinger, L., Mellor, J., Rauh, M., Griffin, C., Uesato, J., Huang, P.S., Cheng, M., Glaese, M., Balle, B., Kasirzadeh, A. and Kenton, Z., 2021. Ethical and social risks of harm from Language Models. arXiv preprint arXiv:2112.04359.
10
Tamkin, A., Brundage, M., Clark, J. and Ganguli, D., 2021. Understanding the Capabilities, Limitations, and Societal Impact of Large Language Models. arXiv preprint arXiv:2102.02503.
11
Solaiman, I. and Dennison, C., 2021. Process for Adapting Language Models to Society (PALMS) with Values-Targeted Datasets. arXiv preprint arXiv:2106.10328.
12
Ngo, H., Raterink, C., Araújo, J.G., Zhang, I., Chen, C., Morisot, A. and Frosst, N., 2021. Mitigating harm in language models with conditional-likelihood filtration. arXiv preprint arXiv:2108.07790.
13
Xu, J., Ju, D., Li, M., Boureau, Y.L., Weston, J. and Dinan, E., 2020. Recipes for safety in open-domain chatbots. arXiv preprint arXiv:2010.07079.
14
Keskar, N.S., McCann, B., Varshney, L.R., Xiong, C. and Socher, R., 2019. Ctrl: A conditional transformer language model for controllable generation. arXiv preprint arXiv:1909.05858.
15
Krause, B., Gotmare, A.D., McCann, B., Keskar, N.S., Joty, S., Socher, R. and Rajani, N.F., 2020. Gedi: Generative discriminator guided sequence generation. arXiv preprint arXiv:2009.06367.
16
Dathathri, S., Madotto, A., Lan, J., Hung, J., Frank, E., Molino, P., Yosinski, J. and Liu, R., 2019. Plug and play language models: A simple approach to controlled text generation. arXiv preprint arXiv:1912.02164.
17
Lin, S., Hilton, J. and Evans, O., 2021. TruthfulQA: Measuring how models mimic human falsehoods. arXiv preprint arXiv:2109.07958.
18
Gehman, S., Gururangan, S., Sap, M., Choi, Y. and Smith, N.A., 2020. RealToxicityPrompts: Evaluating neural toxic degeneration in language models. arXiv preprint arXiv:2009.11462.
19
Rudinger, R., Naradowsky, J., Leonard, B. and Van Durme, B., 2018. Gender bias in coreference resolution. arXiv preprint arXiv:1804.09301.
20
Nangia, N., Vania, C., Bhalerao, R. and Bowman, S.R., 2020. CrowS-pairs: A challenge dataset for measuring social biases in masked language models. arXiv preprint arXiv:2010.00133.

Forfattere

Ryan Lowe og Jan Leike

Anerkjennelse

Vi vil takke medforfatterne til artikkelen: Long Ouyang, Jeff Wu, Roger Jiang, Diogo Almeida, Carroll Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller, Maddie Simens, Amanda Askell, Peter Welinder og Paul Christiano samt alle som ga tilbakemelding om artikkelen og blogginnlegget. Vi vil også takke kommunikasjonsteamet for veiledningen og hjelpen, inkludert Steve Dowling, Hannah Wong, Elie Georges, Alper Ercetin, Jared Salzano, Allan Diego og Justin Jay Wang. Til slutt vil vi takke annotatørene våre, uten dem hadde ikke dette prosjektet vært mulig.

Relaterte artikler

Se alle

Disrupting malicious uses of AI by state-affiliated threat actors

Sikkerhet14. feb. 2024

Building an early warning system for LLM-aided biological threat creation

Publikasjon31. jan. 2024

Democratic Inputs To AI Grant Program Update

Democratic inputs to AI grant program: lessons learned and implementation plans

Sikkerhet16. jan. 2024