27. januar 2022

At tilpasse sprogmodeller til at følge instruktioner

Indlæser ...

Vi har trænet sprogmodeller, der er langt bedre til at følge brugerens hensigt end GPT‑3, samtidig med at de er mere sandfærdige og mindre skadelige, ved hjælp af teknikker udviklet gennem vores forskning i tilpasning. Vores InstructGPT-modeller er trænet med menneskelig involvering, og er nu de sprogmodeller, der som hovedregel benyttes i vores API.

Indlæser ...

OpenAI-API'en er drevet af GPT‑3‑sprogmodeller⁠, som man kan få til at udføre naturlige sprogopgaver ved hjælp af omhyggeligt konstruerede tekstforespørgsler. Men disse modeller kan også generere output, der er usandfærdige, skadelige eller afspejler ondsindede holdninger. Det skyldes til dels, at GPT‑3 er trænet til at forudsige det næste ord i et stort datasæt med internettekst, snarere end at udføre den sprogopgave, brugeren ønsker. Disse modeller er med andre ord ikke afstemt med deres brugere.

For at gøre vores modeller mere sikre, hjælpsomme og tilpassede bruger vi en eksisterende teknik kaldet forstærkningslæring fra menneskelig feedback (RLHF)⁠. Ud fra forespørgsler, som vores kunder sender til API'en, ^A demonstrerer vores annotatorer (person, der anmærker eller annoterer data til træning af AI-modeller) den ønskede modeladfærd og rangordner flere output fra vores modeller. Derefter bruger vi dataene til at finjustere GPT‑3.

De resulterende InstructGPT‑modeller er langt bedre til at følge instruktioner end GPT‑3. De finder også sjældnere på fakta og viser små fald i produktionen af skadeligt output. Vores annotatorer foretrækker output fra vores 1,3B InstructGPT‑model frem for output fra en 175B GPT‑3‑model, selv om den har mere end 100 gange færre parametre. Samtidig viser vi, at vi ikke behøver at gå på kompromis med GPT‑3's evner, målt ud fra vores models præstationer i akademiske NLP-evalueringer.

Disse InstructGPT‑modeller, som har været i beta på API'en i mere end et år, er nu de sprogmodeller, der som hovedregel er tilgængelige på vores API^B. Vi har erfaret, at finjustering af sprogmodellerne med mennesker i loopet er et stærkt værktøj til at forbedre deres sikkerhed og pålidelighed, og vi vil fortsætte med at skubbe i denne retning.

Det er første gang, vores forskning i denne form for tilpasning, som vi har arbejdet⁠ med i flere⁠ år⁠,^{1, 2 og 3} er blevet anvendt på vores produkt. Vores indsats er også relateret til nyere forskning, der finjusterer sprogmodeller til at følge instruktioner ved hjælp af akademiske NLP-datasæt, især FLAN⁴ og T0.⁵. En vigtig motivation for vores arbejde er at øge nyttigheden og sandfærdigheden, samtidig med at sprogmodellernes skadelige adfærd og bias mindskes.^{6, 7, 8, 9 og 10}. Noget af vores tidligere forskning⁠ i denne retning viste, at vi kan reducere skadelige outputs ved at finjustere på et lille kurateret datasæt med menneskelige demonstrationer¹¹. Anden forskning har fokuseret på filtrering af prætræningsdatasættet,¹² sikkerhedsspecifikke kontrol-tokens,^{13 og 14} eller styring af modelgenerationer.^{15 og 16} Vi undersøger disse og andre idéer i vores igangværende forskning i tilpasning.

Resultater

Vi evaluerer først, hvor godt output fra InstructGPT følger brugerens instruktioner, ved at lade annotatorer sammenligne dens output med dem fra GPT‑3. Vi har erfaret, at InstructGPT‑modellerne er markant bedre end både InstructGPT- og GPT‑3‑modellerne på API'en. Det gælder også, når vi tilføjer et præfiks til GPT‑3‑forespørgslen, så den går ind i en “instruktionsfølgende tilstand”.

Indlæser ...

For at måle vores modellers sikkerhed bruger vi primært en række eksisterende målinger på offentligt tilgængelige datasæt. Sammenlignet med GPT‑3 producerer InstructGPT færre imiterende usandheder (ifølge TruthfulQA¹⁷) og er mindre skadelig (ifølge RealToxicityPrompts¹⁸). Vi foretager også menneskelige evalueringer af vores API-forespørgselsdistribuering og erfarer her, at InstructGPT opdigter fakta (“hallucinerer”) mindre ofte og genererer mere passende output.^C

Indlæser ...

Endelig kan vi konstatere, at output fra InstructGPT foretrækkes frem for FLAN⁴ og T0⁵ på tværs af vores kundedistribuering. Det tyder på, at de data, der er brugt til at træne FLAN og T0 – primært akademiske NLP-opgaver – ikke i tilstrækkelig grad afspejler, hvordan sprogmodeller rent faktisk anvendes i praksis.

Metoder

Diagram showing three-step methodology to train InstructGPT models.

For at træne InstructGPT‑modeller anvender vi primært forstærkningslæring fra menneskelig feedback (RLHF)⁠, en metode vi var med til at udvikle i vores tidlige arbejde med denne form for tilpasning. Teknikken bruger menneskelige præferencer som en form for belønningssignal til at finjustere vores modeller. Det er vigtigt, fordi de sikkerheds- og tilpasningsproblemer, vi forsøger at løse, er komplekse og subjektive og ikke fuldt ud kan indfanges med simple, automatiske målemetoder.

Vi indsamler først et datasæt med menneskeskrevne demonstrationer på forespørgsler, der er sendt til vores API, og bruger det til at træne vores superviserede lærings-baselines. Dernæst samler vi et datasæt med menneske-annoterede sammenligninger mellem to modeloutput på et større sæt API-forespørgsler. Vi træner så en belønningsmodel (reward model, RM) på dette datasæt for at forudsige, hvilket output vores annotatorer ville foretrække. Til sidst bruger vi denne RM som en belønningsfunktion og finjusterer vores GPT‑3‑retningslinjer for at maksimere denne belønning ved hjælp af PPO-algoritmen⁠⁠.

En måde at tænke på denne proces er, at den “låser op” for evner, som GPT‑3 allerede havde, men som var vanskelige at få frem ved hjælp af forespørgsels-udvikling alene. Dette skyldes, at vores træningsprocedure har en begrænset evne til at lære modellen nye evner i forhold til, hvad der læres under prætræningen, da den bruger mindre end 2% af beregningerne og dataene i forhold til modellens fortræning.

En begrænsning ved denne tilgang er, at den introducerer en “tilpasningsskat”. Hvis man kun tilpasser modellerne til kundeopgaver, kan det gøre deres præstation dårligere på nogle andre akademiske NLP-opgaver. Det er ikke ønskeligt, for hvis vores tilpasningsteknikker gør modellerne dårligere til opgaver, som folk gerne vil have, er der mindre sandsynlighed for, at de bliver brugt i praksis. Vi har fundet en simpel algoritmisk ændring, der minimerer denne tilpasningsskat. Under RL-finjusteringen blander vi en lille del af de oprindelige data, der blev brugt til at træne GPT‑3, og træner på disse data ved hjælp af den normale logiske sandsynlighedsmaksimering^D. Dette opretholder nogenlunde ydeevnen i forhold til sikkerhed og menneskelige præferencer, samtidig med at det mindsker faldet i ydeevne i forhold til akademiske opgaver og i flere tilfælde endda overgår GPT‑3‑baseline.

Generalisering til bredere præferencer

Vores procedure tilpasser vores modellers adfærd til præferencerne hos vores annotatorer, som direkte producerer de data, der bruges til at træne vores modeller, og os forskere, som giver annotatorerne vejledning gennem skriftlige instruktioner, direkte feedback på specifikke eksempler og uformelle samtaler. Den er også påvirket af vores kunder og de præferencer, der er implicitte i vores API's retningslinjer. Vi udvalgte de annotatorer, der klarede sig godt i en screeningstest for evnen til at identificere og reagere på følsomme forespørgsler. Disse forskellige kilder af indflydelse på dataene garanterer dog ikke, at vores modeller er i overensstemmelse med en bredere gruppes præferencer.

Det udførte vi to eksperimenter for at undersøge. Først evaluerede vi GPT‑3 og InstructGPT ved hjælp af annotatorer^E, der var holdt ude af træningen, og erfarede her, at de foretrak output fra InstructGPT i omtrent samme grad som vores trænings-annotatorer. For det andet træner vi belønningsmodeller på data fra en delmængde af vores annotatorer og erfarer, at de kan generaliseres til at forudsige præferencerne for en anden delmængde af annotatorer. Dette antyder, at vores modeller ikke udelukkende har overtilpasset sig præferencerne hos trænings-annotatorerne. Der er dog brug for yderligere arbejde for at undersøge, hvordan disse modeller fungerer på bredere grupper af brugere, og hvordan de fungerer på input, hvor mennesker er uenige om den ønskede adfærd.

Begrænsninger

På trods af betydelige fremskridt er vores InstructGPT‑modeller langt fra fuldt tilpassede eller fuldt sikre; de genererer stadig skadelige eller forudindtagede output, opdigter fakta og genererer seksuelt og voldeligt indhold uden eksplicit opfordring. Men sikkerheden i et maskinlæringssystem afhænger ikke kun af de underliggende modellers opførsel, men også af, hvordan disse modeller anvendes. For at understøtte sikkerheden i vores API vil vi fortsætte med at gennemgå potentielle applikationer⁠(åbner i et nyt vindue), før de går i luften, levere indholdsfiltre til at opdage usikre fuldførelser og overvåge misbrug.

Et biprodukt af at træne vores modeller til at følge brugerinstruktioner er, at de kan blive mere modtagelige for misbrug, hvis de instrueres i at producere usikre resultater. At løse dette kræver, at vores modeller afviser visse instruktioner; at gøre dette pålideligt er et vigtigt åbent forskningsproblem, som vi ser frem til at tackle.

Derudover er det i mange tilfælde ikke ønskværdigt at tilpasse modellerne til de gennemsnitlige annotator-præferencer. Når man f.eks. genererer tekst, der påvirker en minoritetsgruppe uforholdsmæssigt meget, bør denne gruppes præferencer vægtes tungere. Lige nu er InstructGPT trænet til at følge instruktioner på engelsk, og derfor er den forudindtaget i forhold til engelsktalende menneskers kulturelle værdier. Vi forsker i at forstå forskellene og uoverensstemmelserne mellem annotatorernes præferencer, så vi kan tilpasse vores modeller til mere specifikke befolkningsgruppers værdier. Mere generelt medfører tilpasning af modeloutput til specifikke menneskers værdier vanskelige valg med samfundsmæssige konsekvenser, og i sidste ende må vi etablere ansvarlige, inkluderende processer til at træffe disse beslutninger.

De næste trin:

Dette er den første anvendelse af vores tilpasnings-forskning på vores produkt. Vores resultater viser, at disse teknikker er effektive til at forbedre tilpasningen af AI-systemer til generelle formål med menneskelige intentioner. Men det er kun begyndelsen. Vi vil blive ved med at udvikle teknikkerne for at forbedre tilpasningen af vores nuværende og fremtidige modeller til sprogværktøjer, der er sikre og nyttige for mennesker.

Hvis du er interesseret i denne type forskning, så ansætter vi lige nu⁠(åbner i et nyt vindue)!

Fodnoter

A
Vi bruger kun forespørgsler, der er indsendt via Playground til en tidligere version af InstructGPT-modellerne, der blev implementeret i januar 2021. Vores menneskelige annotatorer fjerner personligt identificerbare oplysninger fra alle beskeder, før de tilføjes til træningssættet.
B
InstructGPT-modellerne i API'en er opdaterede versioner, der er trænet ved hjælp af de samme data fra menneskelig feedback. De bruger en lignende, men lidt anderledes træningsmetode, som vi vil beskrive i en kommende publicering.
C
Vi måler også flere andre dimensioner af potentielt skadelige outputs i vores API-distribution: Om outputtet indeholder seksuelt eller voldeligt indhold, nedgør en beskyttet klasse eller opfordrer til misbrug. Vi vurderer, at InstructGPT ikke er væsentligt bedre end GPT-3 på disse parametre; incidensraten er lige lav for begge modeller.
D
Vi fandt denne tilgang mere effektiv end blot at øge KL-koefficienten.
E
Disse annotatorer kommer fra Scale AI og Upwork, på samme måde som vores trænings-annotatorer, men gennemgår ikke en screeningsprøve.

Litteraturhenvisninger

1
Christiano, P., Leike, J., Brown, T.B., Martic, M., Legg, S. og Amodei, D., 2017. Deep reinforcement learning from human preferences. arXiv preprint arXiv:1706.03741.
2
Stiennon, N., Ouyang, L., Wu, J., Ziegler, D.M., Lowe, R., Voss, C., Radford, A., Amodei, D. og Christiano, P., 2020.
3
Wu, J., Ouyang, L., Ziegler, D.M., Stiennon, N., Lowe, R., Leike, J. og Christiano, P., 2021. Recursively summarizing books with human feedback. arXiv preprint arXiv:2109.10862.
4
Wei, J., Bosma, M., Zhao, V.Y., Guu, K., Yu, A.W., Lester, B., Du, N., Dai, A.M. og Le, Q.V., 2021. Finetuned language models are zero-shot learners. arXiv preprint arXiv:2109.01652.
5
Sanh, V., Webson, A., Raffel, C., Bach, S.H., Sutawika, L., Alyafeai, Z., Chaffin, A., Stiegler, A., Scao, T.L., Raja, A. og Dey, M., 2021. Multitask prompted training enables zero-shot task generalization. arXiv preprint arXiv:2110.08207.
6
Bender, E.M., Gebru, T., McMillan-Major, A. og Shmitchell, S., 2021, marts. On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?🦜. In Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency (pp. 610-623).
7
Bommasani, R., Hudson, D.A., Adeli, E., Altman, R., Arora, S., von Arx, S., Bernstein, M.S., Bohg, J., Bosselut, A., Brunskill, E. og Brynjolfsson, E., 2021. On the opportunities and risks of foundation models. arXiv preprint arXiv:2108.07258.
8
Kenton, Z., Everitt, T., Weidinger, L., Gabriel, I., Mikulik, V. og Irving, G., 2021. Alignment of Language Agents. arXiv preprint arXiv:2103.14659.
9
Weidinger, L., Mellor, J., Rauh, M., Griffin, C., Uesato, J., Huang, P.S., Cheng, M., Glaese, M., Balle, B., Kasirzadeh, A. og Kenton, Z., 2021. Ethical and social risks of harm from Language Models. arXiv preprint arXiv:2112.04359.
10
Tamkin, A., Brundage, M., Clark, J. og Ganguli, D., 2021. Understanding the Capabilities, Limitations, and Societal Impact of Large Language Models. arXiv preprint arXiv:2102.02503.
11
Solaiman, I. og Dennison, C., 2021. Process for Adapting Language Models to Society (PALMS) with Values-Targeted Datasets. arXiv preprint arXiv:2106.10328.
12
Ngo, H., Raterink, C., Araújo, J.G., Zhang, I., Chen, C., Morisot, A. og Frosst, N., 2021. Mitigating harm in language models with conditional-likelihood filtration. arXiv preprint arXiv:2108.07790.
13
Xu, J., Ju, D., Li, M., Boureau, Y.L., Weston, J. og Dinan, E., 2020. Recipes for safety in open-domain chatbots. arXiv preprint arXiv:2010.07079.
14
Keskar, N.S., McCann, B., Varshney, L.R., Xiong, C. og Socher, R., 2019. Ctrl: A conditional transformer language model for controllable generation. arXiv preprint arXiv:1909.05858.
15
Krause, B., Gotmare, A.D., McCann, B., Keskar, N.S., Joty, S., Socher, R. og Rajani, N.F., 2020. Gedi: Generative discriminator guided sequence generation. arXiv preprint arXiv:2009.06367.
16
Dathathri, S., Madotto, A., Lan, J., Hung, J., Frank, E., Molino, P., Yosinski, J. og Liu, R., 2019. Plug and play language models: A simple approach to controlled text generation. arXiv preprint arXiv:1912.02164.
17
Lin, S., Hilton, J. og Evans, O., 2021. TruthfulQA: Measuring how models mimic human falsehoods. arXiv preprint arXiv:2109.07958.
18
Gehman, S., Gururangan, S., Sap, M., Choi, Y. og Smith, N.A., 2020. RealToxicityPrompts: Evaluating neural toxic degeneration in language models. arXiv preprint arXiv:2009.11462.
19
Rudinger, R., Naradowsky, J., Leonard, B. og Van Durme, B., 2018. Gender bias in coreference resolution. arXiv preprint arXiv:1804.09301.
20
Nangia, N., Vania, C., Bhalerao, R. og Bowman, S.R., 2020. CrowS-pairs: A challenge dataset for measuring social biases in masked language models. arXiv preprint arXiv:2010.00133.

Skrevet af

Ryan Lowe og Jan Leike

Tak til

En stor tak til artiklens medskribenter: Long Ouyang, Jeff Wu, Roger Jiang, Diogo Almeida, Carroll Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller, Maddie Simens, Amanda Askell, Peter Welinder og Paul Christiano, samt alle, der har givet feedback på artiklen og blogindlægget. Vi vil også gerne takke Comms-teamet for deres vejledning og hjælp, herunder Steve Dowling, Hannah Wong, Elie Georges, Alper Ercetin, Jared Salzano, Allan Diego og Justin Jay Wang. Endelig vil vi gerne takke vores annotatorer, uden hvem dette projekt ikke ville have været muligt.

Lignende artikler

Se alle

Disrupting malicious uses of AI by state-affiliated threat actors

Sikkerhed14. feb. 2024

Building an early warning system for LLM-aided biological threat creation

Publikation31. jan. 2024

Democratic Inputs To AI Grant Program Update

Democratic inputs to AI grant program: lessons learned and implementation plans

Sikkerhed16. jan. 2024