27 januari 2022

Justera språkmodeller för att följa instruktioner

Laddar …

Vi har tränat språkmodeller som är mycket bättre på att följa användarens avsikter än GPT‑3, och samtidigt gjort dem mer sanningsenliga och mindre toxiska. Vi har uppnått detta med hjälp av tekniker som kommit ur vår justeringsrelaterade forskning. Dessa InstructGPT-modeller, som tränats tillsammans med människor, används nu som standard för språkmodeller i vårt API.

Laddar …

OpenAI:s API drivs av GPT‑3‑språkmodeller⁠, som man kan få att utföra uppgifter med naturligt språk genom att använda noggrant utformade textprompter. Men dessa modeller kan även generera utdata som är osanna, toxiska eller ger uttryck åt farliga tankar. Detta beror delvis på att GPT‑3 har tränats att förutsäga nästa ord i en stor datamängd bestående av internet-texter, snarare än att på ett säkert sätt utföra den språkrelaterade uppgift som användaren önskar. Med andra ord har dessa modeller inte justerats efter sina användare.

I syfte att göra modellerna säkrare, mer användbara och bättre justerade använder vi en befintlig teknik som kallas förstärkningsinlärning med hjälp av mänsklig feedback⁠ (RLHF). I prompter från våra kunder till API:t ^A anger våra etiketterare exempel på önskat modellbeteende och rangordnar olika utdata från modellerna. Sedan används dessa data för att finjustera GPT‑3.

De InstructGPT‑modeller som kommer av detta arbete är mycket bättre på att följa instruktioner än GPT‑3. De hittar också på fakta mindre frekvent, och uppvisar små minskningar vad gäller generering av toxiska utdata. Våra etiketterare föredrar utdata från InstructGPT‑modellen 1.3B jämfört med utdata från GPT‑3‑modellen 175B, detta trots att den förstnämnda har mer än 100 gånger färre parametrar. Samtidigt visar vi att vi inte behöver kompromissa med GPT‑3:s förmågor, som uppmätts via akademiska NLP-utvärderingar.

Dessa InstructGPT‑modeller, vilka körts som betaversioner i API:t under mer än ett år, är nu standard för språkmodeller i vårt API.^B Vi anser att finjustering av språkmodeller i samarbete med människor är ett kraftfullt sätt att förbättra säkerheten och tillförlitligheten, och vi fortsätter framåt i samma riktning.

Vår justeringsforskning har pågått⁠ i flera⁠ år⁠, men det här är första gången som ^{1, 2, 3} tillämpas på vår produkt. Vårt arbete är även relaterat till modern forskning där språkmodeller finjusteras för att följa instruktioner med hjälp av akademiska NLP-datamängder, i synnerhet FLAN⁴ och T0.⁵ En viktig drivkraft bakom vårt arbete är målet att göra språkmodellerna mer användbara och sanningsenliga, samtidigt som vi begränsar deras skadliga beteende och bristande neutralitet.^{6, 7, 8, 9, 10} En del av vår tidigare forskning⁠ på det här området visar att vi kan minska andelen skadliga utdata genom att finjustera en mindre, utvald datamängd bestående av mänskliga exempel.¹¹ Annan forskning har fokuserat på att filtrera datamängder före träning,[[fn:12] säkerhetsspecifika kontrolltoken,^{13, 14} eller styrning av modellgenerering^{15, 16} Vi utforskar dessa och andra idéer som en del av vår justeringsforskning.

Resultat

Först utvärderar vi hur väl utdata från InstructGPT följer användarens instruktioner. Detta görs genom att etiketterare jämför dess utdata med utdata från GPT‑3. Vi ser att InstructGPT‑modellerna är mycket att föredra när det gäller prompter som skickats till både InstructGPT- och GPT‑3‑modeller i API:t. Detta gäller även om vi lägger till ett prefix i GPT‑3‑prompten, så att den går in i ett läge för att följa instruktioner.

Laddar …

För att mäta modellernas säkerhet använder vi i första hand en svit befintliga nyckeltal på allmänt tillgängliga datamängder. Jämfört med GPT‑3 producerar InstructGPT färre imitativa falskheter (enligt TruthfulQA¹⁷) och är mindre toxisk (enligt RealToxicityPrompts¹⁸). Vi genomför även mänskliga utvärderingar av vår API-promptdistribution och ser att InstructGPT hittar på fakta (hallucinerar) mindre ofta och genererar fler lämpliga utdata.^C

Laddar …

Slutligen ser vi att InstructGPT‑utdata är att föredra framför utdata från FLAN⁴ och T0[[fn:5] på vår kunddistribution. Detta indikerar att de data som används för att träna FLAN och T0, mestadels akademiska NLP-uppgifter, inte är helt och hållet representativa för hur driftsatta språkmodeller används i praktiken.

Tillvägagångssätt

Diagram showing three-step methodology to train InstructGPT models.

Vår främsta teknik för att träna InstructGPT‑modeller är förstärkningsinlärning från mänsklig feedback (RLHF)⁠, ett tillvägagångssätt vi var bland de första att använda i vår tidigare justeringsforskning. Den här tekniken använder mänskliga preferenser som en belöningssignal för att finjustera våra modeller. Det är viktigt eftersom problemen med säkerhet och justering som vi försöker lösa är komplexa och subjektiva, och inte fullt ut kan beskrivas med enkla automatiska nyckeltal.

Först samlar vi in en datamängd bestående av mänskligt författade exempel på prompter som skickats till vårt API, och använder denna för att träna våra baslinjer för övervakad inlärning. Därefter samlar vi in en datamängd bestående av mänskligt etiketterade jämförelser mellan utdata från två modeller på en större uppsättning API-prompter. Sedan tränar vi en belöningsmodell (RM) på denna datamängd så att den kan förutsäga vilka utdata våra etiketterare skulle föredra. Slutligen använder vi denna RM som en belöningsfunktion och finjusterar vår GPT‑3‑princip för att maximera belöningen med hjälp av PPO-algoritmen⁠.

Man kan tänka på den här processen som ett sätt att ”låsa upp” förmågor som GPT‑3 redan hade, men som var svåra att få fram via ren promptutformning. Det beror på att vårt träningsförfarande är begränsat när det gäller att lära modellen nya förmågor i förhållande till vad den lärde sig under förträningen, då den använder mindre än 2 % av beräkningskapacitet och data jämfört med förträningen.

En begränsning hos det här tillvägagångssättet är att det innebär ett slags ”justeringsskatt”. När modellen enbart justeras efter kunders uppgifter kan de prestera sämre på vissa andra akademiska NLP-uppgifter. Detta är inte önskvärt, för om vår justeringsteknik gör modellen sämre på uppgifter som folk bryr sig om, så är sannolikheten lägre att de används i praktiken. Vi har identifierat en enkel algoritmisk förändring som minimerar denna justeringsskatt. Under finjusteringen av RL blandar vi in en liten delmängd av de ursprungliga data som användes för att träna GPT‑3, och tränar med dessa data via den normala logg-sannolikhetsmaximeringen.^D I och med detta bibehålls mer eller mindre resultaten vad gäller säkerhet och mänskliga preferenser, samtidigt som andelen försämrade resultat på akademiska uppgifter minskar, och i många fall till och med överträffar GPT‑3‑baslinjen.

Generalisera till bredare preferenser

Vårt förfarande justerar modellernas beteende efter preferenserna hos våra etiketterare, som direkt producerar de data som används för att träna modellerna, samt efter preferenserna hos oss forskare, som vägleder etiketterarna med hjälpa av skriftliga instruktioner, direkt feedback gällande specifika exempel och informella samtal. Beteendet påverkas också av våra kunder och implicita preferenser i våra API-principer. Vi valde ut etiketterare som gjorde bra ifrån sig på ett prov som utvärderade förmågan att identifiera och reagera på känsliga prompter. Att data påverkas av dessa olika källor garanterar dock inte att våra modeller justeras efter någon bredare grupps preferenser.

Vi genomförde två experiment för att undersöka detta. Först utvärderar vi GPT‑3 och InstructGPT med hjälp av utelämnade etiketterare^E som inte producerat några träningsdata. Vi fann att dessa etiketterare föredrar utdata från InstructGPT‑modeller med ungefär samma procentandel som våra träningsetiketterare. För det andra tränar vi belöningsmodeller på data från en delmängd av våra etiketterare, och ser att de generaliserar bra när det gäller att förutsäga en annan delmängd etiketterares preferenser. Detta indikerar att våra modeller inte helt enkelt har överanpassat sig till våra träningsetiketterares preferenser. Vidare arbete krävs dock när det gäller att studera hur dessa modeller presterar med en bredare användargrupp, och hur de presterar med indata där människor har olika åsikter om vad som utgör önskat beteende.

Begränsningar

Trots betydande framsteg är våra InstructGPT‑modeller långt ifrån fullständigt justerade eller fullständigt säkra. De genererar fortfarande toxiska eller snedvridna utdata, hittar på fakta och genererar sexuellt och våldsamt innehåll utan någon uttrycklig prompt i den riktningen. Men en maskininlärningssystems säkerhet hänger inte bara på de underliggande modellernas beteende, utan också på hur dessa modeller driftsätts. För att göra vårt API så säkert som möjligt kommer vi även i fortsättningen att granska potentiella användningsfall⁠(öppnas i ett nytt fönster) innan de aktiveras, tillhandahålla innehållsfilter för att upptäcka farliga slutföranden och övervaka missbruk.

En biprodukt av att träna modellerna att följa användares instruktioner är att de kan bli lättare att missbruka genom instruktioner att producera farliga utdata. För att ta itu med det problemet måste våra modeller vägra att följa vissa instruktioner, och att uppnå detta på ett tillförlitligt sätt är ett område av pågående forskning som vi gärna tar oss an.

I många fall är det dessutom inte önskvärt att justera efter genomsnittliga etiketterares preferenser. Vid generering av text som i hög utsträckning påverkar en minoritetsgrupp måste exempelvis den gruppens preferenser väga tyngre än andras. I nuläget tränas InstructGPT att följa instruktioner på engelska, och därför föredrar den engelsktalande människors värderingar. Vi genomför forskning för att skapa förståelse för skillnader och meningsskiljaktigheter mellan etiketterares preferenser, så att vi kan anpassa modellerna till mer specifika populationers värderingar. När det rent allmänt handlar om att justera modellutdata efter specifika människors värderingar finns det svåra beslut att fatta gällande samhällseffekter, och i slutändan måste vi ha ansvarstagande och inkluderande förfaranden på plats för att fatta dessa beslut.

Nästa steg

Det här är första gången vår justeringsforskning används i vår produkt. Resultaten indikerar att dessa tekniker på ett effektivt och betydande sätt förbättrar justeringen av allmänna AI-system efter mänskliga avsikter. Detta är dock bara början. Vi fortsätter att utveckla dessa tekniker i syfte att förbättra justeringen av befintliga och framtida modeller efter språkverktyg som är säkra och användbara för människor.

Om du är intresserad av den här forskningen så letar vi efter nya medarbetare⁠(öppnas i ett nytt fönster)!

Fotnoter

A
Vi använder bara prompter som skickats in via Playground till en tidigare version av InstructGPT-modellerna som driftsattes i januari 2021. Våra mänskliga granskare tar bort personligt identifierbar information från alla prompter innan dessa läggs till i träningsuppsättningen.
B
InstructGPT-modellerna som används i API:t är uppdaterade versioner som tränats med hjälp av samma mänskliga återkopplingsdata. De använder en liknande, men något annorlunda, träningsmetod som vi beskriver i en kommande artikel.
C
Vi mäter även flera andra dimensioner av potentiellt skadliga utdata i driftsättningen av vårt API. Till exempel huruvida utdata omfattar sexuellt eller våldsamt innehåll, förlöjligar en skyddad grupp eller uppmuntrar till missbruk. Vi ser att InstructGPT inte gör nämnvärt bättre ifrån sig än GPT-3 när det gäller dessa nyckeltal. Frekvensen är lika låg för båda modellerna.
D
Vi anser att denna metod är effektivare än att helt enkelt öka KL-koefficienten.
E
Dessa etiketterare kommer från Scale AI och Upwork, precis som våra träningsetiketterare, men genomgår inget intagningsprov.

Referenser

1
Christiano, P., Leike, J., Brown, T.B., Martic, M., Legg, S. och Amodei, D., 2017. Deep reinforcement learning from human preferences. arXiv preprint arXiv:1706.03741.
2
Stiennon, N., Ouyang, L., Wu, J., Ziegler, D.M., Lowe, R., Voss, C., Radford, A., Amodei, D. och Christiano, P., 2020.
3
Wu, J., Ouyang, L., Ziegler, D.M., Stiennon, N., Lowe, R., Leike, J. och Christiano, P., 2021. Recursively summarizing books with human feedback. arXiv preprint arXiv:2109.10862.
4
Wei, J., Bosma, M., Zhao, V.Y., Guu, K., Yu, A.W., Lester, B., Du, N., Dai, A.M. och Le, Q.V., 2021. Finetuned language models are zero-shot learners. arXiv preprint arXiv:2109.01652.
5
Sanh, V., Webson, A., Raffel, C., Bach, S.H., Sutawika, L., Alyafeai, Z., Chaffin, A., Stiegler, A., Scao, T.L., Raja, A. och Dey, M., 2021. Multitask prompted training enables zero-shot task generalization. arXiv preprint arXiv:2110.08207.
6
Bender, E.M., Gebru, T., McMillan-Major, A. och Shmitchell, S., 2021, mars. On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?🦜. I Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency (s. 610–623).
7
Bommasani, R., Hudson, D.A., Adeli, E., Altman, R., Arora, S., von Arx, S., Bernstein, M.S., Bohg, J., Bosselut, A., Brunskill, E. och Brynjolfsson, E., 2021. On the opportunities and risks of foundation models. arXiv preprint arXiv:2108.07258.
8
Kenton, Z., Everitt, T., Weidinger, L., Gabriel, I., Mikulik, V. och Irving, G., 2021. Alignment of Language Agents. arXiv preprint arXiv:2103.14659.
9
Weidinger, L., Mellor, J., Rauh, M., Griffin, C., Uesato, J., Huang, P.S., Cheng, M., Glaese, M., Balle, B., Kasirzadeh, A. och Kenton, Z., 2021. Ethical and social risks of harm from Language Models. arXiv preprint arXiv:2112.04359.
10
Tamkin, A., Brundage, M., Clark, J. och Ganguli, D., 2021. Understanding the Capabilities, Limitations, and Societal Impact of Large Language Models. arXiv preprint arXiv:2102.02503.
11
Solaiman, I. och Dennison, C., 2021. Process for Adapting Language Models to Society (PALMS) with Values-Targeted Datasets. arXiv preprint arXiv:2106.10328.
12
Ngo, H., Raterink, C., Araújo, J.G., Zhang, I., Chen, C., Morisot, A. och Frosst, N., 2021. Mitigating harm in language models with conditional-likelihood filtration. arXiv preprint arXiv:2108.07790.
13
Xu, J., Ju, D., Li, M., Boureau, Y.L., Weston, J. och Dinan, E., 2020. Recipes for safety in open-domain chatbots. arXiv preprint arXiv:2010.07079.
14
Keskar, N.S., McCann, B., Varshney, L.R., Xiong, C. och Socher, R., 2019. Ctrl: A conditional transformer language model for controllable generation. arXiv preprint arXiv:1909.05858.
15
Krause, B., Gotmare, A.D., McCann, B., Keskar, N.S., Joty, S., Socher, R. och Rajani, N.F., 2020. Gedi: Generative discriminator guided sequence generation. arXiv preprint arXiv:2009.06367.
16
Dathathri, S., Madotto, A., Lan, J., Hung, J., Frank, E., Molino, P., Yosinski, J. och Liu, R., 2019. Plug and play language models: A simple approach to controlled text generation. arXiv preprint arXiv:1912.02164.
17
Lin, S., Hilton, J. och Evans, O., 2021. TruthfulQA: Measuring how models mimic human falsehoods. arXiv preprint arXiv:2109.07958.
18
Gehman, S., Gururangan, S., Sap, M., Choi, Y. och Smith, N.A., 2020. RealToxicityPrompts: Evaluating neural toxic degeneration in language models. arXiv preprint arXiv:2009.11462.
19
Rudinger, R., Naradowsky, J., Leonard, B. och Van Durme, B., 2018. Gender bias in coreference resolution. arXiv preprint arXiv:1804.09301.
20
Nangia, N., Vania, C., Bhalerao, R. och Bowman, S.R., 2020. CrowS-pairs: A challenge dataset for measuring social biases in masked language models. arXiv preprint arXiv:2010.00133.

Författare

Ryan Lowe, Jan Leike

Erkännanden

Vi vill tacka personerna som deltog i författandet av denna artikel: Long Ouyang, Jeff Wu, Roger Jiang, Diogo Almeida, Carroll Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller, Maddie Simens, Amanda Askell, Peter Welinder och Paul Christiano, samt alla som gett feedback på artikeln och blogginläggen. Vi vill också tacka Comms-teamet för deras vägledning och hjälp, bland andra Steve Dowling, Hannah Wong, Elie Georges, Alper Ercetin, Jared Salzano, Allan Diego och Justin Jay Wang. Slutligen vill vi tacka våra etiketterare, som har gjort projektet möjligt.

Relaterade artiklar

Visa alla

Disrupting malicious uses of AI by state-affiliated threat actors

Säkerhet14 feb. 2024

Building an early warning system for LLM-aided biological threat creation

Publikation31 jan. 2024

Democratic Inputs To AI Grant Program Update

Democratic inputs to AI grant program: lessons learned and implementation plans

Säkerhet16 jan. 2024