27. tammikuuta 2022

Kielimallien mukauttaminen noudattamaan ohjeita

Ladataan...

Olemme kouluttaneet kielimalleja, jotka seuraavat käyttäjien aikomuksia paljon paremmin kuin GPT‑3 ja tekevät niistä myös totuudenmukaisempia ja vähemmän toksisia käyttämällä linjaustutkimuksemme kautta kehittämiämme tekniikoita. Nämä InstructGPT-mallit, jotka koulutetaan ihmisten kanssa, ovat nyt käytössä oletuskielimallina API-rajapinnassamme.

Ladataan...

OpenAI API -rajapinta perustuu GPT‑3‑kielimalleihin⁠, jotka voidaan houkutella suorittamaan luonnollisen kielen tehtäviä huolellisesti suunniteltujen tekstikehotteiden avulla. Nämä mallit voivat kuitenkin myös tuottaa tuotoksia, jotka ovat epätotuudenmukaisia, toksisia tai heijastavat haitallisia tunteita. Se johtuu osittain siitä, että GPT‑3 on koulutettu ennustamaan seuraava sana suuresta internet-tekstiaineistosta sen sijaan, että se suorittaisi turvallisesti käyttäjän haluaman kielitehtävän. Toisin sanoen nämä mallit eivät ole yhdenmukaisia käyttäjiensä kanssa.

Jotta mallimme olisivat turvallisempia, hyödyllisempiä ja yhdenmukaisempia, käytämme tekniikkaa nimeltä vahvistusoppiminen ihmispalautteesta (RLHF)⁠. Asiakkaidemme API:in lähettämien kehotteiden perusteella merkitsijämme näyttävät esityksiä halutusta mallin toiminnasta ja luokittelevat useita malliemme tuotoksia. Sitten käytämme näitä tietoja GPT‑3:n hienosäätöön.

Tuloksena olevat InstructGPT‑mallit noudattavat ohjeita paljon paremmin kuin GPT‑3. Ne myös keksivät faktoja harvemmin ja osoittavat jonkin verran vähemmän toksisten tuotosten luomista. Merkitsijämme suosivat 1.3B InstructGPT -mallimme tuotoksia 175B GPT‑3 -mallin tuotoksiin verrattuna, vaikka siinä on yli 100 kertaa vähemmän parametreja. Samaan aikaan osoitamme, että meidän ei tarvitse tinkiä GPT‑3:n ominaisuuksista mitattuna mallimme suoriutumisella akateemisissa NLP-arvioinneissa.

Nämä InstructGPT‑mallit, jotka ovat olleet API:n beeta-vaiheessa yli vuoden, ovat nyt API:ssamme käytettävissä olevia oletuskielimalleja.^B Uskomme, että kielimallien hienosäätö ihmisten kanssa on tehokas työkalu niiden turvallisuuden ja luotettavuuden parantamiseksi, ja jatkamme kehittämistä tähän suuntaan.

Tämä on ensimmäinen kerta, kun useiden⁠ vuosien ajan⁠ tekemäämme⁠ linjaustutkimusta^{1, 2 ja 3} on sovellettu tuotteeseemme. Työmme liittyy myös viimeaikaiseen tutkimukseen, jossa hienosäädetään kielimalleja noudattamaan ohjeita akateemisten NLP-tietojoukkojen, erityisesti FLAN'in⁴ ja T0:n, avulla.⁵ Työmme keskeinen motivaatio on lisätä hyödyllisyyttä ja totuudenmukaisuutta samalla, kun lievennetään kielimallien haittoja ja vinoumia.^{6, 7, 8, 9 ja 10} Joissakin aiemmissa tämänsuuntaisissa tutkimuksissamme⁠ on havaittu, että voimme vähentää haitallisia tuotoksia hienosäätämällä pientä kuratoitua ihmisdemonstraatioiden tietojoukkoa.¹¹ Muissa tutkimuksissa on keskitytty koulutusta edeltävän tietojoukon suodattamiseen,¹² turvallisuuskohtaisiin ohjaustunnuksiin^{13 ja 14} tai mallien luomisen ohjaamiseen.^{15 ja 16} Tutkimme näitä ja muita ideoita meneillään olevassa yhdenmukaistamistutkimuksessamme.

Tulokset

Ensin arvioimme, kuinka hyvin InstructGPT:n tuotokset noudattavat käyttäjän ohjeita, vertaamalla sen tuotoksia GPT‑3:n tuloksiin. Olemme havainneet, että InstructGPT‑malleja suositaan merkittävästi sekä InstructGPT- että GPT‑3‑malleille API:n kautta lähetetyissä kehotteissa. Tämä pätee, kun lisäämme etuliitteen GPT‑3‑kehotteeseen, jotta se siirtyy ns. käskyjä seuraavaan tilaan.

Ladataan...

Malliemme turvallisuuden mittaamiseen käytämme ensisijaisesti joukkoa olemassa olevia mittareita julkisesti saatavilla olevista tietojoukoista. Verrattuna GPT‑3:een InstructGPT tuottaa vähemmän matkivia valheita (TruthfulQA'n¹⁷ mukaan) ja on vähemmän toksinen (RealToxicityPromptsin¹⁸ mukaan). Suoritamme myös ihmisten tekemiä arviointeja API-kehotteiden jakelusta ja olemme havainneet, että InstructGPT keksii tosiasioita (nk. hallusinoi) harvemmin ja tuottaa sopivampia tuloksia.^C

Ladataan...

Lopuksi havaitsimme, että InstructGPT‑tuotoksia suositaan asiakasjakelussamme FLAN⁴- ja T0⁵-tuotoksiin verrattuna. Se osoittaa, että FLAN'in ja T0:n kouluttamiseen käytetyt tiedot, jotka ovat enimmäkseen akateemisia NLP-tehtäviä, eivät täysin edusta sitä, miten käyttöön otettuja kielimalleja käytetään käytännössä.

Menetelmät

Diagram showing three-step methodology to train InstructGPT models.

InstructGPT‑mallien kouluttamisessa ydintekniikkamme on ihmisen palautteeseen perustuva vahvistusoppiminen (RLHF)⁠ eli menetelmä, jota olimme mukana kehittämässä aiemmassa linjaustutkimuksessamme. Tämä tekniikka käyttää ihmisen mieltymyksiä palkitsemissignaalina malliemme hienosäätöön. Se on tärkeää, koska ratkaisemamme turvallisuus- ja kohdistusongelmat ovat monimutkaisia ja subjektiivisia, eivätkä yksinkertaiset automaattiset mittarit täysin tallenna niitä.

Keräämme ensin tietojoukon ihmisen kirjoittamista demonstraatioista API:lle lähetetyistä kehotteista ja käytämme tätä ohjatun oppimisen perustasojemme kouluttamiseen. Seuraavaksi keräämme joukon ihmisen merkitsemiä vertailuja kahden mallin tuotosten välillä suuremmalla joukolla API-kehotteita. Sitten koulutamme palkitsemismallin (RM) tälle tietojoukolle ennustaaksemme, mitä tuotosta merkintöjen tekijät suosivat. Lopuksi käytämme tätä palkitsemismallia palkitsemisfunktiona ja hienosäädämme GPT‑3‑käytäntöämme tämän palkkion maksimoimiseksi käyttämällä PPO-algoritmia⁠.

Yksi tapa ajatella tätä prosessia on, että se tuo käyttöön ominaisuuksia, jotka GPT‑3:lla jo oli, mutta joita oli vaikea saada aikaan pelkällä nopealla suunnittelulla. Se johtuu siitä, että koulutusmenetelmämme kyky opettaa mallille uusia ominaisuuksia on rajallinen verrattuna esikoulutuksen aikana opittuun, koska se käyttää alle 2 % laskennasta ja datasta mallin esikoulutukseen verrattuna.

Tämän lähestymistavan rajoituksena on, että se tuo mukanaan eräänlaisen yhdenmukaistusveron: mallien yhdenmukaistaminen vain asiakastehtävien kanssa voi heikentää niiden suorituskykyä joissakin muissa akateemisissa NLP-tehtävissä. Se ei ole toivottavaa, koska jos kohdistustekniikkamme heikentävät malleja ihmisille tärkeissä tehtävissä, niitä ei todennäköisesti käytännössä oteta käyttöön. Olemme löytäneet yksinkertaisen algoritmisen muutoksen, joka minimoi tämän yhdenmukaistusveron: RL-hienosäädön aikana sekoitamme joukkoon pienen osan GPT‑3:n kouluttamiseen käytetystä alkuperäisestä datasta ja koulutamme tätä dataa normaalilla logaritmisen uskottavuuden maksimoinnilla.^D Se ylläpitää suurin piirtein samanlaista suorituskykyä turvallisuuden ja ihmismieltymysten osalta samalla, kun se lieventää suorituskyvyn laskuja akateemisissa tehtävissä ja useissa tapauksissa jopa ylittää GPT‑3:n perustason.

Yleistäminen laajempiin mieltymyksiin

Menettelytapamme yhdenmukaistaa malliemme käyttäytymisen sekä malliemme kouluttamiseen käytettävän datan merkitsijöiden mieltymysten että meidän tutkijoidemme mieltymysten kanssa, jotka ohjaamme merkitsijöiden toimintaa kirjallisten ohjeiden, esimerkeistä annettavan suoran palautteen ja epävirallisten keskustelujen avulla. Siihen vaikuttavat myös asiakkaamme ja API-käytäntöihimme epäsuorasti sisältyvät mieltymykset. Valitsimme merkintöjen tekijät, jotka suoriutuivat hyvin seulontatestissä, jossa arvioitiin kykyä tunnistaa ja vastata arkaluonteisiin kysymyksiin. Nämä erilaiset dataan vaikuttavat tekijät eivät kuitenkaan takaa, että mallimme ovat linjassa minkään laajemman ryhmän mieltymysten kanssa.

Teimme kaksi koetta tämän selvittämiseksi. Ensin arvioimme GPT‑3:a ja InstructGPT:tä käyttämällä poissaolevia merkitsijöitä^E, jotka eivät tuottaneet mitään koulutusdataa. Havaitsimme, että nämä merkitsijät suosivat InstructGPT‑mallien tuotoksia suunnilleen samaan tahtiin kuin koulutusmerkitsijämme. Toiseksi koulutamme palkitsemismalleja merkitsijöiden osajoukon datan perusteella ja olemme havainneet, että ne kykenevät hyvin ennustamaan eri merkitsijöiden osajoukon mieltymyksiä. Se viittaa siihen, että mallimme eivät ole pelkästään sopeutuneet liikaa koulutusmerkitsijöiden mieltymyksiin. Tarvitaan kuitenkin lisää tutkimusta sen selvittämiseksi, miten nämä mallit toimivat laajemmilla käyttäjäryhmillä ja miten ne toimivat syötteissä, joissa ihmiset ovat eri mieltä halutusta toiminnasta.

Rajoitukset

Merkittävästä edistyksestä huolimatta InstructGPT‑mallimme ovat kaikkea muuta kuin täysin yhdenmukaisia tai turvallisia. Ne tuottavat edelleen toksisia tai puolueellisia tuotoksia, keksivät tosiasioita ja tuottavat seksuaalista ja väkivaltaista sisältöä ilman nimenomaista kehotusta. Koneoppimisjärjestelmän turvallisuus ei kuitenkaan riipu pelkästään pohjana olevien mallien käyttäytymisestä, vaan myös siitä, miten näitä malleja käytetään. API-rajapintamme turvallisuuden tukemiseksi jatkamme potentiaalisten sovellusten tarkastamista⁠(avautuu uudessa ikkunassa) ennen niiden julkaisemista, tarjoamme sisältösuodattimia vaarallisten täydennysten havaitsemiseksi ja valvomme väärinkäytön varalta.

Mallien kouluttamisen sivutuotteena käyttäjän ohjeiden noudattamiseen on se, että ne voivat olla alttiimpia väärinkäytöksille, jos niitä käsketään tuottamaan vaarallisia tuotoksia. Sen ratkaiseminen edellyttää, että mallimme kieltäytyvät tietyistä ohjeista. Sen tekeminen luotettavaksi on tärkeä avoin tutkimusongelma, johon olemme innolla tarttumassa.

Lisäksi monissa tapauksissa keskimääräisen merkitsijän mieltymysten mukauttaminen ei välttämättä ole toivottavaa. Esimerkiksi luotaessa tekstiä, joka vaikuttaa suhteettomasti johonkin vähemmistöryhmään, kyseisen ryhmän mieltymyksiä tulisi painottaa enemmän. Tällä hetkellä InstructGPT on koulutettu noudattamaan englanninkielisiä ohjeita. Siksi se on puolueellinen englantia puhuvien ihmisten kulttuuriarvojen suhteen. Tutkimme merkitsijöiden mieltymysten välisiä eroja ja erimielisyyksiä, jotta voimme ehdollistaa mallimme tiettyjen populaatioiden arvoihin. Yleisemmin ottaen mallien tulosten yhdenmukaistaminen tiettyjen ihmisten arvojen kanssa tuo mukanaan vaikeita valintoja, joilla on yhteiskunnallisia vaikutuksia. Lopulta meidän on luotava vastuulliset ja osallistavat prosessit näiden päätösten tekemiseksi.

Seuraavat vaiheet

Tämä on linjaustutkimuksemme ensimmäinen sovellus tuotteeseemme. Tuloksemme osoittavat, että nämä tekniikat parantavat merkittävästi yleiskäyttöisten tekoälyjärjestelmien ja ihmisten tarkoitusperien yhteensopivuutta. Tämä on kuitenkin vasta alkua: jatkamme näiden tekniikoiden kehittämistä parantaaksemme nykyisten ja tulevien malliemme yhdenmukaisuutta kohti ihmisille turvallisia ja hyödyllisiä kielityökaluja.

Jos olet kiinnostunut näistä tutkimussuunnista, tule meille töihin⁠(avautuu uudessa ikkunassa)!

Alaviitteet

A
Käytämme Playgroundin kautta lähetettyjä kehotteita vain InstructGPT-mallien aiempaan versioon, joka otettiin käyttöön tammikuussa 2021. Ihmiskommentaattorimme poistavat henkilökohtaiset tunnistetiedot kaikista kehotteista ennen niiden lisäämistä koulutusjoukkoon.
B
API:ssa käyttöön otetut InstructGPT-mallit ovat päivitettyjä versioita, jotka on koulutettu käyttämällä samaa ihmisen antamaa palautedataa. Ne käyttävät samankaltaista mutta hieman erilaista koulutusmenetelmää, jota kuvaamme tulevassa julkaisussa.
C
Mittaamme myös useita muita mahdollisesti haitallisten tuotosten ulottuvuuksia API-jakelussamme, kuten sisältävätkö tuotokset seksuaalista tai väkivaltaista sisältöä, halventavatko ne suojattua ryhmää tai kannustavatko ne väärinkäyttöön. Havaitsimme, että InstructGPT ei paranna merkittävästi GPT-3:a näissä mittareissa; esiintyvyysaste on yhtä alhainen molemmissa malleissa.
D
Havaitsimme tämän lähestymistavan tehokkaammaksi kuin pelkkä KL-kertoimen nostaminen.
E
Nämä merkitsijät ovat peräisin Scale AI:lta ja Upworkilta, samalla tavalla kuin koulutuksen merkitsijämme, mutta eivät ole osallistuneet seulontatestiin.

Viitteet

1
Christiano, P., Leike, J., Brown, T.B., Martic, M., Legg, S. ja Amodei, D., 2017. Deep reinforcement learning from human preferences. arXiv preprint arXiv:1706.03741.
2
Stiennon, N., Ouyang, L., Wu, J., Ziegler, D.M., Lowe, R., Voss, C., Radford, A., Amodei, D. ja Christiano, P., 2020.
3
Wu, J., Ouyang, L., Ziegler, D.M., Stiennon, N., Lowe, R., Leike, J. ja Christiano, P., 2021. Recursively summarizing books with human feedback. arXiv preprint arXiv:2109.10862.
4
Wei, J., Bosma, M., Zhao, V.Y., Guu, K., Yu, A.W., Lester, B., Du, N., Dai, A.M. ja Le, Q.V., 2021. Finetuned language models are zero-shot learners. arXiv preprint arXiv:2109.01652.
5
Sanh, V., Webson, A., Raffel, C., Bach, S.H., Sutawika, L., Alyafeai, Z., Chaffin, A., Stiegler, A., Scao, T.L., Raja, A. ja Dey, M., 2021. Multitask prompted training enables zero-shot task generalization. arXiv preprint arXiv:2110.08207.
6
Bender, E.M., Gebru, T., McMillan-Major, A. ja Shmitchell, S., 2021, March. On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?🦜. In Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency (pp. 610-623).
7
Bommasani, R., Hudson, D.A., Adeli, E., Altman, R., Arora, S., von Arx, S., Bernstein, M.S., Bohg, J., Bosselut, A., Brunskill, E. ja Brynjolfsson, E., 2021. On the opportunities and risks of foundation models. arXiv preprint arXiv:2108.07258.
8
Kenton, Z., Everitt, T., Weidinger, L., Gabriel, I., Mikulik, V. ja Irving, G., 2021. Alignment of Language Agents. arXiv preprint arXiv:2103.14659.
9
Weidinger, L., Mellor, J., Rauh, M., Griffin, C., Uesato, J., Huang, P.S., Cheng, M., Glaese, M., Balle, B., Kasirzadeh, A. ja Kenton, Z., 2021. Ethical and social risks of harm from Language Models. arXiv preprint arXiv:2112.04359.
10
Tamkin, A., Brundage, M., Clark, J. ja Ganguli, D., 2021. Understanding the Capabilities, Limitations, and Societal Impact of Large Language Models. arXiv preprint arXiv:2102.02503.
11
Solaiman, I. ja Dennison, C., 2021. Process for Adapting Language Models to Society (PALMS) with Values-Targeted Datasets. arXiv preprint arXiv:2106.10328.
12
Ngo, H., Raterink, C., Araújo, J.G., Zhang, I., Chen, C., Morisot, A. ja Frosst, N., 2021. Mitigating harm in language models with conditional-likelihood filtration. arXiv preprint arXiv:2108.07790.
13
Xu, J., Ju, D., Li, M., Boureau, Y.L., Weston, J. ja Dinan, E., 2020. Recipes for safety in open-domain chatbots. arXiv preprint arXiv:2010.07079.
14
Keskar, N.S., McCann, B., Varshney, L.R., Xiong, C. ja Socher, R., 2019. Ctrl: A conditional transformer language model for controllable generation. arXiv preprint arXiv:1909.05858.
15
Krause, B., Gotmare, A.D., McCann, B., Keskar, N.S., Joty, S., Socher, R. ja Rajani, N.F., 2020. Gedi: Generative discriminator guided sequence generation. arXiv preprint arXiv:2009.06367.
16
Dathathri, S., Madotto, A., Lan, J., Hung, J., Frank, E., Molino, P., Yosinski, J. ja Liu, R., 2019. Plug and play language models: A simple approach to controlled text generation. arXiv preprint arXiv:1912.02164.
17
Lin, S., Hilton, J. ja Evans, O., 2021. TruthfulQA: Measuring how models mimic human falsehoods. arXiv preprint arXiv:2109.07958.
18
Gehman, S., Gururangan, S., Sap, M., Choi, Y. ja Smith, N.A., 2020. RealToxicityPrompts: Evaluating neural toxic degeneration in language models. arXiv preprint arXiv:2009.11462.
19
Rudinger, R., Naradowsky, J., Leonard, B. ja Van Durme, B., 2018. Gender bias in coreference resolution. arXiv preprint arXiv:1804.09301.
20
Nangia, N., Vania, C., Bhalerao, R. ja Bowman, S.R., 2020. CrowS-pairs: A challenge dataset for measuring social biases in masked language models. arXiv preprint arXiv:2010.00133.

Tekijät

Ryan Lowe ja Jan Leike

Kiitokset

Haluamme kiittää artikkelin kirjoittajia: Long Ouyang, Jeff Wu, Roger Jiang, Diogo Almeida, Carroll Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller, Maddie Simens, Amanda Askell, Peter Welinder ja Paul Christiano, sekä kaikkia, jotka antoivat palautetta lehdestä ja blogikirjoituksesta. Haluamme myös kiittää viestintätiimiä heidän ohjauksestaan ja avustaan, mukaan lukien Steve Dowling, Hannah Wong, Elie Georges, Alper Ercetin, Jared Salzano, Allan Diego ja Justin Jay Wang. Lopuksi haluamme kiittää merkitsijöitämme, joita ilman tämä projekti ei olisi ollut mahdollinen.

Aiheeseen liittyvät artikkelit

Näytä kaikki

Disrupting malicious uses of AI by state-affiliated threat actors

Turvallisuus14.2.2024

Building an early warning system for LLM-aided biological threat creation

Julkaisu31.1.2024

Democratic Inputs To AI Grant Program Update

Democratic inputs to AI grant program: lessons learned and implementation plans

Turvallisuus16.1.2024