Alineació dels models de llenguatge per seguir instruccions
Hem entrenat models de llenguatge molt millors que GPT‑3 a l'hora de seguir les intencions dels usuaris i, alhora, més verídics i menys tòxics, amb tècniques desenvolupades en la nostra recerca d'alineació. Aquests models InstructGPT, entrenats amb humans dins del bucle, ara estan desplegats com a models de llenguatge predeterminats a la nostra API.
L'API d'OpenAI funciona amb models de llenguatge GPT‑3 que es poden induir a fer tasques de llenguatge natural mitjançant indicacions de text elaborades amb cura. Però aquests models també poden generar sortides que no són verídiques, són tòxiques o reflecteixen sentiments perjudicials. Això és en part perquè GPT‑3 està entrenat per predir la paraula següent en un gran conjunt de dades de text d'Internet, en lloc de fer de manera segura la tasca de llenguatge que l'usuari vol. Dit d'una altra manera, aquests models no estan alineats amb els seus usuaris.
Per fer els nostres models més segurs, més útils i més alineats, fem servir una tècnica existent anomenada aprenentatge per reforç a partir de la retroacció humana (RLHF). En les indicacions enviades pels nostres clients a l'API,A els nostres etiquetadors proporcionen demostracions del comportament desitjat del model i classifiquen diverses sortides dels nostres models. Després fem servir aquestes dades per ajustar GPT‑3.
Els models InstructGPT resultants segueixen molt millor les instruccions que GPT‑3. També inventen fets amb menys freqüència i mostren petites reduccions en la generació de sortides tòxiques. Els nostres etiquetadors prefereixen les sortides del nostre model InstructGPT d'1,3B a les sortides d'un model GPT‑3 de 175B, tot i tenir més de 100 vegades menys paràmetres. Alhora, mostrem que no cal comprometre les capacitats de GPT‑3, mesurades pel rendiment del nostre model en avaluacions acadèmiques de PLN.
Aquests models InstructGPT, que han estat en beta a l'API durant més d'un any, ara són els models de llenguatge predeterminats accessibles a la nostra API.B Creiem que ajustar models de llenguatge amb humans dins del bucle és una eina potent per millorar-ne la seguretat i la fiabilitat, i continuarem avançant en aquesta direcció.
Aquesta és la primera vegada que la nostra recerca d'alineació, que hem estat desenvolupant durant diversos anys,1, 2 i 3 s'ha aplicat al nostre producte. La nostra feina també està relacionada amb recerques recents que ajusten models de llenguatge perquè segueixin instruccions amb conjunts de dades acadèmics de PLN, especialment FLAN4 i T0.5 Una motivació clau del nostre treball és augmentar la utilitat i la veracitat mentre mitiguem els danys i els biaixos dels models de llenguatge.6, 7, 8, 9 i 10 Part de la nostra recerca anterior en aquesta direcció va trobar que podem reduir les sortides perjudicials ajustant amb un petit conjunt de dades curat de demostracions humanes.11 Altres recerques s'han centrat en filtrar el conjunt de dades de preentrenament,12 segments de control específics de seguretat,13 i 14 o orientar les generacions del model.15 i 16 Estem explorant aquestes idees i d'altres en la nostra recerca d'alineació en curs.
Avaluem primer fins a quin punt les sortides d'InstructGPT segueixen les instruccions de l'usuari, fent que etiquetadors comparin les seves sortides amb les de GPT‑3. Trobem que els models InstructGPT són clarament preferits en les indicacions enviades tant als models InstructGPT com als GPT‑3 a l'API. Això es manté quan afegim un prefix a la indicació de GPT‑3 perquè entri en un «mode de seguiment d'instruccions».
Per mesurar la seguretat dels nostres models, fem servir principalment un conjunt de mètriques existents sobre conjunts de dades disponibles públicament. En comparació amb GPT‑3, InstructGPT produeix menys falsedats imitatives (segons TruthfulQA17) i és menys tòxic (segons RealToxicityPrompts18). També fem avaluacions humanes sobre la distribució d'indicacions de la nostra API i trobem que InstructGPT inventa fets («al·lucina») amb menys freqüència i genera sortides més apropiades.C
Finalment, trobem que les sortides d'InstructGPT es prefereixen a les de FLAN4 i T05 en la nostra distribució de clients. Això indica que les dades utilitzades per entrenar FLAN i T0, majoritàriament tasques acadèmiques de PLN, no representen completament com s'utilitzen a la pràctica els models de llenguatge desplegats.

Per entrenar els models InstructGPT, la nostra tècnica principal és l'aprenentatge per reforç a partir de la retroacció humana (RLHF), un mètode que vam ajudar a impulsar en la nostra recerca d'alineació anterior. Aquesta tècnica fa servir les preferències humanes com a senyal de recompensa per ajustar els nostres models, cosa important perquè els problemes de seguretat i alineació que volem resoldre són complexos i subjectius, i no queden totalment recollits per mètriques automàtiques simples.
Primer recopilem un conjunt de dades de demostracions escrites per humans sobre indicacions enviades a la nostra API i el fem servir per entrenar les nostres línies de base d'aprenentatge supervisat. Després recopilem un conjunt de dades de comparacions etiquetades per humans entre dues sortides del model sobre un conjunt més gran d'indicacions de l'API. A continuació entrenem un model de recompensa (RM) amb aquest conjunt de dades per predir quina sortida preferirien els nostres etiquetadors. Finalment, fem servir aquest RM com a funció de recompensa i ajustem la nostra política GPT‑3 per maximitzar aquesta recompensa amb l'algorisme PPO.
Una manera de pensar aquest procés és que «desbloqueja» capacitats que GPT‑3 ja tenia, però que eren difícils d'extreure només amb enginyeria d'indicacions: això és perquè el nostre procediment d'entrenament té una capacitat limitada per ensenyar noves capacitats al model en relació amb allò que s'aprèn durant el preentrenament, ja que fa servir menys del 2% del càlcul i de les dades en relació amb el preentrenament del model.
Una limitació d'aquest enfocament és que introdueix un «cost d'alineació»: alinear els models només amb tasques dels clients pot empitjorar-ne el rendiment en altres tasques acadèmiques de PLN. Això és indesitjable perquè, si les nostres tècniques d'alineació empitjoren els models en tasques que importen a la gent, serà menys probable que s'adoptin a la pràctica. Hem trobat un canvi algorísmic senzill que minimitza aquest cost d'alineació: durant l'ajust fi amb RL hi barregem una petita fracció de les dades originals utilitzades per entrenar GPT‑3, i entrenem amb aquestes dades fent servir la maximització normal de la logversemblança.D Això manté aproximadament el rendiment en seguretat i preferències humanes, mentre mitiga les reduccions de rendiment en tasques acadèmiques i, en diversos casos, fins i tot supera la línia de base de GPT‑3.
El nostre procediment alinea el comportament dels nostres models amb les preferències dels nostres etiquetadors, que produeixen directament les dades utilitzades per entrenar els nostres models, i de nosaltres, els investigadors, que orientem els etiquetadors amb instruccions escrites, retroacció directa sobre exemples específics i converses informals. També està influït pels nostres clients i per les preferències implícites a les polítiques de la nostra API. Vam seleccionar etiquetadors que van tenir bons resultats en una prova de selecció sobre l'aptitud per identificar i respondre a indicacions sensibles. Tanmateix, aquestes diferents fonts d'influència sobre les dades no garanteixen que els nostres models estiguin alineats amb les preferències de cap grup més ampli.
Vam dur a terme dos experiments per investigar-ho. Primer, avaluem GPT‑3 i InstructGPT amb etiquetadors aïllatsE que no van produir cap de les dades d'entrenament, i vam trobar que aquests etiquetadors prefereixen les sortides dels models InstructGPT aproximadament amb la mateixa freqüència que els nostres etiquetadors d'entrenament. Segon, entrenem models de recompensa amb dades d'un subconjunt dels nostres etiquetadors i trobem que generalitzen bé a l'hora de predir les preferències d'un subconjunt diferent d'etiquetadors. Això suggereix que els nostres models no s'han sobreajustat només a les preferències dels nostres etiquetadors d'entrenament. Tanmateix, cal més feina per estudiar com funcionen aquests models en grups d'usuaris més amplis i com es comporten en entrades on els humans discrepen sobre el comportament desitjat.
Malgrat haver fet progressos significatius, els nostres models InstructGPT estan lluny d'estar plenament alineats o de ser plenament segurs; encara generen sortides tòxiques o esbiaixades, inventen fets i generen contingut sexual i violent sense indicacions explícites. Però la seguretat d'un sistema d'aprenentatge automàtic no depèn només del comportament dels models subjacents, sinó també de com es despleguen aquests models. Per donar suport a la seguretat de la nostra API, continuarem revisant les aplicacions potencials(s'obre en una finestra nova) abans que entrin en funcionament, proporcionant filtres de contingut per detectar complecions insegures i monitorant-ne l'ús indegut.
Un efecte secundari d'entrenar els nostres models perquè segueixin les instruccions dels usuaris és que poden ser més susceptibles a un ús indegut si se'ls indica que produeixin sortides insegures. Resoldre això requereix que els nostres models es neguin a certes instruccions; fer-ho de manera fiable és un important problema obert de recerca que ens il·lusiona abordar.
A més, en molts casos alinear-se amb la preferència mitjana dels etiquetadors pot no ser desitjable. Per exemple, quan es genera text que afecta de manera desproporcionada un grup minoritari, les preferències d'aquest grup haurien de tenir més pes. Ara mateix, InstructGPT està entrenat per seguir instruccions en anglès; per tant, està esbiaixat cap als valors culturals de les persones anglòfones. Estem investigant per entendre les diferències i desacords entre les preferències dels etiquetadors perquè puguem condicionar els nostres models segons els valors de poblacions més específiques. Més en general, alinear les sortides del model amb els valors de persones específiques introdueix decisions difícils amb implicacions socials, i en última instància hem d'establir processos responsables i inclusius per prendre aquestes decisions.
Aquesta és la primera aplicació de la nostra recerca d'alineació al nostre producte. Els nostres resultats mostren que aquestes tècniques són eficaces per millorar significativament l'alineació dels sistemes d'IA d'ús general amb les intencions humanes. Tanmateix, això és només el començament: continuarem impulsant aquestes tècniques per millorar l'alineació dels nostres models actuals i futurs cap a eines de llenguatge que siguin segures i útils per als humans.
Si us interessen aquestes línies de recerca, estem contractant(s'obre en una finestra nova)!
Notes a peu de pàgina
- A
Només fem servir indicacions enviades a través del Playground a una versió anterior dels models InstructGPT que es va desplegar el gener de 2021. Els nostres anotadors humans eliminen la informació d'identificació personal de totes les indicacions abans d'afegir-les al conjunt d'entrenament.
- B
Els models InstructGPT desplegats a l'API són versions actualitzades entrenades amb les mateixes dades de retroacció humana. Fan servir un mètode d'entrenament semblant però lleugerament diferent que descriurem en una publicació futura.
- C
També mesurem diverses altres dimensions de sortides potencialment perjudicials a la nostra distribució de l'API: si les sortides contenen contingut sexual o violent, denigren una classe protegida o fomenten l'abús. Hem trobat que InstructGPT no millora de manera significativa respecte de GPT-3 en aquestes mètriques; la taxa d'incidència és igualment baixa per a tots dos models.
- D
Vam trobar aquest enfocament més eficaç que simplement augmentar el coeficient KL.
- E
Aquests etiquetadors provenen de Scale AI i Upwork, de manera similar als nostres etiquetadors d'entrenament, però no passen una prova de selecció.
Referències
- 1
Christiano, P., Leike, J., Brown, T.B., Martic, M., Legg, S. and Amodei, D., 2017. Aprenentatge per reforç profund a partir de preferències humanes. arXiv preprint arXiv:1706.03741.
- 2
Stiennon, N., Ouyang, L., Wu, J., Ziegler, D.M., Lowe, R., Voss, C., Radford, A., Amodei, D. and Christiano, P., 2020.
- 3
Wu, J., Ouyang, L., Ziegler, D.M., Stiennon, N., Lowe, R., Leike, J. and Christiano, P., 2021. Resum recursiu de llibres amb retroacció humana. arXiv preprint arXiv:2109.10862.
- 4
Wei, J., Bosma, M., Zhao, V.Y., Guu, K., Yu, A.W., Lester, B., Du, N., Dai, A.M. and Le, Q.V., 2021. Els models de llenguatge ajustats són aprenents sense exemples. arXiv preprint arXiv:2109.01652.
- 5
Sanh, V., Webson, A., Raffel, C., Bach, S.H., Sutawika, L., Alyafeai, Z., Chaffin, A., Stiegler, A., Scao, T.L., Raja, A. and Dey, M., 2021. L'entrenament amb indicacions multitasca permet la generalització de tasques sense exemples. arXiv preprint arXiv:2110.08207.
- 6
Bender, E.M., Gebru, T., McMillan-Major, A. and Shmitchell, S., 2021, March. Sobre els perills dels lloros estocàstics: els models de llenguatge poden ser massa grans?🦜. In Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency (pp. 610-623).
- 7
Bommasani, R., Hudson, D.A., Adeli, E., Altman, R., Arora, S., von Arx, S., Bernstein, M.S., Bohg, J., Bosselut, A., Brunskill, E. and Brynjolfsson, E., 2021. Sobre les oportunitats i els riscos dels models fundacionals. arXiv preprint arXiv:2108.07258.
- 8
Kenton, Z., Everitt, T., Weidinger, L., Gabriel, I., Mikulik, V. and Irving, G., 2021. Alineació d'agents lingüístics. arXiv preprint arXiv:2103.14659.
- 9
Weidinger, L., Mellor, J., Rauh, M., Griffin, C., Uesato, J., Huang, P.S., Cheng, M., Glaese, M., Balle, B., Kasirzadeh, A. and Kenton, Z., 2021. Riscos ètics i socials de dany dels models de llenguatge. arXiv preprint arXiv:2112.04359.
- 10
Tamkin, A., Brundage, M., Clark, J. and Ganguli, D., 2021. Comprendre les capacitats, les limitacions i l'impacte social dels grans models de llenguatge. arXiv preprint arXiv:2102.02503.
- 11
Solaiman, I. and Dennison, C., 2021. Procés per adaptar els models de llenguatge a la societat (PALMS) amb conjunts de dades orientats a valors. arXiv preprint arXiv:2106.10328.
- 12
Ngo, H., Raterink, C., Araújo, J.G., Zhang, I., Chen, C., Morisot, A. and Frosst, N., 2021. Mitigar el dany en models de llenguatge amb filtratge de versemblança condicional. arXiv preprint arXiv:2108.07790.
- 13
Xu, J., Ju, D., Li, M., Boureau, Y.L., Weston, J. and Dinan, E., 2020. Receptes per a la seguretat en chatbots de domini obert. arXiv preprint arXiv:2010.07079.
- 14
Keskar, N.S., McCann, B., Varshney, L.R., Xiong, C. and Socher, R., 2019. Ctrl: Un model de llenguatge transformador condicional per a la generació controlable. arXiv preprint arXiv:1909.05858.
- 15
Krause, B., Gotmare, A.D., McCann, B., Keskar, N.S., Joty, S., Socher, R. and Rajani, N.F., 2020. Gedi: generació de seqüències guiada per un discriminador generatiu. arXiv preprint arXiv:2009.06367.
- 16
Dathathri, S., Madotto, A., Lan, J., Hung, J., Frank, E., Molino, P., Yosinski, J. and Liu, R., 2019. Models de llenguatge plug and play: un enfocament senzill per a la generació de text controlada. arXiv preprint arXiv:1912.02164.
- 17
Lin, S., Hilton, J. and Evans, O., 2021. TruthfulQA: mesurant com els models imiten falsedats humanes. arXiv preprint arXiv:2109.07958.
- 18
Gehman, S., Gururangan, S., Sap, M., Choi, Y. and Smith, N.A., 2020. RealToxicityPrompts: avaluació de la degeneració tòxica neuronal en models de llenguatge. arXiv preprint arXiv:2009.11462.
- 19
Rudinger, R., Naradowsky, J., Leonard, B. and Van Durme, B., 2018. Biaix de gènere en la resolució de correferències. arXiv preprint arXiv:1804.09301.
- 20
Nangia, N., Vania, C., Bhalerao, R. and Bowman, S.R., 2020. CrowS-pairs: un conjunt de dades de repte per mesurar biaixos socials en models de llenguatge emmascarats. arXiv preprint arXiv:2010.00133.
Autors
Agraïments
Volem agrair-ho als coautors del nostre article: Long Ouyang, Jeff Wu, Roger Jiang, Diogo Almeida, Carroll Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller, Maddie Simens, Amanda Askell, Peter Welinder i Paul Christiano, així com a totes les persones que van aportar comentaris sobre l'article i l'entrada del blog. També volem donar les gràcies a l'equip de Comms per la seva orientació i ajuda, inclosos Steve Dowling, Hannah Wong, Elie Georges, Alper Ercetin, Jared Salzano, Allan Diego i Justin Jay Wang. Finalment, volem donar les gràcies als nostres etiquetadors, sense els quals aquest projecte no hauria estat possible.


