27 ta’ Jannar 2022

L-allinjament tal-mudelli tal-lingwa biex isegwu l-istruzzjonijiet

Qed jillowdja…

Ħarriġna mudelli tal-lingwa li huma ferm aħjar biex isegwu l-intenzjonijiet tal-utent minn GPT‑3 filwaqt li jagħmluhom ukoll aktar veritieri u inqas tossiċi, bl-użu ta’ tekniki żviluppati permezz tar-riċerka tagħna dwar l-allinjament. Dawn il-mudelli InstructGPT, li huma mħarrġa bil-bnedmin fiċ-ċirku, issa huma implimentati bħala l-mudelli tal-lingwa awtomatiċi fl-API tagħna.

Qed jillowdja...

L-API ta’ OpenAI hija mħaddma minn mudelli tal-lingwa GPT‑3⁠ li jistgħu jiġu mħeġġa jwettqu kompiti tal-lingwa naturali billi jintużaw prompts tat-test maħduma bir-reqqa. Iżda dawn il-mudelli jistgħu wkoll jiġġeneraw outputs li mhumiex veri, tossiċi, jew jirriflettu sentimenti ta’ ħsara. Dan huwa parzjalment minħabba li GPT‑3 huwa mħarreġ biex ibassar il-kelma li jmiss fuq dataset kbir ta’ test mill-Internet, aktar milli biex iwettaq b’mod sigur il-kompitu tal-lingwa li l-utent irid. Fi kliem ieħor, dawn il-mudelli mhumiex allinjati mal-utenti tagħhom.

Biex nagħmlu l-mudelli tagħna aktar siguri, aktar ta’ għajnuna, u aktar allinjati, nużaw teknika eżistenti msejħa Apprendiment ta' Tisħiħ minn Feedback minn Bniedem (RLHF)⁠. Fuq prompts sottomessi mill-klijenti tagħna lill-API,^A it-tikkettaturi tagħna jipprovdu dimostrazzjonijiet tal-imġiba mixtieqa tal-mudell, u jikklassifikaw diversi outputs mill-mudelli tagħna. Imbagħad nużaw din id-data biex nirfinaw GPT‑3.

Il-mudelli InstructGPT li jirriżultaw huma ferm aħjar biex isegwu l-istruzzjonijiet minn GPT‑3. Barra minn hekk, jivvintaw fatti inqas ta’ spiss, u juru tnaqqis żgħir fil-ġenerazzjoni ta’ outputs tossiċi. It-tikkettaturi tagħna jippreferu outputs mill-mudell InstructGPT 1.3B tagħna fuq outputs minn mudell GPT‑3 175B, minkejja li għandu aktar minn 100x inqas parametri. Fl-istess ħin, nuru li ma għandniex għalfejn nikkompromettu l-kapaċitajiet ta’ GPT‑3, kif imkejla mill-prestazzjoni tal-mudell tagħna fuq evalwazzjonijiet akkademiċi ta’ NLP.

Dawn il-mudelli InstructGPT, li ilhom fil-beta fuq l-API għal aktar minn sena, issa huma l-mudelli tal-lingwa awtomatiċi aċċessibbli fuq l-API tagħna.^B Aħna nemmnu li r-rfinar tal-mudelli tal-lingwa bil-bnedmin fiċ-ċirku huwa għodda qawwija biex tittejjeb is-sikurezza u l-affidabbiltà tagħhom, u se nkomplu nimxu f’din id-direzzjoni.

Din hija l-ewwel darba li r-riċerka tagħna dwar l-allinjament, li ilna insegwuha⁠ għal diversi⁠ snin⁠,^{1, 2, u 3} ġiet applikata għall-prodott tagħna. Ix-xogħol tagħna huwa relatat ukoll ma’ riċerka reċenti li tirfina mudelli tal-lingwa biex isegwu l-istruzzjonijiet billi tuża datasets akkademiċi ta’ NLP, b’mod notevoli FLAN⁴ u T0.⁵ Motivazzjoni ewlenija tax-xogħol tagħna hija li nżidu l-għajnuna u l-verità filwaqt li nnaqqsu l-ħsarat u l-preġudizzji tal-mudelli tal-lingwa.^{6, 7, 8, 9, u 10} Xi wħud mir-riċerka preċedenti tagħna⁠ f’din id-direzzjoni sabu li nistgħu nnaqqsu outputs ta’ ħsara billi nirfinaw fuq dataset żgħir ikkurat ta’ dimostrazzjonijiet umani.¹¹ Riċerka oħra ffukat fuq l-iffiltrar tad-dataset ta’ qabel it-taħriġ,¹² tokens ta’ kontroll speċifiċi għas-sikurezza,^{13 u 14} jew l-istering tal-ġenerazzjonijiet tal-mudell.^{15 u 16} Aħna qed nesploraw dawn l-ideat u oħrajn fir-riċerka kontinwa tagħna dwar l-allinjament.

Riżultati

L-ewwel nivvalutaw kemm l-outputs ta’ InstructGPT isegwu sew l-istruzzjonijiet tal-utent, billi nġiegħlu lit-tikkettaturi jqabblu l-outputs tiegħu ma’ dawk ta’ GPT‑3. Insibu li l-mudelli InstructGPT huma preferuti b’mod sinifikanti fuq prompts sottomessi kemm lill-mudelli InstructGPT kif ukoll lil dawk GPT‑3 fl-API. Dan jibqa’ minnu meta nżidu prefiss mal-prompt ta’ GPT‑3 biex jidħol f’“modalità ta’ segwitu tal-istruzzjonijiet.”

Qed jillowdja...

Biex inkejlu s-sikurezza tal-mudelli tagħna, primarjament nużaw sett ta’ metriċi eżistenti fuq datasets disponibbli pubblikament. Meta mqabbel ma’ GPT‑3, InstructGPT jipproduċi inqas falsitajiet imitattivi (skont TruthfulQA¹⁷) u huwa inqas tossiku (skont RealToxicityPrompts¹⁸). Nagħmlu wkoll evalwazzjonijiet umani fuq id-distribuzzjoni tal-prompts tal-API tagħna, u nsibu li InstructGPT jivvinta fatti (“jalluċina”) inqas ta’ spiss, u jiġġenera outputs aktar xierqa.^C

Qed jillowdja...

Fl-aħħar, insibu li l-outputs ta’ InstructGPT huma preferuti fuq dawk minn FLAN⁴ u T0⁵ fid-distribuzzjoni tal-klijenti tagħna. Dan jindika li d-data użata biex jitħarrġu FLAN u T0, l-aktar kompiti akkademiċi ta’ NLP, mhijiex rappreżentattiva għal kollox ta’ kif il-mudelli tal-lingwa implimentati jintużaw fil-prattika.

Metodi

Dijagramma li turi metodoloġija fi tliet passi biex jitħarrġu l-mudelli InstructGPT.

Biex inħarrġu l-mudelli InstructGPT, it-teknika ewlenija tagħna hija Apprendiment ta' Tisħiħ minn Feedback minn Bniedem (RLHF)⁠, metodu li għenna nkunu fost il-pijunieri tiegħu fir-riċerka preċedenti tagħna dwar l-allinjament. Din it-teknika tuża preferenzi umani bħala sinjal ta' premju biex tirfina l-mudelli tagħna, li huwa importanti peress li l-problemi ta’ sikurezza u allinjament li qed nippruvaw insolvu huma kumplessi u suġġettivi, u mhumiex maqbuda kompletament minn metriċi awtomatiċi sempliċi.

L-ewwel niġbru dataset ta’ dimostrazzjonijiet miktuba mill-bniedem fuq prompts sottomessi lill-API tagħna, u nużaw dan biex inħarrġu l-linji bażiċi tagħna ta’ apprendiment sorveljat. Wara, niġbru dataset ta’ tqabbil ittikkettat mill-bniedem bejn żewġ outputs tal-mudell fuq sett akbar ta’ prompts tal-API. Imbagħad inħarrġu reward model (RM) fuq dan id-dataset biex ibassar liema output jippreferu t-tikkettaturi tagħna. Fl-aħħar, nużaw dan l-RM bħala funzjoni ta’ premju u nirfinaw il-policy GPT‑3 tagħna biex nimmassimizzaw dan il-premju billi nużaw l-algoritmu PPO⁠.

Mod wieħed kif naħsbu dwar dan il-proċess huwa li “jiftaħ” kapaċitajiet li GPT‑3 diġà kellu, iżda li kienu diffiċli biex jinkisbu permezz ta’ inġinerija tal-prompts biss: dan għaliex il-proċedura tat-taħriġ tagħna għandha kapaċità limitata biex tgħallem kapaċitajiet ġodda lill-mudell meta mqabbla ma’ dak li jitgħallem waqt qabel it-taħriġ, peress li tuża inqas minn 2% tal-komputazzjoni u d-data relattivament għal qabel it-taħriġ tal-mudell.

Limitazzjoni ta’ dan l-approċċ hija li jintroduċi “spiża tal-allinjament”: l-allinjament tal-mudelli biss fuq kompiti tal-klijenti jista’ jaggrava l-prestazzjoni tagħhom fuq xi kompiti akkademiċi oħra ta’ NLP. Dan mhux mixtieq għax, jekk it-tekniki ta’ allinjament tagħna jagħmlu l-mudelli agħar fuq kompiti li n-nies jimpurtahom minnhom, ikunu inqas probabbli li jiġu adottati fil-prattika. Sibna bidla algoritmika sempliċi li tnaqqas kemm jista’ jkun din l-ispiża tal-allinjament: waqt ir-rfinar RL inħalltu frazzjoni żgħira mid-data oriġinali użata biex jitħarreġ GPT‑3, u nħarrġu fuq din id-data billi nużaw il-massimizzazzjoni normali tal-log likelihood.^D Dan bejn wieħed u ieħor iżomm il-prestazzjoni fuq is-sikurezza u l-preferenzi umani, filwaqt li jtaffi t-tnaqqis fil-prestazzjoni fuq kompiti akkademiċi, u f’diversi każijiet saħansitra jaqbeż il-linja bażi ta’ GPT‑3.

Ġeneralizzazzjoni għal preferenzi usa’

Il-proċedura tagħna tallinja l-imġiba tal-mudelli tagħna mal-preferenzi tat-tikkettaturi tagħna, li jipproduċu direttament id-data użata biex jitħarrġu l-mudelli tagħna, u magħna r-riċerkaturi, li nipprovdu gwida lit-tikkettaturi permezz ta’ istruzzjonijiet bil-miktub, feedback dirett fuq eżempji speċifiċi, u konversazzjonijiet informali. Hija influwenzata wkoll mill-klijenti tagħna u mill-preferenzi impliċiti fil-politiki tal-API tagħna. Aħna għażilna tikkettaturi li marru tajjeb f’test ta’ skrining għall-kapaċità li jidentifikaw u jirrispondu għal prompts sensittivi. Madankollu, dawn is-sorsi differenti ta’ influwenza fuq id-data ma jiggarantux li l-mudelli tagħna huma allinjati mal-preferenzi ta’ xi grupp usa’.

Għamilna żewġ esperimenti biex ninvestigaw dan. L-ewwel, nivvalutaw GPT‑3 u InstructGPT billi nużaw annotaturi indipendenti^E li ma pproduċew ebda waħda mid-data tat-taħriġ, u sibna li dawn it-tikkettaturi jippreferu outputs mill-mudelli InstructGPT bejn wieħed u ieħor bl-istess rata bħat-tikkettaturi tat-taħriġ tagħna. It-tieni, inħarrġu reward models fuq data minn sottogrupp tat-tikkettaturi tagħna, u nsibu li jiġġeneralizzaw tajjeb biex ibassru l-preferenzi ta’ sottogrupp differenti ta’ tikkettaturi. Dan jissuġġerixxi li l-mudelli tagħna ma overfittewx biss għall-preferenzi tat-tikkettaturi tat-taħriġ tagħna. Madankollu, hemm bżonn aktar xogħol biex jiġi studjat kif dawn il-mudelli jġibu ruħhom ma’ gruppi usa’ ta’ utenti, u kif jaħdmu fuq inputs fejn il-bnedmin ma jaqblux dwar l-imġiba mixtieqa.

Limitazzjonijiet

Minkejja li għamilna progress sinifikanti, il-mudelli InstructGPT tagħna għadhom ’il bogħod milli jkunu allinjati jew siguri għal kollox; għadhom jiġġeneraw outputs tossiċi jew preġudikati, jivvintaw fatti, u jiġġeneraw kontenut sesswali u vjolenti mingħajr prompting espliċitu. Iżda s-sikurezza ta’ sistema ta’ apprendiment awtomatiku tiddependi mhux biss fuq l-imġiba tal-mudelli sottostanti, iżda wkoll fuq kif dawn il-mudelli jiġu implimentati. Biex nappoġġjaw is-sikurezza tal-API tagħna, se nkomplu nirrevedu applikazzjonijiet potenzjali⁠(jinfetaħ f’tieqa ġdida) qabel ma jmorru live, nipprovdu filtri tal-kontenut biex jidentifikaw completions mhux siguri, u nissorveljaw għall-użu ħażin.

Prodott sekondarju tat-taħriġ tal-mudelli tagħna biex isegwu l-istruzzjonijiet tal-utent huwa li jistgħu jsiru aktar suxxettibbli għall-użu ħażin jekk jiġu istruwiti jipproduċu outputs mhux siguri. Is-soluzzjoni għal dan teħtieġ li l-mudelli tagħna jirrifjutaw ċerti istruzzjonijiet; li nagħmlu dan b’mod affidabbli hija problema importanti ta’ riċerka miftuħa li ninsabu eċċitati biex nindirizzawha.

Barra minn hekk, f’ħafna każijiet l-allinjament mal-preferenza medja tat-tikkettaturi jista’ ma jkunx mixtieq. Pereżempju, meta jiġi ġġenerat test li jaffettwa b’mod sproporzjonat grupp minoritarju, il-preferenzi ta’ dak il-grupp għandhom jingħataw aktar piż. Bħalissa, InstructGPT huwa mħarreġ biex isegwi istruzzjonijiet bl-Ingliż; għalhekk, huwa preġudikat lejn il-valuri kulturali ta’ nies li jitkellmu bl-Ingliż. Qegħdin nagħmlu riċerka biex nifhmu d-differenzi u n-nuqqas ta’ qbil bejn il-preferenzi tat-tikkettaturi sabiex inkunu nistgħu nikkundizzjonaw il-mudelli tagħna fuq il-valuri ta’ popolazzjonijiet aktar speċifiċi. B’mod aktar ġenerali, l-allinjament tal-outputs tal-mudell mal-valuri ta’ bnedmin speċifiċi jintroduċi għażliet diffiċli b’implikazzjonijiet soċjali, u fl-aħħar mill-aħħar irridu nistabbilixxu proċessi responsabbli u inklużivi biex jittieħdu dawn id-deċiżjonijiet.

Il-passi li jmiss

Din hija l-ewwel applikazzjoni tar-riċerka tagħna dwar l-allinjament għall-prodott tagħna. Ir-riżultati tagħna juru li dawn it-tekniki huma effettivi biex itejbu b’mod sinifikanti l-allinjament ta’ sistemi tal-IA għal skop ġenerali mal-intenzjonijiet umani. Madankollu, dan huwa biss il-bidu: se nibqgħu nkomplu nimbuttaw dawn it-tekniki biex intejbu l-allinjament tal-mudelli attwali u futuri tagħna lejn għodod tal-lingwa li huma siguri u ta’ għajnuna għall-bnedmin.

Jekk inti interessat f’dawn id-direzzjonijiet ta’ riċerka, qegħdin nirreklutaw⁠(jinfetaħ f’tieqa ġdida)!

Noti ta’ qiegħ il-paġna

A
Aħna nużaw biss prompts sottomessi permezz tal-Playground għal verżjoni aktar bikrija tal-mudelli InstructGPT li ġiet implimentata f’Jannar 2021. L-annotaturi umani tagħna jneħħu informazzjoni personali identifikabbli mill-prompts kollha qabel ma jżiduha mas-sett tat-taħriġ.
B
Il-mudelli InstructGPT implimentati fl-API huma verżjonijiet aġġornati mħarrġa bl-użu tal-istess data ta’ feedback uman. Jużaw metodu ta’ taħriġ simili iżda kemxejn differenti li se niddeskrivu f’pubblikazzjoni li ġejja.
C
Aħna nkejlu wkoll diversi dimensjonijiet oħra ta’ outputs potenzjalment ta’ ħsara fid-distribuzzjoni tal-API tagħna: jekk l-outputs fihomx kontenut sesswali jew vjolenti, jiddisprezzawx klassi protetta, jew jinkoraġġixxux abbuż. Sibna li InstructGPT ma jtejjibx b’mod sinifikanti fuq GPT-3 f’dawn il-metriċi; ir-rata ta’ inċidenza hija baxxa bl-istess mod għaż-żewġ mudelli.
D
Sibna dan l-approċċ aktar effettiv milli sempliċement inżidu l-koeffiċjent KL.
E
Dawn it-tikkettaturi huma miksuba minn Scale AI u Upwork, b’mod simili għat-tikkettaturi tat-taħriġ tagħna, iżda ma jgħaddux minn test ta’ skrining.

Referenzi

1
Christiano, P., Leike, J., Brown, T.B., Martic, M., Legg, S. and Amodei, D., 2017. Apprendiment profond ta' tisħiħ minn preferenzi umani. arXiv preprint arXiv:1706.03741.
2
Stiennon, N., Ouyang, L., Wu, J., Ziegler, D.M., Lowe, R., Voss, C., Radford, A., Amodei, D. and Christiano, P., 2020.
3
Wu, J., Ouyang, L., Ziegler, D.M., Stiennon, N., Lowe, R., Leike, J. and Christiano, P., 2021. Sommarju rikursiv ta’ kotba b’feedback uman. arXiv preprint arXiv:2109.10862.
4
Wei, J., Bosma, M., Zhao, V.Y., Guu, K., Yu, A.W., Lester, B., Du, N., Dai, A.M. and Le, Q.V., 2021. Mudelli tal-lingwa rfinati huma learners zero-shot. arXiv preprint arXiv:2109.01652.
5
Sanh, V., Webson, A., Raffel, C., Bach, S.H., Sutawika, L., Alyafeai, Z., Chaffin, A., Stiegler, A., Scao, T.L., Raja, A. and Dey, M., 2021. Taħriġ multitask bi prompts jippermetti ġeneralizzazzjoni tal-kompiti zero-shot. arXiv preprint arXiv:2110.08207.
6
Bender, E.M., Gebru, T., McMillan-Major, A. and Shmitchell, S., 2021, March. Fuq il-Perikli tal-Pappagalli Stokastiċi: Il-Mudelli tal-Lingwa Jistgħu Jkunu Kbar Wisq?🦜. In Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency (pp. 610-623).
7
Bommasani, R., Hudson, D.A., Adeli, E., Altman, R., Arora, S., von Arx, S., Bernstein, M.S., Bohg, J., Bosselut, A., Brunskill, E. and Brynjolfsson, E., 2021. Dwar l-opportunitajiet u r-riskji tal-foundation models. arXiv preprint arXiv:2108.07258.
8
Kenton, Z., Everitt, T., Weidinger, L., Gabriel, I., Mikulik, V. and Irving, G., 2021. Allinjament tal-Aġenti tal-Lingwa. arXiv preprint arXiv:2103.14659.
9
Weidinger, L., Mellor, J., Rauh, M., Griffin, C., Uesato, J., Huang, P.S., Cheng, M., Glaese, M., Balle, B., Kasirzadeh, A. and Kenton, Z., 2021. Riskji etiċi u soċjali ta’ ħsara mill-Mudelli tal-Lingwa. arXiv preprint arXiv:2112.04359.
10
Tamkin, A., Brundage, M., Clark, J. and Ganguli, D., 2021. Nifhmu l-Kapaċitajiet, il-Limitazzjonijiet, u l-Impatt Soċjali tal-Mudelli Kbar tal-Lingwa. arXiv preprint arXiv:2102.02503.
11
Solaiman, I. and Dennison, C., 2021. Proċess għall-Adattament tal-Mudelli tal-Lingwa għas-Soċjetà (PALMS) b’Datasets Immirati lejn il-Valuri. arXiv preprint arXiv:2106.10328.
12
Ngo, H., Raterink, C., Araújo, J.G., Zhang, I., Chen, C., Morisot, A. and Frosst, N., 2021. Mitigazzjoni tal-ħsara fil-mudelli tal-lingwa b’filtrazzjoni ta’ probabbiltà kundizzjonali. arXiv preprint arXiv:2108.07790.
13
Xu, J., Ju, D., Li, M., Boureau, Y.L., Weston, J. and Dinan, E., 2020. Riċetti għas-sikurezza fi chatbots open-domain. arXiv preprint arXiv:2010.07079.
14
Keskar, N.S., McCann, B., Varshney, L.R., Xiong, C. and Socher, R., 2019. Ctrl: mudell tal-lingwa transformer kundizzjonali għal ġenerazzjoni kontrollabbli. arXiv preprint arXiv:1909.05858.
15
Krause, B., Gotmare, A.D., McCann, B., Keskar, N.S., Joty, S., Socher, R. and Rajani, N.F., 2020. Gedi: ġenerazzjoni ta’ sekwenzi ggwidata minn diskriminatur ġenerattiv. arXiv preprint arXiv:2009.06367.
16
Dathathri, S., Madotto, A., Lan, J., Hung, J., Frank, E., Molino, P., Yosinski, J. and Liu, R., 2019. Mudelli tal-lingwa plug and play: approċċ sempliċi għal ġenerazzjoni ta’ test ikkontrollata. arXiv preprint arXiv:1912.02164.
17
Lin, S., Hilton, J. and Evans, O., 2021. TruthfulQA: Kejl ta’ kif il-mudelli jimitaw il-falsitajiet umani. arXiv preprint arXiv:2109.07958.
18
Gehman, S., Gururangan, S., Sap, M., Choi, Y. and Smith, N.A., 2020. RealToxicityPrompts: Evalwazzjoni ta’ degradazzjoni tossika newrali fil-mudelli tal-lingwa. arXiv preprint arXiv:2009.11462.
19
Rudinger, R., Naradowsky, J., Leonard, B. and Van Durme, B., 2018. Preġudizzju tal-ġeneru fir-riżoluzzjoni tal-korefrenza. arXiv preprint arXiv:1804.09301.
20
Nangia, N., Vania, C., Bhalerao, R. and Bowman, S.R., 2020. CrowS-pairs: dataset ta’ sfida biex jitkejlu preġudizzji soċjali f’mudelli tal-lingwa masked. arXiv preprint arXiv:2010.00133.

Awturi

Ryan Lowe u Jan Leike

Ringrazzjamenti

Nixtiequ nirringrazzjaw lill-koawturi tal-artiklu tagħna: Long Ouyang, Jeff Wu, Roger Jiang, Diogo Almeida, Carroll Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller, Maddie Simens, Amanda Askell, Peter Welinder, u Paul Christiano, flimkien ma’ kulħadd li pprovda feedback dwar l-artiklu u l-blog post. Nixtiequ wkoll nirringrazzjaw lit-tim tal-Comms għall-gwida u l-assistenza tagħhom, inklużi Steve Dowling, Hannah Wong, Elie Georges, Alper Ercetin, Jared Salzano, Allan Diego, u Justin Jay Wang. Fl-aħħar nett, nixtiequ nirringrazzjaw lit-tikkettaturi tagħna, li mingħajrhom dan il-proġett ma kienx ikun possibbli.

Artikli relatati

Ara kollox

Disrupting malicious uses of AI by state-affiliated threat actors

Sigurtà14 ta’ Fra, 2024

Building an early warning system for LLM-aided biological threat creation

Pubblikazzjoni31 ta’ Jan, 2024

Democratic Inputs To AI Grant Program Update

Democratic inputs to AI grant program: lessons learned and implementation plans

Sigurtà16 ta’ Jan, 2024