27. јануар 2022.

Усклађивање језичких модела да прате упутства

Прочитајте рад Погледајте картицу модела

Учитавање…

Обучили смо језичке моделе који су много бољи у праћењу корисничких намера од GPT‑3, а истовремено су истинитији и мање токсични, користећи технике развијене кроз наше истраживање усклађивања. Ови InstructGPT модели, који се обучавају уз учешће људи, сада су распоређени као подразумевани језички модели у нашем API-ју.

Учитавање...

OpenAI API покрећу GPT‑3 језички модели⁠ који се могу навести да извршавају задатке са природним језиком помоћу пажљиво осмишљених текстуалних инструкција. Али ови модели такође могу да генеришу излазе који су неистинити, токсични или одражавају штетна осећања. То је делимично зато што је GPT‑3 обучен да предвиђа следећу реч на великом скупу интернет текста, а не да безбедно извршава задатак са природним језиком који корисник жели. Другим речима, ови модели нису усклађени са својим корисницима.

Да бисмо наше моделе учинили безбеднијим, кориснијим и више усклађеним, користимо постојећу технику која се зове подстицајно учење из повратних информација од људи (RLHF)⁠. На инструкцијама које наши клијенти шаљу API-ју,^A наши означивачи дају демонстрације жељеног понашања модела и рангирају више излаза наших модела. Затим користимо ове податке да фино подесимо GPT‑3.

Настали модели InstructGPT много су бољи у праћењу упутстава од GPT‑3. Такође ређе измишљају чињенице и показују мала смањења у генерисању токсичних излаза. Наши означивачи преферирају излазе нашег InstructGPT модела 1.3B у односу на излазе GPT‑3 модела 175B, упркос томе што има више од 100x мање параметара. Истовремено, показујемо да не морамо да правимо компромисе у погледу способности GPT‑3, мерено перформансама нашег модела на академским NLP евалуацијама.

Ови модели InstructGPT, који су у бета верзији на API-ју већ више од годину дана, сада су подразумевани језички модели доступни у нашем API-ју.^B Верујемо да је фино подешавање језичких модела уз учешће људи моћан алат за побољшање њихове безбедности и поузданости, и наставићемо да напредујемо у овом правцу.

Ово је први пут да је наше истраживање усклађивања, којим се бавимо⁠ већ неколико⁠ година⁠,^{1, 2 и 3} примењено на наш производ. Наш рад је повезан и са недавним истраживањима која фино подешавају језичке моделе да прате упутства користећи академске NLP скупове података, посебно FLAN⁴ и T0.⁵ Једна од кључних мотивација нашег рада јесте повећање корисности и истинитости уз ублажавање штете и пристрасности језичких модела.^{6, 7, 8, 9 и 10} Нека од наших претходних истраживања⁠ у овом правцу показала су да можемо смањити штетне излазе финим подешавањем на малом курираном скупу података људских демонстрација.¹¹ Друга истраживања су се фокусирала на филтрирање скупа података за предобуку,¹² контролне токене специфичне за безбедност,^{13 и 14} или усмеравање генерисања модела.^{15 и 16} Истражујемо ове и друге идеје у нашем текућем истраживању усклађивања.

Резултати

Прво процењујемо колико добро излази из InstructGPT прате корисничка упутства, тако што означивачи пореде његове излазе са онима из GPT‑3. Утврдили смо да се модели InstructGPT значајно више преферирају за инструкције послате и моделима InstructGPT и GPT‑3 на API-ју. То важи и када GPT‑3 инструкцији додамо префикс тако да уђе у „режим праћења упутстава“.

Учитавање...

Да бисмо измерили безбедност наших модела, првенствено користимо скуп постојећих метрика на јавно доступним скуповима података. У поређењу са GPT‑3, InstructGPT производи мање имитативних неистина (према TruthfulQA¹⁷) и мање је токсичан (према RealToxicityPrompts¹⁸). Такође спроводимо људске евалуације на дистрибуцији инструкција нашег API-ја и утврђујемо да InstructGPT ређе измишља чињенице („халуцинира”) и генерише прикладније излазе.^C

Учитавање...

Коначно, утврдили смо да се излази InstructGPT преферирају у односу на оне из FLAN⁴ и T0⁵ на нашој дистрибуцији клијената. То указује да подаци коришћени за обуку FLAN-а и T0, углавном академски NLP задаци, не представљају у потпуности начин на који се распоређени језички модели користе у пракси.

Методи

Дијаграм који приказује трокорачну методологију за обуку модела InstructGPT.

Да бисмо обучили моделе InstructGPT, наша основна техника је подстицајно учење из повратних информација од људи (RLHF)⁠, метод чијем смо развоју помогли у нашем ранијем истраживању усклађивања. Ова техника користи људске преференције као сигнал награде за фино подешавање наших модела, што је важно јер су проблеми безбедности и усклађивања које настојимо да решимо сложени и субјективни и нису у потпуности обухваћени једноставним аутоматским метрикама.

Прво прикупљамо скуп података демонстрација које су написали људи на основу инструкција послатих нашем API-ју и користимо га за обуку наших базних модела надгледаног учења. Затим прикупљамо скуп података поређења између два излаза модела које су људи означили на већем скупу API инструкција. Потом обучавамо модел награде (RM) на овом скупу података да предвиди који би излаз наши означивачи преферирали. На крају користимо овај RM као функцију награде и фино подешавамо нашу GPT‑3 политику да максимизује ову награду помоћу PPO алгоритма⁠.

Један начин да се размишља о овом процесу јесте да он „откључава” способности које је GPT‑3 већ имао, али које је било тешко изазвати само формулисањем инструкције: то је зато што наш поступак обуке има ограничену способност да научи модел новим способностима у односу на оно што се усваја током предобуке, пошто користи мање од 2% рачунарских ресурса и података у односу на предобуку модела.

Ограничење овог приступа је што уводи „порез на усклађивање”: усклађивање модела само на задацима клијената може погоршати њихове перформансе на неким другим академским NLP задацима. То је непожељно јер, ако наше технике усклађивања погоршају моделе на задацима до којих је људима стало, мања је вероватноћа да ће бити усвојене у пракси. Пронашли смо једноставну алгоритамску измену која минимизује овај порез на усклађивање: током RL финог подешавања убацујемо мали део оригиналних података коришћених за обуку GPT‑3 и обучавамо на тим подацима користећи уобичајену максимизацију логаритамске вероватноће.^D Ово приближно одржава перформансе у погледу безбедности и људских преференција, уз ублажавање пада перформанси на академским задацима, а у више случајева чак и премашује GPT‑3 базну линију.

Уопштавање на шире преференције

Наш поступак усклађује понашање наших модела са преференцијама наших означивача, који директно производе податке коришћене за обуку наших модела, и нас истраживача, који означивачима дајемо смернице путем писаних упутстава, директних повратних информација о конкретним примерима и неформалних разговора. На њега утичу и наши клијенти и преференције које су имплицитне у нашим API политикама. Изабрали смо означиваче који су се добро показали на тесту провере способности за препознавање и одговарање на осетљиве инструкције. Међутим, ови различити извори утицаја на податке не гарантују да су наши модели усклађени са преференцијама било које шире групе.

Спровели смо два експеримента да бисмо то истражили. Прво, процењујемо GPT‑3 и InstructGPT користећи означивач-људско биће^E које није произвело ниједан део података за обуку, и утврдили смо да ови означивачи преферирају излазе модела InstructGPT отприлике истом стопом као и наши означивачи за обуку. Друго, обучавамо моделе награде на подацима из подскупа наших означивача и утврђујемо да се они добро уопштавају на предвиђање преференција другог подскупа означивача. То указује да се наши модели нису само превише прилагодили преференцијама наших означивача за обуку. Ипак, потребно је више рада да би се проучило како се ови модели понашају у ширим групама корисника и како се понашају на уносима код којих се људи не слажу око жељеног понашања.

Ограничења

Упркос значајном напретку, наши InstructGPT модели су далеко од потпуно усклађених или потпуно безбедних; и даље генеришу токсичне или пристрасне излазе, измишљају чињенице и генеришу сексуални и насилни садржај без експлицитне инструкције. Али безбедност система машинског учења не зависи само од понашања основних модела, већ и од тога како су ти модели распоређени. Да бисмо подржали безбедност нашег API-ја, наставићемо да прегледамо потенцијалне примене⁠(отвара се у новом прозору) пре него што постану активне, обезбеђујемо филтере садржаја за откривање небезбедних довршетака и пратимо злоупотребу.

Нуспроизвод обуке наших модела да прате корисничка упутства јесте то што могу постати подложнији злоупотреби ако добију инструкцију да производе небезбедне излазе. Решавање тога захтева да наши модели одбију одређене инструкције; поуздано спровођење тога важан је отворен истраживачки проблем којим се радо бавимо.

Даље, у многим случајевима усклађивање са просечном преференцијом означивача можда није пожељно. На пример, при генерисању текста који несразмерно утиче на мањинску групу, преференције те групе требало би снажније уважити. Тренутно је InstructGPT обучен да прати упутства на енглеском; стога је пристрасан ка културним вредностима људи који говоре енглески. Спроводимо истраживања како бисмо разумели разлике и неслагања између преференција означивача, да бисмо могли да условимо наше моделе вредностима конкретнијих популација. Уопштеније, усклађивање излаза модела са вредностима конкретних људи уводи тешке изборе са друштвеним импликацијама, и на крају морамо успоставити одговорне, инклузивне процесе за доношење ових одлука.

Следећи кораци

Ово је прва примена нашег истраживања усклађивања на наш производ. Наши резултати показују да су ове технике ефикасне у значајном побољшању усклађености AI система опште намене са људским намерама. Међутим, ово је тек почетак: наставићемо да унапређујемо ове технике како бисмо побољшали усклађеност наших садашњих и будућих модела ка језичким алатима који су безбедни и корисни за људе.

Ако вас занимају ови правци истраживања, запошљавамо⁠(отвара се у новом прозору)!

Фусноте

A
Користимо само инструкције послате преко Playground-а ранијој верзији модела InstructGPT која је пуштена у рад у јануару 2021. Наши људски анотатори уклањају личне податке за идентификацију из свих инструкција пре него што их додају у скуп за обуку.
B
Модели InstructGPT распоређени у API-ју су ажуриране верзије обучене коришћењем истих података повратних информација од људи. Користе сличан, али мало другачији метод обуке који ћемо описати у предстојећој публикацији.
C
Такође меримо још неколико димензија потенцијално штетних излаза у нашој API дистрибуцији: да ли излази садрже сексуални или насилни садржај, омаловажавају заштићену класу или подстичу злостављање. Утврдили смо да се InstructGPT не побољшава значајно у односу на GPT-3 по овим метрикама; стопа појаве је подједнако ниска за оба модела.
D
Утврдили смо да је овај приступ ефикаснији од једноставног повећања KL коефицијента.
E
Ови означивачи долазе из Scale AI и Upwork-а, слично нашим означивачима за обуку, али не пролазе тест провере.

Референце

1
Christiano, P., Leike, J., Brown, T.B., Martic, M., Legg, S. and Amodei, D., 2017. Дубоко учење у сврху јачања из људских преференција. arXiv preprint arXiv:1706.03741.
2
Stiennon, N., Ouyang, L., Wu, J., Ziegler, D.M., Lowe, R., Voss, C., Radford, A., Amodei, D. and Christiano, P., 2020.
3
Wu, J., Ouyang, L., Ziegler, D.M., Stiennon, N., Lowe, R., Leike, J. and Christiano, P., 2021. Рекурзивно сажимање књига уз људске повратне информације. arXiv preprint arXiv:2109.10862.
4
Wei, J., Bosma, M., Zhao, V.Y., Guu, K., Yu, A.W., Lester, B., Du, N., Dai, A.M. and Le, Q.V., 2021. Фино подешени језички модели су без покушаја ученици. arXiv preprint arXiv:2109.01652.
5
Sanh, V., Webson, A., Raffel, C., Bach, S.H., Sutawika, L., Alyafeai, Z., Chaffin, A., Stiegler, A., Scao, T.L., Raja, A. and Dey, M., 2021. Обука са више задатака помоћу инструкција омогућава уопштавање задатака без покушаја. arXiv preprint arXiv:2110.08207.
6
Bender, E.M., Gebru, T., McMillan-Major, A. and Shmitchell, S., 2021, March. О опасностима стохастичких папагаја: Могу ли језички модели бити превелики?🦜. In Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency (pp. 610-623).
7
Bommasani, R., Hudson, D.A., Adeli, E., Altman, R., Arora, S., von Arx, S., Bernstein, M.S., Bohg, J., Bosselut, A., Brunskill, E. and Brynjolfsson, E., 2021. О могућностима и ризицима базичних модела. arXiv preprint arXiv:2108.07258.
8
Kenton, Z., Everitt, T., Weidinger, L., Gabriel, I., Mikulik, V. and Irving, G., 2021. Усклађивање језичких агената. arXiv preprint arXiv:2103.14659.
9
Weidinger, L., Mellor, J., Rauh, M., Griffin, C., Uesato, J., Huang, P.S., Cheng, M., Glaese, M., Balle, B., Kasirzadeh, A. and Kenton, Z., 2021. Етички и друштвени ризици штете од језичких модела. arXiv preprint arXiv:2112.04359.
10
Tamkin, A., Brundage, M., Clark, J. and Ganguli, D., 2021. Разумевање могућности, ограничења и друштвеног утицаја великих језичких модела. arXiv preprint arXiv:2102.02503.
11
Solaiman, I. and Dennison, C., 2021. Процес прилагођавања језичких модела друштву (PALMS) помоћу скупова података усмерених на вредности. arXiv preprint arXiv:2106.10328.
12
Ngo, H., Raterink, C., Araújo, J.G., Zhang, I., Chen, C., Morisot, A. and Frosst, N., 2021. Ублажавање штете у језичким моделима филтрацијом условне вероватноће. arXiv preprint arXiv:2108.07790.
13
Xu, J., Ju, D., Li, M., Boureau, Y.L., Weston, J. and Dinan, E., 2020. Рецепти за безбедност у chatbot-овима отвореног домена. arXiv preprint arXiv:2010.07079.
14
Keskar, N.S., McCann, B., Varshney, L.R., Xiong, C. and Socher, R., 2019. Ctrl: условни трансформаторски језички модел за контролисано генерисање. arXiv preprint arXiv:1909.05858.
15
Krause, B., Gotmare, A.D., McCann, B., Keskar, N.S., Joty, S., Socher, R. and Rajani, N.F., 2020. Gedi: генеративно генерисање секвенци вођено дискриминатором. arXiv preprint arXiv:2009.06367.
16
Dathathri, S., Madotto, A., Lan, J., Hung, J., Frank, E., Molino, P., Yosinski, J. and Liu, R., 2019. Plug and play језички модели: једноставан приступ контролисаном генерисању текста. arXiv preprint arXiv:1912.02164.
17
Lin, S., Hilton, J. and Evans, O., 2021. TruthfulQA: мерење како модели опонашају људске неистине. arXiv preprint arXiv:2109.07958.
18
Gehman, S., Gururangan, S., Sap, M., Choi, Y. and Smith, N.A., 2020. RealToxicityPrompts: евалуација неуронске токсичне дегенерације у језичким моделима. arXiv preprint arXiv:2009.11462.
19
Rudinger, R., Naradowsky, J., Leonard, B. and Van Durme, B., 2018. Родна пристрасност у разрешавању кореференције. arXiv preprint arXiv:1804.09301.
20
Nangia, N., Vania, C., Bhalerao, R. and Bowman, S.R., 2020. CrowS-pairs: изазовни скуп података за мерење друштвених пристрасности у маскираним језичким моделима. arXiv preprint arXiv:2010.00133.

Аутори

Ryan Lowe и Jan Leike

Захвалнице

Желели бисмо да захвалимо коауторима нашег рада: Long Ouyang, Jeff Wu, Roger Jiang, Diogo Almeida, Carroll Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller, Maddie Simens, Amanda Askell, Peter Welinder и Paul Christiano, као и свима који су дали повратне информације о раду и објави на блогу. Такође бисмо желели да захвалимо тиму Comms на смерницама и помоћи, укључујући Steve Dowling, Hannah Wong, Elie Georges, Alper Ercetin, Jared Salzano, Allan Diego и Justin Jay Wang. На крају, желели бисмо да захвалимо нашим означивачима, без којих овај пројекат не би био могућ.

Повезани чланци

Прикажи све

Disrupting malicious uses of AI by state-affiliated threat actors

Безбедност14. феб 2024.

Building an early warning system for LLM-aided biological threat creation

Публикација31. јан 2024.

Democratic Inputs To AI Grant Program Update

Democratic inputs to AI grant program: lessons learned and implementation plans

Безбедност16. јан 2024.