2022 ж. 27 қаңтар

Тіл модельдерін нұсқауларды орындауға сәйкестендіру

Жүктелуде…

Біз сәйкестендіру зерттеуі барысында жасалған тәсілдерді пайдаланып, GPT‑3‑пен салыстырғанда пайдаланушы ниеттерін әлдеқайда жақсы орындайтын, әрі шыншылырақ және азырақ уытты тіл модельдерін үйреттік. Адамдар қатыстырылған циклмен үйретілген бұл InstructGPT модельдері енді біздің API-дегі әдепкі тіл модельдері ретінде енгізілді.

Жүктелуде...

OpenAI API GPT‑3 тіл модельдерімен жұмыс істейді⁠, оларды мұқият жасалған мәтіндік көмексөздер арқылы табиғи тіл тапсырмасы орындауға бейімдеуге болады. Бірақ бұл модельдер шындыққа сай емес, уытты немесе зиянды көзқарастарды көрсететін нәтижелер де шығара алады. Бұл ішінара GPT‑3 пайдаланушы қалаған тіл тапсырмасын қауіпсіз орындауға емес, интернет мәтіндерінің үлкен деректер жинағында келесі сөзді болжауға үйретілгендіктен болады. Басқаша айтқанда, бұл модельдер өз пайдаланушыларымен сәйкестендірілмеген.

Модельдерімізді қауіпсізірек, пайдалырақ және жақсырақ сәйкестендіру үшін біз адам пікіріне негізделген күшейтпелі оқыту (RLHF)⁠ деп аталатын қолданыстағы тәсілді пайдаланамыз. Клиенттеріміз API-ге жіберген көмексөздерде^A белгілеушілеріміз модельдің қалаулы мінез-құлқының үлгілерін береді және модельдеріміздің бірнеше нәтижесін ранжирлейді. Кейін бұл деректерді GPT‑3‑ті жетілдіріп баптау үшін қолданамыз.

Нәтижесінде алынған InstructGPT модельдері нұсқауларды орындауда GPT‑3‑тен әлдеқайда жақсы. Сондай-ақ олар ойдан факті құрастыруды сирек жасайды және уытты нәтиже генерациясында аздаған төмендеуді көрсетеді. Біздің белгілеушілеріміз 1.3B InstructGPT моделінің нәтижелерін, параметрлері 100 еседен аса көп болса да, 175B GPT‑3 моделінің нәтижелерінен артық көреді. Сонымен бірге, академиялық NLP бағалауларындағы модель өнімділігімен өлшенгендей, GPT‑3 мүмкіндіктерінен бас тартудың қажеті жоқ екенін көрсетеміз.

Бір жылдан астам уақыт API-де бета-нұсқада болған бұл InstructGPT модельдері енді біздің API-де қолжетімді әдепкі тіл модельдері болып отыр.^B Біздің ойымызша, адамдар қатыстырылған цикл арқылы тіл модельдерін жетілдіріп баптау олардың қауіпсіздігі мен сенімділігін арттырудың қуатты құралы, және біз осы бағытта ілгерілеуді жалғастырамыз.

Бұл — біздің бірнеше жыл бойы жүргізіп келе жатқан⁠ бірнеше⁠ жылдық⁠ сәйкестендіру зерттеуіміздің алғаш рет өнімімізге қолданылуы.^{1, 2, 3} Біздің жұмысымыз сондай-ақ академиялық NLP деректер жинақтарын пайдаланып тіл модельдерін нұсқауларды орындауға жетілдіріп баптайтын соңғы зерттеулермен, әсіресе FLAN⁴ және T0-пен⁵ байланысты. Жұмысымыздың негізгі уәждерінің бірі — тіл модельдерінің зияны мен бейтарапсыздығын азайта отырып, пайдалық пен шыншылдықты арттыру.^{6, 7, 8, 9, 10} Осы бағыттағы бұрынғы зерттеулеріміздің кейбірі⁠ адам демонстрацияларының шағын іріктелген деректер жинағында жетілдіріп баптау арқылы зиянды нәтижелерді азайтуға болатынын көрсетті.¹¹ Басқа зерттеулер алдын ала үйрету деректер жинағын сүзгілеуге,¹² қауіпсіздікке арналған басқару токендеріне,^{13 және 14} немесе модель генерацияларын бағыттауға^{15 және 16} назар аударды. Біз осы және басқа идеяларды жалғасып жатқан сәйкестендіру зерттеуімізде зерттеп жатырмыз.

Нәтижелер

Алдымен InstructGPT нәтижелері пайдаланушы нұсқауларын қаншалықты жақсы орындайтынын бағалаймыз: бұл үшін белгілеушілер оның нәтижелерін GPT‑3 нәтижелерімен салыстырады. API-дегі InstructGPT және GPT‑3 модельдеріне жіберілген көмексөздерде InstructGPT модельдері айқын түрде көбірек таңдалатынын байқаймыз. GPT‑3 көмексөзіне оны «нұсқауды орындау режиміне» енгізетін префикс қоссақ та, бұл қорытынды өзгермейді.

Жүктелуде...

Модельдеріміздің қауіпсіздігін өлшеу үшін біз негізінен ашық қолжетімді деректер жинақтарындағы қолданыстағы метрикалар жиынтығын пайдаланамыз. GPT‑3‑пен салыстырғанда, InstructGPT еліктемелі жалған мәлімдемелерді азырақ шығарады (TruthfulQA¹⁷ бойынша) және уыттылығы төменірек (RealToxicityPrompts¹⁸ бойынша). Сондай-ақ API көмексөздері үлестірімінде адамдық бағалау жүргізіп, InstructGPT‑тің ойдан факті құрастыруды («галлюцинациялауды») сирек жасайтынын және анағұрлым орынды нәтижелер шығаратынын анықтадық.^C

Жүктелуде...

Соңында, клиенттік үлестірімімізде InstructGPT нәтижелері FLAN⁴ мен T0⁵ нәтижелерінен де артық таңдалатынын байқадық. Бұл FLAN мен T0-ді үйретуге қолданылған деректер, негізінен академиялық NLP тапсырмалары, енгізілген тіл модельдерінің іс жүзінде қалай қолданылатынын толық көрсетпейтінін білдіреді.

Әдістер

InstructGPT модельдерін үйретудің үш қадамды әдістемесін көрсететін диаграмма.

InstructGPT модельдерін үйретуде негізгі тәсіліміз — бұрынғы сәйкестендіру зерттеуімізде дамытуға көмектескен адам пікіріне негізделген күшейтпелі оқыту (RLHF)⁠. Бұл тәсіл модельдерімізді жетілдіріп баптау үшін адам қалауларын марапат сигналы ретінде қолданады, бұл маңызды, өйткені біз шешуге тырысып отырған қауіпсіздік пен сәйкестендіру мәселелері күрделі және субъективті, әрі қарапайым автоматты метрикалармен толық қамтылмайды.

Алдымен API-ге жіберілген көмексөздер бойынша адам жазған демонстрациялар деректер жинағын жинап, оны бақыланатын оқыту базалық нұсқаларын үйрету үшін пайдаланамыз. Кейін API көмексөздерінің кеңірек жиынында модельдің екі нәтижесі арасындағы адам белгілеген салыстырулар деректер жинағын жинаймыз. Содан соң осы деректер жинағында белгілеушілеріміз қай нәтижені таңдайтынын болжау үшін марапат моделін (RM) үйретеміз. Соңында осы RM-ді марапат функциясы ретінде қолданып, PPO алгоритмі⁠ арқылы осы марапатты барынша арттыру үшін GPT‑3 саясатын жетілдіріп баптаймыз.

Бұл үдерісті түсінудің бір жолы — ол GPT‑3‑те бұрыннан бар, бірақ тек көмексөз инженериясы арқылы шығару қиын болған қабілеттерді «ашады»: себебі біздің үйрету рәсіміміз алдын ала үйрету кезінде меңгерілгенмен салыстырғанда модельге жаңа қабілеттерді үйретуде шектеулі, өйткені ол модельді алдын ала үйретуге жұмсалған есептеу мен деректердің 2%-ынан азын қолданады.

Бұл тәсілдің бір шектеуі — ол «сәйкестендіру салығын» енгізеді: модельдерді тек клиент тапсырмаларында сәйкестендіру олардың кейбір басқа академиялық NLP тапсырмаларындағы өнімділігін нашарлатуы мүмкін. Бұл құптарлық емес, өйткені егер біздің сәйкестендіру тәсілдеріміз адамдар мән беретін тапсырмаларда модельдерді нашарлатса, оларды іс жүзінде қабылдау ықтималдығы төмендейді. Біз осы сәйкестендіру салығын азайтатын қарапайым алгоритмдік өзгеріс таптық: RL арқылы жетілдіріп баптау кезінде GPT‑3‑ті үйретуге қолданылған бастапқы деректердің аз ғана үлесін араластырамыз және осы деректерде қалыпты логарифмдік ықтималдықты максимум ету арқылы үйретеміз.^D Бұл қауіпсіздік пен адам қалаулары бойынша өнімділікті шамамен сақтайды, сонымен бірге академиялық тапсырмалардағы төмендеуді азайтады және бірнеше жағдайда GPT‑3 базалық деңгейінен де асып түседі.

Кеңірек қалауларға жалпылау

Біздің рәсім модельдеріміздің мінез-құлқын модельдерімізді үйретуге қолданылатын деректерді тікелей жасайтын белгілеушілеріміздің қалауларымен және белгілеушілерге жазбаша нұсқаулар, нақты мысалдар бойынша тікелей кері байланыс және бейресми әңгімелер арқылы бағыт беретін зерттеушілеріміздің қалауымен сәйкестендіреді. Оған сондай-ақ клиенттеріміз және API саясаттарымызда астарланған қалаулар да әсер етеді. Біз сезімтал көмексөздерді анықтау және оларға жауап беру қабілеті бойынша іріктеу тестінен жақсы өткен белгілеушілерді таңдадық. Алайда деректерге әсер ететін осы әртүрлі көздер модельдеріміз кез келген кеңірек топтың қалауымен сәйкестендірілгеніне кепілдік бермейді.

Мұны зерттеу үшін екі тәжірибе жүргіздік. Біріншіден, GPT‑3 пен InstructGPT‑ті оқыту деректерінің ешқайсысын жасамаған тәуелсіз белгілеушілер^E арқылы бағаладық және бұл белгілеушілердің InstructGPT модельдерінің нәтижелерін шамамен біздің оқыту белгілеушілеріміз сияқты жиілікпен таңдайтынын анықтадық. Екіншіден, белгілеушілеріміздің бір бөлігінің деректерімен марапат модельдерін үйреттік және олардың белгілеушілердің басқа бір бөлігінің қалауларын болжауға жақсы жалпыланатынын байқадық. Бұл біздің модельдеріміз тек оқыту белгілеушілеріміздің қалауларына ғана артық бейімделмегенін көрсетеді. Дегенмен, бұл модельдердің пайдаланушылардың кеңірек топтарында қалай жұмыс істейтінін және адамдар қалаулы мінез-құлық жөнінде келіспейтін кірістерде қалай әрекет ететінін зерттеу үшін әлі де көбірек жұмыс қажет.

Шектеулер

Елеулі ілгерілеуге қарамастан, біздің InstructGPT модельдері толық сәйкестендірілген де, толық қауіпсіз де емес; олар әлі де уытты немесе бейтарапсыз нәтижелер шығарады, ойдан факті құрастырады және нақты нұсқаусыз сексуалдық әрі зорлық-зомбылық мазмұнын тудырады. Бірақ машиналық оқыту жүйесінің қауіпсіздігі тек негізгі модельдердің мінез-құлқына ғана емес, бұл модельдердің қалай енгізілетініне де байланысты. API қауіпсіздігін қолдау үшін біз олар іске қосылар алдында ықтимал қолданбаларды қарастыруды⁠(жаңа терезеде ашылады) жалғастырамыз, қауіпті аяқтауларды анықтауға арналған мазмұн сүзгілерін ұсынамыз және теріс пайдалануды бақылаймыз.

Модельдерімізді пайдаланушы нұсқауларын орындауға үйретудің жанама салдарының бірі — егер оларға қауіпті нәтижелер шығаруға нұсқау берілсе, теріс пайдалануға көбірек бейім болуы мүмкін. Мұны шешу үшін модельдеріміз кейбір нұсқаулардан бас тартуы керек; мұны сенімді түрде орындау — біз қызығушылықпен айналысатын маңызды ашық зерттеу мәселесі.

Бұдан бөлек, көптеген жағдайда орташа белгілеуші қалауына сәйкестендіру қалаулы болмауы мүмкін. Мысалы, азшылық топқа шамадан тыс әсер ететін мәтін жасалғанда, сол топтың қалауларына көбірек салмақ берілуі тиіс. Қазір InstructGPT ағылшын тіліндегі нұсқауларды орындауға үйретілген; сондықтан ол ағылшын тілінде сөйлейтін адамдардың мәдени құндылықтарына қарай ығысқан. Біз модельдерімізді нақтырақ популяциялардың құндылықтарына шарттау үшін белгілеушілер қалауларының айырмашылықтары мен келіспеушіліктерін түсінуге арналған зерттеу жүргізіп жатырмыз. Жалпы алғанда, модель нәтижелерін нақты адамдардың құндылықтарымен сәйкестендіру қоғамдық салдары бар күрделі таңдауларды туындатады, және түптеп келгенде бұл шешімдерді қабылдау үшін жауапты әрі инклюзивті үдерістерді қалыптастыруымыз керек.

Келесі қадамдар

Бұл — біздің сәйкестендіру зерттеуіміздің өніміміздегі алғашқы қолданылуы. Нәтижелеріміз бұл тәсілдердің жалпы мақсаттағы AI жүйелерін адам ниеттерімен анағұрлым жақсырақ сәйкестендіруде тиімді екенін көрсетеді. Алайда бұл тек бастамасы ғана: қазіргі және болашақ модельдерімізді адамдар үшін қауіпсіз әрі пайдалы тіл құралдарына айналдыру үшін осы тәсілдерді дамытуды жалғастырамыз.

Егер сізді осы зерттеу бағыттары қызықтырса, бізге мамандар керек⁠(жаңа терезеде ашылады)!

Ескертпелер

A
Біз тек Playground арқылы 2021 жылдың қаңтарында енгізілген InstructGPT модельдерінің ертерек нұсқасына жіберілген көмексөздерді ғана пайдаланамыз. Адам-аннотациялаушыларымыз барлық көмексөздерден жеке тұлғаны анықтайтын ақпаратты оқыту жинағына қоспас бұрын алып тастайды.
B
API-де енгізілген InstructGPT модельдері — сол адам пікірі деректерімен үйретілген жаңартылған нұсқалар. Олар ұқсас, бірақ сәл өзгеше үйрету әдісін қолданады, оны алдағы жарияланымда сипаттаймыз.
C
Сондай-ақ API үлестірімімізде ықтимал зиянды нәтижелердің тағы бірнеше қырын өлшейміз: нәтижелерде сексуалдық не зорлық-зомбылық мазмұны бар ма, қорғалатын топты кемсіте ме, немесе қорлауды ынталандыра ма. Бұл метрикалар бойынша InstructGPT GPT-3-тен айтарлықтай артық емес екенін байқаймыз; кездесу жиілігі екі модельде де бірдей төмен.
D
Біз бұл тәсілді KL коэффициентін жай ғана арттырудан тиімдірек деп таптық.
E
Бұл белгілеушілер, оқыту белгілеушілеріміз сияқты, Scale AI мен Upwork арқылы тартылады, бірақ іріктеу тестінен өтпейді.

Әдебиеттер

1
Christiano, P., Leike, J., Brown, T.B., Martic, M., Legg, S. and Amodei, D., 2017. Адам қалауына негізделген терең күшейтпелі оқыту. arXiv preprint arXiv:1706.03741.
2
Stiennon, N., Ouyang, L., Wu, J., Ziegler, D.M., Lowe, R., Voss, C., Radford, A., Amodei, D. and Christiano, P., 2020.
3
Wu, J., Ouyang, L., Ziegler, D.M., Stiennon, N., Lowe, R., Leike, J. and Christiano, P., 2021. Адам пікірімен кітаптарды рекурсивті түрде түйіндеу. arXiv preprint arXiv:2109.10862.
4
Wei, J., Bosma, M., Zhao, V.Y., Guu, K., Yu, A.W., Lester, B., Du, N., Dai, A.M. and Le, Q.V., 2021. Жетілдіріп бапталған тіл модельдері мысалсыз үйренушілер болып табылады. arXiv preprint arXiv:2109.01652.
5
Sanh, V., Webson, A., Raffel, C., Bach, S.H., Sutawika, L., Alyafeai, Z., Chaffin, A., Stiegler, A., Scao, T.L., Raja, A. and Dey, M., 2021. Көптапсырмалы көмексөзбен үйрету тапсырмаларды мысалсыз жалпылауға мүмкіндік береді. arXiv preprint arXiv:2110.08207.
6
Bender, E.M., Gebru, T., McMillan-Major, A. and Shmitchell, S., 2021, March. Стохастикалық тотықұстардың қауіптері туралы: Тіл модельдері тым үлкен бола ала ма?🦜. In Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency (pp. 610-623).
7
Bommasani, R., Hudson, D.A., Adeli, E., Altman, R., Arora, S., von Arx, S., Bernstein, M.S., Bohg, J., Bosselut, A., Brunskill, E. and Brynjolfsson, E., 2021. Іргелі модельдердің мүмкіндіктері мен қауіптері туралы. arXiv preprint arXiv:2108.07258.
8
Kenton, Z., Everitt, T., Weidinger, L., Gabriel, I., Mikulik, V. and Irving, G., 2021. Тіл агенттерін сәйкестендіру. arXiv preprint arXiv:2103.14659.
9
Weidinger, L., Mellor, J., Rauh, M., Griffin, C., Uesato, J., Huang, P.S., Cheng, M., Glaese, M., Balle, B., Kasirzadeh, A. and Kenton, Z., 2021. Тіл модельдерінен келетін зиянның этикалық және әлеуметтік қауіптері. arXiv preprint arXiv:2112.04359.
10
Tamkin, A., Brundage, M., Clark, J. and Ganguli, D., 2021. Ірі тіл модельдерінің мүмкіндіктерін, шектеулерін және қоғамға әсерін түсіну. arXiv preprint arXiv:2102.02503.
11
Solaiman, I. and Dennison, C., 2021. Тіл модельдерін қоғамға бейімдеу үдерісі (PALMS) құндылықтарға бағытталған деректер жинақтарымен. arXiv preprint arXiv:2106.10328.
12
Ngo, H., Raterink, C., Araújo, J.G., Zhang, I., Chen, C., Morisot, A. and Frosst, N., 2021. Шартты ықтималдық сүзгілеуі арқылы тіл модельдеріндегі зиянды азайту. arXiv preprint arXiv:2108.07790.
13
Xu, J., Ju, D., Li, M., Boureau, Y.L., Weston, J. and Dinan, E., 2020. Ашық доменді чат-боттардағы қауіпсіздік рецептері. arXiv preprint arXiv:2010.07079.
14
Keskar, N.S., McCann, B., Varshney, L.R., Xiong, C. and Socher, R., 2019. Ctrl: Басқарылатын генерацияға арналған шартты трансформер тіл моделі. arXiv preprint arXiv:1909.05858.
15
Krause, B., Gotmare, A.D., McCann, B., Keskar, N.S., Joty, S., Socher, R. and Rajani, N.F., 2020. Gedi: Генеративті дискриминатор басқаратын тізбек генерациясы. arXiv preprint arXiv:2009.06367.
16
Dathathri, S., Madotto, A., Lan, J., Hung, J., Frank, E., Molino, P., Yosinski, J. and Liu, R., 2019. Plug and play тіл модельдері: басқарылатын мәтін генерациясының қарапайым тәсілі. arXiv preprint arXiv:1912.02164.
17
Lin, S., Hilton, J. and Evans, O., 2021. TruthfulQA: модельдердің адам қателіктеріне қалай еліктейтінін өлшеу. arXiv preprint arXiv:2109.07958.
18
Gehman, S., Gururangan, S., Sap, M., Choi, Y. and Smith, N.A., 2020. RealToxicityPrompts: тіл модельдеріндегі уытты деградацияны бағалау. arXiv preprint arXiv:2009.11462.
19
Rudinger, R., Naradowsky, J., Leonard, B. and Van Durme, B., 2018. Кореференцияны шешудегі гендерлік бейтарапсыздық. arXiv preprint arXiv:1804.09301.
20
Nangia, N., Vania, C., Bhalerao, R. and Bowman, S.R., 2020. CrowS-pairs: маскаланған тіл модельдеріндегі әлеуметтік бейтарапсыздықты өлшеуге арналған сынақ деректер жинағы. arXiv preprint arXiv:2010.00133.

Авторлар

Ryan Lowe және Jan Leike

Алғыс

Мақаладағы бірлескен авторларымызға алғыс білдіреміз: Long Ouyang, Jeff Wu, Roger Jiang, Diogo Almeida, Carroll Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller, Maddie Simens, Amanda Askell, Peter Welinder және Paul Christiano, сондай-ақ мақала мен блог жазбасына пікір білдіргендердің бәріне. Сондай-ақ Comms тобына бағыт-бағдары мен көмегі үшін алғыс айтамыз, соның ішінде Steve Dowling, Hannah Wong, Elie Georges, Alper Ercetin, Jared Salzano, Allan Diego және Justin Jay Wang. Соңында, осы жоба мүмкін болмас еді дейтін белгілеушілерімізге алғысымызды білдіреміз.

Қатысты мақалалар

Барлығын қарау

Disrupting malicious uses of AI by state-affiliated threat actors

Қауіпсіздік2024 ж. 14 ақп.

Building an early warning system for LLM-aided biological threat creation

Жарияланым2024 ж. 31 қаң.

Democratic Inputs To AI Grant Program Update

Democratic inputs to AI grant program: lessons learned and implementation plans

Қауіпсіздік2024 ж. 16 қаң.