Хэлний загваруудыг заавар дагахаар нийцүүлэх нь
Бид нийцүүлэлтийн судалгаанаасаа боловсруулсан аргачлалуудыг ашиглан GPT‑3‑аас хэрэглэгчийн зорилгыг илүү сайн дагадаг, мөн илүү үнэнч, хоруу чанар багатай хэлний загваруудыг сургажээ. Хүнийг явцад нь оролцуулан сургадаг эдгээр InstructGPT загварууд одоо манай API-ийн анхдагч хэлний загварууд болж нэвтэрсэн.
OpenAI API нь GPT‑3 хэлний загваруудаар ажилладаг бөгөөд тэдгээрийг нямбай боловсруулсан текст өгөгдлөөр байгалийн хэлний даалгавар гүйцэтгэхэд чиглүүлж болдог. Гэвч эдгээр загварууд худал, хортой эсвэл хор хөнөөлтэй үзэл санааг тусгасан гаралт ч үүсгэж чадна. Энэ нь нэг талаар GPT‑3‑ыг хэрэглэгчийн хүссэн хэлний даалгаврыг аюулгүй гүйцэтгэхийн оронд интернэт текстийн том өгөгдлийн багц дээр дараагийн үгийг таамаглахаар сургадагтай холбоотой. Өөрөөр хэлбэл, эдгээр загварууд хэрэглэгчидтэйгээ нийцсэн биш юм.
Загваруудаа илүү аюулгүй, илүү тустай, илүү нийцтэй болгохын тулд бид Хүний санал хүсэлтээс бататган суралцах (RLHF) хэмээх одоо байгаа аргыг ашигладаг. API-д манай хэрэглэгчдийн илгээсэн өгөгдлүүд дээрA манай тэмдэглэгээ хийгчид загварын хүссэн зан үйлийн жишээ үзүүлж, загваруудын хэд хэдэн гаралтыг эрэмбэлдэг. Дараа нь бид энэ өгөгдлөөр GPT‑3‑ыг нарийн тааруулдаг.
Үр дүнд нь гарсан InstructGPT загварууд нь GPT‑3‑аас заавар дагахад хамаагүй илүү сайн. Мөн тэд баримт зохиох нь бага, хортой гаралт үүсгэх нь бага зэрэг буурсан. Манай тэмдэглэгээ хийгчид 1.3B InstructGPT загварын гаралтыг 175B GPT‑3 загварын гаралтаас илүүд үздэг, хэдий параметрийн тоо нь 100 дахин бага ч гэсэн. Үүний зэрэгцээ, манай загварын академик NLP үнэлгээн дэх гүйцэтгэлээр хэмжихэд GPT‑3‑ын чадвараас заавал буулт хийх шаардлагагүйг бид харуулж байна.
API дээр жил гаруйн турш бета хэлбэрээр байсан эдгээр InstructGPT загварууд одоо манай API дээр ашиглах боломжтой анхдагч хэлний загварууд болсон.B Хүнийг явцад нь оролцуулан хэлний загваруудыг нарийн тааруулах нь тэдний аюулгүй байдал, найдвартай байдлыг сайжруулах хүчтэй хэрэгсэл гэж бид үздэг бөгөөд энэ чиглэлд цаашид ч ахина.
Энэ бол манай хөөцөлдөж ирсэн нийцүүлэлтийн судалгааг хэдэн жилийн турш1, 2, 3 анх удаа бүтээгдэхүүндээ хэрэглэсэн тохиолдол юм. Манай ажил нь мөн академик NLP өгөгдлийн багцуудыг ашиглан заавар дагуу хэлний загваруудыг нарийн тааруулдаг сүүлийн үеийн судалгаатай, ялангуяа FLAN4 болон T05-тэй холбоотой. Манай ажлын гол сэдэл бол хэлний загваруудын хор нөлөө, хэвийлтийг бууруулахын зэрэгцээ тусч байдал, үнэнч байдлыг нэмэгдүүлэх явдал юм.6, 7, 8, 9, 10 Энэ чиглэлийн өмнөх зарим судалгаа маань хүний жишээ үзүүлбэрийн жижиг, нямбай сонгосон өгөгдлийн багц дээр нарийн тааруулах замаар хор хөнөөлтэй гаралтыг бууруулж болохыг олсон.11 Бусад судалгаа нь урьдчилсан сургалтын өгөгдлийн багцыг шүүх,[ [fn:12]] аюулгүй байдалд зориулсан тусгай удирдлагын токенууд,[ [fn:13]]14 эсвэл загварын үүсгэж буй гаралтыг чиглүүлэхэд төвлөрсөн.15, 16 Бид эдгээр болон бусад санааг үргэлжилж буй нийцүүлэлтийн судалгаандаа судалж байна.
Бид эхлээд InstructGPT‑ийн гаралт хэрэглэгчийн зааврыг хэр сайн дагаж байгааг, түүний гаралтыг GPT‑3‑ын гаралттай тэмдэглэгээ хийгчдээр харьцуулуулан үнэлдэг. API дээрх InstructGPT болон GPT‑3 загварт илгээсэн өгөгдлүүдийн хувьд InstructGPT загварууд илт давуу гэж үзэгдсэнийг бид олж тогтоосон. GPT‑3 өгөгдөлд угтвар нэмж, түүнийг “заавар дагах горим”-д оруулахад ч энэ үр дүн хэвээр байна.
Манай загваруудын аюулгүй байдлыг хэмжихийн тулд бид голчлон нийтэд нээлттэй өгөгдлийн багцууд дээрх одоо байгаа хэмжүүрүүдийн иж бүрдлийг ашигладаг. GPT‑3‑тай харьцуулахад InstructGPT нь дуураймал худал мэдээлэл бага гаргадаг (TruthfulQA17-ийн дагуу) бөгөөд хоруу чанар багатай (RealToxicityPrompts18-ийн дагуу). Мөн бид API өгөгдлийн тархалт дээр хүний үнэлгээ хийж, InstructGPT нь баримт зохиох (“галлюцинаци хийх”) нь бага, илүү зохистой гаралт үүсгэдгийг олсон.C
Эцэст нь, манай хэрэглэгчийн тархалт дээр InstructGPT‑ийн гаралтыг FLAN4 болон T05-ын гаралтаас илүүд үзэж байгааг бид олсон. Энэ нь FLAN болон T0-ыг сургахад ашигласан өгөгдөл, голчлон академик NLP даалгаврууд, нь бодит хэрэглээнд нэвтрүүлсэн хэлний загварууд хэрхэн ашиглагддагийг бүрэн төлөөлдөггүйг харуулж байна.

InstructGPT загваруудыг сургахын тулд бидний үндсэн арга нь Хүний санал хүсэлтээс бататган суралцах (RLHF) бөгөөд энэ нь өмнөх нийцүүлэлтийн судалгаандаа бидний хөгжүүлэхэд тусалсан арга юм. Энэ арга нь манай загваруудыг нарийн тааруулахын тулд хүний сонголтыг үйлдлээ зөв хийснийг илэрхийлэх дохио болгон ашигладаг бөгөөд энэ нь бидний шийдэхээр зорьж буй аюулгүй байдал, нийцүүлэлтийн асуудлууд нь төвөгтэй, субъектив, мөн энгийн автомат хэмжүүрүүдээр бүрэн баригддаггүй тул чухал юм.
Бид эхлээд API-д илгээсэн өгөгдлүүд дээр хүний бичсэн үзүүлбэрийн өгөгдлийн багц цуглуулж, үүнийг хяналттай сургалтын суурь хувилбаруудаа сургахад ашигладаг. Дараа нь API өгөгдлүүдийн илүү том багц дээр загварын хоёр гаралтын хоорондох хүний тэмдэглэсэн харьцуулалтын өгөгдлийн багц цуглуулдаг. Дараа нь бид энэ өгөгдлийн багц дээр аль гаралтыг манай тэмдэглэгээ хийгчид илүүд үзэхийг таамаглахын тулд үйлдлээ зөв хийснийг илэрхийлэх дохиог үүсгэдэг загвар (RM)-ыг сургадаг. Эцэст нь бид энэ RM-ыг шагналын функц болгон ашиглаж, PPO алгоритм-аар энэ шагналыг ихэсгэхийн тулд GPT‑3 бодлогыг нарийн тааруулдаг.
Энэ үйл явцыг бодох нэг арга нь GPT‑3‑д аль хэдийн байсан ч зөвхөн өгөгдлийн инженерчлэлээр гаргаж ирэхэд хэцүү байсан чадваруудыг “тайлж өгдөг” гэж үзэх явдал юм: учир нь манай сургалтын журам нь урьдчилсан сургалтын үед сурсан зүйлтэй харьцуулахад загварт шинэ чадвар заах чадвар хязгаарлагдмал, учир нь энэ нь загварын урьдчилсан сургалттай харьцуулахад тооцоолол болон өгөгдлийн 2%-иас бага хэсгийг ашигладаг.
Энэ аргын нэг хязгаарлалт нь “нэмэлт зардал”-ыг бий болгодог: зөвхөн хэрэглэгчийн даалгаврууд дээр загваруудыг нийцүүлэх нь бусад академик NLP даалгаврууд дээрх гүйцэтгэлийг нь муутгаж болзошгүй. Хэрэв манай нийцүүлэлтийн аргачлалууд хүмүүсийн чухалчилдаг даалгаврууд дээр загваруудыг дордуулбал практикт нэвтрүүлэх магадлал буурна, тиймээс энэ нь хүсүүштэй биш. Бид энэ нэмэлт зардлыг багасгах энгийн алгоритмын өөрчлөлт олсон: RL нарийн тааруулалтын үеэр бид GPT‑3‑ыг сургахад ашигласан анхны өгөгдлийн багахан хувийг хольж, энэ өгөгдөл дээр ердийн лог магадлалыг ихэсгэх аргаар сургадаг.D Энэ нь аюулгүй байдал болон хүний сонголт дээрх гүйцэтгэлийг ерөнхийдөө хадгалж, академик даалгаврууд дээрх гүйцэтгэлийн бууралтыг багасгаад зогсохгүй хэд хэдэн тохиолдолд GPT‑3 суурь үзүүлэлтийг ч давдаг.
Манай журам нь загваруудын зан үйлийг манай тэмдэглэгээ хийгчдийн сонголттой нийцүүлдэг. Тэд манай загваруудыг сургахад ашиглах өгөгдлийг шууд бүтээдэг бөгөөд бид судлаачид бичмэл заавар, тодорхой жишээн дээрх шууд санал хүсэлт, албан бус яриагаар тэмдэглэгээ хийгчдэд чиглүүлэг өгдөг. Үүнд мөн манай хэрэглэгчид болон манай API бодлогод далд байдлаар туссан сонголтууд нөлөөлдөг. Бид эмзэг өгөгдлийг таньж, хариулах чадварыг шалгах скрининг тестэд сайн гүйцэтгэлтэй тэмдэглэгээ хийгчдийг сонгосон. Гэвч өгөгдөлд нөлөөлөх эдгээр янз бүрийн эх сурвалж нь манай загварууд ямар нэг илүү өргөн бүлгийн сонголттой нийцсэн гэсэн баталгаа болдоггүй.
Үүнийг судлахын тулд бид хоёр туршилт хийсэн. Нэгдүгээрт, бид GPT‑3 болон InstructGPT‑ийг сургалтын ямар ч өгөгдөл бүтээгээгүй тусгаарласан тэмдэглэгээ хийгчдээрE үнэлээд, эдгээр тэмдэглэгээ хийгчид InstructGPT загварын гаралтыг манай сургалтын тэмдэглэгээ хийгчидтэй ойролцоо түвшинд илүүд үзэж байгааг олсон. Хоёрдугаарт, бид тэмдэглэгээ хийгчдийнхээ нэг дэд бүлгийн өгөгдлөөр үйлдлээ зөв хийснийг илэрхийлэх дохиог үүсгэдэг загваруудыг сургаад, тэдгээр нь өөр дэд бүлгийн тэмдэглэгээ хийгчдийн сонголтыг урьдчилан таамаглахад сайн ерөнхийшиж байгааг олсон. Энэ нь манай загварууд зөвхөн сургалтын тэмдэглэгээ хийгчдийн сонголтод хэт тааруулаагүйг示ж байна. Гэвч эдгээр загварууд хэрэглэгчдийн илүү өргөн бүлгүүд дээр хэрхэн ажиллах, мөн хүмүүс хүссэн зан үйлийн талаар санал зөрдөг оролтууд дээр хэрхэн ажиллахыг судлахын тулд илүү их ажил шаардлагатай.
Хэдий мэдэгдэхүйц ахиц гаргасан ч манай InstructGPT загварууд бүрэн нийцсэн ч биш, бүрэн аюулгүй ч биш; тэд хортой эсвэл хэвийлттэй гаралт үүсгэсээр, баримт зохиосоор, мөн тодорхой зааваргүйгээр бэлгийн болон хүчирхийллийн агуулга гаргасаар байна. Гэвч машин сургалтын системийн аюулгүй байдал нь зөвхөн суурь загваруудын зан үйлээс бус, мөн эдгээр загваруудыг хэрхэн нэвтрүүлж байгаагаас хамаардаг. Манай API-ийн аюулгүй байдлыг дэмжихийн тулд бид тэдгээрийг шууд нэвтрүүлэхээс өмнө боломжит хэрэглээнүүдийг хянасаар(шинэ цонхонд нээгдэнэ) байх, аюултай completion-уудыг илрүүлэх контент шүүлтүүрүүд өгөх, мөн буруу хэрэглээг хянасаар байх болно.
Манай загваруудыг хэрэглэгчийн зааврыг дагахаар сургахын нэг дагавар нь, хэрэв аюулгүй бус гаралт гаргахыг зааварлавал, тэдгээр нь буруу хэрэглээнд илүү өртөмтгий болж магадгүй юм. Үүнийг шийдэхийн тулд манай загварууд тодорхой заавруудаас татгалзах ёстой; үүнийг найдвартай хэрэгжүүлэх нь бидний шийдвэрлэхийг хүсэж буй чухал нээлттэй судалгааны асуудал юм.
Цаашлаад, олон тохиолдолд дундаж тэмдэглэгээ хийгчийн сонголтод нийцүүлэх нь хүсүүштэй биш байж болно. Жишээлбэл, цөөнхийн бүлэгт disproportionate нөлөө үзүүлэх текст үүсгэх үед тухайн бүлгийн сонголтыг илүү өндөр жинтэй авч үзэх ёстой. Одоогоор InstructGPT нь англи хэл дээрх зааврыг дагахаар сургагдсан; иймээс англи хэлээр ярьдаг хүмүүсийн соёлын үнэт зүйлс рүү хэвийсэн байдаг. Бид тэмдэглэгээ хийгчдийн сонголтын ялгаа, санал зөрөлдөөнийг ойлгох судалгаа хийж байгаа бөгөөд ингэснээр загваруудаа илүү тодорхой хүн амын бүлгүүдийн үнэт зүйл дээр нөхцөлдүүлж чадна. Илүү өргөн хүрээнд, загварын гаралтыг тодорхой хүмүүсийн үнэт зүйлстэй нийцүүлэх нь нийгмийн үр дагавартай хүнд сонголтуудыг бий болгодог бөгөөд эцэст нь эдгээр шийдвэрийг гаргах хариуцлагатай, хүртээмжтэй үйл явцыг бид тогтоох ёстой.
Энэ бол манай нийцүүлэлтийн судалгааг бүтээгдэхүүндээ хэрэглэсэн анхны тохиолдол юм. Манай үр дүн эдгээр аргачлал нь ерөнхий зориулалтын AI системийг хүний зорилготой мэдэгдэхүйц сайн нийцүүлэхэд үр дүнтэйг харуулж байна. Гэхдээ энэ бол зөвхөн эхлэл: бид одоогийн болон ирээдүйн загваруудаа хүмүүст аюулгүй, тустай хэлний хэрэгсэл болгохын тулд эдгээр аргыг үргэлжлүүлэн хөгжүүлнэ.
Хэрэв та эдгээр судалгааны чиглэлүүдийг сонирхож байвал, бид ажилд авч байна(шинэ цонхонд нээгдэнэ)!
Зүүлт тайлбар
- A
Бид зөвхөн 2021 оны 1-р сард нэвтрүүлсэн InstructGPT загварын өмнөх хувилбар руу Playground-оор илгээсэн өгөгдлүүдийг ашигладаг. Манай хүний тайлбарлагчид бүх өгөгдлөөс хувийн таних мэдээллийг сургалтын багцад нэмэхээс өмнө устгадаг.
- B
API-д нэвтрүүлсэн InstructGPT загварууд нь ижил хүний санал хүсэлтийн өгөгдлөөр сургагдсан шинэчилсэн хувилбарууд юм. Эдгээр нь төстэй боловч арай өөр сургалтын аргыг ашигладаг бөгөөд үүнийг бид удахгүй гарах нийтлэлд тайлбарлана.
- C
Мөн бид API түгээлт дээрээ хор хөнөөлтэй байж болох гаралтын өөр хэд хэдэн хэмжээсийг хэмждэг: гаралт нь бэлгийн эсвэл хүчирхийллийн агуулгатай эсэх, хамгаалагдсан бүлгийг доромжилж байгаа эсэх, эсвэл хүчирхийллийг өдөөж байгаа эсэх. Бид эдгээр хэмжүүрээр InstructGPT нь GPT-3-аас мэдэгдэхүйц сайжраагүйг олж харсан; тохиолдлын түвшин хоёр загварт адилхан бага байна.
- D
Бид энэ аргыг KL коэффициентийг зүгээр л нэмэгдүүлэхээс илүү үр дүнтэй гэж үзсэн.
- E
Эдгээр тэмдэглэгээ хийгчдийг манай сургалтын тэмдэглэгээ хийгчдийн адил Scale AI болон Upwork-оос авдаг боловч шалгуур тест өгдөггүй.
Эшлэлүүд
- 1
Christiano, P., Leike, J., Brown, T.B., Martic, M., Legg, S. and Amodei, D., 2017. Хүний сонголтоос гүнзгийрүүлэх сургалт. arXiv preprint arXiv:1706.03741.
- 2
Stiennon, N., Ouyang, L., Wu, J., Ziegler, D.M., Lowe, R., Voss, C., Radford, A., Amodei, D. and Christiano, P., 2020.
- 3
Wu, J., Ouyang, L., Ziegler, D.M., Stiennon, N., Lowe, R., Leike, J. and Christiano, P., 2021. Хүний санал хүсэлтээр номыг рекурсив байдлаар хураангуйлах нь. arXiv preprint arXiv:2109.10862.
- 4
Wei, J., Bosma, M., Zhao, V.Y., Guu, K., Yu, A.W., Lester, B., Du, N., Dai, A.M. and Le, Q.V., 2021. Нарийн тааруулсан хэлний загварууд нь тэг оролдлого суралцагчид юм. arXiv preprint arXiv:2109.01652.
- 5
Sanh, V., Webson, A., Raffel, C., Bach, S.H., Sutawika, L., Alyafeai, Z., Chaffin, A., Stiegler, A., Scao, T.L., Raja, A. and Dey, M., 2021. Олон даалгаварт өгөгдлөөр удирдсан сургалт нь тэг оролдлого даалгаврын ерөнхийшлийг боломжтой болгодог. arXiv preprint arXiv:2110.08207.
- 6
Bender, E.M., Gebru, T., McMillan-Major, A. and Shmitchell, S., 2021, March. Стохастик тотинуудын аюулын тухай: Хэлний загварууд хэт том байж болох уу?🦜. In Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency (pp. 610-623).
- 7
Bommasani, R., Hudson, D.A., Adeli, E., Altman, R., Arora, S., von Arx, S., Bernstein, M.S., Bohg, J., Bosselut, A., Brunskill, E. and Brynjolfsson, E., 2021. Суурь загваруудын боломж ба эрсдэлийн тухай. arXiv preprint arXiv:2108.07258.
- 8
Kenton, Z., Everitt, T., Weidinger, L., Gabriel, I., Mikulik, V. and Irving, G., 2021. Хэлний агентуудын нийцүүлэлт. arXiv preprint arXiv:2103.14659.
- 9
Weidinger, L., Mellor, J., Rauh, M., Griffin, C., Uesato, J., Huang, P.S., Cheng, M., Glaese, M., Balle, B., Kasirzadeh, A. and Kenton, Z., 2021. Хэлний загваруудаас үүдэх ёс зүй, нийгмийн хор хөнөөлийн эрсдэлүүд. arXiv preprint arXiv:2112.04359.
- 10
Tamkin, A., Brundage, M., Clark, J. and Ganguli, D., 2021. Том хэлний загваруудын чадвар, хязгаарлалт, нийгмийн нөлөөг ойлгох нь. arXiv preprint arXiv:2102.02503.
- 11
Solaiman, I. and Dennison, C., 2021. Хэлний загваруудыг нийгэмд нийцүүлэх үйл явц (PALMS) зорилтот үнэт зүйлсийн өгөгдлийн багцтай. arXiv preprint arXiv:2106.10328.
- 12
Ngo, H., Raterink, C., Araújo, J.G., Zhang, I., Chen, C., Morisot, A. and Frosst, N., 2021. Нөхцөлт магадлалын шүүлтүүрээр хэлний загвар дахь хор хөнөөлийг бууруулах нь. arXiv preprint arXiv:2108.07790.
- 13
Xu, J., Ju, D., Li, M., Boureau, Y.L., Weston, J. and Dinan, E., 2020. Нээлттэй хүрээний чатботын аюулгүй байдлын жорууд. arXiv preprint arXiv:2010.07079.
- 14
Keskar, N.S., McCann, B., Varshney, L.R., Xiong, C. and Socher, R., 2019. Ctrl: удирдаж болох үүсгэхэд зориулсан нөхцөлт трансформер хэлний загвар. arXiv preprint arXiv:1909.05858.
- 15
Krause, B., Gotmare, A.D., McCann, B., Keskar, N.S., Joty, S., Socher, R. and Rajani, N.F., 2020. Gedi: үүсгэгч дискриминатороор удирдуулсан дараалал үүсгэх. arXiv preprint arXiv:2009.06367.
- 16
Dathathri, S., Madotto, A., Lan, J., Hung, J., Frank, E., Molino, P., Yosinski, J. and Liu, R., 2019. Plug and play хэлний загварууд: удирдлагатай текст үүсгэх энгийн арга. arXiv preprint arXiv:1912.02164.
- 17
Lin, S., Hilton, J. and Evans, O., 2021. TruthfulQA: загварууд хүний худал мэдээллийг хэрхэн дуурайдгийг хэмжих нь. arXiv preprint arXiv:2109.07958.
- 18
Gehman, S., Gururangan, S., Sap, M., Choi, Y. and Smith, N.A., 2020. RealToxicityPrompts: хэлний загвар дахь хорт доройтлыг үнэлэх нь. arXiv preprint arXiv:2009.11462.
- 19
Rudinger, R., Naradowsky, J., Leonard, B. and Van Durme, B., 2018. Солбицсон заалтад хүйсийн хэвийлт. arXiv preprint arXiv:1804.09301.
- 20
Nangia, N., Vania, C., Bhalerao, R. and Bowman, S.R., 2020. CrowS-pairs: маскалсан хэлний загвар дахь нийгмийн хэвийлтийг хэмжих сорилтын өгөгдлийн багц. arXiv preprint arXiv:2010.00133.
Зохиогчид
Талархал
Бид нийтлэлийн хамтран зохиогчид болох Long Ouyang, Jeff Wu, Roger Jiang, Diogo Almeida, Carroll Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller, Maddie Simens, Amanda Askell, Peter Welinder, Paul Christiano болон нийтлэл, блогийн бичвэрт санал өгсөн бүх хүмүүст талархал илэрхийлье. Мөн Comms багийнхан болох Steve Dowling, Hannah Wong, Elie Georges, Alper Ercetin, Jared Salzano, Allan Diego, Justin Jay Wang нарт чиглүүлэг, туслалцаа үзүүлсэнд баярлалаа. Эцэст нь, энэ төсөл тэдэнгүйгээр боломжгүй байх байсан манай тэмдэглэгээ хийгчдэд талархал илэрхийлье.


