ენობრივი მოდელების შესაბამისობა ინსტრუქციების მიყოლისთვის
ჩვენ გავწვრთენით ენობრივი მოდელები, რომლებიც GPT‑3‑ზე ბევრად უკეთ მიჰყვებიან მომხმარებლის განზრახვებს და ამავდროულად უფრო მართალნი და ნაკლებად ტოქსიკურები არიან, ჩვენი შესაბამისობის კვლევით შემუშავებული ტექნიკების გამოყენებით. ეს InstructGPT მოდელები, რომლებიც ადამიანების მონაწილეობით არის გაწვრთნილი, ახლა ჩვენს API-ზე ნაგულისხმევ ენობრივ მოდელებადაა დანერგილი.
OpenAI API მუშაობს GPT‑3 ენობრივი მოდელებით, რომელთა დაყოლიებაც შესაძლებელია ბუნებრივი ენის ამოცანა-ების შესასრულებლად ყურადღებით შემუშავებული ტექსტური მოთხოვნებით. მაგრამ ამ მოდელებს ასევე შეუძლიათ ისეთი შედეგების გენერირება, რომლებიც არ არის მართალი, ტოქსიკურია ან ასახავს საზიანო განწყობებს. ეს ნაწილობრივ იმიტომ ხდება, რომ GPT‑3 გაწვრთნილია ინტერნეტ-ტექსტების დიდი ნაკრების საფუძველზე შემდეგი სიტყვის პროგნოზირებაზე და არა იმაზე, რომ უსაფრთხოდ შეასრულოს ბუნებრივი ენის ამოცანა, რომელიც მომხმარებელს სურს. სხვა სიტყვებით, ეს მოდელები თავიანთ მომხმარებლებთან შესაბამისობაში არ არიან.
იმისთვის, რომ ჩვენი მოდელები უფრო უსაფრთხო, უფრო სასარგებლო და მეტად შესაბამისი გავხადოთ, ვიყენებთ უკვე არსებულ ტექნიკას, სახელწოდებით ადამიანის უკუკავშირის საფუძველზე განმამტკიცებელი სწავლება (RLHF). API-ზე ჩვენი მომხმარებლების მიერ გაგზავნილ მოთხოვნებზეA ჩვენი ეტიკეტირებები აჩვენებენ მოდელის სასურველ ქცევას და აფასებენ ჩვენი მოდელების რამდენიმე შედეგს. შემდეგ ამ მონაცემებს GPT‑3‑ის დასახვეწად ვიყენებთ.
შედეგად მიღებული InstructGPT მოდელები ინსტრუქციების მიყოლაში GPT‑3‑ზე ბევრად უკეთესია. ისინი ასევე იშვიათად იგონებენ ფაქტებს და ტოქსიკური შედეგების გენერირებაც ოდნავ იკლებს. ჩვენი ეტიკეტირებები უპირატესობას ანიჭებენ ჩვენი 1.3B InstructGPT მოდელის შედეგებს 175B GPT‑3 მოდელის შედეგებთან შედარებით, მიუხედავად იმისა, რომ მას 100-ჯერ მეტზე ნაკლები პარამეტრი აქვს. ამავე დროს, ვაჩვენებთ, რომ GPT‑3‑ის შესაძლებლობებზე უარის თქმა არ გვიწევს, რასაც ჩვენი მოდელის აკადემიურ NLP შეფასებებზე წარმადობაც ადასტურებს.
ეს InstructGPT მოდელები, რომლებიც API-ზე ბეტა ვერსიაში უკვე ერთ წელზე მეტია ხელმისაწვდომია, ახლა ჩვენს API-ზე ნაგულისხმევად ხელმისაწვდომი ენობრივი მოდელებია.B ჩვენ გვჯერა, რომ ადამიანების მონაწილეობით ენობრივი მოდელების დახვეწა მათი უსაფრთხოებისა და სანდოობის გასაუმჯობესებლად ძლიერი ინსტრუმენტია და ამ მიმართულებით მუშაობას გავაგრძელებთ.
ეს პირველი შემთხვევაა, როცა ჩვენი შესაბამისობის კვლევა, რომელსაც ვაწარმოებთ რამდენიმე წლის განმავლობაში,1, 2 და 3 ჩვენს პროდუქტში იქნა გამოყენებული. ჩვენი ნამუშევარი ასევე დაკავშირებულია უახლეს კვლევასთან, რომელიც აკადემიური NLP მონაცემთა ნაკრებების გამოყენებით ენობრივ მოდელებს ინსტრუქციების მიყოლაზე ავარჯიშებს, განსაკუთრებით FLAN4 და T0.5 ჩვენი ნაშრომის ერთ-ერთი მთავარი მოტივაციაა სასარგებლოობისა და სიმართლის გაზრდა, ამასთან ენობრივი მოდელების ზიანისა და მიკერძოების შემცირება.6, 7, 8, 9 და 10 ამ მიმართულებით ჩვენი წინა კვლევის ნაწილმა აჩვენა, რომ საზიანო შედეგების შემცირება შესაძლებელია ადამიანური დემონსტრაციების მცირე, კურირებული მონაცემთა ნაკრებით დახვეწის გზით.11 სხვა კვლევები ფოკუსირებული იყო წინასწარი სწავლების მონაცემთა ნაკრების გაფილტვრაზე,12 უსაფრთხოებისთვის სპეციფიკურ საკონტროლო token-ებზე,13 და 14 ან მოდელის გენერაციების მართვაზე.15 და 16 ჩვენ ამ იდეებსა და სხვებსაც ვიკვლევთ ჩვენს მიმდინარე შესაბამისობის კვლევაში.
პირველ რიგში ვაფასებთ, რამდენად კარგად მიჰყვება InstructGPT‑ის შედეგები მომხმარებლის ინსტრუქციებს, რისთვისაც ეტიკეტირებას ვთხოვთ, შეადარონ მისი შედეგები GPT‑3‑ის შედეგებს. ვხედავთ, რომ InstructGPT მოდელებს აშკარად ანიჭებენ უპირატესობას იმ მოთხოვნებზე, რომლებიც API-ში როგორც InstructGPT, ისე GPT‑3 მოდელებს გაეგზავნა. ეს ძალაში რჩება მაშინაც, როცა GPT‑3‑ის მოთხოვნას პრეფიქსს ვუმატებთ, რათა ის „ინსტრუქციის მიყოლის რეჟიმში“ გადავიდეს.
ჩვენი მოდელების უსაფრთხოების გასაზომად, ძირითადად ვიყენებთ საჯაროდ ხელმისაწვდომ მონაცემთა ნაკრებებზე არსებულ მეტრიკათა პაკეტს. GPT‑3‑თან შედარებით, InstructGPT წარმოქმნის ნაკლებ მიბაძვით სიცრუეს (TruthfulQA17-ის მიხედვით) და ნაკლებად ტოქსიკურია (RealToxicityPrompts18-ის მიხედვით). ასევე ვატარებთ ადამიანურ შეფასებებს ჩვენს API მოთხოვნების განაწილებაზე და ვხედავთ, რომ InstructGPT უფრო იშვიათად იგონებს ფაქტებს („ჰალუცინირებს“) და უფრო შესაბამის შედეგებს წარმოქმნის.C
საბოლოოდ, ვხედავთ, რომ ჩვენს მომხმარებელთა განაწილებაზე InstructGPT‑ის შედეგებს უპირატესობას ანიჭებენ FLAN4-ისა და T05-ის შედეგებთან შედარებით. ეს მიუთითებს, რომ FLAN-ისა და T0-ის გასაწვრთნელად გამოყენებული მონაცემები, ძირითადად აკადემიური NLP ამოცანები, სრულად არ ასახავს იმას, თუ როგორ გამოიყენება დანერგილი ენობრივი მოდელები პრაქტიკაში.

InstructGPT მოდელების გასაწვრთნელად ჩვენი ძირითადი ტექნიკაა ადამიანის უკუკავშირის საფუძველზე განმამტკიცებელი სწავლება (RLHF), მეთოდი, რომლის ჩამოყალიბებაშიც ჩვენი ადრეული შესაბამისობის კვლევით დავეხმარეთ. ეს ტექნიკა ადამიანურ პრეფერენციებს ჯილდოს სიგნალად იყენებს ჩვენი მოდელების დასახვეწად, რაც მნიშვნელოვანია, რადგან უსაფრთხოებისა და შესაბამისობის პრობლემები, რომელთა გადაჭრასაც ვცდილობთ, რთული და სუბიექტურია და სრულად ვერ აისახება მარტივ ავტომატურ მეტრიკებში.
ჯერ ვაგროვებთ ადამიანების მიერ დაწერილი დემონსტრაციების მონაცემთა ნაკრებს ჩვენს API-ზე გაგზავნილ მოთხოვნებზე და მას ჩვენი ზედამხედველობითი სწავლების საბაზისო მოდელების გასაწვრთნელად ვიყენებთ. შემდეგ ვაგროვებთ ადამიანების მიერ მონიშნული შედარებების მონაცემთა ნაკრებს მოდელის ორ შედეგს შორის API მოთხოვნების უფრო დიდ ნაკრებზე. ამის შემდეგ ამ მონაცემთა ნაკრებზე ვწვრთნით ჯილდოს მოდელს (RM), რათა იწინასწარმეტყველოს, რომელ შედეგს მიანიჭებდნენ უპირატესობას ჩვენი ეტიკეტირებები. ბოლოს ამ RM-ს ჯილდოს ფუნქციად ვიყენებთ და ჩვენს GPT‑3 policy-ს ვახვეწთ, რათა ეს ჯილდო მაქსიმიზდეს PPO ალგორითმის გამოყენებით.
ამ პროცესზე ფიქრის ერთ-ერთი გზა ისაა, რომ ის GPT‑3‑ის იმ შესაძლებლობებს „ხსნის“, რომლებიც მას უკვე ჰქონდა, მაგრამ მხოლოდ მოთხოვნების შექმნა-ის საშუალებით რთულად გამოსავლენი იყო: ეს იმიტომ, რომ ჩვენს სასწავლო პროცედურას მოდელისთვის ახალი შესაძლებლობების სწავლების შეზღუდული უნარი აქვს იმასთან შედარებით, რაც წინასწარი სწავლებისას ისწავლება, რადგან ის მოდელის წინასწარ სწავლებასთან შედარებით გამოთვლითი რესურსისა და მონაცემების 2%-ზე ნაკლებს იყენებს.
ამ მიდგომის ერთი შეზღუდვა ისაა, რომ მას შემოაქვს „შესაბამისობის გადასახადი“: მოდელების მხოლოდ მომხმარებლის ამოცანებზე შესაბამისობაში მოყვანამ შეიძლება გააუარესოს მათი წარმადობა ზოგიერთ სხვა აკადემიურ NLP ამოცანაზე. ეს არასასურველია, რადგან თუ ჩვენი შესაბამისობის ტექნიკები მოდელებს იმ ამოცანებზე აუარესებს, რომლებიც ადამიანებისთვის მნიშვნელოვანია, მათი პრაქტიკაში დანერგვის შანსი მცირდება. ჩვენ ვიპოვეთ მარტივი ალგორითმული ცვლილება, რომელიც ამ შესაბამისობის გადასახადს ამცირებს: RL დახვეწისას ვურევთ GPT‑3‑ის გასაწვრთნელად გამოყენებული თავდაპირველი მონაცემების მცირე ნაწილს და ამ მონაცემებზე ვწვრთნით ჩვეულებრივი log likelihood მაქსიმიზაციით.D ეს დაახლოებით ინარჩუნებს უსაფრთხოებასა და ადამიანურ პრეფერენციებზე წარმადობას, ამასთან ამცირებს აკადემიურ ამოცანებზე წარმადობის ვარდნას, და რამდენიმე შემთხვევაში GPT‑3 საბაზისო მოდელსაც კი აჭარბებს.
ჩვენი პროცედურა ჩვენი მოდელების ქცევას უთანაბრებს ჩვენი ეტიკეტირების პრეფერენციებს, რომლებიც უშუალოდ ქმნიან იმ მონაცემებს, რომლითაც ჩვენი მოდელები იწვრთნება, და ჩვენს მკვლევრებს, რომლებიც ეტიკეტირებას მითითებებს აწვდიან წერილობითი ინსტრუქციებით, კონკრეტულ მაგალითებზე პირდაპირი უკუკავშირითა და არაფორმალური საუბრებით. მასზე ასევე გავლენას ახდენენ ჩვენი მომხმარებლები და ჩვენს API პოლიტიკებში ნაგულისხმევი პრეფერენციები. ჩვენ შევარჩიეთ ეტიკეტირება, რომლებმაც კარგად გაიარეს სკრინინგ ტესტი მგრძნობიარე მოთხოვნების ამოცნობასა და მათზე რეაგირებაში უნარის მიხედვით. თუმცა მონაცემებზე გავლენის ეს განსხვავებული წყაროები არ იძლევა გარანტიას, რომ ჩვენი მოდელები რომელიმე უფრო ფართო ჯგუფის პრეფერენციებთანაა შესაბამისობაში.
ამის გამოსაკვლევად ორი ექსპერიმენტი ჩავატარეთ. პირველ რიგში, GPT‑3‑სა და InstructGPT‑ს ვაფასებთ დამოუკიდებელი ეტიკეტირების სისტემემაE მიერ, რომლებსაც არცერთი სასწავლო მონაცემი არ შეუქმნიათ, და ვნახეთ, რომ ეს ეტიკეტირებაც InstructGPT მოდელების შედეგებს დაახლოებით იმავე სიხშირით ანიჭებენ უპირატესობას, როგორც ჩვენი სასწავლო ეტიკეტირებები. მეორე მხრივ, ჯილდოს მოდელებს ვწვრთნით ჩვენი ეტიკეტირების ქვეჯგუფის მონაცემებზე და ვხედავთ, რომ ისინი კარგად განზოგადდებიან ეტიკეტირების სხვა ქვეჯგუფის პრეფერენციების პროგნოზირებაზე. ეს მიანიშნებს, რომ ჩვენი მოდელები მხოლოდ ჩვენი სასწავლო ეტიკეტირების პრეფერენციებზე არ გადამეტებულა. თუმცა მეტი სამუშაოა საჭირო იმის შესასწავლად, როგორ მუშაობენ ეს მოდელები მომხმარებელთა უფრო ფართო ჯგუფებზე და როგორ რეაგირებენ ისეთ შეყვანებზე, სადაც ადამიანებს სასურველ ქცევაზე განსხვავებული აზრი აქვთ.
მნიშვნელოვანი პროგრესის მიუხედავად, ჩვენი InstructGPT მოდელები ჯერ კიდევ შორს არიან სრული შესაბამისობისა და სრული უსაფრთხოებისგან; ისინი კვლავ წარმოქმნიან ტოქსიკურ ან მიკერძოებულ შედეგებს, იგონებენ ფაქტებს და აშკარა მოთხოვნის გარეშეც ქმნიან სექსუალურ და ძალადობრივ შინაარსს. მაგრამ მანქანური სწავლების სისტემის უსაფრთხოება დამოკიდებულია არა მხოლოდ საფუძვლად მდებარე მოდელების ქცევაზე, არამედ იმაზეც, თუ როგორ ინერგება ეს მოდელები. ჩვენი API-ის უსაფრთხოების მხარდასაჭერად, ჩვენ გავაგრძელებთ პოტენციური გამოყენებების განხილვას(იხსნება ახალ ფანჯარაში) მათ ამოქმედებამდე, არასაიმედო completions-ის გამოსავლენად შინაარსის ფილტრების მიწოდებას და ბოროტად გამოყენების მონიტორინგს.
ჩვენი მოდელების მომხმარებლის ინსტრუქციების მიყოლაზე გაწვრთნის გვერდითი შედეგია ის, რომ ისინი შეიძლება უფრო მოწყვლადი გახდნენ ბოროტად გამოყენების მიმართ, თუ მათ არასაიმედო შედეგების წარმოსაქმნელად მისცემენ ინსტრუქციას. ამის გადასაჭრელად საჭიროა, რომ ჩვენმა მოდელებმა გარკვეულ ინსტრუქციებზე უარი თქვან; ამის სანდოდ განხორციელება მნიშვნელოვანი ღია კვლევითი პრობლემაა, რომელზე მუშაობაც გვიხარია.
გარდა ამისა, ბევრ შემთხვევაში საშუალო ეტიკეტირების პრეფერენციასთან შესაბამისობა სასურველი შეიძლება არ იყოს. მაგალითად, ტექსტის გენერირებისას, რომელიც არაპროპორციულად მოქმედებს უმცირესობის ჯგუფზე, ამ ჯგუფის პრეფერენციებს მეტი წონა უნდა მიენიჭოს. ამჟამად InstructGPT გაწვრთნილია ინგლისურ ენაზე ინსტრუქციების მიყოლაზე; ამიტომ ის მიკერძოებულია ინგლისურენოვანი ადამიანების კულტურული ღირებულებებისკენ. ჩვენ ვატარებთ კვლევას, რათა გავიგოთ ეტიკეტირების პრეფერენციებს შორის განსხვავებები და უთანხმოებები, რათა ჩვენი მოდელები უფრო კონკრეტული პოპულაციების ღირებულებებზე დავაკონდიციონიროთ. უფრო ზოგადად, მოდელის შედეგების კონკრეტული ადამიანების ღირებულებებთან შესაბამისობაში მოყვანა რთულ არჩევანებს აჩენს საზოგადოებრივი შედეგებით, და საბოლოოდ ამ გადაწყვეტილებების მისაღებად პასუხისმგებლიანი და ინკლუზიური პროცესები უნდა ჩამოვაყალიბოთ.
ეს ჩვენი შესაბამისობის კვლევის პირველი გამოყენებაა ჩვენს პროდუქტში. ჩვენი შედეგები აჩვენებს, რომ ეს ტექნიკები ეფექტიანია ზოგადი დანიშნულების AI სისტემების ადამიანის განზრახვებთან შესაბამისობის საგრძნობლად გასაუმჯობესებლად. თუმცა ეს მხოლოდ დასაწყისია: ჩვენ გავაგრძელებთ ამ ტექნიკების განვითარებას, რათა ჩვენი ახლანდელი და მომავალი მოდელების შესაბამისობა უსაფრთხო და ადამიანებისთვის სასარგებლო ენობრივი ინსტრუმენტებისკენ გავაუმჯობესოთ.
თუ ეს კვლევითი მიმართულებები გაინტერესებთ, ვაკანსიები გვაქვს(იხსნება ახალ ფანჯარაში)!
სქოლიოები
- A
ჩვენ ვიყენებთ მხოლოდ იმ მოთხოვნებს, რომლებიც Playground-ის მეშვეობით გაგზავნილი იყო InstructGPT მოდელების უფრო ადრეულ ვერსიაზე, რომელიც 2021 წლის იანვარში დაინერგა. ჩვენი ადამიანური ანოტატორები ყველა მოთხოვნიდან აშორებენ პერსონალურ იდენტიფიცირებად ინფორმაციას, სანამ მას სასწავლო ნაკრებს დაამატებენ.
- B
API-ში დანერგილი InstructGPT მოდელები იმავე ადამიანური უკუკავშირის მონაცემებით გაწვრთნილი განახლებული ვერსიებია. ისინი იყენებენ მსგავს, მაგრამ ოდნავ განსხვავებულ სწავლების მეთოდს, რომელსაც მომავალ პუბლიკაციაში აღვწერთ.
- C
ჩვენ ასევე ვზომავთ პოტენციურად საზიანო შედეგების რამდენიმე სხვა განზომილებას ჩვენს API განაწილებაზე: შეიცავს თუ არა შედეგები სექსუალურ ან ძალადობრივ შინაარსს, ამცირებს თუ არა დაცულ კლასს, ან ახალისებს თუ არა ძალადობას. ვხედავთ, რომ ამ მეტრიკებში InstructGPT მნიშვნელოვნად არ აუმჯობესებს შედეგს GPT-3-თან შედარებით; ორივე მოდელისთვის სიხშირე ერთნაირად დაბალია.
- D
ვნახეთ, რომ ეს მიდგომა უფრო ეფექტიანი იყო, ვიდრე უბრალოდ KL კოეფიციენტის გაზრდა.
- E
ეს ეტიკეტირება მომდინარეობენ Scale AI-დან და Upwork-დან, ჩვენი სასწავლო ეტიკეტირების მსგავსად, მაგრამ არ გადიან სკრინინგ ტესტს.
მითითებები
- 1
Christiano, P., Leike, J., Brown, T.B., Martic, M., Legg, S. and Amodei, D., 2017. ადამიანის პრეფერენციებიდან სიღრმისეული განმამტკიცებელი სწავლება. arXiv preprint arXiv:1706.03741.
- 2
Stiennon, N., Ouyang, L., Wu, J., Ziegler, D.M., Lowe, R., Voss, C., Radford, A., Amodei, D. and Christiano, P., 2020.
- 3
Wu, J., Ouyang, L., Ziegler, D.M., Stiennon, N., Lowe, R., Leike, J. and Christiano, P., 2021. წიგნების რეკურსიული შეჯამება ადამიანის უკუკავშირით. arXiv preprint arXiv:2109.10862.
- 4
Wei, J., Bosma, M., Zhao, V.Y., Guu, K., Yu, A.W., Lester, B., Du, N., Dai, A.M. and Le, Q.V., 2021. დახვეწილი ენობრივი მოდელები ნულოვანი მცდელობა/სწავლება შემსწავლელები არიან. arXiv preprint arXiv:2109.01652.
- 5
Sanh, V., Webson, A., Raffel, C., Bach, S.H., Sutawika, L., Alyafeai, Z., Chaffin, A., Stiegler, A., Scao, T.L., Raja, A. and Dey, M., 2021. მრავალამოცანიანი მოთხოვნებზე დაფუძნებული სწავლება შესაძლებელს ხდის ნულოვანი მცდელობა/სწავლება ამოცანის განზოგადებას. arXiv preprint arXiv:2110.08207.
- 6
Bender, E.M., Gebru, T., McMillan-Major, A. and Shmitchell, S., 2021, March. სტოქასტიკური თუთიყუშების საფრთხეებზე: შეიძლება თუ არა ენობრივი მოდელები ზედმეტად დიდი იყოს?🦜. In Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency (pp. 610-623).
- 7
Bommasani, R., Hudson, D.A., Adeli, E., Altman, R., Arora, S., von Arx, S., Bernstein, M.S., Bohg, J., Bosselut, A., Brunskill, E. and Brynjolfsson, E., 2021. საბაზისო მოდელების შესაძლებლობებსა და რისკებზე. arXiv preprint arXiv:2108.07258.
- 8
Kenton, Z., Everitt, T., Weidinger, L., Gabriel, I., Mikulik, V. and Irving, G., 2021. Language Agents-ის შესაბამისობა. arXiv preprint arXiv:2103.14659.
- 9
Weidinger, L., Mellor, J., Rauh, M., Griffin, C., Uesato, J., Huang, P.S., Cheng, M., Glaese, M., Balle, B., Kasirzadeh, A. and Kenton, Z., 2021. ენობრივი მოდელებიდან გამომდინარე ზიანის ეთიკური და სოციალური რისკები. arXiv preprint arXiv:2112.04359.
- 10
Tamkin, A., Brundage, M., Clark, J. and Ganguli, D., 2021. დიდი ენობრივი მოდელების შესაძლებლობების, შეზღუდვებისა და საზოგადოებრივი გავლენის გაგება. arXiv preprint arXiv:2102.02503.
- 11
Solaiman, I. and Dennison, C., 2021. ენობრივი მოდელების საზოგადოებასთან ადაპტაციის პროცესი (PALMS) ღირებულებებზე მიზანმიმართული მონაცემთა ნაკრებებით. arXiv preprint arXiv:2106.10328.
- 12
Ngo, H., Raterink, C., Araújo, J.G., Zhang, I., Chen, C., Morisot, A. and Frosst, N., 2021. ენობრივ მოდელებში ზიანის შემცირება პირობითი ალბათობის ფილტრაციით. arXiv preprint arXiv:2108.07790.
- 13
Xu, J., Ju, D., Li, M., Boureau, Y.L., Weston, J. and Dinan, E., 2020. უსაფრთხოების რეცეპტები ღია დომენის ჩეტბოტებისთვის. arXiv preprint arXiv:2010.07079.
- 14
Keskar, N.S., McCann, B., Varshney, L.R., Xiong, C. and Socher, R., 2019. Ctrl: პირობითი ტრანსფორმერი ენობრივი მოდელი კონტროლირებადი გენერირებისთვის. arXiv preprint arXiv:1909.05858.
- 15
Krause, B., Gotmare, A.D., McCann, B., Keskar, N.S., Joty, S., Socher, R. and Rajani, N.F., 2020. Gedi: გენერაციული დისკრიმინატორით მართვადი თანმიმდევრობის გენერირება. arXiv preprint arXiv:2009.06367.
- 16
Dathathri, S., Madotto, A., Lan, J., Hung, J., Frank, E., Molino, P., Yosinski, J. and Liu, R., 2019. Plug and play ენობრივი მოდელები: კონტროლირებადი ტექსტის გენერირების მარტივი მიდგომა. arXiv preprint arXiv:1912.02164.
- 17
Lin, S., Hilton, J. and Evans, O., 2021. TruthfulQA: გაზომვა, თუ როგორ ბაძავენ მოდელები ადამიანურ სიცრუეებს. arXiv preprint arXiv:2109.07958.
- 18
Gehman, S., Gururangan, S., Sap, M., Choi, Y. and Smith, N.A., 2020. RealToxicityPrompts: ენობრივ მოდელებში ნეირონული ტოქსიკური დეგენერაციის შეფასება. arXiv preprint arXiv:2009.11462.
- 19
Rudinger, R., Naradowsky, J., Leonard, B. and Van Durme, B., 2018. გენდერული მიკერძოება კორეფერენციის ამოხსნაში. arXiv preprint arXiv:1804.09301.
- 20
Nangia, N., Vania, C., Bhalerao, R. and Bowman, S.R., 2020. CrowS-pairs: გამოწვევითი მონაცემთა ნაკრები ნიღბიან ენობრივ მოდელებში სოციალური მიკერძოებების გასაზომად. arXiv preprint arXiv:2010.00133.
ავტორები
მადლობები
გვინდა მადლობა გადავუხადოთ ჩვენი ნაშრომის თანაავტორებს: Long Ouyang, Jeff Wu, Roger Jiang, Diogo Almeida, Carroll Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller, Maddie Simens, Amanda Askell, Peter Welinder და Paul Christiano-ს, ასევე ყველას, ვინც ნაშრომსა და ბლოგპოსტზე უკუკავშირი მოგვცა. ასევე გვინდა მადლობა გადავუხადოთ Comms გუნდს მათი ხელმძღვანელობისა და დახმარებისთვის, მათ შორის Steve Dowling, Hannah Wong, Elie Georges, Alper Ercetin, Jared Salzano, Allan Diego და Justin Jay Wang-ს. ბოლოს, გვინდა მადლობა გადავუხადოთ ჩვენს ეტიკეტირებას, რომელთა გარეშე ეს პროექტი შესაძლებელი არ იქნებოდა.


