გადადით მთავარ შინაარსზე
OpenAI

28 მაისი, 2020

ეტაპი

ენობრივი მოდელები Few-shot სწავლება შემსწავლელები არიან

იტვირთება…

ბოლო დროის ნაშრომებმა აჩვენა მნიშვნელოვანი გაუმჯობესება NLP-ის მრავალ ამოცანასა და ბენჩმარკზე, დიდი ტექსტური კორპუსის საფუძველზე წინასწარი სწავლებით და შემდეგ კონკრეტულ ამოცანაზე დამატებითი გაწვრთნით. მიუხედავად იმისა, რომ არქიტექტურულად ეს მეთოდი, როგორც წესი, ამოცანისგან დამოუკიდებელია, მას მაინც სჭირდება ამოცანაზე მორგებული დამატებითი გაწვრთნის მონაცემთა ნაკრებები, რომლებიც ათასობით ან ათიათასობით მაგალითს მოიცავს. ამის საპირისპიროდ, ადამიანებს, როგორც წესი, შეუძლიათ ახალი ენობრივი ამოცანის შესრულება მხოლოდ რამდენიმე მაგალითით ან მარტივი ინსტრუქციებით — ის, რაც NLP-ის თანამედროვე სისტემებს ჯერ კიდევ დიდწილად უჭირთ. აქ ვაჩვენებთ, რომ ენობრივი მოდელების მასშტაბის ზრდა მნიშვნელოვნად აუმჯობესებს ამოცანისგან დამოუკიდებელ Few-shot სწავლება წარმადობას და ზოგჯერ წინა საუკეთესო დამატებითი გაწვრთნის მიდგომებსაც კი უწევს კონკურენციას. კერძოდ, ვასწავლით GPT‑3‑ს, ავტორეგრესიულ ენობრივ მოდელს 175 მილიარდი პარამეტრით — 10-ჯერ მეტით, ვიდრე ნებისმიერ წინა არამეჩხერ ენობრივ მოდელს ჰქონდა — და ვამოწმებთ მის წარმადობას Few-shot სწავლება რეჟიმში. ყველა ამოცანისთვის GPT‑3 გამოიყენება გრადიენტის განახლებებისა და დამატებითი გაწვრთნის გარეშე; ამოცანები და Few-shot სწავლება დემონსტრაციები განისაზღვრება მხოლოდ მოდელთან ტექსტური ურთიერთქმედებით. GPT‑3 მრავალ NLP მონაცემთა ნაკრებზე მაღალ შედეგებს აღწევს, მათ შორის თარგმანში, კითხვა-პასუხში და cloze-ამოცანებში, ასევე რამდენიმე ამოცანაში, რომლებიც ადგილზე მსჯელობას ან დომენთან ადაპტაციას მოითხოვს, მაგალითად, არეული სიტყვების დალაგებაში, წინადადებაში ახალი სიტყვის გამოყენებაში ან 3-ნიშნა არითმეტიკის შესრულებაში. ამავე დროს, ჩვენ ასევე ვადგენთ რამდენიმე მონაცემთა ნაკრებს, სადაც GPT‑3‑ის Few-shot სწავლება ჯერ კიდევ აწყდება სირთულეებს, ასევე მონაცემთა ნაკრებს, სადაც GPT‑3‑ს აქვს მეთოდოლოგიური პრობლემები, რომლებიც დიდი ვებ-კორპუსებით სწავლებას უკავშირდება. ბოლოს, ვადგენთ, რომ GPT‑3‑ს შეუძლია ახალი ამბების სტატიების ისეთი ნიმუშების გენერირება, რომლებიც ადამიან შემფასებლებს უჭირთ ადამიანების მიერ დაწერილი სტატიებისგან გარჩევა. განვიხილავთ ამ მიგნების უფრო ფართო საზოგადოებრივ გავლენებს და GPT‑3‑ის გავლენებს ზოგადად.

ავტორები

Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child და Aditya Ramesh

ავტორები

Daniel Ziegler, Jeffrey Wu, Clemens Winter, Christopher Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever და Dario Amodei