ენობრივი მოდელები Few-shot სწავლება შემსწავლელები არიან

ბოლო დროის ნაშრომებმა აჩვენა მნიშვნელოვანი გაუმჯობესება NLP-ის მრავალ ამოცანასა და ბენჩმარკზე, დიდი ტექსტური კორპუსის საფუძველზე წინასწარი სწავლებით და შემდეგ კონკრეტულ ამოცანაზე დამატებითი გაწვრთნით. მიუხედავად იმისა, რომ არქიტექტურულად ეს მეთოდი, როგორც წესი, ამოცანისგან დამოუკიდებელია, მას მაინც სჭირდება ამოცანაზე მორგებული დამატებითი გაწვრთნის მონაცემთა ნაკრებები, რომლებიც ათასობით ან ათიათასობით მაგალითს მოიცავს. ამის საპირისპიროდ, ადამიანებს, როგორც წესი, შეუძლიათ ახალი ენობრივი ამოცანის შესრულება მხოლოდ რამდენიმე მაგალითით ან მარტივი ინსტრუქციებით — ის, რაც NLP-ის თანამედროვე სისტემებს ჯერ კიდევ დიდწილად უჭირთ. აქ ვაჩვენებთ, რომ ენობრივი მოდელების მასშტაბის ზრდა მნიშვნელოვნად აუმჯობესებს ამოცანისგან დამოუკიდებელ Few-shot სწავლება წარმადობას და ზოგჯერ წინა საუკეთესო დამატებითი გაწვრთნის მიდგომებსაც კი უწევს კონკურენციას. კერძოდ, ვასწავლით GPT‑3‑ს, ავტორეგრესიულ ენობრივ მოდელს 175 მილიარდი პარამეტრით — 10-ჯერ მეტით, ვიდრე ნებისმიერ წინა არამეჩხერ ენობრივ მოდელს ჰქონდა — და ვამოწმებთ მის წარმადობას Few-shot სწავლება რეჟიმში. ყველა ამოცანისთვის GPT‑3 გამოიყენება გრადიენტის განახლებებისა და დამატებითი გაწვრთნის გარეშე; ამოცანები და Few-shot სწავლება დემონსტრაციები განისაზღვრება მხოლოდ მოდელთან ტექსტური ურთიერთქმედებით. GPT‑3 მრავალ NLP მონაცემთა ნაკრებზე მაღალ შედეგებს აღწევს, მათ შორის თარგმანში, კითხვა-პასუხში და cloze-ამოცანებში, ასევე რამდენიმე ამოცანაში, რომლებიც ადგილზე მსჯელობას ან დომენთან ადაპტაციას მოითხოვს, მაგალითად, არეული სიტყვების დალაგებაში, წინადადებაში ახალი სიტყვის გამოყენებაში ან 3-ნიშნა არითმეტიკის შესრულებაში. ამავე დროს, ჩვენ ასევე ვადგენთ რამდენიმე მონაცემთა ნაკრებს, სადაც GPT‑3‑ის Few-shot სწავლება ჯერ კიდევ აწყდება სირთულეებს, ასევე მონაცემთა ნაკრებს, სადაც GPT‑3‑ს აქვს მეთოდოლოგიური პრობლემები, რომლებიც დიდი ვებ-კორპუსებით სწავლებას უკავშირდება. ბოლოს, ვადგენთ, რომ GPT‑3‑ს შეუძლია ახალი ამბების სტატიების ისეთი ნიმუშების გენერირება, რომლებიც ადამიან შემფასებლებს უჭირთ ადამიანების მიერ დაწერილი სტატიებისგან გარჩევა. განვიხილავთ ამ მიგნების უფრო ფართო საზოგადოებრივ გავლენებს და GPT‑3‑ის გავლენებს ზოგადად.

ენობრივი მოდელები Few-shot სწავლება შემსწავლელები არიან

ავტორები

ავტორები

დაკავშირებული სტატიები