გადადით მთავარ შინაარსზე
OpenAI

ჩვენ გავწვრთენით სისტემა, რომელიც დაწყებითი სკოლის მათემატიკურ ამოცანებს fine-tuning-ით გაუმჯობესებულ GPT‑3 მოდელთან შედარებით თითქმის ორჯერ მეტი სიზუსტით ხსნის. ის რეალურ ბავშვებზე დაახლოებით 90%-ით იმდენივე ამოცანას ხსნის: ჩვენი მონაცემთა ნაკრებიდან აღებულ ტესტში 9-12 წლის ბავშვების მცირე ნიმუშმა 60% მიიღო, ხოლო ჩვენმა სისტემამ იმავე ამოცანებზე 55%.

რატომ არის ეს მნიშვნელოვანი

ეს მნიშვნელოვანია, რადგან დღევანდელი AI ჯერ კიდევ საკმაოდ სუსტია საღი აზრის მრავალსაფეხურიან მსჯელობაში, რომელიც დაწყებითი სკოლის ბავშვებისთვისაც კი მარტივია. ამ შედეგებს მივაღწიეთ იმით, რომ ჩვენი მოდელი გავწვრთენით საკუთარი შეცდომების ამოსაცნობად, რათა მან განმეორებით სცადოს, სანამ იმ ამოხსნას არ იპოვის, რომელიც მუშაობს.

შესავალი

დიდ ენობრივ მოდელებს, როგორიცაა GPT‑3, ბევრი შთამბეჭდავი უნარი აქვთ, მათ შორის წერის მრავალი სტილის მიბაძვის შესაძლებლობა და ფართო ფაქტობრივი ცოდნა. თუმცა, მათ უჭირთ ისეთი ამოცანების შესრულება, რომლებიც ზუსტ მრავალსაფეხურიან მსჯელობას მოითხოვს, მაგალითად, დაწყებითი სკოლის მათემატიკური ტექსტური ამოცანების ამოხსნა. მიუხედავად იმისა, რომ მოდელს შეუძლია სწორი ამოხსნების რიტმის მიბაძვა, ის რეგულარულად უშვებს ლოგიკაში კრიტიკულ შეცდომებს.

იმისთვის, რომ რთულ ლოგიკურ სფეროებში ადამიანის დონეს მივაღწიოთ, ჩვენმა მოდელებმა უნდა ისწავლონ საკუთარი შეცდომების ამოცნობა და ნაბიჯების ფრთხილად შერჩევა. ამისთვის ჩვენ ვწვრთნით ვერიფიკატორებს, რათა შეაფასონ, სწორია თუ არა შემოთავაზებული ამოხსნა. ახალი ამოცანის გადასაჭრელად ვერიფიკატორებს ვიყენებთ მრავალი შემოთავაზებული ამოხსნიდან საუკეთესოს ასარჩევად. ჩვენი მეთოდების შესაფასებლად შევაგროვეთ ახალი GSM8K მონაცემთა ნაკრები და ამ მონაცემთა ნაკრებს კვლევის ხელშესაწყობად ვაქვეყნებთ.

ქვემოთ მოცემულ ათ მაგალითში ვაჩვენებთ ჩვენი ახალი მეთოდით, verification-ით, და საბაზისო მეთოდით, fine-tuning-ით, გენერირებულ ამოხსნებს.

იტვირთება...

GSM8K მონაცემთა ნაკრები

GSM8K მოიცავს 8.5K მაღალი ხარისხის დაწყებითი სკოლის მათემატიკურ ტექსტურ ამოცანას. თითოეული ამოცანის ამოხსნას 2-დან 8-მდე ნაბიჯი სჭირდება, ხოლო ამოხსნები ძირითადად მოიცავს ელემენტარული გამოთვლების მიმდევრობით შესრულებას საბაზისო არითმეტიკული მოქმედებებით (+ − × ÷), რათა მივიდეთ საბოლოო პასუხამდე. fine-tuning-ით გაუმჯობესებული უახლესი ენობრივი მოდელები ამ მონაცემთა ნაკრებზე სუსტად მუშაობენ, უმეტესად ამოცანების მაღალი მრავალფეროვნების გამო. ამავე დროს, GSM8K-ის ამოხსნები მხოლოდ ელემენტარულ ცნებებს ეყრდნობა, ამიტომ ტესტში მაღალი შედეგის მიღწევა მიღწევადი მიზანია.

GSM8K-ში ამოხსნები ბუნებრივ ენაზეა დაწერილი და არა სუფთა მათემატიკური გამოსახულებებით. ბუნებრივ ენაზე დარჩენით, მოდელის მიერ გენერირებული ამოხსნები ადამიანებისთვის უფრო ადვილად გასაგებია, ხოლო ჩვენი მეთოდები შედარებით ნაკლებად არის დამოკიდებული კონკრეტულ სფეროზე.

ვერიფიკატორების გაწვრთნა: მოდელები, რომლებიც საკუთარ შეცდომებზე სწავლობენ

მათემატიკურ მსჯელობაში ერთ-ერთი მნიშვნელოვანი სირთულე ცალკეულ შეცდომებზე მაღალი მგრძნობელობაა. ავტორეგრესიულ მოდელებს, რომლებიც თითოეულ ამოხსნას token-ების მიხედვით ქმნიან, საკუთარი შეცდომების გამოსწორების მექანიზმი არ აქვთ. გზას აცდენილი ამოხსნები სწრაფად ხდება გამოუსწორებელი, როგორც მოცემულ მაგალითებში ჩანს.

ამ პრობლემას ვერიფიკატორების გაწვრთნით ვუმკლავდებით, რათა მათ მოდელის მიერ გენერირებული ამოხსნების სისწორე შეაფასონ. ვერიფიკატორებს ეძლევათ მრავალი შესაძლო ამოხსნა, რომლებიც თავად მოდელის მიერ არის დაწერილი, და ისინი იწვრთნებიან, რომ განსაზღვრონ, რომლებია მათგან სწორი, თუ საერთოდ რომელიმეა სწორი.

ტესტირებისას ახალი ამოცანის გადასაჭრელად ვაგენერირებთ 100 კანდიდატ ამოხსნას და შემდეგ ვირჩევთ იმ ამოხსნას, რომელსაც ვერიფიკატორი ყველაზე მაღლა აფასებს. ვერიფიკატორები სარგებლობენ ამ ჩაშენებული არჩევითობით, ასევე იმით, რომ ვერიფიკაცია ხშირად გენერაციაზე უფრო მარტივი ამოცანაა.

იტვირთება...

აღმოვაჩინეთ, რომ verification მნიშვნელოვნად აუმჯობესებს შედეგებს, თუ მონაცემთა ნაკრები საკმარისად დიდია. როდესაც მონაცემთა ნაკრები ძალიან მცირეა, ვფიქრობთ, რომ ვერიფიკატორები ზედმეტად ერგებიან მონაცემებს იმით, რომ სასწავლო ნაკრებიდან საბოლოო პასუხებს იმახსოვრებენ, ნაცვლად იმისა, რომ მათემატიკური მსჯელობის უფრო სასარგებლო თვისებები ისწავლონ.

სრულ სასწავლო ნაკრებზე 6B პარამეტრიანი verification ოდნავ სჯობს fine-tuning-ით გაუმჯობესებულ 175B პარამეტრიან მოდელს, რაც შედეგის ისეთ გაუმჯობესებას იძლევა, რომელიც დაახლოებით მოდელის ზომის 30-ჯერ გაზრდის ტოლფასია. მეტიც, verification, როგორც ჩანს, დამატებით მონაცემებთან უფრო ეფექტიანად მასშტაბირდება, თუ მიმდინარე შედეგებზე დაყრდნობით ექსტრაპოლაციას გავაკეთებთ.

დასკვნა

სწორი არგუმენტების აგება და არასწორი არგუმენტების ამოცნობა უფრო ზოგადი AI-ის განვითარების მთავარი გამოწვევებია. დაწყებითი სკოლის მათემატიკა ამ შესაძლებლობებისთვის იდეალური საცდელი გარემოა. GSM8K-ის ამოცანები კონცეპტუალურად მარტივია, თუმცა ერთი მცირე შეცდომაც საკმარისია მთელი ამოხსნის დასაშლელად. ასეთი შეცდომების ამოცნობა და თავიდან აცილება ჩვენი მოდელებისთვის აუცილებელი უნარია. ვერიფიკატორების გაწვრთნით ჩვენს მოდელებს ვასწავლით, რომ კარგი ამოხსნები იმათგან გამოყონ, რომლებმაც ბოლომდე ვერ გაამართლა. ველით, რომ ეს უნარები სულ უფრო მნიშვნელოვანი გახდება, როცა ჩვენი მოდელების გამოყენებას ლოგიკურად უფრო რთულ სფეროებზე ვეცდებით.

ავტორები

Karl Cobbe, Vineet Kosaraju და John Schulman

მადლობები

მადლობას ვუხდით Surge AI-ის გუნდს GSM8K მონაცემების შეგროვებისთვის.

მადლობას ვუხდით ჩვენი ნაშრომის თანაავტორებს: Mohammad Bavarian, Mark Chen, Heewoo Jun, Lukasz Kaiser, Matthias Plappert, Jerry Tworek, Jacob Hilton, Reiichiro Nakano და Christopher Hesse.

მადლობას ვუხდით მათ, ვინც გამოშვებაზე უკუკავშირი მოგვაწოდა: Dan Hendrycks, Leo Gao, Alec Radford, Giambattista Parascandolo, Harri Edwards, Yura Burda, Nick Ryder, Ilya Sutskever, Mira Murati, Sam Altman, Aris Konstantinidis, Andrew Mayne, Hannah Wong და Steve Dowling.

მადლობა იმ მოსწავლეებს, რომლებმაც ჩვენი ტესტის ჩაბარებაში მოხალისედ მიიღეს მონაწილეობა!