გადადით მთავარ შინაარსზე
OpenAI
იტვირთება…

ჩვენ შევიმუშავეთ იერარქიული განმამტკიცებელი სწავლების ალგორითმი, რომელიც სწავლობს მაღალი დონის მოქმედებებს, სასარგებლოს ამოცანების ფართო სპექტრის გადასაჭრელად, რაც შესაძლებელს ხდის სწრაფად გადაიჭრას ამოცანები, რომლებიც ათასობით დროით ნაბიჯს მოითხოვს. ნავიგაციის ამოცანების ნაკრებზე გამოყენებისას ჩვენი ალგორითმი აღმოაჩენს სხვადასხვა მიმართულებით სიარულისა და ხოხვისთვის მაღალი დონის მოქმედებათა ნაკრებს, რაც აგენტს საშუალებას აძლევს სწრაფად დაეუფლოს ახალ ნავიგაციის ამოცანებს.

ადამიანები რთულ გამოწვევებს წყვეტენ მათი მცირე, მართვად კომპონენტებად დაყოფით. ბლინების გამოცხობა შედგება მაღალი დონის მოქმედებების სერიისგან, როგორიცაა ფქვილის გაზომვა, კვერცხის თქვეფა, ნაზავის ტაფაზე გადატანა, ქურის ჩართვა და ა.შ. ადამიანებს შეუძლიათ სწრაფად ისწავლონ ახალი ამოცანები ამ ნასწავლი კომპონენტების თანმიმდევრულად შეერთებით, მიუხედავად იმისა, რომ ამოცანა შეიძლება მილიონობით დაბალი დონის მოქმედებას, ანუ კუნთების ცალკეულ შეკუმშვას, მოითხოვდეს.

მეორე მხრივ, დღევანდელი განმამტკიცებელი სწავლების მეთოდები მუშაობს დაბალი დონის მოქმედებებზე უხეში ძალის ძიებით, რის გამოც ახალი ამოცანის გადასაჭრელად მცდელობების უზარმაზარი რაოდენობა სჭირდება. ეს მეთოდები ძალიან არაეფექტიანი ხდება იმ ამოცანების გადაწყვეტისას, რომლებიც დროითი ნაბიჯების დიდ რაოდენობას მოითხოვს.

ჩვენი გადაწყვეტა ეფუძნება იერარქიული განმამტკიცებელი სწავლების იდეას, სადაც აგენტები რთულ ქცევებს მაღალი დონის მოქმედებების მოკლე მიმდევრობად წარმოადგენენ. ეს ჩვენს აგენტებს ბევრად უფრო რთული ამოცანების გადაწყვეტის საშუალებას აძლევს: მაშინ როცა გადაწყვეტა შეიძლება 2000 დაბალი დონის მოქმედებას მოითხოვდეს, იერარქიული პოლიტიკა ამას 10 მაღალი დონის მოქმედების მიმდევრობად აქცევს, და 10-ნაბიჯიან მიმდევრობაზე ძიება გაცილებით ეფექტიანია, ვიდრე 2000-ნაბიჯიან მიმდევრობაზე.

გაზიარებული იერარქიების მეტასწავლება

Flow diagram of observations undergoing policy and converting to action

ჩვენი ალგორითმი, გაზიარებული იერარქიების მეტასწავლება (MLSH), სწავლობს იერარქიულ პოლიტიკას, სადაც მთავარი პოლიტიკა გადართავს ქვეპოლიტიკების ერთობლიობას შორის. მთავარი პოლიტიკა მოქმედებას ირჩევს ყოველ N დროით ნაბიჯში, სადაც შეიძლება ავიღოთ N=200. N დროითი ნაბიჯის განმავლობაში შესრულებული ქვეპოლიტიკა წარმოადგენს მაღალი დონის მოქმედებას, ხოლო ჩვენი ნავიგაციის ამოცანებისთვის ქვეპოლიტიკები შეესაბამება სხვადასხვა მიმართულებით სიარულს ან ხოხვას.

წინა ნაშრომების უმეტესობაში იერარქიული პოლიტიკები აშკარად ხელით იყო დაპროექტებული. ამის ნაცვლად, ჩვენი მიზანია გარემოსთან ინტერაქციის გზით ეს იერარქიული სტრუქტურა ავტომატურად აღმოვაჩინოთ. მეტასწავლების პერსპექტივიდან, კარგ იერარქიას განვსაზღვრავთ როგორც ისეთს, რომელიც უცნობ ამოცანებზე სწავლებისას სწრაფად აღწევს მაღალ ჯილდოს. შესაბამისად, MLSH ალგორითმი მიზნად ისახავს ისეთი ქვეპოლიტიკების სწავლას, რომლებიც ადრე უცნობ ამოცანებზე სწრაფი სწავლების საშუალებას იძლევა.

ჩვენ ვსწავლობთ ამოცანების განაწილებაზე, ვაზიარებთ ქვეპოლიტიკებს და თითოეულ შერჩეულ ამოცანაზე ახალ მთავარ პოლიტიკას ვსწავლობთ. ახალი მთავარი პოლიტიკების განმეორებით სწავლებით, ეს პროცესი ავტომატურად პოულობს ისეთ ქვეპოლიტიკებს, რომლებიც თავსებადია მთავარი პოლიტიკის სწავლების დინამიკასთან.

ექსპერიმენტები

იტვირთება...

ჩვენს AntMaze გარემოში Mujoco Ant რობოტი თავსდება 9 განსხვავებული ლაბირინთის განაწილებაში და საწყისი პოზიციიდან მიზნამდე უნდა მივიდეს. ჩვენი ალგორითმი წარმატებით პოულობს მრავალფეროვან ქვეპოლიტიკათა ნაკრებს, რომლებიც შეიძლება ერთმანეთთან მიმდევრულად გაერთიანდეს ლაბირინთის ამოცანების გადასაჭრელად, მხოლოდ გარემოსთან ინტერაქციის გზით. ამ ქვეპოლიტიკათა ნაკრები შემდეგ შეიძლება გამოყენებულ იქნეს იმაზე უფრო დიდი ამოცანის დასაუფლებლად, ვიდრე ის ამოცანებია, რომლებზეც ისინი გაწვრთნეს (იხილეთ ვიდეო პოსტის დასაწყისში).

იტვირთება...

კოდი

ჩვენ ვაქვეყნებთ MLSH აგენტების საწვრთნელ კოდს(იხსნება ახალ ფანჯარაში), ასევე MuJoCo გარემოებს, რომლებიც ამ ალგორითმების შესაფასებლად შევქმენით.