ინსტრუმენტების წარმოშობილი გამოყენება მრავალაგენტური ინტერაქციიდან

ილუსტრაცია: Ben Barry
ჩვენ დავაკვირდით, რომ აგენტები დამალობანას მარტივი თამაშისას ინსტრუმენტების სულ უფრო რთულ გამოყენებას აღმოაჩენენ. ჩვენს ახალ სიმულირებულ დამალობანას გარემოში გაწვრთნის შედეგად აგენტები აყალიბებენ ექვს განსხვავებულ სტრატეგიასა და კონტრსტრატეგიას, რომელთაგან ზოგიერთის მხარდაჭერა ჩვენს გარემოს ჰქონდა, მაგრამ ეს ჩვენ არ ვიცოდით. ამ მარტივ გარემოში თვითზედამხედველობით წარმოქმნილი სირთულე კიდევ უფრო მიანიშნებს, რომ მრავალაგენტურმა თანაადაპტაციამ შესაძლოა ერთ დღეს უკიდურესად რთული და ინტელექტუალური ქცევა წარმოქმნას.
ჩვენს გარემოში აგენტები გუნდურ დამალობანას თამაშობენ. დამმალავების (ლურჯი) ამოცანაა, თავი აარიდონ მაძებრების (წითელი) მხედველობის ხაზს, ხოლო მაძებრების ამოცანაა, დამმალავები თვალთახედვაში ჰყავდეთ. გარემოში მიმოფანტულია ობიექტები, რომლებსაც დამმალავებიც და მაძებრებიც იჭერენ და ადგილზე აფიქსირებენ; ასევე არსებობს შემთხვევითად გენერირებული უძრავი ოთახები და კედლები, რომლებშიც აგენტებმა ნავიგაცია უნდა ისწავლონ. თამაშის დაწყებამდე დამმალავებს ეძლევათ მოსამზადებელი ფაზა, სადაც მაძებრები გაუნძრევლად არიან, რათა დამმალავებს გაქცევის ან გარემოს შეცვლის შესაძლებლობა ჰქონდეთ.
აგენტებს გარემოში ობიექტებთან ურთიერთობისთვის აშკარა სტიმულები არ აქვთ; ერთადერთი ზედამხედველობა დამალობანას მიზნის მეშვეობით მიიღება. აგენტებს ეძლევათ გუნდური ჯილდო; დამმალავები იღებენ +1 ჯილდოს, თუ ყველა დამმალავი დამალულია, და -1-ს, თუ რომელიმე დამმალავს მაძებარი ხედავს. მაძებრები იღებენ საპირისპირო ჯილდოს: -1-ს, თუ ყველა დამმალავი დამალულია, და +1-ს სხვა შემთხვევაში. აგენტების ქცევის გონივრულ სივრცეში შესაზღუდად, ისინი ჯარიმდებიან, თუ სათამაშო ზონის მიღმა ზედმეტად შორს წავლენ. მოსამზადებელი ფაზის განმავლობაში ყველა აგენტი იღებს ნულოვან ჯილდოს.
როცა აგენტები დამალობანაში ერთმანეთის წინააღმდეგ იწვრთნებიან, ჩნდება ექვსამდე განსხვავებული სტრატეგია. ყოველი ახალი სტრატეგია ქმნის მანამდე არარსებულ ზეწოლას, რომ აგენტებმა შემდეგ ეტაპზე გადაინაცვლონ. გაითვალისწინეთ, რომ აგენტებს არც ობიექტებთან ურთიერთობისთვის და არც კვლევისთვის პირდაპირი სტიმული არ აქვთ; ქვემოთ ნაჩვენები წარმოშობილი სტრატეგიები მრავალაგენტური კონკურენციითა და დამალობანას მარტივი დინამიკით გამოწვეული ავტოკურიკულუმის(იხსნება ახალ ფანჯარაში) შედეგია.
ჩვენ ვიყენებთ იმავე სასწავლო ინფრასტრუქტურასა და ალგორითმებს, რომლებიც გამოიყენებოდა OpenAI Five-ისა და Dactyl-ის გასაწვრთნელად. თუმცა ჩვენს გარემოში თითოეული აგენტი დამოუკიდებლად მოქმედებს, საკუთარი დაკვირვებებისა და დაფარული მეხსიერების მდგომარეობის გამოყენებით. აგენტები იყენებენ სამყაროს entity-centric, მდგომარეობაზე დაფუძნებულ წარმოდგენას, რომელიც ობიექტებისა და სხვა აგენტების მიმართ პერმუტაციის მიმართ ინვარიანტულია.
თითოეული ობიექტი ემბედდება და შემდეგ გადის masked residual self attention ბლოკში, თანამედროვე ტრანსფორმერები(იხსნება ახალ ფანჯარაში)-ში გამოყენებულების მსგავსად, სადაც ყურადღება დროზე კი არა, ობიექტებზეა მიმართული. ობიექტები, რომლებიც მხედველობის ხაზში და აგენტის წინ არ არიან, იფარებიან ისე, რომ აგენტს მათ შესახებ ინფორმაცია არ აქვს.

აგენტების პოლიტიკები იწვრთნება თვითთამაშით და ოპტიმიზაცია-ით. ოპტიმიზაციისას აგენტებს შეუძლიათ თავიანთ value function-ში გამოიყენონ პრივილეგირებული ინფორმაცია დაფარული ობიექტებისა და სხვა აგენტების შესახებ.
აღმოვაჩინეთ, რომ დიდი მასშტაბით გაწვრთნა კრიტიკულად მნიშვნელოვანი იყო იმისთვის, რომ აგენტები წარმოშობის სხვადასხვა ეტაპზე გადასულიყვნენ. ქვემოთ ვაჩვენებთ როგორც დროს, ისე ეპიზოდების რაოდენობას, რაც აგენტებს სჭირდებათ მე-4 ეტაპამდე (რემპის დაცვა) მისასვლელად სხვადასხვა batch size-ის შემთხვევაში. ვხედავთ, რომ batch size-ის ზრდა კონვერგენციამდე მისვლის რეალურ დროში მკვეთრ აჩქარებას იძლევა, თუმცა ნიმუშების ეფექტიანობაზე დიდ გავლენას არ ახდენს 32k-ზე ან მის ზემოთ. თუმცა აღმოვაჩინეთ, რომ 8k და 16k batch size-ებმა გამოყოფილი ეპიზოდების ფარგლებში მე-4 ეტაპს ვერასდროს მიაღწიეს.
ამ ნაშრომში ვაჩვენებთ მტკიცებულებას, რომ აგენტები დამალობანაში თვითზედამხედველობითი ავტოკურიკულუმის მეშვეობით სწავლობენ რთულ სტრატეგიებსა და კონტრსტრატეგიებს. უნარების არასაზედამხედველო სწავლების კიდევ ერთი მეთოდია შინაგანი მოტივაცია, რომელიც აგენტებს სხვადასხვა მეტრიკით, მაგალითად მოდელის შეცდომით ან მდგომარეობების რაოდენობით, კვლევის სტიმულს აძლევს. ჩვენ ჩვენს გარემოში გავუშვით რაოდენობაზე დაფუძნებული კვლევა, სადაც აგენტები აშკარად ითვლიან მონახულებულ მდგომარეობებს და სტიმული აქვთ იშვიათად მონახულებულ მდგომარეობებში წავიდნენ. ამ გარემოში დასარეგულირებელი მთავარი სამოდელო არჩევანია მდგომარეობის წარმოდგენა; მაგალითად, ჩვენს პირველ საბაზისო ვარიანტში მდგომარეობაში მხოლოდ 2-D ყუთების პოზიციებს ვრთავთ, რათა აგენტებს სტიმული ჰქონდეთ მხოლოდ ყუთებთან ურთიერთობისა და მათი ახალ პოზიციებზე გადაადგილებისთვის. შემდეგ ამას ვადარებთ რაოდენობაზე დაფუძნებულ პოლიტიკას, რომელიც იღებს სრულ მდგომარეობას, რომელსაც დამალობანას მოთამაშე აგენტები იღებენ.
როგორც ჩანს, დამალობანაში გაწვრთნილი აგენტები ხარისხობრივად ბევრად უფრო ადამიანისთვის გასაგებ ქცევებზე არიან ორიენტირებული, მაგალითად თავშესაფრის აგებაზე, მაშინ როცა შინაგანი მოტივაციით გაწვრთნილი აგენტები ობიექტებს თითქოს უმიმართულოდ გადაადგილებენ. გარდა ამისა, მდგომარეობების სივრცის სირთულის ზრდასთან ერთად ვხედავთ, რომ შინაგანი მოტივაციის მეთოდებს თავიანთ გარემოში ობიექტებთან სულ უფრო ნაკლებად აზრიანი ურთიერთობა აქვთ. ამ მიზეზით გვჯერა, რომ მრავალაგენტური კონკურენცია უფრო მასშტაბირებადი მეთოდი იქნება ადამიანისთვის რელევანტური უნარების არასაზედამხედველოდ გენერირებისთვის, რადგან გარემოები ზომითა და სირთულით ზრდას განაგრძობს.
წინა სექციაში ხარისხობრივად ვადარებთ დამალობანაში ნასწავლ ქცევებს შინაგანი მოტივაციით ნასწავლ ქცევებს. თუმცა გარემოების მასშტაბის ზრდასთან ერთად პროგრესის ხარისხობრივად გაზომვაც რთულდება. ჯილდოს თვალყურის დევნება მრავალაგენტურ გარემოში არასაკმარისი შეფასების მეტრიკაა, რადგან ხშირად ბუნდოვანია, აჩვენებს თუ არა ის, რომ აგენტები თანაბრად უმჯობესდებიან, თუ სტაგნაციას განიცდიან. ისეთი მეტრიკები, როგორიცაა ELO ან Trueskill, უფრო საიმედოდ ზომავს, უმჯობესდება თუ არა შედეგიანობა პოლიტიკის წინა ვერსიებთან ან პოპულაციის სხვა პოლიტიკებთან შედარებით; თუმცა ეს მეტრიკებიც ვერ გვაძლევს ხედვას, გაუმჯობესებული შედეგიანობა ახალი ადაპტაციებითაა გამოწვეული თუ ადრე ნასწავლი უნარების დახვეწით. ბოლოს, გარემოსთვის სპეციფიკური სტატისტიკების, მაგალითად ობიექტების გადაადგილების, გამოყენებაც შეიძლება ბუნდოვანი იყოს (მაგალითად, აბსოლუტური გადაადგილების თვალის დევნება არ აჩვენებს, რომელ მიმართულებით იმოძრავეს აგენტებმა), და საკმარისი მეტრიკების შექმნა გარემოების მასშტაბის ზრდასთან ერთად რთული და ძვირი გახდება.
ჩვენ ვთავაზობთ დომენისთვის სპეციფიკური ინტელექტის ტესტების ნაკრების გამოყენებას, რომლებიც იმ შესაძლებლობებზეა მიმართული, რომელთა შეძენაც, ჩვენი აზრით, აგენტებს საბოლოოდ შეუძლიათ. ამ გარემოებში ტრანსფერის შედეგიანობა შეიძლება იყოს წარმოდგენის ხარისხის ან უნარის რაოდენობრივი საზომი, და ჩვენ ვადარებთ მას რაოდენობაზე დაფუძნებული კვლევით წინასწარ გაწვრთნასა და ნულიდან გაწვრთნილ საბაზისო მოდელს.
მიუხედავად იმისა, რომ დამალობანას აგენტი ბევრ ტრანსფერულ ამოცანაში უკეთეს შედეგს აჩვენებს, ის შედეგიანობას ან კონვერგენციის დროს რადიკალურად არ აუმჯობესებს. მის ქცევაზე დაკვირვებით ვიცით, რომ მას აქვს ფარული უნარი ზუსტად გადაადგილოს ობიექტები და დამალობანას თამაშში თავშესაფარი ააგოს; თუმცა მცირე რაოდენობის ნიმუშებით გაწვრთნისას მას არ შეუძლია ამ უნარის სხვა კონტექსტებში გამოყენება.
გვჯერა, რომ ტრანსფერის შერეული შედეგების მიზეზი იმაშია, რომ აგენტები სწავლობენ უნარების ისეთ წარმოდგენებს, რომლებიც გადახლართულია და რთულად ექვემდებარება დახვეწას. მომავალში, როცა გარემოები უფრო მრავალფეროვანი გახდება და აგენტებს უნარების უფრო მეტ კონტექსტში გამოყენება მოუწევთ, ვფიქრობთ, ვნახავთ უფრო განზოგადებად უნარების წარმოდგენებს და ამ შეფასების მიდგომაში უფრო ძლიერ სიგნალს. დამატებით, ჩვენი გარემოში სწავლის პროგრესის შესაფასებლად შეფასების ამოცანებს ღია კოდადაც ვაქვეყნებთ.
ჩვენ ვაჩვენეთ, რომ აგენტებს შეუძლიათ მაღალი სიზუსტის ფიზიკურ სიმულატორში ინსტრუმენტების დახვეწილი გამოყენების სწავლა; თუმცა ამ შედეგამდე მისასვლელ გზაზე ბევრი გაკვეთილი მივიღეთ. გარემოების შექმნა მარტივი არ არის და ძალიან ხშირად ხდება, რომ აგენტები პოულობენ გზას, როგორ გამოიყენონ თქვენ მიერ აგებული გარემო ან ფიზიკის ძრავი ისეთი გზით, რომელიც განზრახული არ იყო.
ავტორები
უკუკავშირი
ამ პოსტსა და ნაშრომზე უკუკავშირისთვის მადლობას ვუხდით შემდეგ პირებს: Pieter Abbeel, Jeff Clune, Jessica Hamrick, Joel Leibo, Natasha Jaques, Calvin French-Owen, Azalia Mirhoseini, Ilya Sutskever, Greg Brockman, Jack Clark, Brooke Chan & Karson Elmgren
სხვა
ვიდეო: Glenn Powell, Leo Ogawa Lillrank, Ivy Lillrank, Andie Lee
რედაქტორი: Ashley Pilipiszyn
დიზაინი: Justin Jay Wang
ყდის ილუსტრაცია: Ben Barry


