2019 ж. 17 қыркүйек

Көп агентті өзара әрекеттесуден туындайтын құралды қолдану

Мақаланы оқу Ортаны генерациялау Әлем генерациясы

Әр шаршыда жасырынбақ ойнап жүрген көп агенттері бар сұр тордың изометриялық көрінісі

Иллюстрация: Ben Barry

Жүктелуде…

Агенттердің қарапайым жасырынбақ ойынын ойнау барысында біртіндеп күрделірек құрал қолдануды ашқанын байқадық. Жаңа модельденген жасырынбақ ортамызда үйрету арқылы агенттер алты бөлек стратегия мен қарсы стратегиялар тізбегін құрады, олардың кейбірін біздің орта қолдайтынын біз білмеген едік. Осы қарапайым ортадағы өзін-өзі қадағалайтын пайда болған күрделілік көп агентті бірлесіп бейімделу бір күні аса күрделі әрі зияткер мінез-құлық тудыруы мүмкін екенін қосымша меңзейді.

Біздің ортада агенттер командалық жасырынбақ ойынын ойнайды. Жасырушылардың (көк) міндеті — іздеушілердің (қызыл) көру аймағына түспеу, ал іздеушілердің міндеті — жасырушыларды көзден таса қылмау. Ортада жасырушылар мен іздеушілер ұстап алып, орнында бекіте алатын нысандар шашылып жатады, сондай-ақ агенттер жүруді үйренуі тиіс кездейсоқ жасалған қозғалмайтын бөлмелер мен қабырғалар бар. Ойын басталмас бұрын жасырушыларға дайындық кезеңі беріледі, осы кезде іздеушілер қимылсыз қалады, сонда жасырушылар қашып кетуге немесе өз ортасын өзгертуге мүмкіндік алады.

Жүктелуде...

Агенттердің ортадағы нысандармен өзара әрекеттесуіне нақты ынталандырулар жоқ; берілетін жалғыз қадағалау — жасырынбақ мақсаты арқылы. Агенттерге командаға ортақ сыйақы беріледі; егер барлық жасырушылар жасырын болса, жасырушыларға +1 сыйақы беріледі, ал іздеуші кез келген жасырушыны көрсе, -1 беріледі. Іздеушілер керісінше сыйақы алады: барлық жасырушылар жасырын болса -1, ал басқа жағдайда +1. Агент мінез-құлқын ақылға қонымды шекте ұстау үшін, олар ойын аймағынан тым алыс шықса, айыппұл салынады. Дайындық кезеңінде барлық агенттерге нөлдік сыйақы беріледі.

Автокуррикулумдар және пайда болған мінез-құлық

Агенттер жасырынбақта бір-біріне қарсы жаттыққан сайын, алтыға дейінгі айқын стратегия пайда болады. Әр жаңа стратегия агенттердің келесі кезеңге өтуі үшін бұрын болмаған қысым тудырады. Агенттердің нысандармен өзара әрекеттесуіне немесе зерттеуіне тікелей ынталандыру жоқ екенін ескеріңіз; керісінше, төменде көрсетілген пайда болған стратегиялар көп агентті бәсеке мен жасырынбақтың қарапайым динамикасы туындатқан автокуррикулумның⁠(жаңа терезеде ашылады) нәтижесі болып табылады.

Жүктелуде...

Жасырынбақ агенттерін үйрету

Біз OpenAI Five⁠ және Dactyl⁠ жүйелерін үйрету үшін қолданылған сол бірдей оқыту инфрақұрылымы мен алгоритмдерін қолданамыз. Алайда, біздің ортада әр агент өз бақылаулары мен жасырын жады күйін пайдаланып, тәуелсіз әрекет етеді. Агенттер әлемнің entity-centric, күйге негізделген репрезентациясын қолданады, ол нысандар мен басқа агенттерге қатысты пермутацияға инвариантты.

Әр нысан ендіріліп, содан кейін трансформерлерде⁠(жаңа терезеде ашылады) қолданылатындарға ұқсас masked residual self attention блогы арқылы өткізіледі, мұнда attention уақыт бойынша емес, нысандар бойынша жүреді. Көру сызығында емес және агенттің алдында тұрмаған нысандар маскаланады, сондықтан агентте олар туралы ешқандай ақпарат болмайды.

Көп агентті саясат архитектурасының диаграммасы

Агент саясаттары self-play⁠ және Проксималды саясатты оңтайландыру⁠ әдісімен үйретіледі. Оңтайландыру кезінде агенттер өздерінің value function ішінде жасырылған нысандар мен басқа агенттер туралы артықшылықты ақпаратты қолдана алады.

Агенттердің пайда болудың әртүрлі кезеңдерінен өтуі үшін ауқымды үйрету шешуші болғанын анықтадық. Төменде әртүрлі batch size үшін агенттердің 4-кезеңге (рампаны қорғау) жетуіне кететін уақытты да, эпизодтар санын да көрсетеміз. Batch size ұлғайған сайын жинақталуға дейінгі нақты уақыт күрт қысқаратынын байқаймыз, бірақ 32k және одан жоғары деңгейде бұл үлгілік тиімділікке айтарлықтай әсер етпейді. Дегенмен, 8k және 16k batch size бөлінген эпизодтар саны ішінде 4-кезеңге ешқашан жетпегенін көрдік.

Жүктелуде...

Көп агентті бәсеке және ішкі мотивация

Бұл жұмыста біз агенттердің жасырынбақта өзін-өзі қадағалайтын автокуррикулум арқылы күрделі стратегиялар мен қарсы стратегияларды үйренетініне дәлел көрсетеміз. Дағдыларды қадағалаусыз үйренудің тағы бір тәсілі — ішкі мотивация, ол агенттерді модель қатесі немесе күй сандары сияқты әртүрлі метрикалар арқылы зерттеуге ынталандырады. Біз өз ортамызда count-based exploration жүргіздік, онда агенттер барған күйлерінің нақты есебін сақтап, сирек барған күйлерге баруға ынталандырылады. Бұл жағдайда бапталатын негізгі модельдеу таңдауы — күй репрезентациясы; мысалы, алғашқы baseline нұсқамызда біз күйге тек 2-D қорап позицияларын енгіземіз, сондықтан агенттер тек қораптармен әрекеттесіп, оларды жаңа позицияларға жылжытуға ғана ынталандырылады. Кейін мұны жасырынбақ ойнайтын агенттерге берілетін толық күйді қабылдайтын count-based саясатпен салыстырамыз.

Жүктелуде...

Көріп тұрғанымыздай, жасырынбақта үйретілген агенттер сапалық тұрғыдан баспана салу сияқты адамға түсініктірек мінез-құлықтардың төңірегінде шоғырланады, ал ішкі мотивациямен үйретілген агенттер нысандарды бағытсыз сияқты етіп қозғайды. Бұдан бөлек, күй кеңістігінің күрделілігі артқан сайын, ішкі мотивация әдістерінің өз ортасындағы нысандармен мағыналы өзара әрекеттесуі азая түсетінін байқаймыз. Осы себепті, орталар көлемі мен күрделілігі өсе берген сайын, қадағалаусыз түрде адамға маңызды дағдыларды қалыптастыру үшін көп агентті бәсеке ауқымдалатын тиімдірек әдіс болады деп сенеміз.

Бағалау ретінде тасымалдау және fine-tuning

Алдыңғы бөлімде біз жасырынбақта үйренілген мінез-құлықтарды ішкі мотивациямен үйренілгендермен сапалық тұрғыдан салыстырамыз. Алайда, орталардың ауқымы ұлғайған сайын, ілгерілеуді сапалық түрде өлшеу де қиындай түседі. Көп агентті жағдайларда сыйақыны қадағалау жеткіліксіз бағалау метрикасы, өйткені ол агенттердің біркелкі жақсарып жатқанын ба, әлде тоқырап қалғанын ба, анық көрсетпеуі мүмкін. ELO немесе Trueskill сияқты метрикалар өнімділіктің алдыңғы саясат нұсқаларына не популяциядағы басқа саясаттарға қатысты жақсарып жатқанын сенімдірек өлшей алады; бірақ бұл метрикалар да өнімділіктің артуы жаңа бейімделулерден бе, әлде бұрын үйренілген дағдылардың жақсаруынан ба екенін түсіндірмейді. Ақырында, нысан қозғалысы сияқты ортаға тән статистикаларды қолдану да екіұшты болуы мүмкін (мысалы, абсолют қозғалысты қадағалау агенттердің қай бағытқа қозғалғанын ашып көрсетпейді), ал жеткілікті метрикаларды жобалау орталар ауқымданған сайын қиын әрі қымбат бола түседі.

Біз агенттер ақырында меңгеруі мүмкін деп сенетін қабілеттерге бағытталған пәндік интеллект тестерінің жиынтығын қолдануды ұсынамыз. Осы жағдайлардағы тасымалдау өнімділігі репрезентация сапасының не дағдының сандық өлшемі бола алады, және біз оны count-based exploration арқылы алдын ала жаттықтырумен, сондай-ақ нөлден үйретілген базалық нұсқамен салыстырамыз.

Жүктелуде...

Жасырынбақ агенті тасымалдау тапсырмаларының көбінде жақсырақ нәтиже көрсеткенімен, ол өнімділікті не жинақталу уақытын күрт жақсартпайды. Оның мінез-құлқына қарап, біз оның жасырынбақ ойынында баспана құру үшін нысандарды дәл қозғалта алатын жасырын дағдысы бар екенін білеміз; алайда, үлгілер саны аз кезде үйретілгенде, бұл дағдыны басқа контексттерде қолдана алу қабілеті жоқ.

Тасымалдау нәтижелерінің аралас болуының себебі агенттердің шатасқан және fine-tuning жасауға қиын дағды репрезентацияларын үйренуінен деп санаймыз. Болашақ орталар әртүрлірек болып, агенттер дағдыларды көбірек контексте қолдануға мәжбүр болған сайын, біз жалпылануы жоғарырақ дағды репрезентацияларын және осы бағалау тәсілінде анағұрлым айқын сигнал көретінімізге сенеміз. Сонымен қатар, оқу барысын біздің ортада бағалау тәсілі ретінде бағалау тапсырмаларын ашық кодпен де жариялаймыз.

Таңғаларлық мінез-құлықтар

Біз агенттер жоғары дәлдікті физика симуляторында күрделі құрал қолдануды үйрене алатынын көрсеттік; алайда, осы нәтижеге жету жолында көп сабақ алдық. Орта құру оңай емес, әрі агенттер көбіне сіз жасаған ортаны немесе физика қозғалтқышын ойланылмаған тәсілмен пайдаланудың амалын тауып жатады.

Жүктелуде...

Авторлар

Bowen Baker, Ingmar Kanitscheider, Todor Markov, Yi Wu, Glenn Powell, Bob McGrew, Igor Mordatch

Кері байланыс

Осы жазба мен мақалаға пікір білдіргені үшін мыналарға алғыс айтамыз: Pieter Abbeel, Jeff Clune, Jessica Hamrick, Joel Leibo, Natasha Jaques, Calvin French-Owen, Azalia Mirhoseini, Ilya Sutskever, Greg Brockman, Jack Clark, Brooke Chan & Karson Elmgren