
Біз тапсырмалардың кең ауқымын шешуге пайдалы жоғары деңгейлі әрекеттерді үйренетін иерархиялық күшейтпелі оқыту алгоритмін әзірледік, бұл мыңдаған уақыт қадамдарын қажет ететін тапсырмаларды жылдам шешуге мүмкіндік береді. Навигация мәселелерінің жиынына қолданылғанда, біздің алгоритм әртүрлі бағыттарда жүру мен еңбектеуге арналған жоғары деңгейлі әрекеттер жиынын табады, бұл агентке жаңа навигация тапсырмаларын тез меңгеруге мүмкіндік береді.
Адамдар күрделі қиындықтарды оларды шағын, басқаруға болатын бөліктерге бөлу арқылы шешеді. Құймақ пісіру ұн өлшеу, жұмыртқа шайқау, қоспаны табаға құю, плитаны қосу және тағы басқа сияқты жоғары деңгейлі әрекеттер тізбегінен тұрады. Адамдар жаңа тапсырмаларды осы үйренген құрамдастарды тізбектей отырып тез меңгере алады, тіпті тапсырма миллиондаған төмен деңгейлі әрекеттерді, яғни жеке бұлшықет жиырылуларын, талап етсе де.
Ал бүгінгі күшейтпелі оқыту әдістері төмен деңгейлі әрекеттер бойынша жаппай іздеу арқылы жұмыс істейді, сондықтан жаңа тапсырманы шешу үшін орасан көп талпыныс қажет етеді. Бұл әдістер көп уақыт қадамдарын қажет ететін тапсырмаларды шешуде өте тиімсіз болады.
Біздің шешіміміз агенттер күрделі мінез-құлықтарды жоғары деңгейлі әрекеттердің қысқа тізбегі ретінде көрсететін иерархиялық күшейтпелі оқыту идеясына негізделген. Бұл агенттерімізге әлдеқайда күрделі тапсырмаларды шешуге мүмкіндік береді: шешім 2000 төмен деңгейлі әрекетті қажет етуі мүмкін болса да, иерархиялық саясат мұны 10 жоғары деңгейлі әрекеттен тұратын тізбекке айналдырады, және 2000 қадамдық тізбекке қарағанда 10 қадамдық тізбек бойынша іздеу әлдеқайда тиімді.

Біздің алгоритм, ортақ иерархияларды мета-үйрену (MLSH), мастер-саясат ішкі саясаттар жиыны арасында ауысып отыратын иерархиялық саясатты үйренеді. Мастер әр N уақыт қадамында бір әрекет таңдайды, мұнда N=200 деп алуымыз мүмкін. N уақыт қадамы бойы орындалатын ішкі саясат жоғары деңгейлі әрекетті құрайды, ал біздің навигация тапсырмаларымызда ішкі саясаттар әртүрлі бағыттарда жүруге немесе еңбектеуге сәйкес келеді.
Бұған дейінгі жұмыстардың көбінде иерархиялық саясаттар қолмен арнайы жасалған. Оның орнына, біз бұл иерархиялық құрылымды ортамен өзара әрекеттесу арқылы автоматты түрде табуды мақсат етеміз. Мета-үйрену тұрғысынан қарағанда, біз жақсы иерархияны бұрын көрмеген тапсырмаларда оқыту кезінде жоғары сыйақыға тез жететін иерархия деп анықтаймыз. Сондықтан MLSH алгоритмінің мақсаты — бұрын көрмеген тапсырмаларда жылдам үйренуге мүмкіндік беретін ішкі саясаттарды үйрену.
Біз тапсырмалар үлестірімінде оқытамыз, әр іріктелген тапсырмада жаңа мастер-саясатты үйрене отырып, ішкі саясаттарды ортақ пайдаланамыз. Жаңа мастер-саясаттарды қайта-қайта оқыту арқылы бұл процесс мастер-саясаттың үйрену динамикасына бейімделетін ішкі саясаттарды автоматты түрде табады.
Біздің AntMaze ортамызда Mujoco Ant роботы 9 түрлі лабиринттен тұратын үлестірімге орналастырылады және бастапқы орыннан мақсатқа дейін жетуі керек. Біздің алгоритм ортамен өзара әрекеттесу арқылы ғана лабиринт тапсырмаларын шешу үшін тізбектеп қолдануға болатын әртүрлі ішкі саясаттар жиынын сәтті таба алады. Кейін бұл ішкі саясаттар жиынын өздері оқытылған тапсырмалардан да ауқымдырақ тапсырманы меңгеру үшін пайдалануға болады (жазбаның басындағы бейнені қараңыз).
Біз MLSH агенттерін оқытуға арналған кодты(жаңа терезеде ашылады), сондай-ақ осы алгоритмдерді бағалау үшін жасаған MuJoCo орталарының өзін жариялап отырмыз.


