Razvili smo hijerarhijski algoritam podsticajnog učenja koji uči akcije visokog nivoa korisne za rešavanje niza zadataka, omogućavajući brzo rešavanje zadataka koji zahtevaju hiljade vremenskih koraka. Naš algoritam, kada se primeni na skup problema navigacije, otkriva skup akcija visokog nivoa za hodanje i puzanje u različitim pravcima, što omogućava agentu da brzo ovlada novim navigacionim zadacima.
Ljudi rešavaju složene izazove tako što ih razlažu na male, upravljive celine. Pravljenje palačinki sastoji se od niza akcija visokog nivoa, kao što su merenje brašna, mućenje jaja, prebacivanje smese u tiganj, uključivanje šporeta i tako dalje. Ljudi mogu brzo da nauče nove zadatke povezivanjem ovih naučenih komponenti, iako zadatak može zahtevati milione akcija niskog nivoa, tj. pojedinačnih mišićnih kontrakcija.
S druge strane, današnje metode podsticajnog učenja funkcionišu kroz grubu pretragu akcija niskog nivoa, zahtevajući ogroman broj pokušaja da bi se rešio novi zadatak. Ove metode postaju veoma neefikasne u rešavanju zadataka koji zahtevaju veliki broj vremenskih koraka.
Naše rešenje zasniva se na ideji hijerarhijskog podsticajnog učenja, gde agenti predstavljaju složena ponašanja kao kratak niz akcija visokog nivoa. To našim agentima omogućava da rešavaju mnogo teže zadatke: iako rešenje može zahtevati 2000 akcija niskog nivoa, hijerarhijska politika to pretvara u niz od 10 akcija visokog nivoa, a mnogo je efikasnije pretraživati niz od 10 koraka nego niz od 2000 koraka.

Naš algoritam, meta-učenje deljenih hijerarhija (MLSH), uči hijerarhijsku politiku u kojoj glavna politika prebacuje između skupa podpolitika. Glavna politika bira akciju na svakih N vremenskih koraka, gde možemo uzeti N=200. Podpolitika koja se izvršava N vremenskih koraka predstavlja akciju visokog nivoa, a za naše navigacione zadatke podpolitike odgovaraju hodanju ili puzanju u različitim pravcima.
U većini ranijih radova, hijerarhijske politike su bile eksplicitno ručno projektovane. Umesto toga, cilj nam je da ovu hijerarhijsku strukturu automatski otkrijemo kroz interakciju sa okruženjem. Iz perspektive meta-učenja, dobru hijerarhiju definišemo kao onu koja brzo dostiže visoku nagradu pri obuci na neviđenim zadacima. Zbog toga algoritam MLSH teži da nauči podpolitike koje omogućavaju brzo učenje na prethodno neviđenim zadacima.
Obučavamo na raspodeli zadataka, deleći podpolitike dok učimo novu glavnu politiku za svaki uzorkovani zadatak. Ponavljanim obučavanjem novih glavnih politika, ovaj proces automatski pronalazi podpolitike koje odgovaraju dinamici učenja glavne politike.
U našem okruženju AntMaze, robot Mujoco Ant smešten je u raspodelu od 9 različitih lavirinata i mora da se kreće od početne pozicije do cilja. Naš algoritam uspešno pronalazi raznovrstan skup podpolitika koje se mogu povezati kako bi rešavale zadatke u lavirintu, isključivo kroz interakciju sa okruženjem. Ovaj skup podpolitika zatim može da se koristi za savladavanje većeg zadatka od onih na kojima su obučavane (pogledajte video na početku objave).
Objavljujemo kod(отвара се у новом прозору) za obučavanje MLSH agenata, kao i MuJoCo okruženja koja smo izgradili za evaluaciju ovih algoritama.



