Siirry pääsisältöön
OpenAI
Ladataan...

Kehittämämme hierarkkinen vahvistusoppimisalgoritmi oppii korkeatasoisia toimintoja, jotka ovat hyödyllisiä erilaisten tehtävien ratkaisemisessa. Tämä mahdollistaa tuhansia aika-askeleita vaativien tehtävien nopean ratkaisemisen. Kun algoritmiamme sovelletaan joukkoon navigointiongelmia, se tunnistaa joukon korkeatasoisia toimintoja kävelemiseen ja ryömimiseen eri suuntiin, mikä mahdollistaa agentin nopean oppimisen uusissa navigointitehtävissä.

Ihmiset ratkaisevat monimutkaisia haasteita pilkkomalla ne pieniin, hallittaviin osiin. Pannukakkujen paistaminen koostuu sarjasta korkeatasoisia toimintoja, kuten jauhojen mittaaminen, munien vatkaaminen, seoksen lisääminen pannulle, lieden käynnistäminen jne. Ihmiset pystyvät oppimaan uusia tehtäviä nopeasti yhdistämällä opitut osat toisiinsa, vaikka tehtävä saattaa vaatia miljoonia matalan tason toimintoja, kuten yksittäisiä lihassupistuksia.

Vahvistusoppimisen nykyiset menetelmät perustuvat matalan tason toimintojen laajamittaiseen kokeiluun, mikä edellyttää lukemattomia yrityksiä uuden tehtävän ratkaisemiseksi. Menetelmistä tulee hyvin tehottomia ratkaistessa tehtäviä, jotka edellyttävät suurta määrää aika-askeleita.

Ratkaisumme perustuu hierarkkiseen vahvistusoppimiseen, jossa agentit esittävät monimutkaisen käyttäytymisen lyhyenä sarjana korkean tason toimia. Näin agentit pystyvät ratkaisemaan paljon vaikeampia tehtäviä: vaikka ratkaisu saattaa vaatia 2000 matalan tason toimintoa, hierarkkinen käytäntö muuttaa sen 10 korkeatasoisen toiminnon sekvenssiksi, ja on paljon tehokkaampaa hakea 10 askeleen sekvenssistä kuin 2000 askeleen.

Jaettujen hierarkioiden metaoppiminen

Virtauskaavio havainnoista, jotka käyvät läpi käytännön ja muuntuvat toimenpiteiksi

Algoritmimme, jaettujen hierarkioiden metaoppiminen (meta-learning shared hierarchies, MLSH), oppii hierarkkisen käytännön, jossa pääkäytäntö vaihtaa alakäytäntöjen välillä. Pääkäyttäjä valitsee toiminnon joka N aika-askeleen välein, jolloin N=200. N aika-askeleen ajan suoritettu alakäytäntö muodostaa korkeatasoisen toiminnon, ja navigointitehtävissämme alakäytännöt vastaavat kävelyä tai ryömimistä eri suuntiin.

Useimmissa aiemmissa töissä hierarkkiset käytännöt on laadittu nimenomaisesti käsin. Sen sijaan pyrimme havaitsemaan tämän hierarkkisen rakenteen automaattisesti ympäristön kanssa tapahtuvan vuorovaikutuksen kautta. Metaoppimisen näkökulmasta määrittelemme hyvän hierarkian sellaiseksi, joka saavuttaa nopeasti korkean palkkion harjoiteltaessa tuntemattomilla tehtävillä. MLSH-algoritmi pyrkii siis oppimaan sellaisia alakäytäntöjä, jotka mahdollistavat nopean oppimisen aiemmin tuntemattomissa tehtävissä.

Harjoittelemme tehtävien jakauman perusteella ja jaamme alakäytännöt samalla kun opimme uuden pääkäytännön jokaiselle valitulle tehtävälle. Kouluttamalla toistuvasti uusia pääkäytäntöjä tämä prosessi löytää automaattisesti alakäytäntöjä, jotka sopivat pääkäytännön oppimisdynamiikkaan.

Kokeet

Ladataan...

AntMaze-ympäristössämme Mujoco Ant -robotti sijoitetaan 9 erilaisen sokkelon jakaumaan, ja sen on navigoitava lähtöpaikalta maaliin. Algoritmimme onnistuu löytämään monipuolisen joukon alakäytäntöjä, jotka voidaan järjestää peräkkäin sokkelotehtävien ratkaisemiseksi pelkästään vuorovaikutuksen kautta ympäristön kanssa. Alakäytäntöjen joukkoa voidaan sitten käyttää hallitsemaan suurempaa tehtävää kuin ne, joihin ne on koulutettu (katso video viestin alussa).

Ladataan...

Koodi

Julkaisemme koodin(avautuu uudessa ikkunassa) MLSH-agenttien kouluttamista varten sekä MuJoCo-ympäristöt, jotka rakensimme näiden algoritmien arviointia varten.

Tekijät

Kevin Frans, Jonathan Ho, Peter Chen ja Pieter Abbeel