
Vi har udviklet en algoritme til hierarkisk forstærkningslæring, som lærer overordnede handlingsstrategier, der er nyttige til at løse en række forskellige opgaver, og som muliggør hurtig løsning af opgaver, der kræver tusindvis af små trin og tidsenheder. Når algoritmen anvendes på et sæt navigationsopgaver, opdager den et sæt overordnede bevægelsesmønstre til gang og kravlen i forskellige retninger, hvilket gør det muligt for agenten hurtigt at mestre nye navigationsopgaver.
Mennesker løser komplekse opgaver ved at opdele dem i små, overskuelige dele. At bage pandekager består for eksempel af en række overordnede handlinger som at måle mel, piske æg, hælde dejen på panden, tænde for komfuret og så videre. Vi mennesker er i stand til hurtigt at lære nye opgaver ved at sætte den slags indlærte komponenter sammen i sekvenser – også selvom opgaven i praksis kræver millioner af mindre handlinger, som for eksempel små muskelbevægelser.
Nutidens metoder inden for forstærkningslæring arbejder derimod med en slags grovkornet søgning over mindre lavniveau-handlinger og kræver et enormt antal forsøg for at løse en ny opgave. Disse metoder bliver hurtigt ineffektive, når opgaverne kræver mange små trin og tidsenheder.
Vores løsning bygger på idéen om hierarkisk forstærkningslæring, hvor agenter repræsenterer kompleks adfærd som en kort sekvens af overordnede handlinger på et højere niveau. Det gør det muligt for agenterne at løse langt sværere opgaver. En løsning, der måske kræver 2000 små handlinger, kan med en hierarkisk metode reduceres til en sekvens på blot 10 overordnede handlinger på et højere niveau – og det er langt mere effektivt at søge i en sekvens på 10 trin end i én på 2000.

Vores algoritme, meta-læring af delte hierarkier (MLSH), lærer en hierarkisk strategi, hvor en overordnet master-strategi skifter mellem et sæt under-strategier. Master-strategien vælger en handling hver N tidsenhed, hvor vi for eksempel kan vælge N = 200. En under-strategi, der udføres i N tidsenheder, udgør en overordnet handling på højere niveau, og i vores navigations-opgaver svarer under-strategierne til at gå eller kravle i forskellige retninger.
Førhen har hierarkiske strategier for det meste været håndkonstruerede. Vi sigter i stedet mod at afdække den hierarkiske struktur automatisk gennem interaktion med omgivelserne. Set fra et meta-læringsperspektiv definerer vi en god hierarki som en, der hurtigt opnår høj belønning, når den trænes på nye, hidtil usete opgaver. Derfor har MLSH-algoritmen til formål at lære under-strategier, der muliggør hurtig læring på hidtil ukendte opgaver.
Vi træner på en fordeling over opgaver, hvor under-strategier deles, mens der læres en ny overordnet strategi for hver udvalgte opgave. Ved gentagne gange at træne nye master-strategier finder denne proces automatisk under-strategier, der understøtter master-strategiens læringsdynamik.
I vores AntMaze-miljø placeres en MuJoCo Ant-robot i en fordeling af ni forskellige labyrinter, hvor den skal navigere fra startpositionen til målet. Vores algoritme formår her at finde et alsidigt sæt under-strategier, som kan sættes sammen i sekvenser for at løse labyrintopgaverne, udelukkende gennem interaktion med omgivelserne. Dette sæt under-strategier kan derefter bruges til at mestre en større opgave end dem, de blev trænet på (se videoen længere oppe).
Vi frigiver koden(åbner i et nyt vindue) til træning af MLSH-agenterne samt de MuJoCo-miljøer, vi har bygget til at evaluere algoritmerne.


