Vi har utviklet en hierarkisk forsterkende læringsalgoritme som lærer seg handlinger på høyt nivå som er nyttige for å løse en rekke oppgaver, og som muliggjør rask løsning av oppgaver som krever tusenvis av tidsstrinn. Algoritmen vår, når den brukes på et sett med navigasjonsproblemer, oppdager et overordnet sett med handlinger for å gå og krype i ulike retninger, noe som gjør det mulig for agenten å mestre nye navigasjonsoppgaver raskt.
Mennesker løser kompliserte utfordringer ved å dele dem opp i små, håndterbare komponenter. Å steke pannekaker består av en rekke handlinger på høyt nivå, som å veie mel, vispe egg, overføre røren til pannen, skru på komfyren, og så videre. Mennesker er i stand til å lære nye oppgaver raskt ved å sette disse nylærte komponentene sammen i sekvenser, selv om oppgaven kan kreve millioner av handlinger på lavt nivå, f.eks. individuelle muskelkontraksjoner.
På den annen side opererer dagens forsterkende læringsmodeller gjennom brute force-søk over handlinger på lavt nivå, noe som krever et enormt antall forsøk for å løse en ny oppgave. Disse metodene blir svært ineffektive når det gjelder å løse oppgaver som krever et stort antall tidstrinn.
Løsningen vår er basert på idéen om hierarkisk forsterkende læring, der agenter representerer kompliserte atferder som en kort sekvens av handlinger på høyt nivå. Dette gjør at agentene våre kan løse mye vanskeligere oppgaver: mens løsningen kan kreve 2000 handlinger på lavt nivå, omdanner den hierarkiske policyen dette til en sekvens av 10 handlinger på høyt nivå, og det er mye mer effektivt å søke gjennom en sekvens på 10 trinn enn en sekvens på 2000 trinn.

Algoritmene våre, delte hierarkier for metalæring (MLSH), lærer en hierarkisk policy der en master-policy veksler mellom et sett underpolicyer. Master-policyen velger en handling hvert N tidstrinn, der vi kan gå ut ifra at N=200. En underpolicy som kjøres i N tidstrinn utgjør en handling på høyt nivå, og for navigasjonsoppgavene våre tilsvarer underpolicyer å gå eller krype i ulike retninger.
I det meste av tidligere arbeid har hierarkiske policyer blitt utformet for hånd. Vi tar i stedet sikte på å oppdage denne hierarkiske strukturen automatisk gjennom interaksjon med miljøet. I et metalæringsperspektiv definerer vi et godt hierarki som et hierarki som raskt oppnår høy belønning når det læres opp med oppgaver det ikke har sett før. Derfor har MLSH-algoritmen som mål å lære underpolicyer som muliggjør rask læring på oppgaver den ikke har sett før.
Vi trener på en fordeling over oppgaver og deler underpolicyene mens vi lærer en ny master-policy for hver utvalgte oppgave. Ved gjentatt å lære med nye master-policyer, finner denne prosessen automatisk underpolicyer som tilpasser seg master-policyens læringsdynamikk.
I AntMaze-miljøet plasseres en Mujoco Ant-robot i en fordeling av ni ulike labyrinter og må navigere fra startposisjonen til målet. Algoritmen vår klarer å finne et mangfoldig sett med underpolicyer som kan settes sammen i rekkefølge for å løse labyrintoppgavene, utelukkende gjennom samhandling med omgivelsene. Dette settet med underpolicyer kan deretter brukes til å mestre en større oppgave enn det ble trent på (se videoen i begynnelsen av innlegget).
Vi gjør koden(åpnes i et nytt vindu) for opplæring av MLSH-agenter tilgjengelig, samt MuJoCo-miljøene vi bygde for å evaluere disse algoritmene.



