Үндсэн агуулга руу алгасах
OpenAI

2017 оны аравдугаар сарын 26

Нийтлэл

Шаталсан бүтэц сурах

Learning A Hierarchy
Ачаалж байна…

Бид олон төрлийн даалгаврыг шийдэхэд хэрэгтэй өндөр түвшний үйлдлүүдийг сурдаг шаталсан бататгах сургалтын алгоритм боловсруулсан бөгөөд энэ нь мянга мянган хугацааны алхам шаарддаг даалгавруудыг хурдан шийдэх боломж олгодог. Манай алгоритмыг навигацын асуудлуудын багцад хэрэглэхэд янз бүрийн чиглэлд алхах, мөлхөх өндөр түвшний үйлдлүүдийн багцыг олж илрүүлдэг бөгөөд энэ нь агент шинэ навигацын даалгавруудыг хурдан эзэмших боломж олгодог.

Хүмүүс төвөгтэй сорилтуудыг жижиг, удирдахад хялбар хэсгүүдэд хувааж шийддэг. Хуушуур шарах нь гурил хэмжих, өндөг хутгах, зуурмагийг хайруулын тавганд хийх, зуух асаах гэх мэт өндөр түвшний хэд хэдэн үйлдлээс бүрдэнэ. Хэдийгээр тухайн даалгавар сая сая доод түвшний үйлдэл, өөрөөр хэлбэл булчингийн тус тусын агшилт шаардаж болох ч хүмүүс эдгээр сурсан бүрэлдэхүүн хэсгүүдийг дарааллуулан шинэ даалгаврыг хурдан сурч чаддаг.

Үүний эсрэгээр, өнөөгийн бататгах сургалтын аргууд доод түвшний үйлдлүүд дээр бүдүүн хүчний хайлтаар ажилладаг тул шинэ даалгаврыг шийдэхийн тулд асар олон оролдлого шаарддаг. Ийм аргууд олон тооны хугацааны алхам шаарддаг даалгаврыг шийдэхэд маш үр ашиггүй болдог.

Манай шийдэл нь агентууд төвөгтэй зан төлөвийг өндөр түвшний үйлдлүүдийн богино дараалал болгон төлөөлдөг шаталсан бататгах сургалтын санаанд тулгуурладаг. Ингэснээр манай агентууд 훨씬 илүү хэцүү даалгавруудыг шийдэж чадна: шийдэл нь 2000 доод түвшний үйлдэл шаардаж болох ч шаталсан бодлого үүнийг 10 өндөр түвшний үйлдлийн дараалал болгон хувиргадаг бөгөөд 2000 алхамт дарааллаас илүү 10 алхамт дараалал дээр хайлт хийх нь хавьгүй үр ашигтай.

Хуваалцсан шаталсан бүтцийн мета-сургалт

Flow diagram of observations undergoing policy and converting to action

Манай meta-learning shared hierarchies (MLSH) алгоритм нь мастер бодлого хэд хэдэн дэд бодлогын хооронд шилждэг шаталсан бодлогыг сурдаг. Мастер нь N хугацааны алхам тутамд нэг үйлдэл сонгодог бөгөөд N=200 байж болно. N хугацааны алхмын турш хэрэгжсэн дэд бодлого нь өндөр түвшний үйлдэл болдог, харин манай навигацын даалгавруудад дэд бодлогууд нь өөр өөр чиглэлд алхах эсвэл мөлхөхтэй тохирно.

Өмнөх ихэнх ажлуудад шаталсан бодлогуудыг гараар ил тод зохион бүтээдэг байсан. Харин бид энэ шаталсан бүтцийг орчинтой харилцах замаар автоматаар илрүүлэхийг зорьж байна. Мета-сургалтын өнцгөөс авч үзвэл, хараахан үзээгүй даалгаврууд дээр сургах үед хурдан өндөр шагналд хүрдэг шаталсан бүтэц сайн гэж бид тодорхойлдог. Иймээс MLSH алгоритм нь өмнө нь үзээгүй даалгаврууд дээр хурдан суралцах боломж олгох дэд бодлогуудыг сурахыг зорьдог.

Бид даалгавруудын тархалт дээр сургаж, сонгогдсон даалгавар бүрт шинэ мастер бодлого сургахын зэрэгцээ дэд бодлогуудыг хуваалцдаг. Шинэ мастер бодлогуудыг давтан сургах замаар энэ үйл явц нь мастер бодлогын сургалтын динамикт нийцэх дэд бодлогуудыг автоматаар олдог.

Туршилтууд

Ачаалж байна...

Манай AntMaze орчинд MuJoCo Ant роботыг 9 өөр лабиринтын тархалтад байрлуулж, эхлэх байрлалаас зорилгод хүрэх ёстой. Манай алгоритм орчинтой харилцах замаар л лабиринтын даалгавруудыг шийдэхээр дараалуулан ашиглаж болох олон янзын дэд бодлогын багцыг амжилттай олж чаддаг. Дараа нь энэ дэд бодлогын багцыг тэдний сурсан даалгавруудаас илүү том даалгаврыг эзэмшихэд ашиглаж болно (нийтлэлийн эхэнд буй видеог үзнэ үү).

Ачаалж байна...

Код

Бид MLSH агентуудыг сургах кодыг(шинэ цонхонд нээгдэнэ), мөн эдгээр алгоритмыг үнэлэхээр бүтээсэн MuJoCo орчнуудыг нийтэлж байна.