
Bir dizi görevi çözmede işe yarayan üst düzey eylemleri öğrenen ve binlerce ayrık zaman adımı gerektiren görevlerin hızlıca yerine getirilmesini sağlayan hiyerarşik bir takviye öğrenme algoritması geliştirdik. Algoritmamız, bir dizi yön bulma sorununa uygulandığında, farklı yönlerde yürüme ve sürünme için üst düzey eylemler keşfeder ve böylece ajanın yeni yön bulma görevlerinde hızla ustalaşmasına olanak tanır.
İnsanlar, karmaşık problemleri küçük ve yönetilebilir parçalara ayırarak çözerler. Krep yapma süreci, unu ölçmek, yumurtaları çırpmak, karışımı tavaya dökmek, ocağı açmak gibi bir dizi üst düzey eylemden oluşur. Bir görev milyonlarca düşük seviyeli eylemden, yani bireysel kas kasılmalarından oluşsa bile, insanlar bu öğrenilmiş bileşenleri sıralayarak yeni görevleri hızla öğrenebilirler.
Öte yandan, günümüzün takviyeli öğrenme yöntemleri, düşük seviyeli eylemler üzerinde kapsamlı deneme yanılma yaklaşımıyla çalışıyor ve yeni bir görevin yerine getirilmesi için muazzam sayıda deneme yapılmasını gerektiriyor. Bu nedenle, çok fazla ayrık zaman adımı gerektiren görevlerin yerine getirilmesinde bu yöntemler oldukça verimsiz hale geliyor.
Çözümümüz, ajanların karmaşık davranışları kısa bir üst düzey eylemler dizisi olarak temsil ettiği hiyerarşik takviyeli öğrenme yaklaşımına dayanıyor. Bu yaklaşım, ajanlarımızın çok daha zor görevleri tamamlamasını sağlıyor: bir çözüm 2000 düşük düzey eylem gerektirse bile, hiyerarşik politika bu süreci 10 üst düzey eylem dizisine indirgiyor. Dolayısıyla, 2000 adımlık bir dizide arama yapmaktansa, 10 adımlık bir dizide arama yapmak çok daha verimli oluyor.

Paylaşılan hiyerarşilerin meta öğrenimi (MLSH) adındaki algoritmamız, bir ana politikanın bir dizi alt politika arasında geçiş yaptığı hiyerarşik bir politikayı öğrenir. Ana politika her N ayrık zaman adımında bir eylem seçer; örneğin burada N’yi 200 olarak kabul edebiliriz. N ayrık zaman adımı boyunca yürütülen bir alt politika üst düzey bir eylemi oluşturur; bu alt politikalar yön bulma görevlerimizde farklı yönlerde yürümeye veya sürünmeye karşılık gelir.
Önceki çalışmaların çoğunda, hiyerarşik politikalar açık bir şekilde elle tasarlandı. Bundan farklı olarak, biz bu hiyerarşik yapıyı çevre ile etkileşim yoluyla otomatik olarak keşfetmeyi hedefliyoruz. Meta öğrenme perspektifinden bakarak, iyi bir hiyerarşiyi, daha önce karşılaşılmamış görevler üzerinde eğitim yaparken hedefine verimli ve hızlı bir şekilde ulaşan bir hiyerarşi olarak tanımlıyoruz. Dolayısıyla, MLSH algoritması daha önce karşılaşılmamış görevler üzerinde hızlı öğrenmeyi mümkün kılan alt politikaları öğrenmeyi amaçlıyor.
Her örneklenen görevde yeni bir ana politika öğrenirken alt politikaları paylaşarak, farklı görevler arasında bir dağılım üzerinde eğitim yapıyoruz. Yeni ana politikaların tekrar tekrar eğitilmesi sayesinde, bu süreç ana politikanın öğrenme dinamiklerine uygun alt politikaları kendiliğinden keşfeder.
AntMaze ortamımızda, bir Mujoco Ant robotu 9 farklı labirentten oluşan bir dağılıma yerleştirilir ve başlangıç konumundan hedefe gitmesi istenir. Algoritmamız, sadece çevreyle etkileşim kurarak, labirent görevlerini çözmek için birlikte sıralanabilen ve çeşitlilik sergileyen bir alt politikalar kümesini başarıyla keşfediyor. Bunun ardından bu alt politikalar kümesi, eğitildikleri görevlerden daha büyük bir görevin üstesinden gelmek için kullanılabilir (yazının başındaki videoyu bakınız).
Hem MLSH ajanlarını eğitmek için gerekli kodu(yeni bir pencerede açılır) hem de bu algoritmaları değerlendirmek amacıyla geliştirdiğimiz MuJoCo ortamlarını erişime açıyoruz.


