26 Ekim 2017

Bir hiyerarşiyi öğrenmek

Yükleniyor...

Bir dizi görevi çözmede işe yarayan üst düzey eylemleri öğrenen ve binlerce ayrık zaman adımı gerektiren görevlerin hızlıca yerine getirilmesini sağlayan hiyerarşik bir takviye öğrenme algoritması geliştirdik. Algoritmamız, bir dizi yön bulma sorununa uygulandığında, farklı yönlerde yürüme ve sürünme için üst düzey eylemler keşfeder ve böylece ajanın yeni yön bulma görevlerinde hızla ustalaşmasına olanak tanır.

İnsanlar, karmaşık problemleri küçük ve yönetilebilir parçalara ayırarak çözerler. Krep yapma süreci, unu ölçmek, yumurtaları çırpmak, karışımı tavaya dökmek, ocağı açmak gibi bir dizi üst düzey eylemden oluşur. Bir görev milyonlarca düşük seviyeli eylemden, yani bireysel kas kasılmalarından oluşsa bile, insanlar bu öğrenilmiş bileşenleri sıralayarak yeni görevleri hızla öğrenebilirler.

Öte yandan, günümüzün takviyeli öğrenme yöntemleri, düşük seviyeli eylemler üzerinde kapsamlı deneme yanılma yaklaşımıyla çalışıyor ve yeni bir görevin yerine getirilmesi için muazzam sayıda deneme yapılmasını gerektiriyor. Bu nedenle, çok fazla ayrık zaman adımı gerektiren görevlerin yerine getirilmesinde bu yöntemler oldukça verimsiz hale geliyor.

Çözümümüz, ajanların karmaşık davranışları kısa bir üst düzey eylemler dizisi olarak temsil ettiği hiyerarşik takviyeli öğrenme yaklaşımına dayanıyor. Bu yaklaşım, ajanlarımızın çok daha zor görevleri tamamlamasını sağlıyor: bir çözüm 2000 düşük düzey eylem gerektirse bile, hiyerarşik politika bu süreci 10 üst düzey eylem dizisine indirgiyor. Dolayısıyla, 2000 adımlık bir dizide arama yapmaktansa, 10 adımlık bir dizide arama yapmak çok daha verimli oluyor.

Paylaşılan hiyerarşilerin meta öğrenimi

Politika sürecinden geçerek eyleme dönüşen gözlemlerin akış diyagramı

Paylaşılan hiyerarşilerin meta öğrenimi (MLSH) adındaki algoritmamız, bir ana politikanın bir dizi alt politika arasında geçiş yaptığı hiyerarşik bir politikayı öğrenir. Ana politika her N ayrık zaman adımında bir eylem seçer; örneğin burada N’yi 200 olarak kabul edebiliriz. N ayrık zaman adımı boyunca yürütülen bir alt politika üst düzey bir eylemi oluşturur; bu alt politikalar yön bulma görevlerimizde farklı yönlerde yürümeye veya sürünmeye karşılık gelir.

Önceki çalışmaların çoğunda, hiyerarşik politikalar açık bir şekilde elle tasarlandı. Bundan farklı olarak, biz bu hiyerarşik yapıyı çevre ile etkileşim yoluyla otomatik olarak keşfetmeyi hedefliyoruz. Meta öğrenme perspektifinden bakarak, iyi bir hiyerarşiyi, daha önce karşılaşılmamış görevler üzerinde eğitim yaparken hedefine verimli ve hızlı bir şekilde ulaşan bir hiyerarşi olarak tanımlıyoruz. Dolayısıyla, MLSH algoritması daha önce karşılaşılmamış görevler üzerinde hızlı öğrenmeyi mümkün kılan alt politikaları öğrenmeyi amaçlıyor.

Her örneklenen görevde yeni bir ana politika öğrenirken alt politikaları paylaşarak, farklı görevler arasında bir dağılım üzerinde eğitim yapıyoruz. Yeni ana politikaların tekrar tekrar eğitilmesi sayesinde, bu süreç ana politikanın öğrenme dinamiklerine uygun alt politikaları kendiliğinden keşfeder.

Deneyler

Yükleniyor...

AntMaze ortamımızda, bir Mujoco Ant robotu 9 farklı labirentten oluşan bir dağılıma yerleştirilir ve başlangıç konumundan hedefe gitmesi istenir. Algoritmamız, sadece çevreyle etkileşim kurarak, labirent görevlerini çözmek için birlikte sıralanabilen ve çeşitlilik sergileyen bir alt politikalar kümesini başarıyla keşfediyor. Bunun ardından bu alt politikalar kümesi, eğitildikleri görevlerden daha büyük bir görevin üstesinden gelmek için kullanılabilir (yazının başındaki videoyu bakınız).

Yükleniyor...

Kod

Hem MLSH ajanlarını eğitmek için gerekli kodu⁠(yeni bir pencerede açılır) hem de bu algoritmaları değerlendirmek amacıyla geliştirdiğimiz MuJoCo ortamlarını erişime açıyoruz.

Yazarlar

Kevin Frans, Jonathan Ho, Peter Chen, Pieter Abbeel

İlgili makaleler

Tümünü görüntüle

Scaling laws for reward model overoptimization

Yayın19 Eki 2022

Learning to play Minecraft with Video PreTraining

Sonuç23 Haz 2022

Dota 2 with large scale deep reinforcement learning

Yayın13 Ara 2019