Liwati menyang isi utama
OpenAI
Lagi dimuat…

Kita wis ngembangake algoritma sinau penguatan hierarkis sing sinau aksi tingkat dhuwur sing migunani kanggo ngrampungake macem-macem tugas, saéngga tugas sing mbutuhake ewonan timestep bisa dirampungake kanthi cepet. Nalika ditrapake ing sakumpulan masalah navigasi, algoritma kita nemokake sakumpulan aksi tingkat dhuwur kanggo mlaku lan merangkak ing arah sing beda-beda, sing ndadekake agen bisa nguwasani tugas navigasi anyar kanthi cepet.

Manungsa ngrampungake tantangan sing rumit kanthi mecah dadi komponen cilik sing gampang ditangani. Manggang pancake dumadi saka runtutan aksi tingkat dhuwur, kayata ngukur glepung, ngocok endhog, mindhah adonan menyang wajan, nguripake kompor, lan sapiturute. Manungsa bisa sinau tugas anyar kanthi cepet kanthi ngronce komponen sing wis disinaoni iki, sanajan tugas kasebut bisa mbutuhake yuta-yuta aksi tingkat rendah, yaiku kontraksi otot individu.

Ing sisih liya, metode sinau penguatan saiki mlaku liwat telusur kasar marang aksi tingkat rendah, lan mbutuhake upaya sing gedhe banget kanggo ngrampungake tugas anyar. Metode iki dadi ora efisien banget kanggo ngrampungake tugas sing mbutuhake timestep akeh.

Solusi kita adhedhasar gagasan sinau penguatan hierarkis, ing ngendi agen makili prilaku rumit minangka runtutan cekak saka aksi tingkat dhuwur. Iki ndadekake agen kita bisa ngrampungake tugas sing luwih angel: sanajan solusine mbutuhake 2000 aksi tingkat rendah, kabijakan hierarkis ngowahi iki dadi runtutan 10 aksi tingkat dhuwur, lan nggoleki runtutan 10 langkah kasebut luwih efisien tinimbang runtutan 2000 langkah.

Meta-learning shared hierarchies

Flow diagram of observations undergoing policy and converting to action

Algoritma kita, meta-learning shared hierarchies (MLSH), sinau kabijakan hierarkis sing kabijakan utamane ngalih antarane sakumpulan sub-kabijakan. Kabijakan utama milih aksi saben N timestep, sing bisa wae N=200. Sub-kabijakan sing dieksekusi sajrone N timestep dadi sawijining aksi tingkat dhuwur, lan kanggo tugas navigasi kita, sub-kabijakan cocog karo mlaku utawa merangkak ing arah sing beda-beda.

Ing akèh karya sadurunge, kabijakan hierarkis direkayasa tangan kanthi eksplisit. Nanging, tujuan kita yaiku nemokake struktur hierarkis iki kanthi otomatis liwat interaksi karo lingkungan. Kanthi njupuk perspektif meta-learning, kita nemtokake hierarki sing apik minangka hierarki sing cepet nggayuh ganjaran dhuwur nalika dilatih ing tugas sing durung tau dideleng. Mula, algoritma MLSH nduweni tujuan sinau sub-kabijakan sing ndadekake sinau cepet ing tugas sing sadurunge durung tau dideleng.

Kita latihan ing distribusi tugas, nuduhake sub-kabijakan nalika sinau kabijakan utama anyar ing saben tugas sing disampel. Kanthi bola-bali nglatih kabijakan utama anyar, proses iki kanthi otomatis nemokake sub-kabijakan sing selaras karo dinamika sinau kabijakan utama.

Eksperimen

Lagi dimuat...

Ing lingkungan AntMaze kita, robot Mujoco Ant dilebokake menyang distribusi 9 labirin sing beda lan kudu navigasi saka posisi wiwitan menyang tujuan. Algoritma kita kasil nemokake sakumpulan sub-kabijakan sing manéka warna sing bisa dironce bebarengan kanggo ngrampungake tugas labirin, mung liwat interaksi karo lingkungan. Sakumpulan sub-kabijakan iki banjur bisa digunakake kanggo nguwasani tugas sing luwih gedhe tinimbang tugas sing dadi data latihe (delengen video ing wiwitan kiriman).

Lagi dimuat...

Kode

Kita ngluncurake kode(mbukak ing jendhela anyar) kanggo nglatih agen MLSH, uga lingkungan MuJoCo sing kita gawe kanggo ngevaluasi algoritma iki.

Panulis

Kevin Frans, Jonathan Ho, Peter Chen, Pieter Abbeel