Langsung ke konten utama
OpenAI
Memuat…

Kami telah mengembangkan algoritma pembelajaran penguatan hierarkis yang mempelajari tindakan tingkat tinggi yang berguna untuk menyelesaikan beragam tugas, sehingga memungkinkan penyelesaian cepat untuk tugas-tugas yang memerlukan ribuan langkah waktu. Algoritma kami, saat diterapkan pada serangkaian masalah navigasi, mampu menemukan serangkaian tindakan tingkat tinggi untuk berjalan dan merangkak ke berbagai arah, yang memungkinkan agen untuk menguasai tugas navigasi baru dengan cepat.

Manusia menyelesaikan tantangan rumit dengan memecahnya menjadi komponen-komponen kecil yang mudah dikelola. Memasak panekuk terdiri dari serangkaian tindakan tingkat tinggi, seperti mengukur tepung, mengocok telur, memindahkan adonan ke dalam wajan, menyalakan kompor, dan seterusnya. Manusia mampu mempelajari tugas-tugas baru dengan cepat dengan menyusun komponen-komponen yang telah dipelajari ini, meskipun tugas tersebut mungkin membutuhkan jutaan tindakan tingkat rendah, seperti kontraksi otot individu.

Di sisi lain, metode pembelajaran penguatan saat ini beroperasi melalui pencarian 'brute force' pada tindakan tingkat rendah, sehingga membutuhkan upaya yang sangat banyak untuk menyelesaikan tugas baru. Metode ini menjadi sangat tidak efisien untuk menyelesaikan tugas-tugas yang memerlukan banyak langkah waktu.

Solusi kami didasarkan pada ide pembelajaran penguatan hierarkis, di mana agen merepresentasikan perilaku rumit sebagai urutan singkat dari tindakan tingkat tinggi. Ini memungkinkan agen kami menyelesaikan tugas yang jauh lebih sulit: sementara solusinya mungkin membutuhkan 2000 tindakan tingkat rendah, kebijakan hierarkis mengubahnya menjadi urutan 10 langkah tingkat tinggi, yang jauh lebih efisien untuk dicari dibandingkan urutan 2000 langkah.

Algoritma meta-learning shared hierarchies

Diagram alur pengamatan yang menjalani proses kebijakan dan diubah menjadi tindakan

Algoritma kami, meta-learning shared hierarchies (MLSH), mempelajari kebijakan hierarkis di mana kebijakan utama beralih di antara serangkaian sub-kebijakan. Kebijakan utama memilih tindakan setiap N langkah waktu, di mana N bisa ditetapkan sebesar 200. Sub-kebijakan yang dieksekusi selama N langkah waktu akan membentuk tindakan tingkat tinggi, dan untuk tugas navigasi kami, sub-kebijakan ini sesuai dengan berjalan atau merangkak ke berbagai arah.

Dalam sebagian besar penelitian sebelumnya, kebijakan hierarkis telah direkayasa secara manual. Sebagai gantinya, kami berupaya menemukan struktur hierarkis ini secara otomatis melalui interaksi dengan lingkungan. Dengan mengambil perspektif meta-pembelajaran, kami mendefinisikan hierarki yang baik sebagai hierarki yang mampu mencapai imbalan tinggi dengan cepat saat dilatih pada tugas-tugas yang belum pernah terlihat sebelumnya. Oleh karena itu, algoritma MLSH bertujuan untuk mempelajari sub-kebijakan yang memungkinkan pembelajaran yang cepat pada tugas-tugas yang belum pernah terlihat sebelumnya.

Kami melatih model pada distribusi tugas, membagi sub-kebijakan sambil mempelajari kebijakan utama baru pada setiap tugas yang dipilih secara acak. Dengan melatih kebijakan utama baru secara berulang, proses ini secara otomatis menemukan sub-kebijakan yang sesuai dengan dinamika pembelajaran kebijakan utama.

Eksperimen

Memuat...

Dalam lingkungan AntMaze kami, sebuah robot Mujoco Ant ditempatkan dalam distribusi 9 labirin berbeda dan harus menavigasi dari posisi awal menuju tujuan. Algoritma kami berhasil menemukan serangkaian sub-kebijakan yang beragam yang dapat disusun secara berurutan untuk menyelesaikan tugas labirin, murni melalui interaksi dengan lingkungan. Kumpulan sub-kebijakan ini kemudian dapat digunakan untuk menguasai tugas yang lebih besar dari yang menjadi dasar pelatihannya (lihat video di awal postingan).

Memuat...

Kode

Kami merilis kode(terbuka di jendela baru) untuk melatih agen MLSH, serta lingkungan MuJoCo yang kami bangun untuk mengevaluasi algoritma ini.

Penulis

Kevin Frans, Jonathan Ho, Peter Chen, Pieter Abbeel