26 अक्टूबर 2017

एक हायरार्की सीखना

लोड किया जा रहा है...

हमने एक हायरार्की वाले रीइंफ़ोर्समेंट लर्निंग का एल्गोरिदम डेवलप किया है जो बहुत सारे टास्क को हल करने के लिए मददगार हाई-लेवल एक्शन को सीखता है, जिससे हज़ारों टाइमस्टेप्स की ज़रुरत वाले टास्क को तेज़ी से हल करना मुमकिन हो जाता है. हमारा एल्गोरिदम, जब नेविगेशन प्रॉब्लम्स के एक सेट पर लागू होता है, तो अलग-अलग दिशाओं में चलने और रेंगने के लिए हाई-लेवल एक्शन का एक सेट खोजता है, जिससे एजेंट नए नेविगेशन टास्क में जल्दी से महारत हासिल कर पाते हैं.

मनुष्य बेहद मुश्किल चुनौतियों को छोटे, मैनेज करने लायक कॉम्पोनेन्ट्स में ब्रेक करके हल करते हैं. पैनकेक्स को ग्रिल करने में कई हाई-लेवल के एक्शन शामिल होते हैं, जैसे आटा मापना, अंडे को फ़ेंटना, मिक्सचर को पैन में ट्रांसफ़र करना, स्टोव चालू करना, इत्यादि. मनुष्य इन सीखे हुए कॉम्पोनेन्ट्स को एक साथ जोड़कर तेज़ी से नए टास्क सीख सकते हैं, भले ही टास्क में लाखों कम-लेवल के एक्शन, यानी व्यक्तिगत मांसपेशियों के कॉन्ट्रैक्शन की ज़रुरत हो.

दूसरी ओर, आज की रीइंफ़ोर्समेंट लर्निंग के तरीके कम-लेवल के एक्शन पर रीइंफ़ोर्समेंट लर्निंग के ज़रिए काम करते हैं, जिसमें किसी नए टास्क को हल करने के लिए भारी संख्या में अटेम्पट्स की ज़रुरत होती है. ये तरीके उन टास्क को हल करने में बहुत बेकार हो जाते हैं जिनमें बड़ी संख्या में टाइम-स्टेप्स लगते हैं.

हमारा सोल्युशन हायरार्की वाले रीइंफ़ोर्समेंट लर्निंग के विचार पर आधारित है, जहां एजेंट बेहद मुश्किल बिहेवियर्स को हाई-लेवल के एक्शन के एक छोटे सीक्वेंस के तौर पर लाते हैं. इससे हमारे एजेंट बहुत मुश्किल टास्क को हल कर सकते हैं: जबकि सॉल्युशन के लिए 2000 कम-लेवल के एक्शन की ज़रुरत हो सकती है, हायरार्की वाली पॉलिसी इसे 10 हाई-लेवल के एक्शन के सीक्वेंस में बदल देती है, और 2000-स्टेप सीक्वेंस के मुकाबले 10-स्टेप के सीक्वेंस पर सर्च करना ज़्यादा अच्छा है.

मेटा-लर्निंग शेयर्ड हायरार्की

पॉलिसी ऑब्ज़र्वेशन और उसे एक्शन में बदलने का फ़्लो डायग्राम

हमारा एल्गोरिदम, मेटा-लर्निंग शेयर्ड हायरार्की (MLSH), एक हायरार्की पॉलिसी सीखता है जहां एक मास्टर पॉलिसी के नीचे एक सब-पॉलिसी के एक सेट के बीच स्विच करती है. मास्टर प्रत्येक N टाइम-स्टेप्स पर एक एक्शन चुनता है, जहां हम N=200 ले सकते हैं. N टाइमस्टेप्स के लिए एक्सीक्यूट की गई एक सब-पॉलिसी एक हाई-लेवल एक्शन का गठन करती है, और हमारे नेविगेशन टास्क के लिए, सब-पॉलिसी अलग दिशाओं में चलने या रेंगने का काम करती हैं.

ज़्यादातर पहले के काम में, हायरार्की वाली पॉलिसी को स्पष्ट तरीके से हाथ से इंजिनियर किया गया है. इसके बजाय, हमारा लक्ष्य एन्वायर्नमेंट के साथ इंटरैक्शन के ज़रिए अपने आप इस हायरार्की वाली स्ट्रक्चर को एक्सप्लोर करना है. मेटा-लर्निंग के नज़रिए से, हम एक अच्छे हायरार्की को इस प्रकार दिखाते हैं कि वो हायरार्की अनदेखे टास्क पर ट्रेनिंग के दौरान जल्दी से बड़े पुरस्कार तक पहुंच जाता है. इसलिए, MLSH एल्गोरिदम का लक्ष्य सब-पॉलिसी को सीखना है जो पहले से अनदेखे टास्क पर तेज़ी से सीखने में मदद करती हैं.

हम टास्क के डिस्ट्रीब्यूशन पर ट्रेनिंग देते हैं, हरेक सैंपल किए गए टास्क पर एक नई मास्टर पॉलिसी सीखते हुए सब-पॉलिसी को शेयर करते हैं. नई मास्टर पॉलिसी को बार-बार ट्रेन करके, ये प्रोसेस अपने आप सब-पॉलिसी ढूंढती है जो मास्टर पॉलिसी के लर्निंग डायनामिक्स को जगह देती हैं.

प्रयोग

लोड किया जा रहा है...

हमारे AntMaze एन्वायर्नमेंट में, एक Mujoco Ant रोबोट को 9 अलग-अलग मेज़ में रखा जाता है और उसे स्टार्टिंग पोज़ीशन से लक्ष्य तक नेविगेट करना होता है. हमारा एल्गोरिदम सफ़लतापूर्वक सब-पॉलिसी का एक बड़ा सेट ढूंढ सकता है, जिन्हें एन्वायर्नमेंट के साथ बातचीत के ज़रिए मेज़ वाले टास्क को हल करने के लिए एक साथ सीक्वेंस मे किया जा सकता है. सब-पॉलिसी के इस सेट का इस्तेमाल उन टास्क के मुकाबले बड़े टास्क में महारत हासिल करने के लिए किया जा सकता है जिन पर उन्हें ट्रेन किया गया था (पोस्ट की शुरुआत में मौजूद वीडियो देखें).

लोड किया जा रहा है...

कोड

हम MLSH एजेंट्स को ट्रेन करने के लिए कोड⁠(एक नई विंडो में खुलेगा) रिलीज़ कर रहे हैं, साथ ही इन एल्गोरिदम का एवैल्युएट करने के लिए हमने जो MuJoCo एन्वायर्नमेंट बनाया है.

लेखक

Kevin Frans, Jonathan Ho, Peter Chen और Pieter Abbeel

एक हायरार्की सीखना

मेटा-लर्निंग शेयर्ड हायरार्की

प्रयोग

कोड

लेखक

संबंधित आर्टिकल