အဆင့်လိုက် ဖွဲ့စည်းပုံကို သင်ယူခြင်း

ကျွန်ုပ်တို့သည် လုပ်ငန်းတာဝန်မျိုးစုံကို ဖြေရှင်းရာတွင် အသုံးဝင်သော အဆင့်မြင့်လုပ်ဆောင်ချက်များကို သင်ယူနိုင်သည့် အဆင့်လိုက် အားဖြည့် သင်ယူလေ့လာခြင်း algorithm တစ်ခုကို ဖန်တီးထားပြီး၊ timestep ထောင်ချီလိုအပ်သော လုပ်ငန်းတာဝန်များကို လျင်မြန်စွာ ဖြေရှင်းနိုင်စေပါသည်။ ကျွန်ုပ်တို့၏ algorithm ကို လမ်းကြောင်းရှာဖွေရေး ပြဿနာအစုတစ်ခုတွင် အသုံးပြုလိုက်သောအခါ၊ မတူညီသော ဦးတည်ချက်များအလိုက် လမ်းလျှောက်ခြင်းနှင့် တွားသွားခြင်းအတွက် အဆင့်မြင့်လုပ်ဆောင်ချက်အစုတစ်ခုကို ရှာဖွေတွေ့ရှိခဲ့ပြီး၊ ၎င်းက အေးဂျင့် အား လမ်းကြောင်းရှာဖွေရေး လုပ်ငန်းတာဝန်အသစ်များကို လျင်မြန်စွာ ကျွမ်းကျင်အောင် လုပ်ဆောင်နိုင်စေပါသည်။
လူသားများသည် ရှုပ်ထွေးသော စိန်ခေါ်မှုများကို သေးငယ်ပြီး စီမံခန့်ခွဲရလွယ်သော အစိတ်အပိုင်းများအဖြစ် ခွဲထုတ်ကာ ဖြေရှင်းကြသည်။ ပန်ကိတ်လုပ်ခြင်းတွင် ဂျုံမှုန့်တိုင်းတာခြင်း၊ ဥကို ခလောက်ခြင်း၊ ရောစပ်ထားသောအရည်ကို ဒယ်အိုးထဲသို့ လောင်းထည့်ခြင်း၊ မီးဖိုဖွင့်ခြင်း စသည့် အဆင့်မြင့်လုပ်ဆောင်ချက်များ အစဉ်လိုက် ပါဝင်သည်။ လူသားများသည် သင်ယူထားပြီးသော ဤအစိတ်အပိုင်းများကို အစဉ်လိုက် ချိတ်ဆက်ခြင်းဖြင့် task အသစ်များကို လျင်မြန်စွာ သင်ယူနိုင်ကြပြီး၊ ထို task သည် low-level action သန်းပေါင်းများစွာ၊ ဆိုလိုသည်မှာ တစ်ခုချင်းစီသော ကြွက်သားကျုံ့မှုများ လိုအပ်နိုင်သော်လည်း ထိုသို့ လုပ်ဆောင်နိုင်ပါသည်။
တစ်ဖက်တွင် ယနေ့ခေတ် အားဖြည့် သင်ယူလေ့လာခြင်း နည်းလမ်းများသည် low-level action များအပေါ် brute force search ပြုလုပ်ခြင်းဖြင့် လုပ်ဆောင်နေသောကြောင့် task အသစ်တစ်ခုကို ဖြေရှင်းရန် ကြိုးပမ်းမှု အရေအတွက် အလွန်များပြားစွာ လိုအပ်ပါသည်။ ဤနည်းလမ်းများသည် timestep အရေအတွက် များစွာလိုအပ်သော task များကို ဖြေရှင်းရာတွင် အလွန် ထိရောက်မှုနည်းသွားပါသည်။
ကျွန်ုပ်တို့၏ ဖြေရှင်းနည်းသည် အဆင့်လိုက် အားဖြည့် သင်ယူလေ့လာခြင်း အယူအဆအပေါ် အခြေခံထားပြီး၊ ထိုနေရာတွင် အေးဂျင့် များက ရှုပ်ထွေးသော အပြုအမူများကို အဆင့်မြင့်လုပ်ဆောင်ချက်တိုတောင်းသော အစဉ်တစ်ခုအဖြစ် ကိုယ်စားပြုပါသည်။ ၎င်းကြောင့် ကျွန်ုပ်တို့၏ အေးဂျင့် များသည် ပိုမိုခက်ခဲသော task များကို ဖြေရှင်းနိုင်လာသည်။ ဥပမာ ဖြေရှင်းချက်တွင် low-level action 2000 လိုအပ်နိုင်သော်လည်း hierarchical policy က ၎င်းကို အဆင့်မြင့်လုပ်ဆောင်ချက် 10 ခုပါသော အစဉ်တစ်ခုအဖြစ် ပြောင်းလဲပေးပြီး 2000-step sequence ထက် 10-step sequence အပေါ် search လုပ်ရခြင်းက ပိုမိုထိရောက်ပါသည်။

ကျွန်ုပ်တို့၏ algorithm ဖြစ်သော shared hierarchies ကို meta-learning လုပ်ခြင်း (MLSH) သည် master policy က sub-policy အစုတစ်ခုအကြား ပြောင်းလဲရွေးချယ်ပေးသော အဆင့်လိုက် policy တစ်ခုကို သင်ယူပါသည်။ Master သည် N timesteps တိုင်းတွင် action တစ်ခုကို ရွေးချယ်ပြီး N=200 ဟု ယူနိုင်ပါသည်။ N timesteps အတွက် လည်ပတ်သော sub-policy တစ်ခုသည် အဆင့်မြင့် action တစ်ခုအဖြစ် ဖွဲ့စည်းလာပြီး၊ ကျွန်ုပ်တို့၏ navigation task များတွင် sub-policy များသည် မတူညီသော ဦးတည်ချက်များအတိုင်း လမ်းလျှောက်ခြင်း သို့မဟုတ် တွားသွားခြင်းနှင့် ကိုက်ညီပါသည်။
ယခင်လုပ်ငန်းများအများစုတွင် အဆင့်လိုက် policy များကို လက်ဖြင့် အတိအလင်း ဒီဇိုင်းဆွဲထားခဲ့ပါသည်။ ထိုအစား ကျွန်ုပ်တို့သည် ပတ်ဝန်းကျင်နှင့် အပြန်အလှန်ဆက်သွယ်ခြင်းမှတစ်ဆင့် ဤအဆင့်လိုက် ဖွဲ့စည်းပုံကို အလိုအလျောက် ရှာဖွေတွေ့ရှိရန် ရည်ရွယ်ပါသည်။ Meta-learning ရှုထောင့်မှ ကြည့်လျှင် ကောင်းမွန်သော hierarchy ဆိုသည်မှာ မမြင်ဖူးသေးသော task များပေါ်တွင် training လုပ်စဉ် reward မြင့်မားမှုကို လျင်မြန်စွာ ရောက်ရှိစေသော hierarchy ဖြစ်သည်ဟု ကျွန်ုပ်တို့ သတ်မှတ်ပါသည်။ ထို့ကြောင့် MLSH algorithm သည် ယခင်က မမြင်ဖူးသေးသော task များတွင် လျင်မြန်စွာ သင်ယူနိုင်စေမည့် sub-policy များကို သင်ယူရန် ရည်ရွယ်ပါသည်။
ကျွန်ုပ်တို့သည် task များအပေါ် distribution တစ်ခုဖြင့် training လုပ်ကာ sampled task တစ်ခုချင်းစီတွင် master policy အသစ်တစ်ခုကို သင်ယူနေစဉ် sub-policy များကို မျှဝေ အသုံးပြုပါသည်။ Master policy အသစ်များကို ထပ်တလဲလဲ training လုပ်ခြင်းအားဖြင့် ဤလုပ်ငန်းစဉ်သည် master policy ၏ learning dynamics နှင့် ကိုက်ညီသော sub-policy များကို အလိုအလျောက် ရှာဖွေတွေ့ရှိပေးပါသည်။
ကျွန်ုပ်တို့၏ AntMaze environment တွင် Mujoco Ant robot တစ်ခုကို မတူညီသော maze ၉ ခုပါသော distribution တစ်ခုအတွင်း ထားရှိပြီး စတင်နေရာမှ ပန်းတိုင်သို့ သွားရောက် လမ်းကြောင်းရှာရပါသည်။ ကျွန်ုပ်တို့၏ algorithm သည် ပတ်ဝန်းကျင်နှင့် အပြန်အလှန်ဆက်သွယ်မှုတစ်ခုတည်းမှသာ maze task များကို ဖြေရှင်းရန် အစဉ်လိုက် ချိတ်ဆက်အသုံးပြုနိုင်သော မတူကွဲပြားသည့် sub-policy အစုတစ်ခုကို အောင်မြင်စွာ ရှာဖွေတွေ့ရှိနိုင်ပါသည်။ ထို့နောက် ဤ sub-policy အစုကို ၎င်းတို့ training လုပ်ခဲ့သော task များထက် ပိုကြီးသော task တစ်ခုကို ကျွမ်းကျင်စွာ ဖြေရှင်းရန် အသုံးပြုနိုင်ပါသည် (post ၏ အစပိုင်းရှိ video ကို ကြည့်ပါ)။
ကျွန်ုပ်တို့သည် MLSH အေးဂျင့် များကို training လုပ်ရန် code(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) နှင့် ဤ algorithm များကို အကဲဖြတ်ရန် ကျွန်ုပ်တို့ တည်ဆောက်ခဲ့သော MuJoCo environment များကို ထုတ်ပြန်ပေးနေပါသည်။


