၂၀၁၇ အောက်တိုဘာ ၂၆

အဆင့်လိုက် ဖွဲ့စည်းပုံကို သင်ယူခြင်း

ဖွင့်နေသည်…

ကျွန်ုပ်တို့သည် လုပ်ငန်းတာဝန်မျိုးစုံကို ဖြေရှင်းရာတွင် အသုံးဝင်သော အဆင့်မြင့်လုပ်ဆောင်ချက်များကို သင်ယူနိုင်သည့် အဆင့်လိုက် အားဖြည့် သင်ယူလေ့လာခြင်း algorithm တစ်ခုကို ဖန်တီးထားပြီး၊ timestep ထောင်ချီလိုအပ်သော လုပ်ငန်းတာဝန်များကို လျင်မြန်စွာ ဖြေရှင်းနိုင်စေပါသည်။ ကျွန်ုပ်တို့၏ algorithm ကို လမ်းကြောင်းရှာဖွေရေး ပြဿနာအစုတစ်ခုတွင် အသုံးပြုလိုက်သောအခါ၊ မတူညီသော ဦးတည်ချက်များအလိုက် လမ်းလျှောက်ခြင်းနှင့် တွားသွားခြင်းအတွက် အဆင့်မြင့်လုပ်ဆောင်ချက်အစုတစ်ခုကို ရှာဖွေတွေ့ရှိခဲ့ပြီး၊ ၎င်းက အေးဂျင့် အား လမ်းကြောင်းရှာဖွေရေး လုပ်ငန်းတာဝန်အသစ်များကို လျင်မြန်စွာ ကျွမ်းကျင်အောင် လုပ်ဆောင်နိုင်စေပါသည်။

လူသားများသည် ရှုပ်ထွေးသော စိန်ခေါ်မှုများကို သေးငယ်ပြီး စီမံခန့်ခွဲရလွယ်သော အစိတ်အပိုင်းများအဖြစ် ခွဲထုတ်ကာ ဖြေရှင်းကြသည်။ ပန်ကိတ်လုပ်ခြင်းတွင် ဂျုံမှုန့်တိုင်းတာခြင်း၊ ဥကို ခလောက်ခြင်း၊ ရောစပ်ထားသောအရည်ကို ဒယ်အိုးထဲသို့ လောင်းထည့်ခြင်း၊ မီးဖိုဖွင့်ခြင်း စသည့် အဆင့်မြင့်လုပ်ဆောင်ချက်များ အစဉ်လိုက် ပါဝင်သည်။ လူသားများသည် သင်ယူထားပြီးသော ဤအစိတ်အပိုင်းများကို အစဉ်လိုက် ချိတ်ဆက်ခြင်းဖြင့် task အသစ်များကို လျင်မြန်စွာ သင်ယူနိုင်ကြပြီး၊ ထို task သည် low-level action သန်းပေါင်းများစွာ၊ ဆိုလိုသည်မှာ တစ်ခုချင်းစီသော ကြွက်သားကျုံ့မှုများ လိုအပ်နိုင်သော်လည်း ထိုသို့ လုပ်ဆောင်နိုင်ပါသည်။

တစ်ဖက်တွင် ယနေ့ခေတ် အားဖြည့် သင်ယူလေ့လာခြင်း နည်းလမ်းများသည် low-level action များအပေါ် brute force search ပြုလုပ်ခြင်းဖြင့် လုပ်ဆောင်နေသောကြောင့် task အသစ်တစ်ခုကို ဖြေရှင်းရန် ကြိုးပမ်းမှု အရေအတွက် အလွန်များပြားစွာ လိုအပ်ပါသည်။ ဤနည်းလမ်းများသည် timestep အရေအတွက် များစွာလိုအပ်သော task များကို ဖြေရှင်းရာတွင် အလွန် ထိရောက်မှုနည်းသွားပါသည်။

ကျွန်ုပ်တို့၏ ဖြေရှင်းနည်းသည် အဆင့်လိုက် အားဖြည့် သင်ယူလေ့လာခြင်း အယူအဆအပေါ် အခြေခံထားပြီး၊ ထိုနေရာတွင် အေးဂျင့် များက ရှုပ်ထွေးသော အပြုအမူများကို အဆင့်မြင့်လုပ်ဆောင်ချက်တိုတောင်းသော အစဉ်တစ်ခုအဖြစ် ကိုယ်စားပြုပါသည်။ ၎င်းကြောင့် ကျွန်ုပ်တို့၏ အေးဂျင့် များသည် ပိုမိုခက်ခဲသော task များကို ဖြေရှင်းနိုင်လာသည်။ ဥပမာ ဖြေရှင်းချက်တွင် low-level action 2000 လိုအပ်နိုင်သော်လည်း hierarchical policy က ၎င်းကို အဆင့်မြင့်လုပ်ဆောင်ချက် 10 ခုပါသော အစဉ်တစ်ခုအဖြစ် ပြောင်းလဲပေးပြီး 2000-step sequence ထက် 10-step sequence အပေါ် search လုပ်ရခြင်းက ပိုမိုထိရောက်ပါသည်။

shared hierarchies ကို Meta-learning လုပ်ခြင်း

Flow diagram of observations undergoing policy and converting to action

ကျွန်ုပ်တို့၏ algorithm ဖြစ်သော shared hierarchies ကို meta-learning လုပ်ခြင်း (MLSH) သည် master policy က sub-policy အစုတစ်ခုအကြား ပြောင်းလဲရွေးချယ်ပေးသော အဆင့်လိုက် policy တစ်ခုကို သင်ယူပါသည်။ Master သည် N timesteps တိုင်းတွင် action တစ်ခုကို ရွေးချယ်ပြီး N=200 ဟု ယူနိုင်ပါသည်။ N timesteps အတွက် လည်ပတ်သော sub-policy တစ်ခုသည် အဆင့်မြင့် action တစ်ခုအဖြစ် ဖွဲ့စည်းလာပြီး၊ ကျွန်ုပ်တို့၏ navigation task များတွင် sub-policy များသည် မတူညီသော ဦးတည်ချက်များအတိုင်း လမ်းလျှောက်ခြင်း သို့မဟုတ် တွားသွားခြင်းနှင့် ကိုက်ညီပါသည်။

ယခင်လုပ်ငန်းများအများစုတွင် အဆင့်လိုက် policy များကို လက်ဖြင့် အတိအလင်း ဒီဇိုင်းဆွဲထားခဲ့ပါသည်။ ထိုအစား ကျွန်ုပ်တို့သည် ပတ်ဝန်းကျင်နှင့် အပြန်အလှန်ဆက်သွယ်ခြင်းမှတစ်ဆင့် ဤအဆင့်လိုက် ဖွဲ့စည်းပုံကို အလိုအလျောက် ရှာဖွေတွေ့ရှိရန် ရည်ရွယ်ပါသည်။ Meta-learning ရှုထောင့်မှ ကြည့်လျှင် ကောင်းမွန်သော hierarchy ဆိုသည်မှာ မမြင်ဖူးသေးသော task များပေါ်တွင် training လုပ်စဉ် reward မြင့်မားမှုကို လျင်မြန်စွာ ရောက်ရှိစေသော hierarchy ဖြစ်သည်ဟု ကျွန်ုပ်တို့ သတ်မှတ်ပါသည်။ ထို့ကြောင့် MLSH algorithm သည် ယခင်က မမြင်ဖူးသေးသော task များတွင် လျင်မြန်စွာ သင်ယူနိုင်စေမည့် sub-policy များကို သင်ယူရန် ရည်ရွယ်ပါသည်။

ကျွန်ုပ်တို့သည် task များအပေါ် distribution တစ်ခုဖြင့် training လုပ်ကာ sampled task တစ်ခုချင်းစီတွင် master policy အသစ်တစ်ခုကို သင်ယူနေစဉ် sub-policy များကို မျှဝေ အသုံးပြုပါသည်။ Master policy အသစ်များကို ထပ်တလဲလဲ training လုပ်ခြင်းအားဖြင့် ဤလုပ်ငန်းစဉ်သည် master policy ၏ learning dynamics နှင့် ကိုက်ညီသော sub-policy များကို အလိုအလျောက် ရှာဖွေတွေ့ရှိပေးပါသည်။

စမ်းသပ်မှုများ

ဖွင့်နေသည်...

ကျွန်ုပ်တို့၏ AntMaze environment တွင် Mujoco Ant robot တစ်ခုကို မတူညီသော maze ၉ ခုပါသော distribution တစ်ခုအတွင်း ထားရှိပြီး စတင်နေရာမှ ပန်းတိုင်သို့ သွားရောက် လမ်းကြောင်းရှာရပါသည်။ ကျွန်ုပ်တို့၏ algorithm သည် ပတ်ဝန်းကျင်နှင့် အပြန်အလှန်ဆက်သွယ်မှုတစ်ခုတည်းမှသာ maze task များကို ဖြေရှင်းရန် အစဉ်လိုက် ချိတ်ဆက်အသုံးပြုနိုင်သော မတူကွဲပြားသည့် sub-policy အစုတစ်ခုကို အောင်မြင်စွာ ရှာဖွေတွေ့ရှိနိုင်ပါသည်။ ထို့နောက် ဤ sub-policy အစုကို ၎င်းတို့ training လုပ်ခဲ့သော task များထက် ပိုကြီးသော task တစ်ခုကို ကျွမ်းကျင်စွာ ဖြေရှင်းရန် အသုံးပြုနိုင်ပါသည် (post ၏ အစပိုင်းရှိ video ကို ကြည့်ပါ)။

ဖွင့်နေသည်...

ကုဒ်

ကျွန်ုပ်တို့သည် MLSH အေးဂျင့် များကို training လုပ်ရန် code⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) နှင့် ဤ algorithm များကို အကဲဖြတ်ရန် ကျွန်ုပ်တို့ တည်ဆောက်ခဲ့သော MuJoCo environment များကို ထုတ်ပြန်ပေးနေပါသည်။

ရေးသားသူများ

Kevin Frans - Jonathan Ho - Peter Chenနှင့် Pieter Abbeel

ဆက်စပ်ဆောင်းပါးများ

အားလုံးကို ကြည့်ရန်

Scaling laws for reward model overoptimization

ထုတ်ဝေမှု၂၀၂၂ အောက် ၁၉

Learning to play Minecraft with Video PreTraining

နိဂုံးချုပ်၂၀၂၂ ဇွန် ၂၃

Dota 2 with large scale deep reinforcement learning

ထုတ်ဝေမှု၂၀၁၉ ဒီ ၁၃