၂၀၁၉ စက်တင်ဘာ ၁၇

multi-agent အပြန်အလှန်လုပ်ဆောင်မှုမှ ပေါ်ထွက်လာသော tool use

စာတမ်းဖတ်ရန်ပတ်ဝန်းကျင် ဖန်တီးခြင်း Worldgen

စတုရန်းတစ်ခုစီတွင် ပုန်းတမ်းလိုက်တမ်း ကစားနေသော multi-agent များပါရှိသည့် မီးခိုးရောင် grid ၏ isometric မြင်ကွင်း

ပုံရေးဆွဲသူ: Ben Barry

ဖွင့်နေသည်…

ကျွန်ုပ်တို့သည် ရိုးရှင်းသော ပုန်းတမ်းလိုက်တမ်း ဂိမ်းတစ်ခုကို ကစားနေစဉ် အေးဂျင့်များက တဖြည်းဖြည်း ပိုမိုရှုပ်ထွေးလာသော tool use ကို ရှာဖွေတွေ့ရှိလာသည်ကို တွေ့ရှိခဲ့သည်။ ကျွန်ုပ်တို့၏ simulated ပုန်းတမ်းလိုက်တမ်း ပတ်ဝန်းကျင်အသစ်တွင် လေ့ကျင့်ခြင်းမှတဆင့် အေးဂျင့်များသည် မတူကွဲပြားသော နည်းဗျူဟာများနှင့် တန်ပြန်နည်းဗျူဟာများ ခြောက်မျိုးကို တည်ဆောက်လာကြပြီး၊ အချို့မှာ ကျွန်ုပ်တို့၏ ပတ်ဝန်းကျင်က ထောက်ပံ့ပေးနိုင်သည်ကိုပင် မသိခဲ့သော အရာများဖြစ်သည်။ ဤရိုးရှင်းသော ပတ်ဝန်းကျင်အတွင်း self-supervised ပေါ်ထွက်လာသော ရှုပ်ထွေးမှုက multi-agent co-adaptation သည် တစ်နေ့တွင် အလွန်ရှုပ်ထွေးပြီး ဉာဏ်ရည်မြင့်သော အပြုအမူကို ထုတ်ပေးနိုင်မည်ဟု ထပ်မံ အကြံပြုနေသည်။

ကျွန်ုပ်တို့၏ ပတ်ဝန်းကျင်တွင် အေးဂျင့်များသည် အဖွဲ့လိုက် ပုန်းတမ်းလိုက်တမ်း ဂိမ်းကို ကစားကြသည်။ ပုန်းသူများ (အပြာ) ၏ တာဝန်မှာ လိုက်ရှာသူများ (အနီ) ၏ မျက်မြင်လိုင်းမှ ရှောင်ရှားရန်ဖြစ်ပြီး၊ လိုက်ရှာသူများ၏ တာဝန်မှာ ပုန်းသူများကို ဆက်လက်မြင်နိုင်အောင် ထိန်းထားရန်ဖြစ်သည်။ ပတ်ဝန်းကျင်တစ်လျှောက်တွင် ပုန်းသူများနှင့် လိုက်ရှာသူများက ဖမ်းယူပြီး နေရာတကျ လော့ခ်ချနိုင်သော အရာဝတ္ထုများ ပြန့်နှံ့နေသကဲ့သို့၊ အေးဂျင့်များက သွားလာနည်းကို သင်ယူရမည့် ကျပန်းဖန်တီးထားသော မရွှေ့နိုင်သည့် အခန်းများနှင့် နံရံများလည်း ရှိသည်။ ဂိမ်းမစမီ ပုန်းသူများကို ပြင်ဆင်ချိန်တစ်ခု ပေးထားပြီး ထိုအချိန်တွင် လိုက်ရှာသူများကို မလှုပ်ရှားနိုင်အောင် လုပ်ထားသဖြင့် ပုန်းသူများအနေဖြင့် ထွက်ပြေးရန် သို့မဟုတ် ၎င်းတို့၏ ပတ်ဝန်းကျင်ကို ပြောင်းလဲရန် အခွင့်အရေးရကြသည်။

ဖွင့်နေသည်...

ပတ်ဝန်းကျင်အတွင်း အရာဝတ္ထုများနှင့် အပြန်အလှန်လုပ်ဆောင်ရန် အေးဂျင့်များအတွက် တိတိကျကျ သတ်မှတ်ထားသော မက်လုံးများ မရှိပါ။ ပေးထားသော supervision တစ်ခုတည်းမှာ ပုန်းတမ်းလိုက်တမ်း objective မှတဆင့် ဖြစ်သည်။ အေးဂျင့်များကို အဖွဲ့လိုက် reward ပေးထားသည်။ ပုန်းသူများသည် ပုန်းသူအားလုံး ပုန်းနေပါက +1 reward ရပြီး၊ ပုန်းသူတစ်ဦးဦးကို လိုက်ရှာသူက မြင်ပါက -1 ရရှိသည်။ လိုက်ရှာသူများသည် ထို reward ၏ ဆန့်ကျင်ဘက်ကို ရရှိပြီး၊ ပုန်းသူအားလုံး ပုန်းနေပါက -1 ဖြစ်ကာ အခြားအခြေအနေများတွင် +1 ဖြစ်သည်။ အေးဂျင့် အပြုအမူကို သင့်တင့်သော အကွာအဝေးအတွင်း ကန့်သတ်ရန် အေးဂျင့်များသည် ကစားကွင်းပြင်ပသို့ အလွန်ဝေးကွာသွားပါက အပြစ်ပေးခံရသည်။ ပြင်ဆင်ချိန်အတွင်း အေးဂျင့်အားလုံးကို zero reward ပေးထားသည်။

Autocurricula နှင့် ပေါ်ထွက်လာသော အပြုအမူ

အေးဂျင့်များသည် ပုန်းတမ်းလိုက်တမ်းတွင် တစ်ယောက်နှင့်တစ်ယောက် ယှဉ်ပြိုင်လေ့ကျင့်လာသည့်အခါ မတူကွဲပြားသော နည်းဗျူဟာ ခြောက်မျိုးအထိ ပေါ်ထွက်လာသည်။ နည်းဗျူဟာအသစ်တစ်ခုစီသည် အေးဂျင့်များကို နောက်တစ်ဆင့်သို့ တိုးတက်စေရန် ယခင်က မရှိခဲ့သော ဖိအားတစ်ရပ်ကို ဖန်တီးပေးသည်။ အေးဂျင့်များအား အရာဝတ္ထုများနှင့် အပြန်အလှန်လုပ်ဆောင်ရန် သို့မဟုတ် စူးစမ်းရန် တိုက်ရိုက် မက်လုံးများ မရှိကြောင်း သတိပြုပါ။ အောက်တွင် ဖော်ပြထားသော ပေါ်ထွက်လာသည့် နည်းဗျူဟာများသည် multi-agent ပြိုင်ဆိုင်မှုနှင့် ပုန်းတမ်းလိုက်တမ်း၏ ရိုးရှင်းသော dynamics ကြောင့် ဖြစ်ပေါ်လာသော autocurriculum⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) ၏ ရလဒ်ဖြစ်သည်။

ဖွင့်နေသည်...

ပုန်းတမ်းလိုက်တမ်း အေးဂျင့်များကို လေ့ကျင့်ခြင်း

ကျွန်ုပ်တို့သည် OpenAI Five⁠ နှင့် Dactyl⁠ ကို လေ့ကျင့်ရန် အသုံးပြုခဲ့သော တူညီသော training infrastructure နှင့် algorithm များကို အသုံးပြုပါသည်။ သို့သော် ကျွန်ုပ်တို့၏ ပတ်ဝန်းကျင်တွင် အေးဂျင့်တစ်ခုစီသည် ၎င်း၏ observation များနှင့် hidden memory state ကို အသုံးပြုကာ သီးခြားစီ လုပ်ဆောင်သည်။ အေးဂျင့်များသည် ကမ္ဘာကို entity-centric state-based representation ဖြင့် အသုံးပြုကြပြီး ၎င်းသည် အရာဝတ္ထုများနှင့် အခြားအေးဂျင့်များနှင့် ပတ်သက်၍ permutation invariant ဖြစ်သည်။

အရာဝတ္ထုတစ်ခုစီကို embedded လုပ်ပြီးနောက် ထရန်(စ်)ဖော်မာ⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) များတွင် အသုံးပြုသည့် ပုံစံနှင့် ဆင်တူသော masked residual self attention block တစ်ခုမှတဆင့် ဖြတ်သန်းစေသည်၊ သို့သော် ဤနေရာတွင် attention သည် အချိန်အပေါ်မဟုတ်ဘဲ အရာဝတ္ထုများအပေါ် ဖြစ်သည်။ မျက်မြင်လိုင်းအတွင်း မရှိသည့်အပြင် အေးဂျင့်၏ ရှေ့တွင်လည်း မရှိသော အရာဝတ္ထုများကို mask လုပ်ထားသဖြင့် အေးဂျင့်သည် ၎င်းတို့အကြောင်း အချက်အလက် မရရှိပါ။

multi-agent policy architecture ၏ ပုံကြမ်း

အေးဂျင့် policy များကို self-play⁠ နှင့် တုံ့ပြန်ညွှန်ကြားချက်⁠ ဖြင့် လေ့ကျင့်ထားသည်။ optimization လုပ်စဉ်အတွင်း အေးဂျင့်များသည် obscured objects များနှင့် အခြားအေးဂျင့်များအကြောင်း privileged information ကို ၎င်းတို့၏ value function အတွင်း အသုံးပြုနိုင်သည်။

ပေါ်ထွက်လာမှု အဆင့်အသီးသီးကို ဖြတ်သန်းတိုးတက်ရန် အေးဂျင့်များအတွက် ကြီးမားသောစကေး လေ့ကျင့်မှုသည် အရေးကြီးကြောင်း ကျွန်ုပ်တို့တွေ့ရှိခဲ့သည်။ အောက်တွင် batch size အမျိုးမျိုးအတွက် stage 4 (ramp defense) သို့ အေးဂျင့်များ ရောက်ရှိရန် လိုအပ်သော အချိန်နှင့် episode အရေအတွက် နှစ်မျိုးလုံးကို ပြထားသည်။ batch size တိုးခြင်းသည် convergence သို့ ရောက်ရန် wall-clock time ကို သိသိသာသာ မြန်ဆန်စေသော်လည်း 32k နှင့်အထက်တွင် sample efficiency အပေါ် အကျိုးသက်ရောက်မှု များစွာ မရှိကြောင်း တွေ့ရှိရသည်။ သို့သော် 8k နှင့် 16k batch size များသည် သတ်မှတ်ထားသော episode အရေအတွက်အတွင်း stage 4 သို့ မရောက်ခဲ့ကြောင်း ကျွန်ုပ်တို့တွေ့ရှိခဲ့သည်။

ဖွင့်နေသည်...

Multi-agent ပြိုင်ဆိုင်မှု နှင့် intrinsic motivation နှိုင်းယှဉ်ချက်

ဤအလုပ်တွင် ပုန်းတမ်းလိုက်တမ်း၌ self-supervised autocurriculum မှတဆင့် အေးဂျင့်များသည် ရှုပ်ထွေးသော နည်းဗျူဟာများနှင့် တန်ပြန်နည်းဗျူဟာများကို သင်ယူကြောင်း သက်သေများကို ပြသထားသည်။ unsupervised ပုံစံဖြင့် skill များကို သင်ယူနိုင်သည့် အခြားနည်းလမ်းတစ်ခုမှာ intrinsic motivation ဖြစ်ပြီး၊ ၎င်းသည် model error သို့မဟုတ် state count များကဲ့သို့ မက်ထရစ်အမျိုးမျိုးဖြင့် အေးဂျင့်များကို စူးစမ်းလေ့လာရန် မက်လုံးပေးသည်။ ကျွန်ုပ်တို့၏ ပတ်ဝန်းကျင်တွင် count-based exploration ကို လုပ်ဆောင်ခဲ့ပြီး၊ ထိုနည်းလမ်းတွင် အေးဂျင့်များသည် ၎င်းတို့ သွားရောက်ခဲ့ပြီးသော state များကို တိတိကျကျ ရေတွက်ထားကာ သွားရောက်မှုနည်းသော state များသို့ သွားရန် မက်လုံးပေးခံရသည်။ ဤ setting တွင် ချိန်ညှိရမည့် အဓိက modeling choice သည် state representation ဖြစ်သည်။ ဥပမာအားဖြင့် ကျွန်ုပ်တို့၏ ပထမ baseline တွင် state အတွင်း 2-D box position များကိုသာ ထည့်သွင်းထားသောကြောင့် အေးဂျင့်များသည် box များနှင့် အပြန်အလှန်လုပ်ဆောင်ပြီး ၎င်းတို့ကို အသစ်သော position များသို့ ရွှေ့ရန်သာ မက်လုံးရရှိသည်။ ထို့နောက် ၎င်းကို ပုန်းတမ်းလိုက်တမ်း ကစားသည့် အေးဂျင့်များအား ပေးထားသော full state ကို အသုံးပြုသည့် count-based policy နှင့် နှိုင်းယှဉ်ထားသည်။

ဖွင့်နေသည်...

မြင်ရသည့်အတိုင်း ပုန်းတမ်းလိုက်တမ်းတွင် လေ့ကျင့်ထားသော အေးဂျင့်များသည် shelter construction ကဲ့သို့ လူသားများအတွက် နားလည်ရလွယ်သော အပြုအမူများကို ပိုမိုဗဟိုပြုထားကြသည်။ intrinsic motivation ဖြင့် လေ့ကျင့်ထားသော အေးဂျင့်များမှာမူ ရည်ရွယ်ချက်မရှိသကဲ့သို့ အရာဝတ္ထုများကို ရွှေ့ပြောင်းနေကြသည်။ ထို့အပြင် state space ၏ ရှုပ်ထွေးမှု တိုးလာသည်နှင့်အမျှ intrinsic motivation နည်းလမ်းများသည် ၎င်းတို့၏ ပတ်ဝန်းကျင်အတွင်းရှိ အရာဝတ္ထုများနှင့် အဓိပ္ပာယ်ရှိသော အပြန်အလှန်လုပ်ဆောင်မှုများ နည်းသထက်နည်းလာကြောင်း ကျွန်ုပ်တို့ တွေ့ရှိရသည်။ ဤအကြောင်းကြောင့် ပတ်ဝန်းကျင်များသည် အရွယ်အစားနှင့် ရှုပ်ထွေးမှု ဆက်လက်တိုးလာသည့်အခါ လူသားနှင့် သက်ဆိုင်သော skill များကို unsupervised ပုံစံဖြင့် ဖန်တီးပေးရာတွင် multi-agent competition သည် ပိုမို scalable ဖြစ်သော နည်းလမ်းတစ်ခု ဖြစ်မည်ဟု ကျွန်ုပ်တို့ ယုံကြည်ပါသည်။

အကဲဖြတ်မှုအဖြစ် transfer နှင့် fine-tuning

ယခင်အပိုင်းတွင် ပုန်းတမ်းလိုက်တမ်း၌ သင်ယူထားသော အပြုအမူများကို intrinsic motivation ဖြင့် သင်ယူထားသော အပြုအမူများနှင့် အရည်အသွေးပိုင်းဆိုင်ရာ နှိုင်းယှဉ်ထားသည်။ သို့သော် ပတ်ဝန်းကျင်များ၏ စကေး ပိုကြီးလာသည်နှင့်အမျှ တိုးတက်မှုကို အရည်အသွေးပိုင်းဆိုင်ရာ တိုင်းတာရန် အခက်အခဲလည်း ပိုမိုများလာမည်ဖြစ်သည်။ များစွာသော အေးဂျင့်များ ပါဝင်သည့် setting များတွင် reward ကို ခြေရာခံခြင်းသည် မလုံလောက်သော အကဲဖြတ်မက်ထရစ်တစ်ခုဖြစ်သည်၊ အကြောင်းမှာ အေးဂျင့်များက တပြေးညီ တိုးတက်နေကြသလား သို့မဟုတ် တိုးတက်မှုရပ်တန့်နေကြသလားကို ဖော်ပြရာတွင် မရှင်းလင်းနိုင်သောကြောင့် ဖြစ်သည်။ ELO သို့မဟုတ် Trueskill ကဲ့သို့သော မက်ထရစ်များသည် ယခင် policy version များ သို့မဟုတ် population အတွင်းရှိ အခြား policy များနှင့် နှိုင်းယှဉ်လျှင် performance တိုးတက်နေသလားကို ပိုမိုယုံကြည်စိတ်ချစွာ တိုင်းတာနိုင်သည်။ သို့သော် ထိုမက်ထရစ်များကပင် performance ပိုကောင်းလာခြင်းမှာ adaptation အသစ်များကြောင့်လား သို့မဟုတ် ယခင်သင်ယူထားသော skill များ ပိုကောင်းလာခြင်းကြောင့်လားကို မဖော်ပြနိုင်သေးပါ။ နောက်ဆုံးအနေဖြင့် object movement ကဲ့သို့ ပတ်ဝန်းကျင်သီးသန့် စာရင်းအင်းများကို အသုံးပြုခြင်းလည်း မရှင်းလင်းနိုင်ပေ (ဥပမာ absolute movement ကို ခြေရာခံခြင်းက အေးဂျင့်များ ဘယ်ဘက်သို့ ရွှေ့ခဲ့သည်ကို မဖော်ပြနိုင်ပါ)၊ ထို့အပြင် လုံလောက်သော မက်ထရစ်များကို ဒီဇိုင်းဆွဲခြင်းသည် ပတ်ဝန်းကျင်များ စကေးကြီးလာသလို ပိုမိုခက်ခဲပြီး ကုန်ကျစရိတ်မြင့်လာမည်ဖြစ်သည်။

ကျွန်ုပ်တို့သည် အေးဂျင့်များ နောက်ဆုံးတွင် ရရှိလာနိုင်သည်ဟု ယုံကြည်သော စွမ်းရည်များကို ပစ်မှတ်ထားသော domain-specific intelligence tests အစုတစ်ခုကို အသုံးပြုရန် အဆိုပြုပါသည်။ ဤ setting များတွင် transfer performance သည် representation quality သို့မဟုတ် skill ကို အရေအတွက်အရ တိုင်းတာသော မက်ထရစ်တစ်ခုအဖြစ် လုပ်ဆောင်နိုင်ပြီး၊ count-based exploration ဖြင့် pretraining လုပ်ထားခြင်းနှင့် scratch မှ စတင်လေ့ကျင့်ထားသော baseline တစ်ခုနှင့် နှိုင်းယှဉ်ထားသည်။

ဖွင့်နေသည်...

ပုန်းတမ်းလိုက်တမ်း အေးဂျင့်သည် transfer task အများအပြားတွင် ပိုမိုကောင်းမွန်စွာ လုပ်ဆောင်သော်လည်း performance သို့မဟုတ် convergence time ကို သိသိသာသာ မတိုးတက်စေပါ။ ၎င်း၏ အပြုအမူကို ကြည့်ခြင်းမှ ပုန်းတမ်းလိုက်တမ်း ဂိမ်းတွင် shelter တည်ဆောက်ရန်အတွက် အရာဝတ္ထုများကို တိကျစွာ ရွှေ့နိုင်သော latent skill ရှိကြောင်း ကျွန်ုပ်တို့ သိရှိပါသည်။ သို့သော် sample အရေအတွက် နည်းနည်းဖြင့် လေ့ကျင့်ထားသောအခါ ဤ skill ကို အခြား context များတွင် အသုံးချနိုင်စွမ်း မရှိပါ။

transfer ရလဒ်များ ရောနှောနေခြင်း၏ အကြောင်းရင်းမှာ အေးဂျင့်များက ရောယှက်နေပြီး fine-tune လုပ်ရန် ခက်ခဲသော skill representation များကို သင်ယူနေခြင်းနှင့် ဆက်စပ်နေသည်ဟု ကျွန်ုပ်တို့ ယုံကြည်ပါသည်။ အနာဂတ် ပတ်ဝန်းကျင်များ ပိုမို မျိုးစုံလာပြီး အေးဂျင့်များက ပိုမိုများပြားသော context များတွင် skill များကို အသုံးပြုရလာသည်နှင့်အမျှ ပိုမို generalize လုပ်နိုင်သော skill representation များနှင့် ဤ evaluation approach တွင် ပိုမိုသိသာသော signal ကို မြင်ရမည်ဟု ကျွန်ုပ်တို့ ယုံကြည်ပါသည်။ ထို့အပြင် ကျွန်ုပ်တို့၏ ပတ်ဝန်းကျင်အတွင်း သင်ယူမှု တိုးတက်မှုကို အကဲဖြတ်နိုင်ရန် evaluation task များကို open-source လုပ်ပေးထားပါသည်။

အံ့အားသင့်ဖွယ် အပြုအမူများ

မြင့်မားသော fidelity ရှိသည့် physics simulator တစ်ခုတွင် အေးဂျင့်များက ရှုပ်ထွေးသော tool use ကို သင်ယူနိုင်ကြောင်း ကျွန်ုပ်တို့ ပြသခဲ့ပြီးဖြစ်သည်။ သို့သော် ဤရလဒ်သို့ ရောက်ရှိလာသည့် လမ်းကြောင်းတွင် သင်ခန်းစာများစွာ ရရှိခဲ့သည်။ ပတ်ဝန်းကျင်များ တည်ဆောက်ခြင်းသည် မလွယ်ကူဘဲ၊ သင်တည်ဆောက်ထားသော ပတ်ဝန်းကျင် သို့မဟုတ် physics engine ကို အေးဂျင့်များက မရည်ရွယ်ထားသော နည်းလမ်းဖြင့် exploit လုပ်နိုင်သော နည်းလမ်းတစ်ခုကို ရှာတွေ့သွားတတ်သည်မှာ မကြာခဏ ဖြစ်ပွားသည်။

ဖွင့်နေသည်...

စာရေးသူများ

Bowen Baker - Ingmar Kanitscheider - Todor Markov - Yi Wu - Glenn Powell - Bob McGrewနှင့် Igor Mordatch

အကြံပြုချက်

ဤ post နှင့် paper အပေါ် အကြံပြုချက်ပေးခဲ့သူများအား ကျေးဇူးတင်ပါသည်: Pieter Abbeel, Jeff Clune, Jessica Hamrick, Joel Leibo, Natasha Jaques, Calvin French-Owen, Azalia Mirhoseini, Ilya Sutskever, Greg Brockman, Jack Clark, Brooke Chan & Karson Elmgren