၂၀၁၉ အောက်တိုဘာ ၁၅

ရိုဘော့လက်ဖြင့် Rubik’s Cube ဖြေရှင်းခြင်း

ခရမ်းရောင်တိမ်ထူသော နောက်ခံရှေ့တွင် လက်ဖဝါးပေါ်ရှိ Rubik’s cube ကို ဖြေရှင်းနေသော ဆန့်ထုတ်ထားသည့် ရိုဘော့လက်မောင်း

ဓာတ်ပုံ: Eric Haines

ဖွင့်နေသည်…

ကျွန်ုပ်တို့သည် လူ့လက်နှင့် ဆင်တူသော ရိုဘော့လက်ဖြင့် Rubik’s Cube ကို ဖြေရှင်းနိုင်ရန် neural network နှစ်ခုကို လေ့ကျင့်ပေးခဲ့သည်။ အဆိုပါ neural network များကို OpenAI Five⁠ တွင် အသုံးပြုသည့် အတူတူသော အားဖြည့် သင်ယူလေ့လာခြင်း code နှင့် Automatic Domain Randomization (ADR) ဟုခေါ်သော နည်းပညာအသစ်ကို တွဲဖက်အသုံးပြုကာ simulation အတွင်းသာ လုံးဝ လေ့ကျင့်ပေးထားသည်။ စနစ်သည် stuffed giraffe⁠ တစ်ကောင်ဖြင့် ထိုးနှက်ခံရခြင်းကဲ့သို့ လေ့ကျင့်စဉ်အတွင်း မမြင်ဖူးသည့် အခြေအနေများကိုလည်း ကိုင်တွယ်နိုင်သည်။ ၎င်းက အားဖြည့် သင်ယူလေ့လာခြင်း သည် virtual အလုပ်များအတွက်သာ အသုံးဝင်သော ကိရိယာ မဟုတ်ဘဲ ထူးခြားစွာ မြင့်မားသော လက်သွက်လက်ချက်လိုအပ်သည့် ရုပ်လောကဆိုင်ရာ ပြဿနာများကိုလည်း ဖြေရှင်းနိုင်ကြောင်း ပြသသည်။

လူ့လက်များက အလုပ်အမျိုးမျိုးကို ကျွန်ုပ်တို့ လုပ်ဆောင်နိုင်စေသည်။ လွန်ခဲ့သော ရိုဘော့တစ် 60 နှစ်အတွင်း၊ လူများက ၎င်းတို့၏ ပုံသေလက်နှစ်ဖက်ဖြင့် ပြီးမြောက်နိုင်သော ခက်ခဲသည့် အလုပ်များအတွက် အလုပ်တစ်ခုချင်းစီအလိုက်⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) စိတ်ကြိုက် ရိုဘော့တစ်လုံးကို ဒီဇိုင်းဆွဲရန် လိုအပ်ခဲ့သည်။ အခြားရွေးချယ်စရာအဖြစ် လူများသည် ယေဘုယျအသုံးပြုနိုင်သော ရိုဘော့ hardware ကို အသုံးပြုရန် ဆယ်စုနှစ်များစွာ ကြိုးစားခဲ့ကြ⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) သော်လည်း လွတ်လပ်မှုဒီဂရီများ မြင့်မားလွန်းမှုကြောင့် အောင်မြင်မှုမှာ ကန့်သတ်ထားခဲ့သည်။ အထူးသဖြင့် ဤနေရာတွင် ကျွန်ုပ်တို့ အသုံးပြုသည့် hardware သည် အသစ်မဟုတ်ပါ—ကျွန်ုပ်တို့ အသုံးပြုသော ရိုဘော့လက်ကို လွန်ခဲ့သော 15 နှစ်ကတည်းက အသုံးပြုလာခဲ့ကြသည်—သို့သော် software နည်းလမ်းကတော့ အသစ်ဖြစ်သည်။

2017 ခုနှစ် မေလမှစ၍ လူ့လက်နှင့် ဆင်တူသော ရိုဘော့လက်တစ်ဖက်ကို Rubik’s Cube⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) ဖြေရှင်းနိုင်ရန် လေ့ကျင့်ပေးရန် ကျွန်ုပ်တို့ ကြိုးစားလာခဲ့သည်။ ထိုကဲ့သို့သော ရိုဘော့လက်ကို ရှုပ်ထွေးသော manipulation အလုပ်များ လုပ်ဆောင်နိုင်အောင် အောင်မြင်စွာ လေ့ကျင့်ပေးနိုင်ခြင်းက ယေဘုယျအသုံးပြုနိုင်သော ရိုဘော့များအတွက် အခြေခံအုတ်မြစ် ချမှတ်ပေးမည်ဟု ကျွန်ုပ်တို့ ယုံကြည်သောကြောင့် ဤရည်မှန်းချက်ကို သတ်မှတ်ခဲ့သည်။ 2017 ခုနှစ် ဇူလိုင်လတွင် simulation အတွင်း Rubik’s Cube ကို ကျွန်ုပ်တို့ ဖြေရှင်းနိုင်ခဲ့သည်။ သို့သော် 2018 ခုနှစ် ဇူလိုင်လအထိ၊ ရိုဘော့ပေါ်တွင် block တစ်ခုကိုသာ ကိုင်တွယ်နိုင်ခဲ့⁠ သည်။ ယခုတော့ ကျွန်ုပ်တို့၏ ကနဦး ရည်မှန်းချက်ကို ရောက်ရှိခဲ့ပြီဖြစ်သည်။

A full solve of the Rubik’s Cube. This video plays at real-time and was not edited in any way.

လက်တစ်ဖက်တည်းဖြင့် Rubik’s Cube ကို ဖြေရှင်းခြင်းသည် လူများအတွက်တောင် စိန်ခေါ်မှုကြီးမားသော အလုပ်တစ်ခုဖြစ်ပြီး ကလေးများသည် ၎င်းကို ကျွမ်းကျင်စွာ ထိန်းချုပ်နိုင်ရန် လိုအပ်သော လက်သွက်လက်ချက် ရရှိဖို့ နှစ်များစွာ ကြာတတ်သည်။ သို့သော် ကျွန်ုပ်တို့၏ ရိုဘော့သည် ၎င်း၏ နည်းစနစ်ကို အပြည့်အဝ မကျွမ်းကျင်သေး⁠ ပါ၊ Rubik’s Cube ကို အချိန်၏ 60% တွင်သာ ဖြေရှင်းနိုင်သည် (အလွန်အမင်း ခက်ခဲသော⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) scramble အတွက်ဆို 20% သာ ဖြစ်သည်)။

ကျွန်ုပ်တို့၏ နည်းလမ်း

ကျွန်ုပ်တို့သည် simulation⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) တွင် အားဖြည့် သင်ယူလေ့လာခြင်း နှင့် solution steps များရွေးချယ်ရန် Kociemba’s algorithm⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) ကို အသုံးပြုပြီး Rubik’s Cube ကို ဖြေရှင်းနိုင်ရန် neural network များကို လေ့ကျင့်ပေးသည်။^A Domain⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) randomization⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) က simulation တစ်ခုတည်းတွင်သာ လေ့ကျင့်ထားသော network များကို အမှန်တကယ် ရိုဘော့သို့ transfer လုပ်နိုင်စေသည်။

ကျွန်ုပ်တို့ ရင်ဆိုင်ခဲ့ရသည့် အကြီးမားဆုံး စိန်ခေါ်မှုမှာ အမှန်တကယ် ကမ္ဘာ၏ physics ကို ဖမ်းယူနိုင်လောက်အောင် simulation အတွင်း ပတ်ဝန်းကျင်များကို မျိုးစုံကွဲပြားစွာ ဖန်တီးရန် ဖြစ်သည်။ friction, elasticity နှင့် dynamics ကဲ့သို့သော အချက်များကို Rubik’s Cube များ သို့မဟုတ် ရိုဘော့လက်များကဲ့သို့ ရှုပ်ထွေးသော အရာဝတ္ထုများအတွက် တိုင်းတာပြီး model လုပ်ရန် အလွန်ခက်ခဲပြီး domain randomization တစ်ခုတည်းဖြင့် မလုံလောက်ကြောင်း ကျွန်ုပ်တို့ တွေ့ရှိခဲ့သည်။

ဤအခက်အခဲကို ကျော်လွှားရန် Automatic Domain Randomization (ADR) ဟုခေါ်သော နည်းလမ်းအသစ်တစ်ခုကို ကျွန်ုပ်တို့ ဖွံ့ဖြိုးတိုးတက်စေခဲ့ပြီး၊ ၎င်းသည် simulation အတွင်း တဖြည်းဖြည်း ပိုမိုခက်ခဲလာသော ပတ်ဝန်းကျင်များကို အဆုံးမရှိ ဖန်တီးပေးသည်။^B ၎င်းကြောင့် အမှန်တကယ် ကမ္ဘာကို တိကျသော model တစ်ခု မလိုအပ်တော့ဘဲ simulation အတွင်း သင်ယူထားသော neural network များကို အမှန်တကယ် ကမ္ဘာတွင် အသုံးချနိုင်စေသည်။

ADR သည် randomization မလုပ်ထားသော ပတ်ဝန်းကျင်တစ်ခုတည်းဖြင့် စတင်ပြီး၊ ထိုနေရာတွင် neural network တစ်ခုက Rubik’s Cube ကို ဖြေရှင်းနည်း သင်ယူသည်။ neural network သည် အလုပ်တွင် ပိုကောင်းလာပြီး performance threshold တစ်ခုသို့ ရောက်လာသည့်အခါ domain randomization ပမာဏကို အလိုအလျောက် တိုးမြှင့်သည်။ ထို့ကြောင့် neural network သည် ပိုမို randomized လုပ်ထားသော ပတ်ဝန်းကျင်များသို့ generalize လုပ်ရန် သင်ယူရသောကြောင့် အလုပ်သည် ပိုခက်လာသည်။ network သည် performance threshold ကို ထပ်မံကျော်လွန်သည့်အထိ ဆက်လက်သင်ယူပြီး၊ ထိုအခါ randomization ပိုမိုတိုးလာကာ လုပ်ငန်းစဉ်ကို ထပ်ခါတလဲလဲ လုပ်ဆောင်သည်။

ဖွင့်နေသည်...

ကျွန်ုပ်တို့ randomize လုပ်သော parameter များထဲမှ တစ်ခုမှာ Rubik’s Cube ၏ အရွယ်အစား (အထက်တွင်) ဖြစ်သည်။ ADR သည် Rubik’s Cube ၏ အရွယ်အစားကို တိတိကျကျ သတ်မှတ်ထားသည့် အခြေအနေဖြင့် စတင်ပြီး လေ့ကျင့်မှု တိုးတက်လာသည်နှင့်အမျှ randomization range ကို တဖြည်းဖြည်း တိုးမြှင့်သည်။ ကျွန်ုပ်တို့သည် cube ၏ အလေးချိန်၊ ရိုဘော့လက်ချောင်းများ၏ friction နှင့် လက်၏ မြင်ရသော မျက်နှာပြင်ပစ္စည်းများကဲ့သို့ အခြား parameter များအားလုံးအပေါ်လည်း အတူတူ နည်းလမ်းကို အသုံးပြုသည်။ ထို့ကြောင့် neural network သည် တဖြည်းဖြည်း ပိုမိုခက်ခဲလာသော အခြေအနေများအားလုံးအောက်တွင် Rubik’s Cube ကို ဖြေရှင်းနည်း သင်ယူရသည်။

ဖွင့်နေသည်...

Domain randomization သည် randomization range များကို လက်ဖြင့် သတ်မှတ်ပေးရန် လိုအပ်စေခဲ့ပြီး၊ randomization များလွန်းပါက သင်ယူရခက်ကာ နည်းလွန်းပါက အမှန်တကယ် ရိုဘော့သို့ transfer လုပ်ရာတွင် အဟန့်အတားဖြစ်စေသောကြောင့် ၎င်းသည် ခက်ခဲသည်။ ADR သည် လူ၏ ဝင်ရောက်ညှိနှိုင်းမှုမလိုဘဲ randomization range များကို အချိန်နှင့်အမျှ အလိုအလျောက် ချဲ့ထွင်ခြင်းဖြင့် ဤပြဿနာကို ဖြေရှင်းပေးသည်။ ADR သည် domain knowledge လိုအပ်ချက်ကို ဖယ်ရှားပေးပြီး ကျွန်ုပ်တို့၏ နည်းလမ်းများကို အလုပ်အသစ်များတွင် ပိုမိုလွယ်ကူစွာ အသုံးချနိုင်စေသည်။ လက်ဖြင့် domain randomization လုပ်ခြင်းနှင့် မတူဘဲ ADR သည် training ကို ဘယ်တော့မှ convergence မဖြစ်စေဘဲ အလုပ်ကို အမြဲစိန်ခေါ်မှုရှိစေသည်။

block flipping task တွင် manual domain randomization နှင့် ADR ကို ကျွန်ုပ်တို့ နှိုင်းယှဉ်ခဲ့သည်၊ ထိုနေရာတွင် ကျွန်ုပ်တို့တွင် ခိုင်မာသော baseline⁠ တစ်ခု ရှိပြီးသားဖြစ်သည်။ အစပိုင်းတွင် ADR သည် အမှန်တကယ် ရိုဘော့ပေါ်ရှိ အောင်မြင်မှုအရေအတွက်အလိုက် ဆိုးရွားစွာ စွမ်းဆောင်သည်။ သို့သော် ADR က entropy ကို တိုးမြှင့်လာသည့်အခါ—ယင်းသည် ပတ်ဝန်းကျင်၏ ရှုပ်ထွေးမှုကို တိုင်းတာသော မက်ထရစ်တစ်ခုဖြစ်သည်—transfer performance သည် နောက်ဆုံးတွင် baseline ထက် နှစ်ဆအထိ တိုးလာသည်၊ လူက tuning လုပ်ရန်မလိုဘဲ ဖြစ်သည်။

ခွဲခြမ်းစိတ်ဖြာချက်

ခံနိုင်ရည်ကို စမ်းသပ်ခြင်း

ADR ကို အသုံးပြုခြင်းဖြင့် အမှန်တကယ် ရိုဘော့လက်ပေါ်တွင် Rubik’s Cube ကို ဖြေရှင်းနိုင်သော neural network များကို simulation အတွင်း လေ့ကျင့်ပေးနိုင်သည်။ အကြောင်းမှာ ADR သည် network ကို အဆုံးမရှိ ကျပန်းပြုလုပ်ထားသော simulation မျိုးစုံနှင့် ထိတွေ့စေသောကြောင့်ဖြစ်သည်။ လေ့ကျင့်မှုအတွင်း ထိုရှုပ်ထွေးမှုနှင့် ထိတွေ့ရခြင်းက network ကို simulation မှ အမှန်တကယ် ကမ္ဘာသို့ transfer လုပ်နိုင်ရန် ပြင်ဆင်ပေးသည်၊ အကြောင်းမှာ ၎င်းသည် မည်သည့် ရုပ်ပိုင်းဆိုင်ရာကမ္ဘာနှင့် ရင်ဆိုင်ရစေကာမူ ၎င်းကို လျင်မြန်စွာ ခွဲခြားသိရှိပြီး လိုက်လျောညီထွေ ပြုပြင်နိုင်ရန် သင်ယူထားရသောကြောင့်ဖြစ်သည်။

ဖွင့်နေသည်...

ကျွန်ုပ်တို့၏ နည်းလမ်း၏ ကန့်သတ်ချက်များကို စမ်းသပ်ရန် လက်သည် Rubik’s Cube ကို ဖြေရှင်းနေစဉ် perturbation အမျိုးမျိုးဖြင့် စမ်းသပ်ကြသည်။ ၎င်းသည် ကျွန်ုပ်တို့၏ control network ၏ robustness ကို စမ်းသပ်ရုံသာမက ဤနေရာတွင် cube ၏ တည်နေရာနှင့် orientation ကို ခန့်မှန်းရန် အသုံးပြုသော vision network ကိုပါ စမ်းသပ်ပေးသည်။

ADR ဖြင့် လေ့ကျင့်ထားသော ကျွန်ုပ်တို့၏ စနစ်သည် ၎င်းတို့ဖြင့် မလေ့ကျင့်ဖူးခဲ့သော်လည်း perturbation များအပေါ် အံ့အားသင့်ဖွယ် ခံနိုင်ရည်ရှိကြောင်း တွေ့ရှိခဲ့သည်။ ရိုဘော့သည် စမ်းသပ်ထားသော perturbation များအားလုံးအောက်တွင် flip များနှင့် face rotation များအများစုကို အောင်မြင်စွာ လုပ်ဆောင်နိုင်သော်လည်း အမြင့်ဆုံး စွမ်းဆောင်ရည်အဆင့်တွင်တော့ မဟုတ်ပါ။

ပေါ်ပေါက်လာသော meta-learning

ကျွန်ုပ်တို့ ယုံကြည်သည်မှာ meta-learning⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) သို့မဟုတ် သင်ယူနည်းကို သင်ယူခြင်းသည် ယေဘုယျအသုံးပြုနိုင်သော စနစ်များ တည်ဆောက်ရာတွင် အရေးပါသော ကြိုတင်လိုအပ်ချက်တစ်ခုဖြစ်သည်၊ အကြောင်းမှာ ၎င်းက ထိုစနစ်များကို ၎င်းတို့ရှိ ပတ်ဝန်းကျင်များ၏ ပြောင်းလဲနေသော အခြေအနေများနှင့် မြန်မြန်ဆန်ဆန် လိုက်လျောညီထွေဖြစ်စေသောကြောင့်ဖြစ်သည်။ ADR ၏ နောက်ခံယူဆချက်မှာ memory-augmented network များကို လုံလောက်စွာ randomized လုပ်ထားသော ပတ်ဝန်းကျင်နှင့် ပေါင်းစပ်လိုက်လျှင် emergent meta-learning ပေါ်ပေါက်လာစေပြီး၊ ထိုအခါ network သည် ၎င်းကို အသုံးချထားသော ပတ်ဝန်းကျင်နှင့် အပြုအမူကို လျင်မြန်စွာ လိုက်လျောညီထွေပြောင်းလဲနိုင်စေမည့် သင်ယူမှု algorithm တစ်ခုကို ကိုယ်တိုင် အကောင်အထည်ဖော်နိုင်မည်ဟူသောအချက်ဖြစ်သည်။^C

ဤအယူအဆကို စနစ်တကျ စမ်းသပ်ရန် cube flip တစ်ကြိမ်လျှင် အောင်မြင်ရန် လိုအပ်သော အချိန်ကို ကျွန်ုပ်တို့၏ neural network အတွက် perturbation အမျိုးမျိုးအောက်တွင် တိုင်းတာခဲ့သည်။ ဥပမာ network ၏ memory ကို reset လုပ်ခြင်း၊ dynamics ကို reset လုပ်ခြင်း သို့မဟုတ် joint တစ်ခုကို ဖျက်ဆီးခြင်းတို့ဖြစ်သည်။ ဤစမ်းသပ်မှုများကို simulation တွင် ပြုလုပ်ခဲ့ပြီး ထိန်းချုပ်ထားသော setting တစ်ခုအတွင်း trial 10,000 ကျော်ပေါ်တွင် ပျမ်းမျှစွမ်းဆောင်ရည်ကို တွက်ချက်နိုင်စေသည်။

ဖွင့်နေသည်...

အစပိုင်းတွင် neural network သည် flip များကို ပိုမိုအောင်မြင်စွာ လုပ်ဆောင်လာနိုင်သည့်အခါ၊ အောင်မြင်ရန် လိုအပ်သော အချိန်သည် တစ်ကြိမ်ပြီးတစ်ကြိမ် လျော့နည်းလာသည်၊ အကြောင်းမှာ network သည် လိုက်လျောညီထွေဖြစ်အောင် သင်ယူလာသောကြောင့်ဖြစ်သည်။ perturbation များကို အသုံးချသည့်အခါ (အထက်ပါ ဇယားရှိ မီးခိုးရောင် ဒေါင်လိုက်မျဉ်းများ) အောင်မြင်ရန် အချိန်တွင် ချက်ချင်းတိုးလာမှုကို တွေ့ရသည်။ ၎င်းမှာ network အသုံးပြုနေသော နည်းဗျူဟာသည် ပြောင်းလဲသွားသော ပတ်ဝန်းကျင်တွင် အလုပ်မလုပ်တော့သောကြောင့်ဖြစ်သည်။ ထို့နောက် network သည် ပတ်ဝန်းကျင်အသစ်ကို ပြန်လည်သင်ယူပြီး အောင်မြင်ရန် အချိန်သည် ယခင် baseline သို့ ပြန်လည်လျော့နည်းသွားသည်။

ကျွန်ုပ်တို့သည် failure probability ကိုလည်း တိုင်းတာခဲ့ပြီး face rotation များ (အပေါ်မျက်နှာပြင်ကို နာရီလက်တံအတိုင်း သို့မဟုတ် ပြောင်းပြန် 90 ဒီဂရီ လှည့်ခြင်း) အတွက်လည်း အလားတူ စမ်းသပ်မှုများ ပြုလုပ်ရာ တူညီသော လိုက်လျောညီထွေဖြစ်မှုပုံစံကို တွေ့ရှိခဲ့သည်။^D

ကျွန်ုပ်တို့၏ neural network များကို နားလည်ခြင်း

ကျွန်ုပ်တို့၏ network များကို မြင်သာအောင် ဖော်ပြခြင်းက ၎င်းတို့သည် memory ထဲတွင် ဘာကို သိမ်းဆည်းထားသည်ကို နားလည်စေသည်။ network များ ပိုမိုရှုပ်ထွေးလာသည့်အခါ ၎င်းသည် ပို၍ အရေးကြီးလာသည်။

ဖွင့်နေသည်...

ကျွန်ုပ်တို့၏ neural network ၏ memory ကို အထက်တွင် မြင်သာအောင် ဖော်ပြထားသည်။ ကျွန်ုပ်တို့သည် interpretability toolbox မှ building block တစ်ခု⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) ဖြစ်သည့် non-negative matrix factorization ကို အသုံးပြုကာ ဤ high-dimensional vector ကို အုပ်စု 6 ခုအဖြစ် ချုံ့ပြီး တစ်ခုချင်းစီကို ထူးခြားသော အရောင်တစ်ရောင်စီ သတ်မှတ်ပေးသည်။ ထို့နောက် timestep တစ်ခုချင်းစီအတွက် လက်ရှိတွင် အဓိကလွှမ်းမိုးနေသော အုပ်စု၏ အရောင်ကို ကျွန်ုပ်တို့ ပြသသည်။

memory group တစ်ခုချင်းစီတွင် အဓိပ္ပါယ်ရှိသော အပြုအမူတစ်ခုစီ ဆက်စပ်နေကြောင်း ကျွန်ုပ်တို့ တွေ့ရှိခဲ့သည်။ ဥပမာအားဖြင့် cube ကို လှည့်တော့မည်လား သို့မဟုတ် အပေါ်ဘက်ကို နာရီလက်တံအတိုင်း လှည့်တော့မည်လားဆိုသည်ကို network ၏ memory ထဲမှ dominant group ကိုသာ ကြည့်ခြင်းဖြင့် မဖြစ်ပွားမီ သိနိုင်သည်။

စိန်ခေါ်မှုများ

ရိုဘော့လက်ဖြင့် Rubik’s Cube ကို ဖြေရှင်းခြင်းသည် ယခုထိ လွယ်ကူသေးသည် မဟုတ်ပါ။ ကျွန်ုပ်တို့၏ နည်းလမ်းသည် လက်ရှိတွင် မျက်နှာပြင်လှည့်ခြင်း 26 ကြိမ် လိုအပ်သော အလွန်အမင်း ခက်ခဲသော scramble⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) ကို အသုံးချသည့်အခါ Rubik’s Cube ကို 20% သာ ဖြေရှင်းနိုင်သည်။ ပြန်ဖြေရန် လှည့်ခြင်း 15 ကြိမ်သာ လိုအပ်သော ပိုမိုလွယ်ကူသည့် scramble များအတွက် အောင်မြင်မှုနှုန်းမှာ 60% ဖြစ်သည်။ Rubik’s Cube ကျကျသွားခြင်း သို့မဟုတ် သတ်မှတ်ချိန်ကုန်သွားခြင်း ဖြစ်သည့်အခါ ကျွန်ုပ်တို့သည် ထိုကြိုးပမ်းမှုကို မအောင်မြင်ဟု သတ်မှတ်သည်။ သို့သော် ကျွန်ုပ်တို့၏ network သည် မည်သည့် စတင်အခြေအနေမှမဆို Rubik’s Cube ကို ဖြေရှင်းနိုင်စွမ်း ရှိသည်။ ထို့ကြောင့် cube ကျသွားလျှင် ၎င်းကို လက်ထဲသို့ ပြန်ထည့်ပြီး ဆက်လက် ဖြေရှင်းနိုင်သည်။

ယေဘုယျအားဖြင့် ကျွန်ုပ်တို့၏ neural network သည် ပထမပိုင်း face rotation နှင့် flip အနည်းငယ်အတွင်း ပိုမိုမအောင်မြင်လွယ်ကြောင်း တွေ့ရသည်။ အကြောင်းမှာ ထိုအစပိုင်း လှည့်ခြင်းများနှင့် flip များအတွင်း neural network သည် Rubik’s Cube ကို ဖြေရှင်းခြင်းနှင့် ရုပ်ပိုင်းဆိုင်ရာကမ္ဘာနှင့် လိုက်လျောညီထွေဖြစ်အောင် ပြုပြင်ခြင်းတို့ကို တစ်ပြိုင်နက် ဟန်ချက်ညီအောင် လုပ်ဆောင်ရသောကြောင့်ဖြစ်သည်။

နောက်ကွယ်မှ မြင်ကွင်းများ: Rubik’s Cube ပရိုတိုတိုက်များ

ကျွန်ုပ်တို့၏ တိုးတက်မှုကို စံနှုန်းသတ်မှတ်တိုင်းတာနိုင်ပြီး ပြဿနာကို ကိုင်တွယ်နိုင်လောက်အောင် လွယ်ကူစေရန်၊ ပုံမှန် Rubik’s Cube ကို နောက်ဆုံးတွင် ဖြေရှင်းနိုင်ရန် အဆင့်ဆင့်ချဉ်းကပ်ရာတွင် အသုံးဝင်သော cube မျိုးကွဲများကို ကျွန်ုပ်တို့ တည်ဆောက်ပြီး ဒီဇိုင်းဆွဲခဲ့သည်။^E

Rubik’s Cube prototypes, from left to right: Locked cube, Face cube, Full cube, Giiker⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) cube, regular Rubik’s Cube.

ပရိုတိုတိုက်	တည်နေရာ + ဦးတည်ချက်	အတွင်းပိုင်း လွတ်လပ်မှုဒီဂရီများ (sensor)
Locked cube	Vision	0 (Sensor မရှိ)
Face cube	PhaseSpace	2 (PhaseSpace)
Full cube	PhaseSpace	6 (PhaseSpace)
Giiker cube	Vision	6 (ပါဝင်ပြီး sensor များ)
ပုံမှန် Rubik’s Cube	Vision	6 (Vision)

နောက်တစ်ဆင့်များ

လူအဆင့် လက်သွက်လက်ချက်သည် ယေဘုယျအသုံးပြုနိုင်သော ရိုဘော့များ တည်ဆောက်ရာ လမ်းကြောင်းပေါ်တွင် ရှိသည်ဟု ကျွန်ုပ်တို့ ယုံကြည်ပြီး ဤဦးတည်ချက်တွင် ဆက်လက် တိုးတက်စေရန် စိတ်လှုပ်ရှားနေပါသည်။

ရိုဘော့ဖြစ်စေ virtual ဖြစ်စေ ပိုမိုယေဘုယျသော AI စနစ်များကို ဖန်တီးရာတွင် ပါဝင်ကူညီလိုပါက ကျွန်ုပ်တို့တွင် အလုပ်ခေါ်ယူနေပါသည်⁠!

မှတ်ချက်များ

A
ကျွန်ုပ်တို့သည် လက်ရှိတွင် စက်များအတွက် ကျွမ်းကျင်ရန် ခက်ခဲနေဆဲသော ပြဿနာများဖြစ်သည့် perception နှင့် လက်သွက်လက်ချက်လိုအပ်သော manipulation တို့ကို အာရုံစိုက်ထားသည်။ ထို့ကြောင့် Kociemba’s algorithm မှ ထုတ်ပေးသော လိုအပ်သည့် face rotation များနှင့် cube flip များကို ပြီးမြောက်စေရန် ကျွန်ုပ်တို့၏ neural network များကို လေ့ကျင့်ပေးသည်။
B
ကျွန်ုပ်တို့၏ အလုပ်သည် 2D ပတ်ဝန်းကျင်များကို အလိုအလျောက် ဖန်တီးပေးသော POET⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) နှင့် နီးကပ်စွာ ဆက်စပ်နေသည်။ သို့သော် ကျွန်ုပ်တို့၏ အလုပ်သည် ပတ်ဝန်းကျင်အားလုံးအပေါ် ပူးတွဲ policy တစ်ခုကို သင်ယူပြီး၊ ၎င်းသည် အသစ်ဖန်တီးလာသော မည်သည့်ပတ်ဝန်းကျင်သို့မဆို transfer လုပ်နိုင်သည်။
C
ပို၍ တိတိကျကျဆိုရသော်၊ အကန့်အသတ်ရှိသော capacity ပါဝင်သည့် neural network တစ်ခုကို အကန့်အသတ်မဲ့ ရှုပ်ထွေးမှုရှိသော ပတ်ဝန်းကျင်များပေါ်တွင် လေ့ကျင့်ပေးခြင်းက network ကို သီးသန့်ရည်ရွယ်ချက်ဆိုင်ရာ learning algorithm တစ်ခု သင်ယူစေမည်ဟု ကျွန်ုပ်တို့ ယူဆသည်၊ အကြောင်းမှာ ၎င်းသည် ပတ်ဝန်းကျင်တစ်ခုချင်းစီအတွက် ဖြေရှင်းချက်များကို မှတ်မိသိမ်းဆည်းမထားနိုင်သလို randomization အားလုံးအောက်တွင် အလုပ်လုပ်မည့် တစ်ခုတည်းသော ခံနိုင်ရည်ရှိ policy မရှိသောကြောင့်ဖြစ်သည်။
D
ရလဒ်အပြည့်အစုံအတွက် ကျွန်ုပ်တို့၏ paper⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) ကို ကြည့်ပါ။
E
ကျွန်ုပ်တို့ ပြုလုပ်ခဲ့သော တစ်ခုတည်းသော ပြုပြင်မှုမှာ center cublet တစ်ခုချင်းစီ၏ ရောင်စုံစတစ်ကာမှ အပိုင်းငယ်တစ်ခုကို ဖြတ်ထုတ်ခြင်းဖြစ်သည်။ ၎င်းသည် rotational symmetry⁠(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) ကို ချိုးဖျက်ရန် လိုအပ်ခဲ့သည်။

စာရေးသူများ

OpenAI - Ilge Akkaya - Marcin Andrychowicz - Maciek Chociej - Mateusz Litwin - Bob McGrew - Arthur Petron - Alex Paino - Matthias Plappert - Glenn Powell - Raphael Ribas - Jonas Schneider - Nikolas Tezak - Jerry Tworek - Peter Welinder - Lilian Weng - Qiming Yuan - Wojciech Zarembaနှင့် Lei Zhang

ကျေးဇူးတင်လွှာ

ဤ post နှင့် paper ၏ မူကြမ်းများအပေါ် အကြံပြုချက်များ ပေးခဲ့ကြသော အောက်ပါပုဂ္ဂိုလ်များအား ကျေးဇူးတင်ပါသည်: Josh Achiam, Greg Brockman, Nick Cammarata, Jack Clark, Jeff Clune, Ruben D’Sa, Harri Edwards, David Farhi, Ken Goldberg, Leslie P. Kaelbling, Hyeonwoo Noh, Lerrel Pinto, John Schulman, Ilya Sutskever & Tao Xu.

ဗီဒီယို: Peter Jordan (Director), Yvette Solis (Producer), Brooke Chan (Producer)

အယ်ဒီတာ: Ashley Pilipiszyn

ဒီဇိုင်း: Justin Jay Wang & Ben Barry

ဓာတ်ပုံ: Eric Haines

ဆက်စပ်ဆောင်းပါးများ

အားလုံးကို ကြည့်ရန်

CLIP: စာသားနှင့် ပုံများကို ချိတ်ဆက်ခြင်း

မှတ်တိုင်၂၀၂၁ ဇန် ၅

Learning dexterity

မှတ်တိုင်၂၀၁၈ ဇူ ၃၀

Retro Contest: Results

နိဂုံးချုပ်၂၀၁၈ ဇွန် ၂၂