Xallinta Rubik’s Cube adigoo adeegsanaya gacan robot

Sawir: Eric Haines
Waxaan tababbarney labo shabakado neerfo ah si ay Rubik’s Cube ugu xalliyaan gacan robot oo u eg tan aadanaha. Shabakadaha neerfaha waxaa gebi ahaanba lagu tababbaray simulation, iyagoo adeegsanaya isla koodhka waxbarashadda xoojinta ah ee OpenAI Five oo lagu lammaaniyey farsamo cusub oo la yiraahdo Automatic Domain Randomization (ADR). Nidaamku wuxuu maareyn karaa xaalado aanu waligii arag intii tababarku socday, sida in lagu mudmudo geri caruureed oo maro laga sameeyey. Tani waxay muujinaysaa in waxbarashadda xoojinta ahi aysan ahayn oo keliya qalab hawlo dalwad ah, balse ay xallin karto dhibaatooyinka adduunka jireed ee u baahan far-karti aan hore loo arag.
Gacmaha aadamuhu waxay noo saamaxaan inaan qabanno hawlo kala duwan oo badan. 60-kii sano ee u dambeeyay ee robotics-ka, hawlaha adag ee aadamuhu ku qabto labada gacmood ee caadiga ah waxay u baahdeen in loo naqshadeeyo robot gaar ah hawl kasta(ku furmaa daaqad cusub). Beddelkeeda, dadku waxay ku qaateen tobannaan sano isku dayga isticmaalka qalab robot oo ujeeddo-guud leh(ku furmaa daaqad cusub), balse guul xaddidan ayay gaadheen maadaama uu leeyahay xorriyado dhaqdhaqaaq oo aad u badan. Gaar ahaan, qalabka aanu halkan isticmaalayno ma aha mid cusub—gacanta robot-ka ee aanu isticmaalayno waxay jirtay 15-kii sano ee u dambeeyay—laakiin habka software-ku waa cusub yahay.
Tan iyo May 2017, waxaan isku dayaynay inaan tababbarno gacan robot u eg gacan aadame si ay u xalliso Rubik’s Cube(ku furmaa daaqad cusub). Waxaan dejinnay yoolkan sababtoo ah waxaan aaminsanahay in si guul leh loo tababbari karo gacan robot noocan ahi inay qabato hawlo maamulid adag ay saldhig u dhigayso robot-yo ujeeddo-guud leh. Waxaan Rubik’s Cube ku xallinnay simulation bishii Luulyo 2017. Laakiin ilaa Luulyo 2018, waxaan kaliya awoodnay inaan dhaqaajino baloog robot-ka dushiisa. Hadda, waxaan gaadhnay yoolkeennii hore.
A full solve of the Rubik’s Cube. This video plays at real-time and was not edited in any way.
In Rubik’s Cube hal gacan lagu xalliyo waa hawl adag xitaa dadka, carruurtana waxay ku qaadataa dhowr sano inay helaan far-kartida loo baahan yahay si ay u hanan karaan. Si kastaba ha ahaatee, robot-keennu weli ma dhammaystirin farsamadiisa, maadaama uu Rubik’s Cube xalliyo 60% wakhtiyada (oo kaliya 20% wakhtiyada marka uu jiro qas isku-dar aad u adag(ku furmaa daaqad cusub)).
Waxaan ku tababbarnaa shabakado neerfo inay ku xalliyaan Rubik’s Cube gudaha simulation(ku furmaa daaqad cusub) annagoo adeegsanayna waxbarashadda xoojinta ah iyo algorithm-ka Kociemba(ku furmaa daaqad cusub) si loo doorto tallaabooyinka xallinta.A Domain(ku furmaa daaqad cusub) randomization(ku furmaa daaqad cusub) waxay u saamaxdaa shabakadaha lagu tababbaray simulation keliya inay u gudbaan robot dhab ah.

Caqabadda ugu weyn ee na haysatay waxay ahayd inaan abuurno deegaanno simulation ah oo ku filan kala duwanaansho si ay u qabtaan fiisigiska dunida dhabta ah. Waxyaabaha sida khilaafka, dabacsanaanta iyo dynamics-ku aad bay u adag yihiin in la cabbiro laguna noocyeeyo walxo u adag sida Rubik’s Cubes ama gacmo robot, waxaana ogaanay in domain randomization keliya aanu ku filnayn.
Si aan tan uga gudubno, waxaan samaynay hab cusub oo la yidhaahdo Automatic Domain Randomization (ADR), kaas oo si aan dhammaad lahayn u abuura deegaanno simulation ah oo si tartiib tartiib ah u sii adkaanaya.B Tani waxay naga xoreynaysaa baahida model sax ah oo dunida dhabta ah ah, waxayna suurtagelisaa in shabakado neerfo oo lagu bartay simulation loo dabaqo dunida dhabta ah.
ADR waxay ku bilaabataa hal deegaan oo aan random ahayn, kaas oo ay shabakad neerfo ku barato xallinta Rubik’s Cube. Marka shabakadda neerfuhu ay ka fiicnaato hawsha oo gaadho heer waxqabad oo xaddidan, qadarka domain randomization-ka si toos ah ayaa loo kordhiyaa. Tani waxay hawsha ka dhigtaa mid adag, maadaama shabakadda neerfuhu ay hadda khasab ku tahay inay barato guud-marinta deegaanno random gareysan oo badan. Shabakadda ayaa sii wadata waxbarashada ilaa ay mar kale ka dhaafto heerka waxqabadka, markaas oo randomization dheeraad ahi bilowdo, habkuna dib u soo noqdo.
Mid ka mid ah xuduudaha aanu random gareyno waa cabbirka Rubik’s Cube-ka (kor). ADR waxay ku bilaabataa cabbir go’an oo Rubik’s Cube ah, ka dibna si tartiib tartiib ah ayay u kordhisaa baaxadda randomization-ka inta tababarku socdo. Waxaan isla farsamadan u dabaqnaa dhammaan xuduudaha kale, sida cufka cube-ka, khilaafka faraha robot-ka, iyo agabka dusha muuqaalka ee gacanta. Sidaas darteed shabakadda neerfuhu waa inay barato inay Rubik’s Cube ku xalliso dhammaan xaaladahaas sii adkaanaya.
Domain randomization wuxuu naga rabay inaan gacanta ku cayimno baaxadaha randomization-ka, taas oo adag sababtoo ah randomization aad u badan wuxuu ka dhigaa waxbarashada mid adag halka randomization aad u yar uu carqaladeeyo u gudbinta robot-ka dhabta ah. ADR wuxuu tan ku xalliyaa isagoo si toos ah u balaariya baaxadaha randomization-ka waqti ka dib iyada oo aan faragelin bini’aadan loo baahnayn. ADR waxay meesha ka saartaa baahida aqoon gaar ah oo domain ah, waxayna fududaysaa in hababkayaga lagu dabaqo hawlo cusub. Si ka duwan manual domain randomization, ADR sidoo kale waxay hawsha ka dhigtaa mid mar walba adag iyadoo tababarku aanu weligiis gaadhin convergence.
Waxaan ADR la barbar dhignay manual domain randomization hawsha block flipping-ka, halkaas oo aanu hore u lahayn baseline xooggan. Bilowga ADR waxay ka liidataa marka la eego tirada guulaha robot-ka dhabta ah. Laakiin marka ADR kordhiso entropy-ga, oo ah cabbirka kakanaanta deegaanka, waxqabadka u gudbintu ugu dambayn wuxuu labanlaabmaa baseline-ka—iyadoo aan wax human tuning ah la samayn.
Iyadoo la adeegsanayo ADR, waxaan awoodnaa inaan ku tababbarno shabakado neerfo oo ku jira simulation si ay Rubik’s Cube ugu xalliyaan gacanta robot-ka dhabta ah. Tani waa sababta oo ah ADR waxay shabakadda u bandhigtaa noocyo aan dhammaad lahayn oo simulations random gareysan ah. Waa la kulankan kakanaanta inta lagu jiro tababarka kan diyaariya shabakadda inay ka gudubto simulation una wareegto adduunka dhabta ah, maadaama ay khasab ku tahay inay barato sida degdegga ah loogu aqoonsado looguna la qabsado adduun kasta oo jireed oo ay la kulanto.
Si aan u tijaabino xadka habkayaga, waxaan ku samaynaa tijaabooyin perturbations kala duwan inta gacantu xallinayso Rubik’s Cube. Tani kaliya ma tijaabinayso adkaysiga shabakaddeenna xakamaynta, balse sidoo kale waxay tijaabinaysaa shabakaddeenna aragga, taas oo aanu halkan u isticmaalno qiyaasidda booska iyo jihaynta cube-ka.
Waxaan ogaanay in nidaamkeenna lagu tababbaray ADR uu si yaab leh ugu adkaysto perturbations xitaa in kasta oo aannaan waligeen ku tababbarin: Robot-ku wuxuu si guul leh u samayn karaa inta badan flip-yada iyo wareegyada wejiyada dhammaan perturbations-kii la tijaabiyey, inkastoo aanu gaadhin waxqabadkii ugu sarreeyey.
Waxaan aaminsanahay in meta-learning(ku furmaa daaqad cusub), ama barashada sida wax loo barto, ay tahay shuruud muhiim ah oo hore loogu baahan yahay dhisidda nidaamyo ujeeddo-guud leh, maadaama ay u saamaxayso inay si degdeg ah ula qabsadaan xaaladaha isbeddelaya ee deegaannadooda. Mala-awaalka ka dambeeya ADR waa in shabakado xusuus lagu kordhiyey oo lagu daray deegaan si ku filan loo random gareeyey ay horseedaan meta-learning soo baxa, halkaas oo shabakadda ay hirgeliso algorithm waxbarasho oo u saamaxaya inay si degdeg ah ula qabsato hab-dhaqankeeda deegaanka lagu hawlgeliyey.C
Si aan tan si nidaamsan u tijaabino, waxaan cabbirnaa waqtiga guusha halkii cube flip (wareejinta cube-ka si midab kale dusha ugu soo jeesto) ee shabakaddeenna neerfaha iyadoo lagu jiro perturbations kala duwan, sida dib-u-dejinta xusuusta shabakadda, dib-u-dejinta dynamics-ka, ama jebinta kala-goys. Tijaabooyinkan waxaan ku samaynaa simulation, taas oo noo oggolaanaysa inaan celcelis ka qaadno waxqabadka in ka badan 10,000 oo tijaabo ah oo ku jira jawi la xakameeyey.
Bilowga, marka shabakadda neerfuhu ay si guul leh u samayso flip-yo badan, waqtiga guul kasta oo xigta wuu yaraadaa sababtoo ah shabakadda ayaa baranaysa inay la qabsato. Marka perturbations la dabaqo (xariiqyada cawlan ee toosan ee jaantuska kore), waxaan aragnaa koror ku yimaada waqtiga guusha. Tani waa sababta oo ah istaraatiijiyadda ay shabakaddu isticmaalayso kuma shaqaynayso deegaanka isbeddelay. Shabakaddu markaas waxay mar kale ka baranaysaa deegaanka cusub, waxaana mar kale aragnaa waqtiga guusha oo hoos ugu noqda heerkii hore.
Waxaan sidoo kale cabbirnaa suurtagalnimada fashilka, waxaana isla tijaabooyinkaas u samaynay wareegyada wejiga (wareejinta wejiga kore 90 darajo dhinaca saacadda ama lidkeeda), waxaanan helnay isla qaabka la-qabsiga.D
Muuqaal u samaynta shabakadaha noooc waxay noo sahlaysaa inaan fahanno waxa ay xusuusta ku kaydinayaan. Tani waxay sii noqonaysaa mid muhiim ah marka shabakadaha ay ku koraan kakanaanta.
Xusuusta shabakaddeenna neerfaha ayaa kor lagu muujiyey. Waxaan isticmaalnaa dhisme ka socda interpretability toolbox(ku furmaa daaqad cusub), gaar ahaan non-negative matrix factorization, si aan vector-kan cabbirkiisu sarreeyo ugu soo koobo 6 kooxood una siino midab gaar ah mid kasta. Kadibna waxaan soo bandhignaa midabka kooxda hadda ugu sarreysa tallaabo kasta oo waqtiyeed.
Waxaan ogaanay in koox kasta oo xusuus ahi ay leedahay hab-dhaqan macne ahaan muhiim ah oo lala xidhiidhin karo. Tusaale ahaan, annagoo eegayna oo keliya kooxda ugu sarreysa ee xusuusta shabakadda, waxaan ogaan karnaa inay ku dhowdahay inay cube-ka wareejiso ama dusha sare dhinaca saacadda u rogto ka hor intaanay dhicin.
Xallinta Rubik’s Cube iyadoo la adeegsanayo gacan robot wali ma fududa. Habkayagu hadda wuxuu xalliyaa Rubik’s Cube 20% wakhtiyada marka la dabaqo qas isku-dar aad u adag(ku furmaa daaqad cusub) oo u baahan 26 wareeg oo wejiyo ah. Qasaska ka fudud ee u baahan 15 wareeg si loo rogo, heerka guushu waa 60%. Marka Rubik’s Cube uu gacanta ka dhaco ama waqtigu dhammaado, waxaan u tixgelinnaa isku dayga mid fashilmay. Si kastaba ha ahaatee, shabakaddeennu waxay awood u leedahay inay Rubik’s Cube ka xalliso xaalad kasta oo bilow ah. Sidaas darteed haddii cube-ku dhaco, waa suurtagal in mar kale gacanta lagu celiyo oo xallintu sii socoto.
Guud ahaan waxaan ogaannaa in shabakaddeenna neerfuhu ay aad ugu badan tahay inay fashilanto inta lagu jiro dhowrka wareeg ee ugu horreeya iyo flip-yada. Tani waa sababta oo ah shabakadda neerfuhu waxay u baahan tahay inay isu dheellitirto xallinta Rubik’s Cube iyo la qabsiga adduunka jireed inta lagu jiro wareegyadaas iyo flip-yada hore.
Si aan u cabbirno horumarkayaga una fududeyno dhibaatada, waxaan dhisnay oo naqshadaynay noocyo cube‑yo gaar ah oo u noqda tallaabooyin lagu gaadhayo xallinta Rubik’s Cube-ka caadiga ah ugu dambayn.E

Rubik’s Cube prototypes, from left to right: Locked cube, Face cube, Full cube, Giiker(ku furmaa daaqad cusub) cube, regular Rubik’s Cube.
Nooc tijaabo | Boos + jihayn | Heerarka xorriyadda gudaha (dareeme) |
Locked cub | Arag | 0 (Dareeme ma jiro) |
Face cub | PhaseSpace | 2 (PhaseSpace) |
Full cube | PhaseSpace | 6 (PhaseSpace) |
Giiker cube | Arag | 6 (Dareemayaal ku dhex jira) |
Rubik’s Cube caadi ah | Arag | 6 (Arag) |
Waxaan aaminsanahay in far-kartida heer-aadame ay ku jirto jidka lagu dhisayo robot-yo ujeeddo-guud leh, waxaana ku faraxsanahay inaan horay ugu sii riixno jihadan.
Haddii aad rabto inaad gacan ka geysato samaynta nidaamyo AI sii kordhaya oo guud, ha ahaadeen robot ama dalwad, waan shaqaalaynaynaa!
Qoraallo hoose
- A
Waxaan diiradda saarnaa dhibaatooyinka hadda ku adag mashiinnada inay bartaan: aragti iyo maarayn far-karti leh. Sidaas darteed waxaan ku tababbarnaa shabakadaha neerfaheenna inay gaadhaan wareegyada wejiyada iyo cube flip-yada loo baahan yahay sida uu soo saaro algorithm-ka Kociemba.
- B
Shaqadeennu si dhow ayay ula xidhiidhaa POET(ku furmaa daaqad cusub), kaas oo si toos ah u abuura deegaanno 2D ah. Si kastaba ha ahaatee, shaqadeennu waxay barataa siyaasad wadajir ah oo ka shaqaysa dhammaan deegaannada, taas oo u gudubta deegaan kasta oo cusub oo la abuuro.
- C
Si ka sii gaar ah, waxaan mala-awaalaynaa in shabakad neerfo leh awood xaddidan oo lagu tababbaray deegaanno leh kakanaan aan xad lahayn ay ku qasbayso shabakadda inay barato algorithm waxbarasho oo ujeeddo gaar ah leh maadaama aysan xafidi karin xalal deegaan kasta oo gaar ah, isla markaana aysan jirin hal siyaasad oo adkaysi leh oo ka shaqaysa dhammaan randomizations-ka.
- D
Fadlan eeg warqaddeenna(ku furmaa daaqad cusub) si aad u hesho natiijooyinka buuxa.
- E
Isbeddelka keliya ee aanu samaynay wuxuu ahaa inaan jarno qayb yar oo ka mid ah sticker-ka midabka leh ee cublet kasta oo dhexe. Tani waxay lagama maarmaan u ahayd jebinta summetry-ga wareegga(ku furmaa daaqad cusub).
Qorayaasha
Mahadnaqyo
Waxaan uga mahadcelinaynaa dadka soo socda jawaab-celinta ay ka bixiyeen qabyo-qoraallada qoraalkan iyo warqadda cilmi-baarista: Josh Achiam, Greg Brockman, Nick Cammarata, Jack Clark, Jeff Clune, Ruben D’Sa, Harri Edwards, David Farhi, Ken Goldberg, Leslie P. Kaelbling, Hyeonwoo Noh, Lerrel Pinto, John Schulman, Ilya Sutskever & Tao Xu.
Fiidiyow: Peter Jordan (Agaasime), Yvette Solis (Soo-saare), Brooke Chan (Soo-saare)
Tifaftire: Ashley Pilipiszyn
Naqshad: Justin Jay Wang & Ben Barry
Sawirro: Eric Haines


