Is-soluzzjoni tar-Rubik’s Cube b’id robotika

Ritratt: Eric Haines
Ħarriġna par ta’ networks newrali biex isolvu r-Rubik’s Cube b’id robotika li tixbah lill-bniedem. In-networks newrali huma mħarrġa kompletament fis-simulazzjoni, bl-użu tal-istess kodiċi ta’ apprendiment ta' tisħiħ bħal OpenAI Five flimkien ma’ teknika ġdida msejħa Automatic Domain Randomization (ADR). Is-sistema tista’ timmaniġġja sitwazzjonijiet li qatt ma rat waqt it-taħriġ, bħal meta tingħata daqqa minn ġiraffa tal-filpa. Dan juri li l-apprendiment ta' tisħiħ mhuwiex biss għodda għal kompiti virtwali, iżda jista’ jsolvi problemi fid-dinja fiżika li jeħtieġu destrezza bla preċedent.
L-idejn tal-bniedem jippermettulna nsolvu varjetà wiesgħa ta’ kompiti. Matul l-aħħar 60 sena tar-robotika, kompiti diffiċli li l-bnedmin iwettqu bil-par fiss ta’ idejhom kienu jeħtieġu d-disinn ta’ robot apposta għal kull kompitu(jinfetaħ f’tieqa ġdida). Bħala alternattiva, in-nies qattgħu ħafna għexieren ta’ snin jippruvaw jużaw ħardwer robotiku ta’ skop ġenerali(jinfetaħ f’tieqa ġdida), iżda b’suċċess limitat minħabba l-gradi għoljin ta’ libertà tiegħu. B’mod partikolari, il-ħardwer li nużaw hawnhekk mhuwiex ġdid—l-id robotika li nużaw ilha teżisti għal dawn l-aħħar 15-il sena—iżda l-approċċ tas-software iva.
Sa minn Mejju 2017, ilna nippruvaw inħarrġu id robotika li tixbah lill-bniedem biex issolvi r-Rubik’s Cube(jinfetaħ f’tieqa ġdida). Stabbilixxejna dan l-għan għax nemmnu li t-taħriġ b’suċċess ta’ id robotika bħal din biex twettaq kompiti kumplessi ta’ manipulazzjoni jqiegħed il-pedament għal robots ta’ skop ġenerali. Solvejna r-Rubik’s Cube fis-simulazzjoni f’Lulju 2017. Iżda sa Lulju 2018, stajna biss nimmanipulaw blokka fuq ir-robot. Issa, wasalna għall-għan inizjali tagħna.
A full solve of the Rubik’s Cube. This video plays at real-time and was not edited in any way.
Is-soluzzjoni ta’ Rubik’s Cube b’id waħda hija kompitu ta’ sfida anke għall-bnedmin, u lit-tfal tieħdilhom diversi snin biex jiksbu d-destrezza meħtieġa biex jaħkmuha. Ir-robot tagħna, iżda, għadu ma pperfezzjonax it-teknika tiegħu, peress li jsolvi r-Rubik’s Cube 60% tal-ħin (u 20% biss tal-ħin għal taħwid massimament diffiċli(jinfetaħ f’tieqa ġdida)).
Inħarrġu networks newrali biex isolvu r-Rubik’s Cube fis-simulazzjoni(jinfetaħ f’tieqa ġdida) bl-użu ta’ apprendiment ta' tisħiħ u l-algoritmu ta’ Kociemba(jinfetaħ f’tieqa ġdida) biex jintgħażlu l-passi tas-soluzzjoni.A Id-domain(jinfetaħ f’tieqa ġdida) randomization(jinfetaħ f’tieqa ġdida) tippermetti li networks imħarrġa biss fis-simulazzjoni jittrasferixxu għal robot reali.

L-akbar sfida li affrontajna kienet li noħolqu ambjenti fis-simulazzjoni li jkunu diversi biżżejjed biex jaqbdu l-fiżika tad-dinja reali. Fatturi bħall-frizzjoni, l-elastiċità u d-dinamika huma diffiċli ħafna biex jitkejlu u jiġu mmudellati għal oġġetti kumplessi daqs Rubik’s Cubes jew idejn robotiċi, u sibna li d-domain randomization waħdu mhuwiex biżżejjed.
Biex negħlbu dan, żviluppajna metodu ġdid imsejjaħ Automatic Domain Randomization (ADR), li jiġġenera bla tmiem ambjenti progressivament aktar diffiċli fis-simulazzjoni.B Dan jeħlisna mill-ħtieġa ta’ mudell preċiż tad-dinja reali, u jippermetti li networks newrali mitgħallma fis-simulazzjoni jiġu applikati għad-dinja reali.
ADR jibda b’ambjent wieħed, mhux randomizzat, li fih network newrali jitgħallem isolvi r-Rubik’s Cube. Hekk kif in-network newrali jsir aħjar fil-kompitu u jilħaq limitu ta’ prestazzjoni, l-ammont ta’ domain randomization jiżdied awtomatikament. Dan jagħmel il-kompitu aktar diffiċli, peress li n-network newrali issa jrid jitgħallem jiġġeneralizza għal ambjenti aktar randomizzati. In-network ikompli jitgħallem sakemm jerġa’ jaqbeż il-limitu ta’ prestazzjoni, meta tidħol aktar randomizzazzjoni, u l-proċess jiġi ripetut.
Wieħed mill-parametri li nirrandomizzaw huwa d-daqs tar-Rubik’s Cube (hawn fuq). ADR jibda b’daqs fiss tar-Rubik’s Cube u jżid gradwalment il-firxa tar-randomizzazzjoni hekk kif it-taħriġ jimxi ’l quddiem. Napplikaw l-istess teknika għall-parametri l-oħra kollha, bħall-massa tal-kubu, il-frizzjoni tas-swaba’ tar-robot, u l-materjali viżwali tal-wiċċ tal-id. In-network newrali għalhekk irid jitgħallem isolvi r-Rubik’s Cube taħt dawk il-kundizzjonijiet kollha li jsiru dejjem aktar diffiċli.
Ir-randomizzazzjoni tad-dominju kienet teħtieġ minna li niddeterminaw manwalment il-firxiet tar-randomizzazzjoni, ħaġa diffiċli għax wisq randomizzazzjoni tagħmel it-tagħlim diffiċli iżda ftit wisq randomizzazzjoni xxekkel it-trasferiment għar-robot reali. ADR issolvi dan billi tespandi awtomatikament il-firxiet tar-randomizzazzjoni maż-żmien mingħajr ebda intervent uman. ADR telimina l-ħtieġa għal għarfien tad-dominju u tagħmilha aktar sempliċi biex napplikaw il-metodi tagħna għal kompiti ġodda. B’kuntrast mar-randomizzazzjoni manwali tad-dominju, ADR iżżomm ukoll il-kompitu dejjem ta’ sfida billi t-taħriġ qatt ma jikkonverġi.
Qabbelna ADR mar-randomizzazzjoni manwali tad-dominju fuq il-kompitu tat-tidwir tal-blokka, fejn diġà kellna linja bażi b’saħħitha. Fil-bidu ADR jaħdem agħar f’termini tan-numru ta’ suċċessi fuq ir-robot reali. Iżda hekk kif ADR iżid l-entropija, li hija miżura tal-kumplessità tal-ambjent, il-prestazzjoni tat-trasferiment eventwalment tirdoppja meta mqabbla mal-linja bażi—mingħajr irfinar uman.
Bl-użu ta’ ADR, nistgħu nħarrġu networks newrali fis-simulazzjoni li jistgħu jsolvu r-Rubik’s Cube fuq l-id robotika reali. Dan għaliex ADR jesponi n-network għal varjetà bla tmiem ta’ simulazzjonijiet randomizzati. Huwa dan l-esponiment għall-kumplessità waqt it-taħriġ li jipprepara n-network biex jittrasferixxi mis-simulazzjoni għad-dinja reali, peress li jrid jitgħallem jidentifika malajr u jaġġusta ruħu għal kwalunkwe dinja fiżika li jiffaċċja.
Biex nittestjaw il-limiti tal-metodu tagħna, nesperimentaw b’varjetà ta’ perturbazzjonijiet waqt li l-id tkun qed issolvi r-Rubik’s Cube. Dan mhux biss jittestja r-reżistenza tan-network tal-kontroll tagħna iżda jittestja wkoll in-network tal-viżjoni tagħna, li hawn nużawh biex nistmaw il-pożizzjoni u l-orjentazzjoni tal-kubu.
Sibna li s-sistema tagħna mħarrġa b’ADR hija sorprendentement robusta għall-perturbazzjonijiet minkejja li qatt ma ħarriġna bihom: Ir-robot jista’ jwettaq b’suċċess il-biċċa l-kbira tal-flips u r-rotazzjonijiet tal-uċuħ taħt il-perturbazzjonijiet kollha ttestjati, għalkemm mhux bl-aqwa prestazzjoni.
Aħna nemmnu li l-meta-learning(jinfetaħ f’tieqa ġdida), jew it-tagħlim kif titgħallem, huwa prerekwiżit importanti għall-bini ta’ sistemi ta’ skop ġenerali, peress li jippermettilhom jadattaw malajr għal kundizzjonijiet li jinbidlu fl-ambjenti tagħhom. L-ipoteżi wara ADR hija li networks imsaħħa bil-memorja flimkien ma’ ambjent randomizzat biżżejjed iwasslu għal meta-learning emerġenti, fejn in-network jimplimenta algoritmu ta’ tagħlim li jippermettilu jadatta malajr l-imġiba tiegħu għall-ambjent li fih jiġi skjerat.C
Biex nittestjaw dan b’mod sistematiku, inkejlu l-ħin sas-suċċess għal kull flip tal-kubu (id-dawran tal-kubu biex kulur differenti jħares ’il fuq) għan-network newrali tagħna taħt perturbazzjonijiet differenti, bħar-reset tal-memorja tan-network, ir-reset tad-dinamika, jew it-tkissir ta’ ġonta. Inwettqu dawn l-esperimenti fis-simulazzjoni, li tippermettilna nagħmlu medja tal-prestazzjoni fuq 10,000 prova f’ambjent ikkontrollat.
Fil-bidu, hekk kif in-network newrali jirnexxilu jagħmel aktar flips, kull darba suċċessiva sal-kisba tas-suċċess tonqos għax in-network jitgħallem jadatta. Meta jiġu applikati perturbazzjonijiet (linji griżi vertikali fil-graff ta’ hawn fuq), naraw żieda fil-ħin sas-suċċess. Dan għaliex l-istrateġija li qed juża n-network ma taħdimx fl-ambjent mibdul. In-network imbagħad jerġa’ jitgħallem dwar l-ambjent il-ġdid u nerġgħu naraw il-ħin sas-suċċess jonqos sal-linja bażi ta’ qabel.
Aħna nkejlu wkoll il-probabbiltà ta’ falliment u wettaqna l-istess esperimenti għar-rotazzjonijiet tal-uċuħ (id-dawran tal-wiċċ ta’ fuq 90 grad lejn l-arloġġ jew kontra l-arloġġ) u sibna l-istess mudell ta’ adattament.D
Il-viżwalizzazzjoni tan-networks tagħna tippermettilna nifhmu x’qed jaħżnu fil-memorja. Dan isir dejjem aktar importanti hekk kif in-networks jikbru fil-kumplessità.
Il-memorja tan-network newrali tagħna hija viżwalizzata hawn fuq. Nużaw building block mill-interpretability toolbox(jinfetaħ f’tieqa ġdida), jiġifieri factorization ta’ matriċi mhux negattiva, biex nikkondensaw dan il-vettur b’dimensjoni għolja f’6 gruppi u nassenjaw kulur uniku lil kull wieħed. Imbagħad nuru l-kulur tal-grupp bħalissa dominanti għal kull pass taż-żmien.
Sibna li kull grupp tal-memorja għandu mġiba semantikament sinifikanti assoċjata miegħu. Pereżempju, nistgħu ngħidu billi nħarsu biss lejn il-grupp dominanti tal-memorja tan-network jekk hux se jdawwar il-kubu jew idawwar il-parti ta’ fuq lejn l-arloġġ qabel ma jiġri.
Is-soluzzjoni tar-Rubik’s Cube b’id robotika għadha mhix faċli. Il-metodu tagħna bħalissa jsolvi r-Rubik’s Cube 20% tal-ħin meta japplika taħwid massimament diffiċli(jinfetaħ f’tieqa ġdida) li jeħtieġ 26 rotazzjoni tal-uċuħ. Għal taħwid aktar sempliċi li jeħtieġ 15-il rotazzjoni biex jitneħħa, ir-rata ta’ suċċess hija 60%. Meta r-Rubik’s Cube jaqa’ jew jintlaħaq limitu ta’ ħin, aħna nqisu l-attentat bħala fallut. Madankollu, in-network tagħna huwa kapaċi jsolvi r-Rubik’s Cube minn kwalunkwe kundizzjoni inizjali. Għalhekk, jekk il-kubu jaqa’, huwa possibbli li jerġa’ jitpoġġa fl-id u tissokta s-soluzzjoni.
Ġeneralment insibu li n-network newrali tagħna huwa ħafna aktar probabbli li jfalli matul l-ewwel ftit rotazzjonijiet tal-uċuħ u flips. Dan għaliex in-network newrali jeħtieġ li jibbilanċja s-soluzzjoni tar-Rubik’s Cube mal-adattament għad-dinja fiżika matul dawk ir-rotazzjonijiet u l-flips bikrin.
Biex inkejlu l-progress tagħna u nagħmlu l-problema aktar maniġġabbli, bnejna u ddisinjajna verżjonijiet personalizzati tal-kubi bħala passi intermedji lejn is-soluzzjoni finali ta’ Rubik’s Cube regolari.E

Rubik’s Cube prototypes, from left to right: Locked cube, Face cube, Full cube, Giiker(jinfetaħ f’tieqa ġdida) cube, regular Rubik’s Cube.
Prototip | Pożizzjoni + orjentazzjoni | Gradi interni ta’ libertà (sensor) |
Kubu msakkar | Viżjoni | 0 (Ebda sensor) |
Kubu tal-wiċċ | PhaseSpace | 2 (PhaseSpace) |
Kubu sħiħ | PhaseSpace | 6 (PhaseSpace) |
Kubu Giiker | Viżjoni | 6 (Sensuri integrati) |
Rubik’s Cube regolari | Viżjoni | 6 (Viżjoni) |
Aħna nemmnu li destrezza fil-livell tal-bniedem tinsab fit-triq lejn il-bini ta’ robots ta’ skop ġenerali u ninsabu eċċitati biex nimxu ’l quddiem f’din id-direzzjoni.
Jekk trid tgħin biex jinbnew sistemi ta’ AI dejjem aktar ġenerali, kemm robotiċi kif ukoll virtwali, qegħdin nirreklutaw!
Noti f’qiegħ il-paġna
- A
Niffukaw fuq il-problemi li bħalissa huma diffiċli għall-magni biex jegħlbuhom: il-perċezzjoni u l-manipulazzjoni destera. Għalhekk inħarrġu n-networks newrali tagħna biex iwettqu r-rotazzjonijiet tal-uċuħ u l-flips tal-kubu meħtieġa kif iġġenerati mill-algoritmu ta’ Kociemba.
- B
Ix-xogħol tagħna huwa relatat ħafna ma’ POET(jinfetaħ f’tieqa ġdida), li jiġġenera awtomatikament ambjenti 2D. Madankollu, ix-xogħol tagħna jitgħallem politika konġunta fuq l-ambjenti kollha, li tittrasferixxi għal kwalunkwe ambjent iġġenerat ġdid.
- C
B’mod aktar konkret, aħna nipotetizzaw li network newrali b’kapaċità finita mħarreġ fuq ambjenti b’kumplessità bla limitu jġiegħel lin-network jitgħallem algoritmu ta’ tagħlim ta’ skop speċifiku peress li ma jistax jimmemorizza soluzzjonijiet għal kull ambjent individwali u ma teżisti ebda politika robusta waħda li taħdem taħt ir-randomizzazzjonijiet kollha.
- D
Jekk jogħġbok irreferi għall-artiklu(jinfetaħ f’tieqa ġdida) tagħna għar-riżultati sħaħ.
- E
L-unika modifika li għamilna kienet li naqtgħu biċċa żgħira mill-istiker ikkulurit ta’ kull cublet ċentrali. Dan kien meħtieġ biex tinkiser is-simetrija rotazzjonali(jinfetaħ f’tieqa ġdida).
Awturi
Rikonoxximenti
Grazzi lil dawn li ġejjin għall-feedback fuq abbozzi ta’ din il-kariga u tal-artiklu: Josh Achiam, Greg Brockman, Nick Cammarata, Jack Clark, Jeff Clune, Ruben D’Sa, Harri Edwards, David Farhi, Ken Goldberg, Leslie P. Kaelbling, Hyeonwoo Noh, Lerrel Pinto, John Schulman, Ilya Sutskever & Tao Xu.
Vidjo: Peter Jordan (Direttur), Yvette Solis (Produttriċi), Brooke Chan (Produttriċi)
Editur: Ashley Pilipiszyn
Disinn: Justin Jay Wang & Ben Barry
Fotografija: Eric Haines


