Aqbeż għall-kontenut prinċipali
OpenAI
Driegħ robotiku estiż isolvi Rubik’s Cube fil-pala tiegħu quddiem sfond vjola mimsus bis-sħab

Ritratt: Eric Haines

Qed jillowdja…

Ħarriġna par ta’ networks newrali biex isolvu r-Rubik’s Cube b’id robotika li tixbah lill-bniedem. In-networks newrali huma mħarrġa kompletament fis-simulazzjoni, bl-użu tal-istess kodiċi ta’ apprendiment ta' tisħiħ bħal OpenAI Five flimkien ma’ teknika ġdida msejħa Automatic Domain Randomization (ADR). Is-sistema tista’ timmaniġġja sitwazzjonijiet li qatt ma rat waqt it-taħriġ, bħal meta tingħata daqqa minn ġiraffa tal-filpa. Dan juri li l-apprendiment ta' tisħiħ mhuwiex biss għodda għal kompiti virtwali, iżda jista’ jsolvi problemi fid-dinja fiżika li jeħtieġu destrezza bla preċedent.

L-idejn tal-bniedem jippermettulna nsolvu varjetà wiesgħa ta’ kompiti. Matul l-aħħar 60 sena tar-robotika, kompiti diffiċli li l-bnedmin iwettqu bil-par fiss ta’ idejhom kienu jeħtieġu d-disinn ta’ robot apposta għal kull kompitu(jinfetaħ f’tieqa ġdida). Bħala alternattiva, in-nies qattgħu ħafna għexieren ta’ snin jippruvaw jużaw ħardwer robotiku ta’ skop ġenerali(jinfetaħ f’tieqa ġdida), iżda b’suċċess limitat minħabba l-gradi għoljin ta’ libertà tiegħu. B’mod partikolari, il-ħardwer li nużaw hawnhekk mhuwiex ġdid—l-id robotika li nużaw ilha teżisti għal dawn l-aħħar 15-il sena—iżda l-approċċ tas-software iva.

Sa minn Mejju 2017, ilna nippruvaw inħarrġu id robotika li tixbah lill-bniedem biex issolvi r-Rubik’s Cube(jinfetaħ f’tieqa ġdida). Stabbilixxejna dan l-għan għax nemmnu li t-taħriġ b’suċċess ta’ id robotika bħal din biex twettaq kompiti kumplessi ta’ manipulazzjoni jqiegħed il-pedament għal robots ta’ skop ġenerali. Solvejna r-Rubik’s Cube fis-simulazzjoni f’Lulju 2017. Iżda sa Lulju 2018, stajna biss nimmanipulaw blokka fuq ir-robot. Issa, wasalna għall-għan inizjali tagħna.

A full solve of the Rubik’s Cube. This video plays at real-time and was not edited in any way.

Is-soluzzjoni ta’ Rubik’s Cube b’id waħda hija kompitu ta’ sfida anke għall-bnedmin, u lit-tfal tieħdilhom diversi snin biex jiksbu d-destrezza meħtieġa biex jaħkmuha. Ir-robot tagħna, iżda, għadu ma pperfezzjonax it-teknika tiegħu, peress li jsolvi r-Rubik’s Cube 60% tal-ħin (u 20% biss tal-ħin għal taħwid massimament diffiċli(jinfetaħ f’tieqa ġdida)).

L-approċċ tagħna

Inħarrġu networks newrali biex isolvu r-Rubik’s Cube fis-simulazzjoni(jinfetaħ f’tieqa ġdida) bl-użu ta’ apprendiment ta' tisħiħ u l-algoritmu ta’ Kociemba(jinfetaħ f’tieqa ġdida) biex jintgħażlu l-passi tas-soluzzjoni.A Id-domain(jinfetaħ f’tieqa ġdida) randomization(jinfetaħ f’tieqa ġdida) tippermetti li networks imħarrġa biss fis-simulazzjoni jittrasferixxu għal robot reali.

A colorful collage of robotic arms

L-akbar sfida li affrontajna kienet li noħolqu ambjenti fis-simulazzjoni li jkunu diversi biżżejjed biex jaqbdu l-fiżika tad-dinja reali. Fatturi bħall-frizzjoni, l-elastiċità u d-dinamika huma diffiċli ħafna biex jitkejlu u jiġu mmudellati għal oġġetti kumplessi daqs Rubik’s Cubes jew idejn robotiċi, u sibna li d-domain randomization waħdu mhuwiex biżżejjed.

Biex negħlbu dan, żviluppajna metodu ġdid imsejjaħ Automatic Domain Randomization (ADR), li jiġġenera bla tmiem ambjenti progressivament aktar diffiċli fis-simulazzjoni.B Dan jeħlisna mill-ħtieġa ta’ mudell preċiż tad-dinja reali, u jippermetti li networks newrali mitgħallma fis-simulazzjoni jiġu applikati għad-dinja reali.

ADR jibda b’ambjent wieħed, mhux randomizzat, li fih network newrali jitgħallem isolvi r-Rubik’s Cube. Hekk kif in-network newrali jsir aħjar fil-kompitu u jilħaq limitu ta’ prestazzjoni, l-ammont ta’ domain randomization jiżdied awtomatikament. Dan jagħmel il-kompitu aktar diffiċli, peress li n-network newrali issa jrid jitgħallem jiġġeneralizza għal ambjenti aktar randomizzati. In-network ikompli jitgħallem sakemm jerġa’ jaqbeż il-limitu ta’ prestazzjoni, meta tidħol aktar randomizzazzjoni, u l-proċess jiġi ripetut.

Qed jillowdja...

Wieħed mill-parametri li nirrandomizzaw huwa d-daqs tar-Rubik’s Cube (hawn fuq). ADR jibda b’daqs fiss tar-Rubik’s Cube u jżid gradwalment il-firxa tar-randomizzazzjoni hekk kif it-taħriġ jimxi ’l quddiem. Napplikaw l-istess teknika għall-parametri l-oħra kollha, bħall-massa tal-kubu, il-frizzjoni tas-swaba’ tar-robot, u l-materjali viżwali tal-wiċċ tal-id. In-network newrali għalhekk irid jitgħallem isolvi r-Rubik’s Cube taħt dawk il-kundizzjonijiet kollha li jsiru dejjem aktar diffiċli.

Qed jillowdja...

Ir-randomizzazzjoni tad-dominju kienet teħtieġ minna li niddeterminaw manwalment il-firxiet tar-randomizzazzjoni, ħaġa diffiċli għax wisq randomizzazzjoni tagħmel it-tagħlim diffiċli iżda ftit wisq randomizzazzjoni xxekkel it-trasferiment għar-robot reali. ADR issolvi dan billi tespandi awtomatikament il-firxiet tar-randomizzazzjoni maż-żmien mingħajr ebda intervent uman. ADR telimina l-ħtieġa għal għarfien tad-dominju u tagħmilha aktar sempliċi biex napplikaw il-metodi tagħna għal kompiti ġodda. B’kuntrast mar-randomizzazzjoni manwali tad-dominju, ADR iżżomm ukoll il-kompitu dejjem ta’ sfida billi t-taħriġ qatt ma jikkonverġi.

Qabbelna ADR mar-randomizzazzjoni manwali tad-dominju fuq il-kompitu tat-tidwir tal-blokka, fejn diġà kellna linja bażi b’saħħitha. Fil-bidu ADR jaħdem agħar f’termini tan-numru ta’ suċċessi fuq ir-robot reali. Iżda hekk kif ADR iżid l-entropija, li hija miżura tal-kumplessità tal-ambjent, il-prestazzjoni tat-trasferiment eventwalment tirdoppja meta mqabbla mal-linja bażi—mingħajr irfinar uman.

Analiżi

Ittestjar tar-robustezza

Bl-użu ta’ ADR, nistgħu nħarrġu networks newrali fis-simulazzjoni li jistgħu jsolvu r-Rubik’s Cube fuq l-id robotika reali. Dan għaliex ADR jesponi n-network għal varjetà bla tmiem ta’ simulazzjonijiet randomizzati. Huwa dan l-esponiment għall-kumplessità waqt it-taħriġ li jipprepara n-network biex jittrasferixxi mis-simulazzjoni għad-dinja reali, peress li jrid jitgħallem jidentifika malajr u jaġġusta ruħu għal kwalunkwe dinja fiżika li jiffaċċja.

Qed jillowdja...

Biex nittestjaw il-limiti tal-metodu tagħna, nesperimentaw b’varjetà ta’ perturbazzjonijiet waqt li l-id tkun qed issolvi r-Rubik’s Cube. Dan mhux biss jittestja r-reżistenza tan-network tal-kontroll tagħna iżda jittestja wkoll in-network tal-viżjoni tagħna, li hawn nużawh biex nistmaw il-pożizzjoni u l-orjentazzjoni tal-kubu.

Sibna li s-sistema tagħna mħarrġa b’ADR hija sorprendentement robusta għall-perturbazzjonijiet minkejja li qatt ma ħarriġna bihom: Ir-robot jista’ jwettaq b’suċċess il-biċċa l-kbira tal-flips u r-rotazzjonijiet tal-uċuħ taħt il-perturbazzjonijiet kollha ttestjati, għalkemm mhux bl-aqwa prestazzjoni.

Meta-learning emerġenti

Aħna nemmnu li l-meta-learning(jinfetaħ f’tieqa ġdida), jew it-tagħlim kif titgħallem, huwa prerekwiżit importanti għall-bini ta’ sistemi ta’ skop ġenerali, peress li jippermettilhom jadattaw malajr għal kundizzjonijiet li jinbidlu fl-ambjenti tagħhom. L-ipoteżi wara ADR hija li networks imsaħħa bil-memorja flimkien ma’ ambjent randomizzat biżżejjed iwasslu għal meta-learning emerġenti, fejn in-network jimplimenta algoritmu ta’ tagħlim li jippermettilu jadatta malajr l-imġiba tiegħu għall-ambjent li fih jiġi skjerat.C

Biex nittestjaw dan b’mod sistematiku, inkejlu l-ħin sas-suċċess għal kull flip tal-kubu (id-dawran tal-kubu biex kulur differenti jħares ’il fuq) għan-network newrali tagħna taħt perturbazzjonijiet differenti, bħar-reset tal-memorja tan-network, ir-reset tad-dinamika, jew it-tkissir ta’ ġonta. Inwettqu dawn l-esperimenti fis-simulazzjoni, li tippermettilna nagħmlu medja tal-prestazzjoni fuq 10,000 prova f’ambjent ikkontrollat.

Qed jillowdja...

Fil-bidu, hekk kif in-network newrali jirnexxilu jagħmel aktar flips, kull darba suċċessiva sal-kisba tas-suċċess tonqos għax in-network jitgħallem jadatta. Meta jiġu applikati perturbazzjonijiet (linji griżi vertikali fil-graff ta’ hawn fuq), naraw żieda fil-ħin sas-suċċess. Dan għaliex l-istrateġija li qed juża n-network ma taħdimx fl-ambjent mibdul. In-network imbagħad jerġa’ jitgħallem dwar l-ambjent il-ġdid u nerġgħu naraw il-ħin sas-suċċess jonqos sal-linja bażi ta’ qabel.

Aħna nkejlu wkoll il-probabbiltà ta’ falliment u wettaqna l-istess esperimenti għar-rotazzjonijiet tal-uċuħ (id-dawran tal-wiċċ ta’ fuq 90 grad lejn l-arloġġ jew kontra l-arloġġ) u sibna l-istess mudell ta’ adattament.D

Nifhmu n-networks newrali tagħna

Il-viżwalizzazzjoni tan-networks tagħna tippermettilna nifhmu x’qed jaħżnu fil-memorja. Dan isir dejjem aktar importanti hekk kif in-networks jikbru fil-kumplessità.

Qed jillowdja...

Il-memorja tan-network newrali tagħna hija viżwalizzata hawn fuq. Nużaw building block mill-interpretability toolbox(jinfetaħ f’tieqa ġdida), jiġifieri factorization ta’ matriċi mhux negattiva, biex nikkondensaw dan il-vettur b’dimensjoni għolja f’6 gruppi u nassenjaw kulur uniku lil kull wieħed. Imbagħad nuru l-kulur tal-grupp bħalissa dominanti għal kull pass taż-żmien.

Sibna li kull grupp tal-memorja għandu mġiba semantikament sinifikanti assoċjata miegħu. Pereżempju, nistgħu ngħidu billi nħarsu biss lejn il-grupp dominanti tal-memorja tan-network jekk hux se jdawwar il-kubu jew idawwar il-parti ta’ fuq lejn l-arloġġ qabel ma jiġri.

Sfidi

Is-soluzzjoni tar-Rubik’s Cube b’id robotika għadha mhix faċli. Il-metodu tagħna bħalissa jsolvi r-Rubik’s Cube 20% tal-ħin meta japplika taħwid massimament diffiċli(jinfetaħ f’tieqa ġdida) li jeħtieġ 26 rotazzjoni tal-uċuħ. Għal taħwid aktar sempliċi li jeħtieġ 15-il rotazzjoni biex jitneħħa, ir-rata ta’ suċċess hija 60%. Meta r-Rubik’s Cube jaqa’ jew jintlaħaq limitu ta’ ħin, aħna nqisu l-attentat bħala fallut. Madankollu, in-network tagħna huwa kapaċi jsolvi r-Rubik’s Cube minn kwalunkwe kundizzjoni inizjali. Għalhekk, jekk il-kubu jaqa’, huwa possibbli li jerġa’ jitpoġġa fl-id u tissokta s-soluzzjoni.

Ġeneralment insibu li n-network newrali tagħna huwa ħafna aktar probabbli li jfalli matul l-ewwel ftit rotazzjonijiet tal-uċuħ u flips. Dan għaliex in-network newrali jeħtieġ li jibbilanċja s-soluzzjoni tar-Rubik’s Cube mal-adattament għad-dinja fiżika matul dawk ir-rotazzjonijiet u l-flips bikrin.

Wara l-kwinti: prototipi tar-Rubik’s Cube

Biex inkejlu l-progress tagħna u nagħmlu l-problema aktar maniġġabbli, bnejna u ddisinjajna verżjonijiet personalizzati tal-kubi bħala passi intermedji lejn is-soluzzjoni finali ta’ Rubik’s Cube regolari.E

Openai Robotics Rubiks Prototypes

Rubik’s Cube prototypes, from left to right: Locked cube, Face cube, Full cube, Giiker(jinfetaħ f’tieqa ġdida) cube, regular Rubik’s Cube.

Prototip

Pożizzjoni + orjentazzjoni

Gradi interni ta’ libertà (sensor)

Kubu msakkar

Viżjoni

0 (Ebda sensor)

Kubu tal-wiċċ

PhaseSpace

2 (PhaseSpace)

Kubu sħiħ

PhaseSpace

6 (PhaseSpace)

Kubu Giiker

Viżjoni

6 (Sensuri integrati)

Rubik’s Cube regolari

Viżjoni

6 (Viżjoni)

Il-passi li jmiss

Aħna nemmnu li destrezza fil-livell tal-bniedem tinsab fit-triq lejn il-bini ta’ robots ta’ skop ġenerali u ninsabu eċċitati biex nimxu ’l quddiem f’din id-direzzjoni.

Jekk trid tgħin biex jinbnew sistemi ta’ AI dejjem aktar ġenerali, kemm robotiċi kif ukoll virtwali, qegħdin nirreklutaw!

Noti f’qiegħ il-paġna

  1. A

    Niffukaw fuq il-problemi li bħalissa huma diffiċli għall-magni biex jegħlbuhom: il-perċezzjoni u l-manipulazzjoni destera. Għalhekk inħarrġu n-networks newrali tagħna biex iwettqu r-rotazzjonijiet tal-uċuħ u l-flips tal-kubu meħtieġa kif iġġenerati mill-algoritmu ta’ Kociemba.

  2. B

    Ix-xogħol tagħna huwa relatat ħafna ma’ POET(jinfetaħ f’tieqa ġdida), li jiġġenera awtomatikament ambjenti 2D. Madankollu, ix-xogħol tagħna jitgħallem politika konġunta fuq l-ambjenti kollha, li tittrasferixxi għal kwalunkwe ambjent iġġenerat ġdid.

  3. C

    B’mod aktar konkret, aħna nipotetizzaw li network newrali b’kapaċità finita mħarreġ fuq ambjenti b’kumplessità bla limitu jġiegħel lin-network jitgħallem algoritmu ta’ tagħlim ta’ skop speċifiku peress li ma jistax jimmemorizza soluzzjonijiet għal kull ambjent individwali u ma teżisti ebda politika robusta waħda li taħdem taħt ir-randomizzazzjonijiet kollha.

  4. D

    Jekk jogħġbok irreferi għall-artiklu(jinfetaħ f’tieqa ġdida) tagħna għar-riżultati sħaħ.

  5. E

    L-unika modifika li għamilna kienet li naqtgħu biċċa żgħira mill-istiker ikkulurit ta’ kull cublet ċentrali. Dan kien meħtieġ biex tinkiser is-simetrija rotazzjonali(jinfetaħ f’tieqa ġdida).

Awturi

OpenAI, Ilge Akkaya, Marcin Andrychowicz, Maciek Chociej, Mateusz Litwin, Bob McGrew, Arthur Petron, Alex Paino, Matthias Plappert, Glenn Powell, Raphael Ribas, Jonas Schneider, Nikolas Tezak, Jerry Tworek, Peter Welinder, Lilian Weng, Qiming Yuan, Wojciech Zaremba, u Lei Zhang

Rikonoxximenti

Grazzi lil dawn li ġejjin għall-feedback fuq abbozzi ta’ din il-kariga u tal-artiklu: Josh Achiam, Greg Brockman, Nick Cammarata, Jack Clark, Jeff Clune, Ruben D’Sa, Harri Edwards, David Farhi, Ken Goldberg, Leslie P. Kaelbling, Hyeonwoo Noh, Lerrel Pinto, John Schulman, Ilya Sutskever & Tao Xu.

Vidjo: Peter Jordan (Direttur), Yvette Solis (Produttriċi), Brooke Chan (Produttriċi)

Editur: Ashley Pilipiszyn

Disinn: Justin Jay Wang & Ben Barry

Fotografija: Eric Haines