Léim go dtí an príomhábhar
OpenAI
Lámh róbait sínte amach ag réiteach ciúb Rubik ina boise os comhair cúlra corcra scamallach

Grianghraf: Eric Haines

Ag lódáil…

Tá péire líonraí néaracha oilte againn chun Ciúb Rubik a réiteach le lámh róbait dhaonchosúil. Cuirtear na líonraí néaracha faoi oiliúint go hiomlán san ionsamhlú, ag úsáid an chóid chéanna foghlama atreisiúcháin le OpenAI Five in éineacht le teicníc nua darb ainm Uathrandamú Fearainn (ADR). Is féidir leis an gcóras déileáil le cásanna nár chonaic sé riamh le linn na hoiliúna, mar shampla a bheith broiste ag sioráf bréagáin. Léiríonn sé seo nach uirlis do thascanna fíorúla amháin í foghlaim atreisiúcháin, ach gur féidir léi fadhbanna sa saol fisiciúil a réiteach a éilíonn oirfidigh gan fasach.

Tugann lámha an duine deis dúinn réimse leathan tascanna a réiteach. Le 60 bliain anuas de róbataic, tá gá le róbat saincheaptha a dhearadh do gach tasc(osclaíonn i bhfuinneog nua) crua a chuireann daoine i gcrích lena bpéire lámh seasta. Mar rogha eile, chaith daoine go leor blianta ag iarraidh crua-earraí róbatacha ilchuspóireacha a úsáid(osclaíonn i bhfuinneog nua), ach níor éirigh leo ach go teoranta mar gheall ar a líon ard saoirsí gluaisne. Go háirithe, níl an crua-earra a úsáidimid anseo nua—tá an lámh róbait a úsáidimid ann le 15 bliana anuas—ach tá an cur chuige bogearraí nua.

Ó Bhealtaine 2017 i leith, táimid ag iarraidh lámh róbait dhaonchosúil a oiliúint chun Ciúb Rubik(osclaíonn i bhfuinneog nua) a réiteach. Shocraíomar an sprioc seo mar creidimid go leagann oiliúint rathúil ar lámh róbait den sórt sin chun tascanna casta ionramhála a dhéanamh an bunchloch do róbait ilchuspóireacha. Réitíomar Ciúb Rubik san ionsamhlú i mí Iúil 2017. Ach i mí Iúil 2018, ní raibh muid in ann ach bloc a ionramháil ar an róbat. Anois, tá ár sprioc tosaigh bainte amach againn.

A full solve of the Rubik’s Cube. This video plays at real-time and was not edited in any way.

Is tasc dúshlánach é Ciúb Rubik a réiteach le lámh amháin fiú do dhaoine, agus tógann sé roinnt blianta ar pháistí an oirfidigh atá de dhíth chun é a mháistir a fháil. Níl a teicníc foirfe ag ár róbat fós, áfach, mar réitíonn sé Ciúb Rubik 60% den am (agus gan ach 20% den am do mheascadh atá chomh deacair agus is féidir(osclaíonn i bhfuinneog nua)).

Ár gcur chuige

Cuirimid oiliúint ar líonraí néaracha chun Ciúb Rubik a réiteach in ionsamhlú(osclaíonn i bhfuinneog nua) ag úsáid foghlaim atreisiúcháin agus algartam Kociemba(osclaíonn i bhfuinneog nua) chun céimeanna an réitigh a roghnú.A Cumasaíonn randamú(osclaíonn i bhfuinneog nua) fearainn(osclaíonn i bhfuinneog nua) do líonraí a cuireadh faoi oiliúint san ionsamhlú amháin aistriú chuig róbat fíor.

A colorful collage of robotic arms

Ba é an dúshlán ba mhó a bhí romhainn ná timpeallachtaí a chruthú san ionsamhlú a bhí éagsúil go leor chun fisic an domhain fhíor a ghabháil. Tá tosca cosúil le frithchuimilt, leaisteachas agus dinimic thar a bheith deacair a thomhas agus a shamhaltú do réada chomh casta le Ciúbanna Rubik nó lámha róbatacha agus fuaireamar amach nach leor randamú fearainn ina aonar.

Chun é seo a shárú, d’fhorbraíomar modh nua darb ainm Automatic Domain Randomization (ADR), a ghineann timpeallachtaí de réir a chéile níos deacra san ionsamhlú gan stad.B Saorann sé seo muid ón ngá atá le samhail chruinn den domhan fíor, agus cuireann sé ar chumas líonraí néaracha a foghlaimíodh san ionsamhlú a aistriú lena gcur i bhfeidhm sa saol fíor.

Tosaíonn ADR le timpeallacht aonair neamh-randamaithe, ina bhfoghlaimíonn líonra néarach Ciúb Rubik a réiteach. De réir mar a éiríonn an líonra néarach níos fearr ar an tasc agus a shroicheann sé tairseach feidhmíochta, méadaítear méid an randamaithe fearainn go huathoibríoch. Déanann sé seo an tasc níos deacra, ós rud é go gcaithfidh an líonra néarach foghlaim conas ginearálú chuig timpeallachtaí níos randamaithe. Leanann an líonra ag foghlaim go dtí go sáraíonn sé an tairseach feidhmíochta arís, nuair a thagann tuilleadh randamaithe i bhfeidhm, agus déantar an próiseas arís.

Ag lódáil...

Ceann de na paraiméadair a randamaímid ná méid Chiúb Rubik (thuas). Tosaíonn ADR le méid seasta de Chiúb Rubik agus méadaíonn sé an raon randamaithe de réir a chéile de réir mar a théann an oiliúint ar aghaidh. Cuirimid an teicníc chéanna i bhfeidhm ar gach paraiméadar eile, amhail mais an chiúibe, frithchuimilt mhéara an róbait, agus ábhair dromchla amhairc na láimhe. Dá bhrí sin, caithfidh an líonra néarach foghlaim conas Ciúb Rubik a réiteach faoi na coinníollacha sin go léir atá ag éirí níos deacra.

Ag lódáil...

D’éiligh randamú fearainn orainn raonta randamaithe a shonrú de láimh, rud atá deacair mar go ndéanann an iomarca randamaithe an fhoghlaim deacair ach cuireann an róbheagán randamaithe bac ar aistriú chuig an róbat fíor. Réitíonn ADR é seo trí raonta randamaithe a leathnú go huathoibríoch le himeacht ama gan aon idirghabháil dhaonna. Cuireann ADR deireadh leis an ngá le heolas fearainn agus déanann sé níos simplí ár modhanna a chur i bhfeidhm ar thascanna nua. I gcodarsnacht le randamú fearainn de láimh, coimeádann ADR an tasc dúshlánach i gcónaí freisin agus ní thagann an oiliúint chun críche choíche.

Chuireamar ADR i gcomparáid le randamú fearainn de láimh ar an tasc blocchastha, áit a raibh bonnlíne láidir againn cheana. Ag an tús, feidhmíonn ADR níos measa i dtéarmaí líon na rathúlachtaí ar an róbat fíor. Ach de réir mar a mhéadaíonn ADR an eantrópacht, atá ina tomhas ar chastacht na timpeallachta, dúblaíonn an fheidhmíocht aistrithe an bhonnlíne sa deireadh—gan tiúnadh daonna.

Anailís

Tástáil ar láidreacht

Le ADR, is féidir linn líonraí néaracha a oiliúint san ionsamhlú ar féidir leo Ciúb Rubik a réiteach ar an bhfíorlámh róbait. Tá sé seo amhlaidh toisc go nochtann ADR an líonra d’éagsúlacht gan deireadh d’ionsamhluithe randamaithe. Is é an nochtadh seo don chastacht le linn na hoiliúna a ullmhaíonn an líonra chun aistriú ón ionsamhlú go dtí an saol fíor ós rud é go gcaithfidh sé foghlaim conas cibé domhan fisiciúil a bhíonn os a chomhair a aithint go tapa agus dul in oiriúint dó.

Ag lódáil...

Chun teorainneacha ár modha a thástáil, déanaimid turgnamh le réimse suaiteanna fad is atá an lámh ag réiteach Chiúb Rubik. Ní hamháin go dtástálann sé seo láidreacht ár líonra rialaithe ach déanann sé tástáil freisin ar ár líonra fís, a úsáidimid anseo chun suíomh agus treoshuíomh an chiúibe a mheas.

Faighimid go bhfuil ár gcóras a cuireadh faoi oiliúint le ADR iontach láidir i gcoinne suaiteanna cé nár chuireamar oiliúint orthu riamh: is féidir leis an róbat an chuid is mó de na castha agus de na rothluithe aghaidhe a dhéanamh go rathúil faoi gach suaiteacht a tástáladh, cé nach mbíonn sé ag buaicfheidhmíocht.

Meitea-fhoghlaim theachtaithe

Creidimid gur réamhriachtanas tábhachtach í meitea-fhoghlaim(osclaíonn i bhfuinneog nua), nó foghlaim conas foghlaim, chun córais ilchuspóireacha a thógáil, ós rud é go gcuireann sí ar a gcumas dul in oiriúint go tapa do dhálaí athraitheacha ina dtimpeallachtaí. Is í an hipitéis atá taobh thiar d’ADR ná go n-eascraíonn meitea-fhoghlaim theachtaithe as líonraí méadaithe le cuimhne a chomhcheangal le timpeallacht atá randamaithe go leor, áit a gcuireann an líonra algartam foghlama i bhfeidhm a ligeann dó féin a iompar a oiriúnú go tapa don timpeallacht ina n-imlonnaítear é.C

Chun é seo a thástáil go córasach, tomhaisimid an t-am go rath in aghaidh gach casadh ciúibe (an ciúb a rothlú ionas go mbeidh dath eile suas) dár líonra néarach faoi shuaití éagsúla, mar shampla cuimhne an líonra a athshocrú, an dinimic a athshocrú, nó alt a bhriseadh. Déanaimid na turgnaimh seo san ionsamhlú, rud a ligeann dúinn an fheidhmíocht a mheánú thar 10,000 triail i suíomh rialaithe.

Ag lódáil...

I dtús báire, de réir mar a éiríonn leis an líonra néarach níos mó casadh a chur i gcrích, laghdaíonn gach am ratha ina dhiaidh sin toisc go bhfoghlaimíonn an líonra conas dul in oiriúint. Nuair a chuirtear suaiteanna i bhfeidhm (línte liatha ingearacha sa chairt thuas), feicimid borradh san am go rath. Tarlaíonn sé seo toisc nach n-oibríonn an straitéis atá á húsáid ag an líonra sa timpeallacht athraithe. Ansin athfhoghlaimíonn an líonra faoin timpeallacht nua agus feicimid arís go laghdaíonn an t-am go rath go dtí an bhunlíne roimhe seo.

Tomhaisimid dóchúlacht teipe freisin agus rinneamar na turgnaimh chéanna le haghaidh rothlú aghaidhe (an aghaidh uachtair a rothlú 90 céim deiseal nó tuathalach) agus feicimid an patrún céanna oiriúnaithe.D

Ár líonraí néaracha a thuiscint

Trí ár líonraí a léirshamhlú, is féidir linn tuiscint a fháil ar a bhfuil á stóráil acu sa chuimhne. Éiríonn sé seo níos tábhachtaí de réir mar a fhásann na líonraí i gcastacht.

Ag lódáil...

Léirshamhlaítear cuimhne ár líonra néaraigh thuas. Úsáidimid bloc tógála ón mbosca uirlisí inléirmhínithe(osclaíonn i bhfuinneog nua), eadhon fachtóiriú maitríse neamh-dhiúltaí, chun an veicteoir ardtoiseach seo a chomhdhlúthú ina 6 ghrúpa agus dath uathúil a shannadh do gach ceann. Ansin taispeánaimid dath an ghrúpa atá ceannasach faoi láthair do gach céim ama.

Faighimid amach go bhfuil iompar a bhfuil brí shéimeantach leis bainteach le gach grúpa cuimhne. Mar shampla, is féidir linn a rá trí bhreathnú ar an ngrúpa ceannasach amháin i gcuimhne an líonra an bhfuil sé ar tí an ciúb a chasadh nó an barr a rothlú deiseal sula dtarlaíonn sé.

Dúshláin

Níl sé éasca fós Ciúb Rubik a réiteach le lámh róbait. Faoi láthair, réitíonn ár modh Ciúb Rubik 20% den am nuair a chuirtear meascadh atá chomh deacair agus is féidir(osclaíonn i bhfuinneog nua) i bhfeidhm a éilíonn 26 rothlú aghaidhe. Le haghaidh meascán níos simplí a éilíonn 15 rothlú le cealú, is é 60% an ráta ratha. Nuair a thiteann an Ciúb Rubik nó nuair a bhaintear teorainn ama amach, measaimid gur theip ar an iarracht. Mar sin féin, tá ár líonra in ann Ciúb Rubik a réiteach ó aon choinníoll tosaigh. Mar sin má thiteann an ciúb, is féidir é a chur ar ais sa lámh agus leanúint den réiteach.

Faighimid go ginearálta gur mó seans go dteipfidh ar ár líonra néarach le linn na gcéad chúpla rothlú aghaidhe agus casadh. Is amhlaidh atá toisc go gcaithfidh an líonra néarach cothromaíocht a aimsiú idir Ciúb Rubik a réiteach agus dul in oiriúint don domhan fisiciúil le linn na rothluithe agus na gcasadh luatha sin.

Taobh thiar den radharc: fréamhshamhlacha Chiúb Rubik

Chun ár ndul chun cinn a thagarmharcáil agus an fhadhb a dhéanamh inbhainistithe, thógamar agus dhearamar leaganacha saincheaptha de chiúbanna mar chéimeanna eatramhacha i dtreo gnáthchiúb Rubik a réiteach sa deireadh.E

Openai Robotics Rubiks Prototypes

Rubik’s Cube prototypes, from left to right: Locked cube, Face cube, Full cube, Giiker(osclaíonn i bhfuinneog nua) cube, regular Rubik’s Cube.

Fréamhshamhail

Suíomh + treoshuíomh

Saoirsí inmheánacha gluaisne (braiteoir)

Ciúb glasáilte

Fís

0 (Gan braiteoir)

Ciúb aghaidhe

PhaseSpace

2 (PhaseSpace)

Ciúb iomlán

PhaseSpace

6 (PhaseSpace)

Ciúb Giiker

Fís

6 (Braiteoirí ionsuite)

Gnáthchiúb Rubik

Fís

6 (Fís)

Na chéad chéimeanna eile

Creidimid go bhfuil oirfidigh ar leibhéal an duine mar chuid den chosán i dtreo róbait ilchuspóireacha a thógáil agus táimid ar bís leanúint ar aghaidh sa treo seo.

Más mian leat cabhrú le córais IS atá ag éirí níos ilghinearálta a chruthú, cibé acu róbatach nó fíorúil iad, táimid ag fostú!

Fonótaí

  1. A

    Dírímid ar na fadhbanna atá deacair fós ar mheaisíní a mháistir faoi láthair: aireachtáil agus ionramháil oilte. Dá bhrí sin, cuirimid oiliúint ar ár líonraí néaracha chun na rothluithe aghaidhe agus na castha ciúibe riachtanacha a bhaint amach mar a ghintear iad le halgartam Kociemba.

  2. B

    Tá dlúthbhaint ag ár gcuid oibre le POET(osclaíonn i bhfuinneog nua), a ghineann timpeallachtaí 2T go huathoibríoch. Mar sin féin, foghlaimíonn ár gcuid oibre comhpholasaí thar gach timpeallacht, a aistríonn chuig aon timpeallacht nua-ghinte.

  3. C

    Níos coincréití, glacaimid leis go gcuireann samhail néarach a bhfuil toilleadh teoranta aici agus í oilte ar thimpeallachtaí a bhfuil castacht neamhcheangailte acu iallach ar an líonra algartam foghlama sainchuspóireach a fhoghlaim ós rud é nach féidir leis réitigh a mheabhrú do gach timpeallacht ar leith agus nach bhfuil aon pholasaí láidir aonair ann a oibríonn faoi gach randamú.

  4. D

    Féach ar ár bpáipéar(osclaíonn i bhfuinneog nua) le haghaidh torthaí iomlána.

  5. E

    Ba é an t-aon mhodhnú a rinneamar ná píosa beag de ghreamán ildaite chiúibín lárnach gach ceann a ghearradh amach. Bhí sé seo riachtanach chun siméadracht rothlach(osclaíonn i bhfuinneog nua) a bhriseadh.

Údair

OpenAI, Ilge Akkaya, Marcin Andrychowicz, Maciek Chociej, Mateusz Litwin, Bob McGrew, Arthur Petron, Alex Paino, Matthias Plappert, Glenn Powell, Raphael Ribas, Jonas Schneider, Nikolas Tezak, Jerry Tworek, Peter Welinder, Lilian Weng, Qiming Yuan, Wojciech Zaremba, Lei Zhang

Buíochais

Buíochas leis na daoine seo a leanas as aiseolas ar dhréachtaí den phostáil agus den pháipéar seo: Josh Achiam, Greg Brockman, Nick Cammarata, Jack Clark, Jeff Clune, Ruben D’Sa, Harri Edwards, David Farhi, Ken Goldberg, Leslie P. Kaelbling, Hyeonwoo Noh, Lerrel Pinto, John Schulman, Ilya Sutskever & Tao Xu.

Físeán: Peter Jordan (Stiúrthóir), Yvette Solis (Léiritheoir), Brooke Chan (Léiritheoir)

Eagarthóir: Ashley Pilipiszyn

Dearadh: Justin Jay Wang & Ben Barry

Grianghrafadóireacht: Eric Haines