26 Deireadh Fómhair 2017

Ag foghlaim ordlathais

Ag lódáil…

Tá algartam foghlama atreisiúcháin ordlathaí forbartha againn a fhoghlaimíonn gníomhartha ardleibhéil atá úsáideach chun réimse tascanna a réiteach, rud a cheadaíonn réiteach tapa ar thascanna a éilíonn na mílte céim ama. Nuair a chuirtear ár n-algartam i bhfeidhm ar shraith fadhbanna loingseoireachta, aimsíonn sé sraith gníomhartha ardleibhéil chun siúl agus crúpáil i dtreonna difriúla, rud a chuireann ar chumas an ghníomhaire tascanna nua loingseoireachta a mháistir go tapa.

Réitíonn daoine dúshláin chasta trí iad a bhriseadh síos ina gcomhpháirteanna beaga inbhainistithe. Tá bácáil pancóg comhdhéanta de shraith gníomhartha ardleibhéil, amhail plúr a thomhas, uibheacha a bhualadh, an meascán a aistriú chuig an bpanna, an sorn a chasadh air, agus araile. Tá daoine ábalta tascanna nua a fhoghlaim go tapa trí na comhpháirteanna foghlamtha seo a chur in ord le chéile, cé go bhféadfadh na milliúin gníomhartha ísleibhéil a bheith i gceist leis an tasc, i.e., crapthaí matán aonair.

Ar an láimh eile, oibríonn modhanna foghlama atreisiúcháin an lae inniu trí chuardach brúidiúil thar ghníomhartha ísleibhéil, rud a éilíonn líon ollmhór iarrachtaí chun tasc nua a réiteach. Éiríonn na modhanna seo an-neamhéifeachtúil maidir le tascanna a réiteach a thógann líon mór céimeanna ama.

Tá ár réiteach bunaithe ar an smaoineamh maidir le foghlaim atreisiúcháin ordlathach, ina léiríonn gníomhairí iompraíochtaí casta mar sheicheamh gearr de ghníomhartha ardleibhéil. Ligeann sé seo dár ngníomhairí tascanna i bhfad níos deacra a réiteach: cé go bhféadfadh 2000 gníomh ísleibhéil a bheith ag teastáil ón réiteach, iompaíonn an polasaí ordlathach é seo ina sheicheamh de 10 ngníomh ardleibhéil, agus tá sé i bhfad níos éifeachtúla cuardach a dhéanamh thar an seicheamh 10 gcéim ná thar an seicheamh 2000 céim.

Meitea-fhoghlaim ordlathas comhroinnte

Flow diagram of observations undergoing policy and converting to action

Foghlaimíonn ár n-algartam, meitea-fhoghlaim ordlathas comhroinnte (MLSH), polasaí ordlathach ina n-athraíonn máistirpholasaí idir tacar fo-pholasaithe. Roghnaíonn an máistir gníomh gach N céim ama, áit a bhféadfaimis N=200 a ghlacadh. Is gníomh ardleibhéil é fo-pholasaí a chuirtear i gcrích ar feadh N céim ama, agus dár dtascanna loingseoireachta, comhfhreagraíonn fo-pholasaithe do shiúl nó do chrúpáil i dtreonna éagsúla.

I bhformhór na hoibre roimhe seo, bhí polasaithe ordlathacha lámhdheartha go sainráite. Ina ionad sin, tá sé mar aidhm againn an struchtúr ordlathach seo a aimsiú go huathoibríoch trí idirghníomhú leis an gcomhshaol. Ag glacadh dearcadh meitea-fhoghlama, sainímid ordlathas maith mar ordlathas a shroicheann luaíocht ard go tapa agus oiliúint á déanamh ar thascanna nach bhfacthas roimhe seo. Dá bhrí sin, tá sé mar aidhm ag algartam MLSH fo-pholasaithe a fhoghlaim a chumasaíonn foghlaim thapa ar thascanna nach bhfacthas roimhe seo.

Cuirimid oiliúint ar dháileadh thar thascanna, ag comhroinnt na bhfo-pholasaithe agus ag foghlaim máistirpholasaí nua ar gach tasc sampláilte. Trí mháistirpholasaithe nua a oiliúint arís agus arís eile, aimsíonn an próiseas seo go huathoibríoch fo-pholasaithe a oireann do dhinimic foghlama an mháistirpholasaí.

Turgnaimh

Ag lódáil...

Inár dtimpeallacht AntMaze, cuirtear róbat Mujoco Ant i ndáileadh de 9 gcathair ghréasáin éagsúla agus ní mór dó loingseoireacht a dhéanamh ón suíomh tosaigh go dtí an sprioc. Éiríonn lenár n-algartam tacar éagsúil fo-pholasaithe a aimsiú ar féidir iad a chur in ord le chéile chun tascanna an chathair ghréasáin a réiteach, trí idirghníomhú leis an gcomhshaol amháin. Is féidir an tacar fo-pholasaithe seo a úsáid ansin chun máistreacht a fháil ar thasc níos mó ná na cinn ar cuireadh oiliúint orthu (féach an físeán ag tús an phoist).

Ag lódáil...

Cód

Táimid ag scaoileadh an chóid⁠(osclaíonn i bhfuinneog nua) chun na gníomhairí MLSH a oiliúint, chomh maith leis na timpeallachtaí MuJoCo a thógamar chun na halgartaim seo a mheas.

Údair

Kevin Frans, Jonathan Ho, Peter Chen, Pieter Abbeel

Ailt ghaolmhara

Féach gach rud

Scaling laws for reward model overoptimization

Foilsiú19 DFómh 2022

Learning to play Minecraft with Video PreTraining

Conclúid23 Meith 2022

Dota 2 with large scale deep reinforcement learning

Foilsiú13 Noll 2019