Léim go dtí an príomhábhar
OpenAI
Radharc isiméadrach de ghreille liath le hilghníomhairí ag imirt ceilte is tóra i ngach cearnóg

Léaráid: Ben Barry

Ag lódáil…

Thugamar faoi deara go bhfuil gníomhairí ag aimsiú úsáid uirlisí atá ag éirí níos casta de réir a chéile agus iad ag imirt cluiche simplí ceilte is tóra. Trí oiliúint inár dtimpeallacht nua insamhlaithe ceilte is tóra, tógann gníomhairí sraith de shé straitéis agus frithstraitéis ar leith, agus ní raibh a fhios againn fiú go dtacaíodh ár dtimpeallacht le cuid díobh. Tugann an chastacht atá ag teacht chun cinn go féinmhaoirsithe sa timpeallacht shimplí seo le fios freisin go bhféadfadh comh-oiriúnú ilghníomhaire iompar thar a bheith casta agus cliste a tháirgeadh lá éigin.

Inár dtimpeallacht, imríonn gníomhairí cluiche foirne ceilte is tóra. Tá sé de chúram ar na ceilteoirí (gorm) radharc díreach na lorgairí (dearg) a sheachaint, agus tá sé de chúram ar na lorgairí na ceilteoirí a choinneáil ina radharc. Tá rudaí scaipthe ar fud na timpeallachta ar féidir le ceilteoirí agus lorgairí greim a fháil orthu agus iad a ghlasáil ina n-áit, chomh maith le seomraí agus ballaí doghluaiste a ghintear go randamach nach mór do ghníomhairí foghlaim conas dul tríothu. Sula dtosaíonn an cluiche, tugtar céim ullmhúcháin do na ceilteoirí ina mbíonn na lorgairí gan gluaiseacht chun deis a thabhairt do na ceilteoirí rith leo nó a dtimpeallacht a athrú.

Ag lódáil...

Níl aon dreasachtaí follasacha ann do ghníomhairí idirghníomhú le réada sa timpeallacht; is é cuspóir an chluiche ceilte is tóra an t-aon mhaoirseacht a thugtar. Tugtar luach saothair foirne do ghníomhairí; faigheann na ceilteoirí luach saothair +1 má tá gach ceilteoir i bhfolach agus -1 má fheiceann lorgaire aon cheilteoir. Tugtar a mhalairt de luach saothair do na lorgairí, -1 má tá gach ceilteoir i bhfolach agus +1 murach sin. Chun iompar gníomhairí a choinneáil laistigh de spás réasúnta, gearrtar pionós ar ghníomhairí má théann siad rófhada lasmuigh den limistéar imeartha. Le linn na céime ullmhúcháin, tugtar luach saothair nialais do gach gníomhaire.

Uathchuraclaim agus iompar atá ag teacht chun cinn

De réir mar a dhéanann gníomhairí oiliúint i gcoinne a chéile i gcluiche ceilte is tóra, tagann suas le sé straitéis shainiúla chun cinn. Cruthaíonn gach straitéis nua brú nach raibh ann roimhe seo ar ghníomhairí dul ar aghaidh go dtí an chéad chéim eile. Tabhair faoi deara nach bhfuil aon dreasachtaí díreacha ann do ghníomhairí idirghníomhú le réada ná taiscéaladh a dhéanamh; ina ionad sin, is toradh iad na straitéisí atá ag teacht chun cinn a thaispeántar thíos ar an uathchuraclam(osclaíonn i bhfuinneog nua) a spreagann iomaíocht ilghníomhaire agus dinimic shimplí an chluiche ceilte is tóra.

Ag lódáil...

Gníomhairí ceilte is tóra a oiliúint

Úsáidimid an bonneagar oiliúna agus na halgartaim chéanna a úsáideadh chun OpenAI Five agus Dactyl a oiliúint. Mar sin féin, inár dtimpeallacht gníomhaíonn gach gníomhaire go neamhspleách, ag úsáid a bhreathnuithe féin agus a staid chuimhne fholaithe féin. Úsáideann gníomhairí léiriú domhan-dhírithe ar eintitis bunaithe ar staid, atá doscartha ó pheirmiú maidir le réada agus gníomhairí eile.

Leabaítear gach réad agus ansin cuirtear trí bhloc féin-aird iarmharaigh maiscithe é, cosúil leo siúd a úsáidtear i trasfhoirmitheoirí(osclaíonn i bhfuinneog nua), áit a mbíonn an aird dírithe ar réada seachas ar am. Déantar réada nach bhfuil sa líne radhairc agus os comhair an ghníomhaire a mhascadh amach ionas nach mbeidh aon fhaisnéis ag an ngníomhaire fúthu.

Léaráid d’ailtireacht polasaí ilghníomhaire

Cuirtear oiliúint ar pholasaithe gníomhairí le féinimirt agus Optamú Neasach Polasaí. Le linn an optamaithe, is féidir le gníomhairí faisnéis phribhléideach faoi réada ceilte agus faoi ghníomhairí eile a úsáid ina bhfeidhm luacha.

Fuaireamar amach go raibh oiliúint ar mhórscála ríthábhachtach chun go rachaidís gníomhairí chun cinn trí na céimeanna éagsúla teacht chun cinn. Thíos taispeánaimid an t-am agus líon na n-eipeasóidí a thógann sé ar ghníomhairí céim 4 (cosaint rámpa) a bhaint amach do mhéideanna éagsúla baisce. Feicimid go dtugann méadú ar mhéid na baisce luasghéarú mór san am clogbhalla go cóineasú, cé nach mbíonn mórán tionchair aige ar éifeachtúlacht samplaí ag 32k nó os a chionn. Mar sin féin, fuaireamar amach nár bhain méideanna baisce 8k agus 16k céim 4 amach riamh sa líon eipeasóidí a cuireadh ar fáil.

Ag lódáil...

Iomaíocht ilghníomhaire vs. inspreagadh intreach

Sa saothar seo léirímid fianaise go bhfoghlaimíonn gníomhairí straitéisí agus frithstraitéisí casta trí uathchuraclam féinmhaoirsithe i gcluiche ceilte is tóra. Modh eile chun scileanna a fhoghlaim ar bhealach neamhmhaoirsithe is ea inspreagadh intreach, a spreagann gníomhairí chun taiscéalaíocht a dhéanamh le méadrachtaí éagsúla amhail earráid samhla nó comhaireamh staideanna. Rinneamar taiscéalaíocht bunaithe ar chomhaireamh inár dtimpeallacht, ina gcoimeádann gníomhairí comhaireamh follasach ar na staideanna ar thug siad cuairt orthu agus spreagtar iad chun dul chuig staideanna nach dtugtar cuairt orthu go minic. Is é an phríomhrogha samhaltaithe le tiúnadh sa suíomh seo ná léiriú na staide; mar shampla, inár gcéad bhunlíne ní chuirimid san áireamh ach suíomhanna boscaí 2-T sa staid, ionas nach spreagtar gníomhairí ach chun idirghníomhú le boscaí agus iad a bhogadh chuig suíomhanna nua. Ansin déanaimid comparáid idir seo agus polasaí bunaithe ar chomhaireamh a ghlacann an staid iomlán a thugtar do na gníomhairí a imríonn ceilte is tóra.

Ag lódáil...

Mar is léir, díríonn gníomhairí a cuireadh faoi oiliúint i gcluiche ceilte is tóra go cáilíochtúil ar iompraíochtaí atá i bhfad níos inléirmhínithe ag daoine, cosúil le tógáil foscaidh, ach bogann gníomhairí a cuireadh faoi oiliúint le hinspreagadh intreach réada timpeall ar bhealach a fheictear mar gan treo. Ina theannta sin, de réir mar a mhéadaíonn castacht an spáis staide, feicimid go mbíonn idirghníomhaíochtaí modhanna inspreagtha intreach le réada ina dtimpeallacht níos lú agus níos lú bríche. Ar an gcúis seo, creidimid gur modh níos inscálaithe a bheidh in iomaíocht ilghníomhaire chun scileanna atá ábhartha do dhaoine a ghiniúint ar bhealach neamhmhaoirsithe de réir mar a leanann timpeallachtaí ag méadú i méid agus i gcastacht.

Aistriú agus mionchoigeartú mar mheastóireacht

Sa chuid roimhe seo, déanaimid comparáid cháilíochtúil idir iompraíochtaí a foghlaimíodh i gcluiche ceilte is tóra agus iad siúd a foghlaimíodh le hinspreagadh intreach. Mar sin féin, de réir mar a mhéadaíonn timpeallachtaí ó thaobh scála de, méadóidh an deacracht a bhaineann le dul chun cinn a thomhas go cáilíochtúil freisin. Ní leor luach saothair a rianú mar mhéadrach meastóireachta i suíomhanna ilghníomhaire, ós rud é go bhféadfadh sé a bheith débhríoch maidir le cibé an bhfuil gníomhairí ag feabhsú go cothrom nó tar éis dul i bhfostú. Is féidir le méadrachtaí cosúil le ELO nó Trueskill a thomhas níos iontaofa an bhfuil feidhmíocht ag feabhsú i gcoibhneas le leaganacha polasaí roimhe seo nó le polasaithe eile i ndaonra; ach fós féin ní thugann na méadrachtaí sin léargas ar cé acu an dtagann feidhmíocht fheabhsaithe ó oiriúnuithe nua nó ó scileanna a foghlaimíodh roimhe seo a fheabhsú. Ar deireadh, is féidir le staitisticí a bhaineann go sonrach leis an timpeallacht amhail gluaiseacht réad a bheith débhríoch freisin (mar shampla, ní léiríonn an rogha gluaiseacht absalóideach a rianú cén treo ar bhog gníomhairí), agus beidh sé deacair agus costasach méadrachtaí leordhóthanacha a dhearadh de réir mar a mhéadaíonn timpeallachtaí.

Molaimid sraith tástálacha faisnéise atá sonrach don réimse a úsáid, a dhíríonn ar chumais a chreidimid a d’fhéadfadh gníomhairí a bhaint amach sa deireadh. Is féidir le feidhmíocht aistrithe sna suíomhanna seo gníomhú mar thomhas cainníochtúil ar cháilíocht léirithe nó ar scil, agus déanaimid comparáid le réamhoiliúint le taiscéalaíocht bunaithe ar chomhaireamh chomh maith le bunlíne a cuireadh ag oiliúint ón tús.

Ag lódáil...

Cé go n-éiríonn níos fearr leis an ngníomhaire ceilte is tóra i mórán de na tascanna aistrithe, ní fheabhsaíonn sé feidhmíocht ná am cóineasaithe go mór. Óna iompar a fheiceáil, tá a fhios againn go bhfuil an scil fholaithe aige réada a bhogadh go beacht chun foscadh a thógáil sa chluiche ceilte is tóra; mar sin féin, níl sé in ann an scil seo a úsáid i gcomhthéacsanna eile nuair a chuirtear oiliúint air le líon íseal samplaí.

Creidimid go bhfuil cúis na dtorthaí measctha aistrithe fréamhaithe i ngníomhairí ag foghlaim léirithe scile atá fite fuaite agus deacair a mhionchoigeartú. De réir mar a éiríonn timpeallachtaí amach anseo níos éagsúla agus de réir mar a chaithfidh gníomhairí scileanna a úsáid i níos mó comhthéacsanna, creidimid go bhfeicfimid léirithe scile níos ginearálaithe agus comhartha níos suntasaí sa chur chuige meastóireachta seo. Ina theannta sin, cuirimid na tascanna meastóireachta ar fáil mar fhoinse oscailte mar bhealach chun dul chun cinn foghlama inár dtimpeallacht a mheas.

Iompraíochtaí iontacha

Léirigh muid gur féidir le gníomhairí úsáid sofaisticiúil uirlisí a fhoghlaim i insamhlóir fisice ard-dílseachta; mar sin féin, foghlaimíodh go leor ceachtanna ar an mbealach chun an toradh seo. Níl sé éasca timpeallachtaí a thógáil agus is minic a tharlaíonn sé go n-aimsíonn gníomhairí bealach chun an timpeallacht a thóg tú nó an t-inneall fisice a shaothrú ar bhealach nach raibh beartaithe.

Ag lódáil...

Údair

Bowen Baker, Ingmar Kanitscheider, Todor Markov, Yi Wu, Glenn Powell, Bob McGrew, Igor Mordatch

Aiseolas

Buíochas leis na daoine seo a leanas as aiseolas ar an bpostáil agus ar an bpáipéar seo: Pieter Abbeel, Jeff Clune, Jessica Hamrick, Joel Leibo, Natasha Jaques, Calvin French-Owen, Azalia Mirhoseini, Ilya Sutskever, Greg Brockman, Jack Clark, Brooke Chan & Karson Elmgren

Eile

Físeán: Glenn Powell, Leo Ogawa Lillrank, Ivy Lillrank, Andie Lee

Eagarthóir: Ashley Pilipiszyn

Dearadh: Justin Jay Wang

Ealaín an chlúdaigh: Ben Barry