Aqbeż għall-kontenut prinċipali
OpenAI
Qed jillowdja…

Żviluppajna algoritmu ta’ apprendiment ta’ tisħiħ ġerarkiku li jitgħallem azzjonijiet ta’ livell għoli utli biex isolvi firxa ta’ kompiti, u jippermetti soluzzjoni rapida ta’ kompiti li jeħtieġu eluf ta’ timesteps. L-algoritmu tagħna, meta applikat għal sett ta’ problemi ta’ navigazzjoni, jiskopri sett ta’ azzjonijiet ta’ livell għoli għall-mixi u ż-żaqliq f’direzzjonijiet differenti, li jippermetti lill-aġent jaħkem kompiti ġodda ta’ navigazzjoni malajr.

Il-bnedmin isolvu sfidi kkumplikati billi jaqsmuhom f’komponenti żgħar u maniġġabbli. It-tisjir tal-pancakes jikkonsisti f’serje ta’ azzjonijiet ta’ livell għoli, bħall-kejl tad-dqiq, it-taħwid tal-bajd, it-trasferiment tat-taħlita fit-taġen, it-tixgħil tal-fornello, u oħrajn. Il-bnedmin kapaċi jitgħallmu kompiti ġodda malajr billi jorbtu flimkien dawn il-komponenti mitgħallma, minkejja li l-kompitu jista’ jeħtieġ miljuni ta’ azzjonijiet ta’ livell baxx, jiġifieri, kontrazzjonijiet individwali tal-muskoli.

Min-naħa l-oħra, il-metodi tal-lum ta’ apprendiment ta’ tisħiħ joperaw permezz ta’ tfittxija brute force fuq azzjonijiet ta’ livell baxx, u jeħtieġu numru enormi ta’ tentattivi biex isolvu kompitu ġdid. Dawn il-metodi jsiru ineffiċjenti ħafna biex isolvu kompiti li jeħtieġu numru kbir ta’ timesteps.

Is-soluzzjoni tagħna hija bbażata fuq l-idea ta’ apprendiment ta’ tisħiħ ġerarkiku, fejn l-aġenti jirrappreżentaw imġibiet ikkumplikati bħala sekwenza qasira ta’ azzjonijiet ta’ livell għoli. Dan iħalli lill-aġenti tagħna jsolvu kompiti ferm aktar diffiċli: filwaqt li s-soluzzjoni tista’ teħtieġ 2000 azzjoni ta’ livell baxx, il-policy ġerarkika tibdel dan f’sekwenza ta’ 10 azzjonijiet ta’ livell għoli, u huwa ħafna aktar effiċjenti li tfittex fuq is-sekwenza ta’ 10 passi milli fuq is-sekwenza ta’ 2000 pass.

Meta-learning shared hierarchies

Flow diagram of observations undergoing policy and converting to action

L-algoritmu tagħna, meta-learning shared hierarchies (MLSH), jitgħallem policy ġerarkika fejn policy kaptan taqleb bejn sett ta’ sub-policies. Il-kaptan jagħżel azzjoni kull N timesteps, fejn nistgħu nieħdu N=200. Sub-policy eżegwita għal N timesteps tikkostitwixxi azzjoni ta’ livell għoli, u għall-kompiti tagħna tan-navigazzjoni, is-sub-policies jikkorrispondu għall-mixi jew iż-żaqliq f’direzzjonijiet differenti.

Fil-parti l-kbira tax-xogħol preċedenti, policies ġerarkiċi kienu maħduma bl-idejn b’mod espliċitu. Minflok, aħna nimmiraw li niskopru din l-istruttura ġerarkika awtomatikament permezz ta’ interazzjoni mal-ambjent. Billi nieħdu perspettiva ta’ meta-learning, niddefinixxu ġerarkija tajba bħala waħda li malajr tilħaq reward għoli meta titħarreġ fuq kompiti li ma dehrux qabel. Għalhekk, l-algoritmu MLSH għandu l-għan li jitgħallem sub-policies li jippermettu apprendiment mgħaġġel fuq kompiti li ma dehrux qabel.

Aħna nħarrġu fuq distribuzzjoni ta’ kompiti, billi naqsmu s-sub-policies filwaqt li nitgħallmu policy kaptan ġdida fuq kull kompitu kampjunat. Billi nħarrġu policies kaptan ġodda ripetutament, dan il-proċess awtomatikament isib sub-policies li jaqblu mad-dinamika tal-apprendiment tal-policy kaptan.

Esperimenti

Qed jillowdja...

Fl-ambjent tagħna AntMaze, robot Mujoco Ant jitqiegħed f’distribuzzjoni ta’ 9 labirinti differenti u jrid jinnaviga mill-pożizzjoni tal-bidu sal-mira. L-algoritmu tagħna jirnexxielu jsib sett divers ta’ sub-policies li jistgħu jitqiegħdu f’sekwenza flimkien biex isolvu l-kompiti tal-labirint, biss permezz ta’ interazzjoni mal-ambjent. Dan is-sett ta’ sub-policies jista’ mbagħad jintuża biex jaħkem kompitu akbar minn dawk li fuqhom ġew imħarrġa (ara l-video fil-bidu tal-post).

Qed jillowdja...

Kodiċi

Qed noħorġu l-kodiċi(jinfetaħ f’tieqa ġdida) għat-taħriġ tal-aġenti MLSH, kif ukoll l-ambjenti MuJoCo li bnejna biex nevalwaw dawn l-algoritmi.

Awturi

Kevin Frans, Jonathan Ho, Peter Chen, u Pieter Abbeel