17 ta’ Settembru 2019

Użu emerġenti tal-għodda minn interazzjoni multi-aġent

Aqra l-karta Ġenerazzjoni tal-ambjent Ġenerazzjoni tad-dinja

Veduta isometrika ta’ gradilja griża b’multi-aġenti jilagħbu l-ħabi u t-tfittxija f’kull kwadru

Illustrazzjoni: Ben Barry

Qed jillowdja…

Osservajna aġenti jiskopru użu tal-għodda progressivament aktar kumpless waqt li kienu qed jilagħbu logħba sempliċi ta’ ħabi u tfittxija. Permezz tat-taħriġ fl-ambjent ġdid simulat tagħna ta’ ħabi u tfittxija, l-aġenti jibnu serje ta’ sitt strateġiji distinti u kontrostrateġiji, li wħud minnhom ma konniex nafu li l-ambjent tagħna kien jappoġġja. Il-kumplessità emerġenti self-supervised f’dan l-ambjent sempliċi tissuġġerixxi aktar li l-koadattament multi-aġent jista’ xi darba jipproduċi mġiba estremament kumplessa u intelliġenti.

Fl-ambjent tagħna, l-aġenti jilagħbu logħba ta’ ħabi u tfittxija f’timijiet. Il-moħbija (blu) għandhom il-kompitu li jevitaw il-linja tal-vista minn dawk li jfittxu (aħmar), u dawk li jfittxu għandhom il-kompitu li jżommu lill-moħbija fil-vista. Hemm oġġetti mxerrdin mal-ambjent kollu li l-moħbija u dawk li jfittxu jistgħu jaqbdu u jissakkru f’posthom, kif ukoll kmamar u ħitan iġġenerati b’mod każwali li ma jiċċaqalqux u li l-aġenti jridu jitgħallmu jinnavigaw. Qabel tibda l-logħba, il-moħbija jingħataw fażi ta’ preparazzjoni li fiha dawk li jfittxu jkunu immobilizzati biex il-moħbija jkollhom ċans jaħarbu jew ibiddlu l-ambjent tagħhom.

Qed jillowdja...

Ma hemmx inċentivi espliċiti biex l-aġenti jinteraġixxu ma’ oġġetti fl-ambjent; l-unika superviżjoni mogħtija hija permezz tal-objettiv tal-ħabi u t-tfittxija. L-aġenti jingħataw reward ibbażat fuq it-tim; il-moħbija jingħataw reward ta’ +1 jekk il-moħbija kollha jkunu moħbija u -1 jekk xi moħbi jidher minn min ifittex. Dawk li jfittxu jingħataw ir-reward oppost, -1 jekk il-moħbija kollha jkunu moħbija u +1 inkella. Biex l-imġiba tal-aġent tinżamm fi spazju raġonevoli, l-aġenti jiġu penalizzati jekk imorru wisq ’il barra miż-żona tal-logħob. Matul il-fażi ta’ preparazzjoni, l-aġenti kollha jingħataw reward żero.

Autocurricula u mġiba emerġenti

Hekk kif l-aġenti jitħarrġu kontra xulxin fil-ħabi u t-tfittxija, joħorġu sa sitt strateġiji distinti. Kull strateġija ġdida toħloq pressjoni li qabel ma kinitx teżisti biex l-aġenti javvanzaw għall-istadju li jmiss. Innota li ma hemmx inċentivi diretti biex l-aġenti jinteraġixxu ma’ oġġetti jew biex jesploraw; pjuttost, l-istrateġiji emerġenti murija hawn taħt huma riżultat tal-autocurriculum⁠(jinfetaħ f’tieqa ġdida) indott mill-kompetizzjoni multi-aġent u d-dinamika sempliċi tal-ħabi u t-tfittxija.

Qed jillowdja...

Taħriġ ta’ aġenti tal-ħabi u t-tfittxija

Nużaw l-istess infrastruttura ta’ taħriġ u l-istess algoritmi użati biex jitħarrġu OpenAI Five⁠ u Dactyl⁠. Madankollu, fl-ambjent tagħna kull aġent jaġixxi b’mod indipendenti, billi juża l-osservazzjonijiet tiegħu stess u stat ta’ memorja moħbi. L-aġenti jużaw rappreżentazzjoni tad-dinja bbażata fuq l-istat u ċċentrata fuq l-entitajiet, li hija invarjanti għall-permutazzjoni fir-rigward tal-oġġetti u aġenti oħra.

Kull oġġett jiġi embedded u mbagħad jgħaddi minn blokka masked residual self attention, simili għal dawk użati fit-transformers⁠(jinfetaħ f’tieqa ġdida), fejn l-attention tkun fuq l-oġġetti minflok fuq iż-żmien. Oġġetti li mhumiex fil-linja tal-vista u quddiem l-aġent jiġu masked out sabiex l-aġent ma jkollu l-ebda informazzjoni dwarhom.

Dijagramma tal-arkitettura tal-politika ta’ multi-aġent

Il-politiki tal-aġenti jitħarrġu b’self-play⁠ u Ottimizzazzjoni tal-Politika Prossimali⁠. Waqt l-ottimizzazzjoni, l-aġenti jistgħu jużaw informazzjoni privileġġata dwar oġġetti moħbija u aġenti oħra fil-value function tagħhom.

Sibna li t-taħriġ fuq skala kbira kien kruċjali biex l-aġenti javvanzaw mill-istadji varji tal-emerġenza. Hawn taħt nuru kemm il-ħin kif ukoll in-numru ta’ episodji li jeħtieġu l-aġenti biex jilħqu l-istadju 4 (difiża tar-rampa) għal daqsijiet differenti ta’ batch. Insibu li ż-żieda fid-daqs tal-batch tagħti aċċelerazzjoni drastika fil-ħin reali sal-konverġenza, għalkemm ma taffettwax wisq l-effiċjenza tal-kampjuni f’32k jew aktar. Madankollu, sibna li daqsijiet ta’ batch ta’ 8k u 16k qatt ma laħqu l-istadju 4 fin-numru allokat ta’ episodji.

Qed jillowdja...

Kompetizzjoni multi-aġent vs. motivazzjoni intrinsika

F’dan ix-xogħol nuru evidenza li l-aġenti jitgħallmu strateġiji u kontrostrateġiji kumplessi permezz ta’ autocurriculum self-supervised fil-ħabi u t-tfittxija. Metodu ieħor biex jitgħallmu l-ħiliet b’mod mhux sorveljat huwa l-motivazzjoni intrinsika, li tinċentiva lill-aġenti jesploraw b’diversi metriċi bħal żball tal-mudell jew għadd ta’ stati. Mexxejna esplorazzjoni bbażata fuq l-għadd fl-ambjent tagħna, fejn l-aġenti jżommu għadd espliċitu tal-istati li żaru u jiġu inċentivati jmorru lejn stati miżjura b’mod mhux frekwenti. L-għażla ewlenija tal-immudellar li għandha tiġi rfinata f’dan il-kuntest hija r-rappreżentazzjoni tal-istat; pereżempju, fl-ewwel baseline tagħna ninkludu biss pożizzjonijiet ta’ kaxxi 2-D fl-istat, sabiex l-aġenti jkunu inċentivati biss jinteraġixxu ma’ kaxxi u jmexxuhom lejn pożizzjonijiet ġodda. Imbagħad inqabblu dan ma’ politika bbażata fuq l-għadd li tieħu l-istat sħiħ mogħti lill-aġenti li jilagħbu l-ħabi u t-tfittxija.

Qed jillowdja...

Kif jidher, l-aġenti mħarrġa fil-ħabi u t-tfittxija jiffokaw b’mod kwalitattiv fuq imġibiet ferm aktar interpretabbli għall-bniedem, bħall-kostruzzjoni ta’ kenn, filwaqt li l-aġenti mħarrġa b’motivazzjoni intrinsika jċaqalqu l-oġġetti b’mod li jidher mingħajr direzzjoni. Barra minn hekk, hekk kif l-ispazju tal-istati jiżdied fil-kumplessità, insibu li l-metodi ta’ motivazzjoni intrinsika jkollhom interazzjonijiet dejjem inqas sinifikanti mal-oġġetti fl-ambjent tagħhom. Għal din ir-raġuni, nemmnu li l-kompetizzjoni multi-aġent se tkun metodu aktar skalabbli biex jiġu ġġenerati ħiliet rilevanti għall-bniedem b’mod mhux sorveljat hekk kif l-ambjenti jkomplu jiżdiedu fid-daqs u l-kumplessità.

Trasferiment u fine-tuning bħala evalwazzjoni

Fit-taqsima ta’ qabel, inqabblu b’mod kwalitattiv l-imġibiet mitgħallma fil-ħabi u t-tfittxija ma’ dawk mitgħallma b’motivazzjoni intrinsika. Madankollu, hekk kif l-ambjenti jikbru fl-iskala, hekk ukoll tikber id-diffikultà biex jitkejjel il-progress b’mod kwalitattiv. Is-segwitu tar-reward huwa metrika ta’ evalwazzjoni insuffiċjenti f’ambjenti b’diversi aġenti, għax jista’ jkun ambigwu biex jindika jekk l-aġenti humiex qed jitjiebu b’mod ugwali jew jekk waqfux javvanzaw. Metriċi bħal ELO jew Trueskill jistgħu jkejlu b’mod aktar affidabbli jekk il-prestazzjoni hijiex qed titjieb relattivament għal verżjonijiet preċedenti tal-politika jew politiki oħra f’popolazzjoni; madankollu, dawn il-metriċi xorta ma jagħtux għarfien dwar jekk il-prestazzjoni mtejba hijiex ikkawżata minn adattamenti ġodda jew minn titjib f’ħiliet li tgħallmu qabel. Fl-aħħar, l-użu ta’ statistika speċifika għall-ambjent bħall-moviment tal-oġġetti jista’ wkoll ikun ambigwu (pereżempju, l-għażla li ssegwi moviment assolut ma turix lejn liema direzzjoni mxew l-aġenti), u t-tfassil ta’ metriċi suffiċjenti se jsir diffiċli u għali hekk kif l-ambjenti jikbru.

Nipproponu li nużaw sett ta’ testijiet ta’ intelliġenza speċifiċi għad-dominju li jimmiraw kapaċitajiet li nemmnu li l-aġenti jistgħu eventwalment jiksbu. Il-prestazzjoni tat-trasferiment f’dawn il-kuntesti tista’ taġixxi bħala kejl kwantitattiv tal-kwalità tar-rappreżentazzjoni jew tal-ħila, u nqabbluha ma’ pretraining b’esplorazzjoni bbażata fuq l-għadd kif ukoll ma’ baseline imħarreġ mill-bidu.

Qed jillowdja...

Għalkemm l-aġent tal-ħabi u t-tfittxija jagħmel aħjar f’ħafna mill-kompiti ta’ trasferiment, ma jtejjibx b’mod drastiku l-prestazzjoni jew il-ħin għall-konverġenza. Mill-osservazzjoni tal-imġiba tiegħu, nafu li għandu l-ħila latenti li jċaqlaq oġġetti b’mod preċiż biex jibni kenn fil-logħba tal-ħabi u t-tfittxija; madankollu, ma għandux il-kapaċità juża din il-ħila f’kuntesti oħra meta jitħarreġ b’numru baxx ta’ kampjuni.

Nemmnu li l-kawża tar-riżultati mħallta fit-trasferiment għandha l-għeruq tagħha fil-fatt li l-aġenti jitgħallmu rappreżentazzjonijiet tal-ħiliet li huma marbutin ma’ xulxin u diffiċli biex jiġu fine-tuned. Hekk kif l-ambjenti futuri jsiru aktar diversi u l-aġenti jkollhom jużaw il-ħiliet f’aktar kuntesti, nemmnu li se naraw rappreżentazzjonijiet tal-ħiliet aktar ġeneralizzabbli u sinjal aktar sinifikanti f’dan l-approċċ ta’ evalwazzjoni. Barra minn hekk, nagħmlu open-source tal-kompiti ta’ evalwazzjoni bħala mod biex nivvalutaw il-progress tat-tagħlim fl-ambjent tagħna.

Imġibiet sorprendenti

Urejna li l-aġenti jistgħu jitgħallmu użu sofistikat tal-għodda f’simulatur tal-fiżika b’fedeltà għolja; madankollu, kien hemm ħafna lezzjonijiet mitgħallma tul it-triq lejn dan ir-riżultat. Il-bini ta’ ambjenti mhuwiex faċli u spiss jiġri li l-aġenti jsibu mod kif jisfruttaw l-ambjent li tibni jew il-magna tal-fiżika b’mod mhux intenzjonat.

Qed jillowdja...

Awturi

Bowen Baker, Ingmar Kanitscheider, Todor Markov, Yi Wu, Glenn Powell, Bob McGrew, u Igor Mordatch

Feedback

Grazzi lil dawn li ġejjin għall-feedback dwar din il-kariga u l-karta: Pieter Abbeel, Jeff Clune, Jessica Hamrick, Joel Leibo, Natasha Jaques, Calvin French-Owen, Azalia Mirhoseini, Ilya Sutskever, Greg Brockman, Jack Clark, Brooke Chan & Karson Elmgren