17 September 2019

Panggunaan alat emergen saka interaksi multi-agen

Tampilan isometrik kisi abu-abu kanthi multi-agen sing main petak umpet ing saben kothak

Ilustrasi: Ben Barry

Lagi dimuat…

Kita wis ngamati agen nemokake panggunaan alat sing saya suwe saya rumit nalika main game petak umpet sing prasaja. Liwat latihan ing lingkungan petak umpet simulasi anyar kita, agen mbangun seri enem strategi lan kontra-strategi sing béda, sawetara ing antarane ora kita ngerteni didhukung dening lingkungan kita. Kompleksitas emergen swasupervisi ing lingkungan prasaja iki luwih nuduhake yen ko-adaptasi multi-agen bisa wae siji dina ngasilake prilaku sing banget rumit lan cerdas.

Ing lingkungan kita, para agen main game petak umpet adhedhasar tim. Sing ndhelik (biru) ditugasi ngindhari garis pandang saka sing golek (abang), lan sing golek ditugasi njaga supaya sing ndhelik tetep katon. Ana obyek sing sumebar ing saindenging lingkungan sing bisa dicekel lan dikunci ing panggonane dening sing ndhelik lan sing golek, uga ruangan lan tembok tetep sing digawe acak sing kudu disinaoni para agen kanggo dinavigasi. Sadurunge game diwiwiti, sing ndhelik diwenehi fase persiapan nalika sing golek dilumpuhake supaya sing ndhelik nduweni kesempatan mlayu utawa ngowahi lingkungane.

Lagi dimuat...

Ora ana insentif eksplisit kanggo agen supaya sesambungan karo obyek ing lingkungan; siji-sijine supervisi sing diwenehake yaiku liwat tujuan petak umpet. Agen diwenehi reward adhedhasar tim; sing ndhelik diwenehi reward +1 yen kabeh sing ndhelik kasil ndhelik lan -1 yen ana sing ndhelik katon dening sing golek. Sing golek diwenehi reward kosok balene, -1 yen kabeh sing ndhelik kasil ndhelik lan +1 ing kasus liyane. Kanggo matesi prilaku agen supaya tetep ing ruang sing wajar, agen dipenalti yen lunga adoh banget saka area main. Sajrone fase persiapan, kabeh agen diwenehi reward nol.

Autokurikula lan prilaku emergen

Nalika para agen latihan nglawan siji lan sijiné ing petak umpet, nganti enem strategi béda muncul. Saben strategi anyar nggawe tekanan sing sadurunge ora ana supaya agen maju menyang tahap sabanjure. Elinga manawa ora ana insentif langsung kanggo agen supaya sesambungan karo obyek utawa njelajah; kosok baline, strategi emergen sing dituduhake ing ngisor iki minangka asil saka autokurikulum⁠(mbukak ing jendhela anyar) sing diindhuksi dening kompetisi multi-agen lan dinamika prasaja saka petak umpet.

Lagi dimuat...

Nglatih agen petak umpet

Kita nggunakake infrastruktur latihan lan algoritma sing padha kaya sing digunakake kanggo nglatih OpenAI Five⁠ lan Dactyl⁠. Nanging, ing lingkungan kita saben agen tumindak mandiri, nggunakake observasi dhewe lan status memori ndhelik. Agen nggunakake representasi jagad adhedhasar state sing berpusat ing entitas, sing invarian permutasi marang obyek lan agen liyane.

Saben obyek di-embed banjur dilewatake liwat blok self-attention residual bermasker, mirip karo sing digunakake ing transformer⁠(mbukak ing jendhela anyar), ing ngendi attentione marang obyek tinimbang marang wektu. Obyek sing ora ana ing garis pandang lan ing ngarep agen bakal dimask supaya agen ora nduweni informasi bab iku.

Kebijakan agen dilatih nganggo self-play⁠ lan Optimalisasi Kebijakan Proksimal⁠. Sajrone optimalisasi, agen bisa nggunakake informasi istimewa babagan obyek sing ketutupan lan agen liyane ing value function-né.

Kita nemokake yen latihan skala gedhe iku kritis supaya agen maju liwat macem-macem tahap kemunculan. Ing ngisor iki kita nuduhake wektu lan jumlah episode sing dibutuhake agen kanggo tekan tahap 4 (pertahanan ramp) kanggo macem-macem ukuran batch. Kita nemokake nambah ukuran batch menehi percepatan drastis ing wektu nyata nganti konvergensi, sanadyan ora akeh mengaruhi efisiensi sampel ing utawa ndhuwur 32k. Nanging, kita nemokake ukuran batch 8k lan 16k ora tau tekan tahap 4 ing jumlah episode sing diwenehake.

Lagi dimuat...

Kompetisi multi-agen vs. motivasi intrinsik

Ing karya iki kita nuduhake bukti yen agen sinau strategi lan kontra-strategi rumit liwat autokurikulum swasupervisi ing petak umpet. Cara liya kanggo sinau katrampilan kanthi cara tanpa supervisi yaiku motivasi intrinsik, sing menehi insentif marang agen kanggo njelajah nganggo macem-macem metrik kayata error model utawa count state. Kita nindakake eksplorasi adhedhasar count ing lingkungan kita, ing ngendi agen nyimpen count eksplisit saka state sing wis tau dikunjungi lan diwenehi insentif kanggo pindhah menyang state sing arang dikunjungi. Pilihan pemodelan utama sing kudu di-tune ing setelan iki yaiku representasi state; contone, ing baseline pisanan kita mung nyakup posisi boks 2-D ing state, supaya agen mung diwenehi insentif kanggo sesambungan lan mindhah boks menyang posisi anyar. Banjur kita mbandhingake iki karo kebijakan adhedhasar count sing njupuk state lengkap sing diwenehake marang agen sing main petak umpet.

Lagi dimuat...

Kaya sing bisa dideleng, agen sing dilatih ing petak umpet kanthi kualitatif luwih fokus marang prilaku sing luwih gampang diinterpretasi manungsa kayata pambangunan perlindungan, dene agen sing dilatih nganggo motivasi intrinsik mindhah obyek kanthi cara sing katon tanpa arah. Kajaba iku, nalika kompleksitas ruang state mundhak, kita nemokake yen metode motivasi intrinsik nduweni interaksi sing saya sithik maknane karo obyek ing lingkungane. Amarga alesan iki, kita percaya kompetisi multi-agen bakal dadi cara sing luwih skalabel kanggo ngasilake katrampilan sing relevan kanggo manungsa kanthi cara tanpa supervisi nalika lingkungan terus nambah ukuran lan kompleksitas.

Transfer lan fine-tuning minangka evaluasi

Ing bagean sadurunge, kita mbandhingake kanthi kualitatif prilaku sing disinaoni ing petak umpet karo sing disinaoni nganggo motivasi intrinsik. Nanging, nalika ukuran lingkungan saya gedhe, angelé ngukur kemajuan kanthi kualitatif uga bakal nambah. Nglacak reward iku metrik evaluasi sing ora cukup ing setelan multi-agen, amarga bisa ambigu kanggo nuduhake apa agen saya apik kanthi merata utawa malah mandheg. Metrik kaya ELO utawa Trueskill bisa luwih andal ngukur apa kinerja saya apik dibandhingake versi kebijakan sadurunge utawa kebijakan liyane ing sawijining populasi; nanging, metrik iki isih ora menehi wawasan apa kinerja sing luwih apik disebabake adaptasi anyar utawa ningkatake katrampilan sing wis disinaoni sadurunge. Pungkasan, nggunakake statistik khusus lingkungan kayata gerakan obyek uga bisa ambigu (umpamane, pilihan kanggo nglacak gerakan absolut ora nerangake agen obah menyang arah endi), lan ngrancang metrik sing cukup bakal dadi angel lan larang nalika ukuran lingkungan saya gedhe.

Kita ngusulake nggunakake seperangkat tes intelijensi khusus domain sing nargetake kapabilitas sing kita yakini bakal bisa dipikolehi agen mengko. Kinerja transfer ing setelan iki bisa dadi ukuran kuantitatif kualitas representasi utawa katrampilan, lan kita mbandhingake karo pretraining nganggo eksplorasi adhedhasar count uga baseline sing dilatih saka awal.

Lagi dimuat...

Sanajan agen petak umpet tampil luwih apik ing akeh tugas transfer, iki ora ningkatake kinerja utawa wektu konvergensi kanthi drastis. Saka ndeleng prilakune, kita ngerti yen agen iki nduweni katrampilan laten kanggo mindhah obyek kanthi presisi supaya bisa mbangun perlindungan ing game petak umpet; nanging, agen iki ora nduweni kapabilitas nggunakake katrampilan iki ing konteks liyane nalika dilatih nganggo jumlah sampel sing sithik.

Kita percaya sebab asil transfer sing campuran iki ana ing agen sing sinau representasi katrampilan sing saling njiret lan angel di-fine-tune. Nalika lingkungan ing mangsa ngarep dadi luwih maneka warna lan agen kudu nggunakake katrampilan ing luwih akeh konteks, kita percaya bakal katon representasi katrampilan sing luwih bisa digeneralisasi lan sinyal sing luwih signifikan ing pendekatan evaluasi iki. Kajaba iku, kita uga mbukak sumber tugas evaluasi minangka cara kanggo ngevaluasi kemajuan sinau ing lingkungan kita.

Prilaku sing ngagetake

Kita wis nuduhake yen agen bisa sinau panggunaan alat sing canggih ing simulator fisika fidelitas dhuwur; nanging, ana akeh pelajaran sing disinaoni ing dalan tumuju asil iki. Mbangun lingkungan iku ora gampang lan asring banget kedadeyan agen nemokake cara kanggo ngeksploitasi lingkungan sing sampeyan bangun utawa mesin fisikane kanthi cara sing ora dikarepake.

Lagi dimuat...

Penulis

Bowen Baker, Ingmar Kanitscheider, Todor Markov, Yi Wu, Glenn Powell, Bob McGrew, Igor Mordatch

Umpan balik

Matur nuwun marang para pihak iki kanggo umpan balik babagan kiriman lan paper iki: Pieter Abbeel, Jeff Clune, Jessica Hamrick, Joel Leibo, Natasha Jaques, Calvin French-Owen, Azalia Mirhoseini, Ilya Sutskever, Greg Brockman, Jack Clark, Brooke Chan & Karson Elmgren

Liyane

Video: Glenn Powell, Leo Ogawa Lillrank, Ivy Lillrank, Andie Lee

Editor: Ashley Pilipiszyn

Desain: Justin Jay Wang

Karya seni sampul: Ben Barry

Panggunaan alat emergen saka interaksi multi-agen

Autokurikula lan prilaku emergen

Nglatih agen petak umpet

Kompetisi multi-agen vs. motivasi intrinsik

Transfer lan fine-tuning minangka evaluasi

Prilaku sing ngagetake

Penulis

Umpan balik

Liyane

Artikel terkait