Panggunaan alat emergen saka interaksi multi-agen

Ilustrasi: Ben Barry
Kita wis ngamati agen nemokake panggunaan alat sing saya suwe saya rumit nalika main game petak umpet sing prasaja. Liwat latihan ing lingkungan petak umpet simulasi anyar kita, agen mbangun seri enem strategi lan kontra-strategi sing béda, sawetara ing antarane ora kita ngerteni didhukung dening lingkungan kita. Kompleksitas emergen swasupervisi ing lingkungan prasaja iki luwih nuduhake yen ko-adaptasi multi-agen bisa wae siji dina ngasilake prilaku sing banget rumit lan cerdas.
Ing lingkungan kita, para agen main game petak umpet adhedhasar tim. Sing ndhelik (biru) ditugasi ngindhari garis pandang saka sing golek (abang), lan sing golek ditugasi njaga supaya sing ndhelik tetep katon. Ana obyek sing sumebar ing saindenging lingkungan sing bisa dicekel lan dikunci ing panggonane dening sing ndhelik lan sing golek, uga ruangan lan tembok tetep sing digawe acak sing kudu disinaoni para agen kanggo dinavigasi. Sadurunge game diwiwiti, sing ndhelik diwenehi fase persiapan nalika sing golek dilumpuhake supaya sing ndhelik nduweni kesempatan mlayu utawa ngowahi lingkungane.
Ora ana insentif eksplisit kanggo agen supaya sesambungan karo obyek ing lingkungan; siji-sijine supervisi sing diwenehake yaiku liwat tujuan petak umpet. Agen diwenehi reward adhedhasar tim; sing ndhelik diwenehi reward +1 yen kabeh sing ndhelik kasil ndhelik lan -1 yen ana sing ndhelik katon dening sing golek. Sing golek diwenehi reward kosok balene, -1 yen kabeh sing ndhelik kasil ndhelik lan +1 ing kasus liyane. Kanggo matesi prilaku agen supaya tetep ing ruang sing wajar, agen dipenalti yen lunga adoh banget saka area main. Sajrone fase persiapan, kabeh agen diwenehi reward nol.
Nalika para agen latihan nglawan siji lan sijiné ing petak umpet, nganti enem strategi béda muncul. Saben strategi anyar nggawe tekanan sing sadurunge ora ana supaya agen maju menyang tahap sabanjure. Elinga manawa ora ana insentif langsung kanggo agen supaya sesambungan karo obyek utawa njelajah; kosok baline, strategi emergen sing dituduhake ing ngisor iki minangka asil saka autokurikulum(mbukak ing jendhela anyar) sing diindhuksi dening kompetisi multi-agen lan dinamika prasaja saka petak umpet.
Kita nggunakake infrastruktur latihan lan algoritma sing padha kaya sing digunakake kanggo nglatih OpenAI Five lan Dactyl. Nanging, ing lingkungan kita saben agen tumindak mandiri, nggunakake observasi dhewe lan status memori ndhelik. Agen nggunakake representasi jagad adhedhasar state sing berpusat ing entitas, sing invarian permutasi marang obyek lan agen liyane.
Saben obyek di-embed banjur dilewatake liwat blok self-attention residual bermasker, mirip karo sing digunakake ing transformer(mbukak ing jendhela anyar), ing ngendi attentione marang obyek tinimbang marang wektu. Obyek sing ora ana ing garis pandang lan ing ngarep agen bakal dimask supaya agen ora nduweni informasi bab iku.

Kebijakan agen dilatih nganggo self-play lan Optimalisasi Kebijakan Proksimal. Sajrone optimalisasi, agen bisa nggunakake informasi istimewa babagan obyek sing ketutupan lan agen liyane ing value function-né.
Kita nemokake yen latihan skala gedhe iku kritis supaya agen maju liwat macem-macem tahap kemunculan. Ing ngisor iki kita nuduhake wektu lan jumlah episode sing dibutuhake agen kanggo tekan tahap 4 (pertahanan ramp) kanggo macem-macem ukuran batch. Kita nemokake nambah ukuran batch menehi percepatan drastis ing wektu nyata nganti konvergensi, sanadyan ora akeh mengaruhi efisiensi sampel ing utawa ndhuwur 32k. Nanging, kita nemokake ukuran batch 8k lan 16k ora tau tekan tahap 4 ing jumlah episode sing diwenehake.
Ing karya iki kita nuduhake bukti yen agen sinau strategi lan kontra-strategi rumit liwat autokurikulum swasupervisi ing petak umpet. Cara liya kanggo sinau katrampilan kanthi cara tanpa supervisi yaiku motivasi intrinsik, sing menehi insentif marang agen kanggo njelajah nganggo macem-macem metrik kayata error model utawa count state. Kita nindakake eksplorasi adhedhasar count ing lingkungan kita, ing ngendi agen nyimpen count eksplisit saka state sing wis tau dikunjungi lan diwenehi insentif kanggo pindhah menyang state sing arang dikunjungi. Pilihan pemodelan utama sing kudu di-tune ing setelan iki yaiku representasi state; contone, ing baseline pisanan kita mung nyakup posisi boks 2-D ing state, supaya agen mung diwenehi insentif kanggo sesambungan lan mindhah boks menyang posisi anyar. Banjur kita mbandhingake iki karo kebijakan adhedhasar count sing njupuk state lengkap sing diwenehake marang agen sing main petak umpet.
Kaya sing bisa dideleng, agen sing dilatih ing petak umpet kanthi kualitatif luwih fokus marang prilaku sing luwih gampang diinterpretasi manungsa kayata pambangunan perlindungan, dene agen sing dilatih nganggo motivasi intrinsik mindhah obyek kanthi cara sing katon tanpa arah. Kajaba iku, nalika kompleksitas ruang state mundhak, kita nemokake yen metode motivasi intrinsik nduweni interaksi sing saya sithik maknane karo obyek ing lingkungane. Amarga alesan iki, kita percaya kompetisi multi-agen bakal dadi cara sing luwih skalabel kanggo ngasilake katrampilan sing relevan kanggo manungsa kanthi cara tanpa supervisi nalika lingkungan terus nambah ukuran lan kompleksitas.
Ing bagean sadurunge, kita mbandhingake kanthi kualitatif prilaku sing disinaoni ing petak umpet karo sing disinaoni nganggo motivasi intrinsik. Nanging, nalika ukuran lingkungan saya gedhe, angelé ngukur kemajuan kanthi kualitatif uga bakal nambah. Nglacak reward iku metrik evaluasi sing ora cukup ing setelan multi-agen, amarga bisa ambigu kanggo nuduhake apa agen saya apik kanthi merata utawa malah mandheg. Metrik kaya ELO utawa Trueskill bisa luwih andal ngukur apa kinerja saya apik dibandhingake versi kebijakan sadurunge utawa kebijakan liyane ing sawijining populasi; nanging, metrik iki isih ora menehi wawasan apa kinerja sing luwih apik disebabake adaptasi anyar utawa ningkatake katrampilan sing wis disinaoni sadurunge. Pungkasan, nggunakake statistik khusus lingkungan kayata gerakan obyek uga bisa ambigu (umpamane, pilihan kanggo nglacak gerakan absolut ora nerangake agen obah menyang arah endi), lan ngrancang metrik sing cukup bakal dadi angel lan larang nalika ukuran lingkungan saya gedhe.
Kita ngusulake nggunakake seperangkat tes intelijensi khusus domain sing nargetake kapabilitas sing kita yakini bakal bisa dipikolehi agen mengko. Kinerja transfer ing setelan iki bisa dadi ukuran kuantitatif kualitas representasi utawa katrampilan, lan kita mbandhingake karo pretraining nganggo eksplorasi adhedhasar count uga baseline sing dilatih saka awal.
Sanajan agen petak umpet tampil luwih apik ing akeh tugas transfer, iki ora ningkatake kinerja utawa wektu konvergensi kanthi drastis. Saka ndeleng prilakune, kita ngerti yen agen iki nduweni katrampilan laten kanggo mindhah obyek kanthi presisi supaya bisa mbangun perlindungan ing game petak umpet; nanging, agen iki ora nduweni kapabilitas nggunakake katrampilan iki ing konteks liyane nalika dilatih nganggo jumlah sampel sing sithik.
Kita percaya sebab asil transfer sing campuran iki ana ing agen sing sinau representasi katrampilan sing saling njiret lan angel di-fine-tune. Nalika lingkungan ing mangsa ngarep dadi luwih maneka warna lan agen kudu nggunakake katrampilan ing luwih akeh konteks, kita percaya bakal katon representasi katrampilan sing luwih bisa digeneralisasi lan sinyal sing luwih signifikan ing pendekatan evaluasi iki. Kajaba iku, kita uga mbukak sumber tugas evaluasi minangka cara kanggo ngevaluasi kemajuan sinau ing lingkungan kita.
Kita wis nuduhake yen agen bisa sinau panggunaan alat sing canggih ing simulator fisika fidelitas dhuwur; nanging, ana akeh pelajaran sing disinaoni ing dalan tumuju asil iki. Mbangun lingkungan iku ora gampang lan asring banget kedadeyan agen nemokake cara kanggo ngeksploitasi lingkungan sing sampeyan bangun utawa mesin fisikane kanthi cara sing ora dikarepake.
Penulis
Umpan balik
Matur nuwun marang para pihak iki kanggo umpan balik babagan kiriman lan paper iki: Pieter Abbeel, Jeff Clune, Jessica Hamrick, Joel Leibo, Natasha Jaques, Calvin French-Owen, Azalia Mirhoseini, Ilya Sutskever, Greg Brockman, Jack Clark, Brooke Chan & Karson Elmgren
Liyane
Video: Glenn Powell, Leo Ogawa Lillrank, Ivy Lillrank, Andie Lee
Editor: Ashley Pilipiszyn
Desain: Justin Jay Wang
Karya seni sampul: Ben Barry


