17 સપ્ટેમ્બર, 2019

મલ્ટી-એજન્ટ પરસ્પરક્રિયાથી ઉદ્ભવતું સાધન ઉપયોગ

ભૂખરા ગ્રીડનું આઇસોમેટ્રિક દૃશ્ય, જેમાં દરેક ચોરસમાં મલ્ટી-એજન્ટ્સ સંતાકૂકડી રમી રહ્યા છે

ચિત્રાંકન: Ben Barry

લોડિંગ…

અમે જોયું છે કે એજન્ટો સંતાકૂકડી જેવી સરળ રમત રમતાં રમતાં ક્રમે વધુ જટિલ સાધન ઉપયોગ શોધી કાઢે છે. અમારા નવા સિમ્યુલેટેડ સંતાકૂકડી પર્યાવરણમાં તાલીમ દ્વારા, એજન્ટો છ અલગ વ્યૂહરચનાઓ અને પ્રતિ-વ્યૂહરચનાઓની શ્રેણી બનાવે છે, જેમાંથી કેટલીક માટે અમને ખબર નહોતી કે અમારું પર્યાવરણ સમર્થન આપે છે. આ સરળ પર્યાવરણમાં self-supervised રીતે ઉદ્ભવતી જટિલતા વધુમાં સૂચવે છે કે મલ્ટી-એજન્ટ સહ-અનુકૂલન એક દિવસ અત્યંત જટિલ અને બુદ્ધિશાળી વર્તન ઉત્પન્ન કરી શકે છે.

અમારા પર્યાવરણમાં, એજન્ટ ટીમ આધારિત સંતાકૂકડીની રમત રમે છે. સંતાતા ખેલાડીઓ (વાદળી)ને શોધનારાઓ (લાલ)ની નજરની રેખાથી બચવાનું કાર્ય આપવામાં આવે છે, અને શોધનારાઓને સંતાતા ખેલાડીઓને નજરમાં રાખવાનું કાર્ય આપવામાં આવે છે. પર્યાવરણમાં વિવિધ વસ્તુઓ વિખરાયેલી છે જેને સંતાતા ખેલાડીઓ અને શોધનારાઓ પકડી શકે છે અને સ્થિર રીતે લોક કરી શકે છે, તેમજ અનિયમિત રીતે બનેલા અચળ રૂમ અને દિવાલો છે, જેમાંથી માર્ગ શોધતા શીખવું એજન્ટ માટે જરૂરી છે. રમત શરૂ થાય તે પહેલાં, સંતાતા ખેલાડીઓને તૈયારીનો તબક્કો આપવામાં આવે છે જેમાં શોધનારાઓને અચળ રાખવામાં આવે છે જેથી સંતાતા ખેલાડીઓને ભાગી જવાની અથવા પોતાનું પર્યાવરણ બદલવાની તક મળે.

લોડ થઈ રહ્યું છે...

પર્યાવરણમાં વસ્તુઓ સાથે ક્રિયા કરવા માટે એજન્ટોને કોઈ સ્પષ્ટ પ્રેરણા આપવામાં આવતી નથી. આપવામાં આવતું એકમાત્ર supervision સંતાકૂકડીના ઉદ્દેશ દ્વારા છે. એજન્ટોને ટીમ આધારિત reward આપવામાં આવે છે. જો બધા સંતાતા ખેલાડીઓ છુપાયેલા હોય તો તેમને +1 reward મળે છે અને જો કોઈ એક સંતાતો ખેલાડી શોધનારને દેખાય તો -1 મળે છે. શોધનારાઓને વિપરીત reward આપવામાં આવે છે, એટલે કે જો બધા સંતાતા ખેલાડીઓ છુપાયેલા હોય તો -1 અને અન્યથા +1. એજન્ટોના વર્તનને યુક્તિસંગત મર્યાદામાં રાખવા માટે, તેઓ રમવાના ક્ષેત્રથી ઘણાં બહાર જાય તો તેમને દંડિત કરવામાં આવે છે. તૈયારીના તબક્કા દરમિયાન, તમામ એજન્ટોને શૂન્ય reward આપવામાં આવે છે.

ઓટોકરિક્યુલા અને ઉદ્ભવતું વર્તન

જ્યારે એજન્ટો સંતાકૂકડીમાં એકબીજા સામે તાલીમ લે છે, ત્યારે છ જેટલી અલગ વ્યૂહરચનાઓ ઉદ્ભવે છે. દરેક નવી વ્યૂહરચના એજન્ટોને આગળના તબક્કે જવા માટે અગાઉ અસ્તિત્વમાં ન હોય એવો દબાણ ઊભો કરે છે. નોંધો કે એજન્ટોને વસ્તુઓ સાથે ક્રિયા કરવા અથવા અન્વેષણ કરવા માટે કોઈ સીધી પ્રેરણા નથી. બદલે, નીચે દર્શાવેલી ઉદ્ભવતી વ્યૂહરચનાઓ મલ્ટી-એજન્ટ સ્પર્ધા અને સંતાકૂકડીની સરળ ગતિશીલતાથી પ્રેરિત ઓટોકરિક્યુલમ⁠(નવી વિન્ડોમાં ખૂલે છે)નું પરિણામ છે.

લોડ થઈ રહ્યું છે...

સંતાકૂકડી એજન્ટોને તાલીમ આપવી

અમે OpenAI Five⁠ અને Dactyl⁠ને તાલીમ આપવા માટે વપરાયેલી જ તાલીમ ઇન્ફ્રાસ્ટ્રક્ચર અને અલ્ગોરિધમોનો ઉપયોગ કરીએ છીએ. પરંતુ, અમારા પર્યાવરણમાં દરેક એજન્ટ પોતાના અવલોકનો અને છુપાયેલી મેમરી સ્ટેટનો ઉપયોગ કરીને સ્વતંત્ર રીતે કાર્ય કરે છે. એજન્ટો વિશ્વનું entity-centric state-based representation વાપરે છે, જે વસ્તુઓ અને અન્ય એજન્ટોની દ્રષ્ટિએ permutation invariant છે.

દરેક વસ્તુને embed કરીને masked residual self attention blockમાંથી પસાર કરવામાં આવે છે, જે ટ્રાન્સફોર્મર⁠(નવી વિન્ડોમાં ખૂલે છે)માં વપરાતા બ્લોક્સ જેવી જ હોય છે, જ્યાં attention સમય પર નહીં પરંતુ વસ્તુઓ પર હોય છે. જે વસ્તુઓ નજરની રેખામાં નથી અને એજન્ટની સામે નથી, તેમને mask out કરવામાં આવે છે જેથી એજન્ટને તેમની કોઈ માહિતી ન હોય.

મલ્ટી-એજન્ટ પોલિસી આર્કિટેક્ચરનું આકૃતિચિત્ર

એજન્ટ પોલિસીઓને સેલ્ફ-પ્લે⁠ અને પ્રોક્સિમલ પોલિસી ઑપ્ટિમાઇઝેશન⁠ સાથે તાલીમ આપવામાં આવે છે. ઑપ્ટિમાઇઝેશન દરમિયાન, એજન્ટો પોતાની value functionમાં છુપાયેલ વસ્તુઓ અને અન્ય એજન્ટો વિશેની વિશેષ માહિતીનો ઉપયોગ કરી શકે છે.

અમને જાણવા મળ્યું કે ઉદ્ભવના વિવિધ તબક્કાઓમાંથી એજન્ટોની પ્રગતિ માટે મોટા પાયે તાલીમ અત્યંત મહત્વપૂર્ણ હતી. નીચે અમે વિવિધ batch sizes માટે એજન્ટોને તબક્કા 4 (રેમ્પ ડિફેન્સ) સુધી પહોંચવામાં લાગેલો સમય અને એપિસોડ્સની સંખ્યા બંને દર્શાવીએ છીએ. અમને જોવા મળ્યું કે batch size વધારવાથી convergence માટેનો wall-clock time ભારે ઝડપે ઘટે છે, જોકે 32k અથવા તેથી ઉપર sample efficiency પર તેનો મોટો અસર થતો નથી. જોકે, અમને જાણવા મળ્યું કે 8k અને 16k batch sizes નિયત કરેલી એપિસોડ્સની સંખ્યામાં ક્યારેય તબક્કા 4 સુધી પહોંચ્યા નહોતા.

લોડ થઈ રહ્યું છે...

મલ્ટી-એજન્ટ સ્પર્ધા સામે આંતરિક પ્રેરણા

આ કાર્યમાં અમે બતાવીએ છીએ કે એજન્ટો સંતાકૂકડીમાં self-supervised ઓટોકરિક્યુલમ દ્વારા જટિલ વ્યૂહરચનાઓ અને પ્રતિ-વ્યૂહરચનાઓ શીખે છે. અસુપરવાઇઝ્ડ રીતે કુશળતાઓ શીખવાની બીજી પદ્ધતિ આંતરિક પ્રેરણા છે, જે મોડલ error અથવા state counts જેવા વિવિધ માપદંડો દ્વારા એજન્ટોને અન્વેષણ કરવા પ્રોત્સાહિત કરે છે. અમે અમારા પર્યાવરણમાં count-based exploration ચલાવ્યું, જેમાં એજન્ટો મુલાકાત લીધેલા statesની સ્પષ્ટ ગણતરી રાખે છે અને ઓછા મુલાકાત લેવાયેલા states તરફ જવા માટે પ્રોત્સાહિત થાય છે. આ પરિસ્થિતિમાં tune કરવાની મુખ્ય modeling choice એ state representation છે. ઉદાહરણ તરીકે, અમારી પહેલી baselineમાં અમે stateમાં માત્ર 2-D box positionsનો સમાવેશ કરીએ છીએ, જેથી એજન્ટો માત્ર નવી સ્થિતીઓમાં boxes સાથે ક્રિયા કરવા અને તેમને ખસેડવા માટે જ પ્રોત્સાહિત થાય છે. પછી અમે તેની તુલના એવી count-based policy સાથે કરીએ છીએ જેને સંતાકૂકડી રમતા એજન્ટોને આપવામાં આવતી સંપૂર્ણ state આપવામાં આવે છે.

લોડ થઈ રહ્યું છે...

જેમ જોઈ શકાય છે, સંતાકૂકડીમાં તાલીમ લીધેલા એજન્ટો ગુણાત્મક રીતે આશ્રય નિર્માણ જેવા માનવ માટે વધુ સમજાય એવા વર્તનો પર કેન્દ્રિત હોય છે, જ્યારે આંતરિક પ્રેરણા સાથે તાલીમ લીધેલા એજન્ટો વસ્તુઓને જાણે દિશાવિહીન રીતે ખસેડે છે. વધુમાં, state spaceની જટિલતા વધે તેમ અમને જોવા મળે છે કે આંતરિક પ્રેરણાની પદ્ધતિઓ પોતાના પર્યાવરણની વસ્તુઓ સાથે ઓછા અને ઓછા અર્થપૂર્ણ ક્રિયાઓ કરે છે. આ કારણસર, અમને લાગે છે કે પર્યાવરણોનું કદ અને જટિલતા વધતી રહે તેમ મલ્ટી-એજન્ટ સ્પર્ધા અસુપરવાઇઝ્ડ રીતે માનવ-પ્રસંગિક કુશળતાઓ ઉત્પન્ન કરવા માટે વધુ સ્કેલેબલ પદ્ધતિ બનશે.

મૂલ્યાંકન તરીકે ટ્રાન્સફર અને ફાઇન-ટ્યુનિંગ

પાછલા વિભાગમાં, અમે સંતાકૂકડીમાં શીખાયેલા વર્તનોની ગુણાત્મક રીતે આંતરિક પ્રેરણાથી શીખાયેલા વર્તનો સાથે તુલના કરીએ છીએ. પરંતુ, પર્યાવરણોનું પ્રમાણ વધે તેમ પ્રગતિને ગુણાત્મક રીતે માપવાની મુશ્કેલી પણ વધશે. મલ્ટી-એજન્ટ પરિસ્થિતિઓમાં reward ટ્રૅક કરવું પૂરતું મૂલ્યાંકન માપદંડ નથી, કારણ કે એજન્ટો સમાન રીતે સુધરી રહ્યા છે કે સ્થિર થઈ ગયા છે તે દર્શાવવામાં તે અસ્પષ્ટ હોઈ શકે છે. ELO અથવા Trueskill જેવા માપદંડો અગાઉની પોલિસી આવૃત્તિઓ અથવા સમૂહની અન્ય પોલિસીઓની સરખામણીએ કામગીરી સુધરી રહી છે કે નહીં તે વધુ વિશ્વસનીય રીતે માપી શકે છે. છતાં, આ માપદંડો હજુ પણ એ સમજ આપતા નથી કે સુધારેલી કામગીરી નવા અનુકૂલનોથી થાય છે કે પહેલાંથી શીખાયેલી કુશળતાઓમાં સુધારાથી. અંતમાં, વસ્તુઓની હિલચાલ જેવી પર્યાવરણ-વિશિષ્ટ આંકડાકીય માહિતીનો ઉપયોગ પણ અસ્પષ્ટ હોઈ શકે છે. ઉદાહરણ તરીકે, સંપૂર્ણ હિલચાલને ટ્રૅક કરવાનો વિકલ્પ એજન્ટો કઈ દિશામાં ખસ્યા તે બતાવતો નથી. અને પર્યાવરણોનું પ્રમાણ વધે તેમ પૂરતા માપદંડો બનાવવું મુશ્કેલ અને ખર્ચાળ બનશે.

અમે ડોમેન-વિશિષ્ટ બુદ્ધિમત્તા પરીક્ષણોની શ્રેણી વાપરવાનો પ્રસ્તાવ કરીએ છીએ, જે અમારી માન્યતા મુજબ એજન્ટો ભવિષ્યમાં મેળવી શકે તેવી ક્ષમતાઓને લક્ષ્ય બનાવે છે. આ પરિસ્થિતિઓમાં ટ્રાન્સફર કામગીરી પ્રતિનિધિત્વની ગુણવત્તા અથવા કુશળતાનું પરિમાણાત્મક માપ બની શકે છે, અને અમે count-based exploration સાથેના pretraining તેમજ શરૂઆતથી તાલીમ આપવામાં આવેલા baseline સામે તેની તુલના કરીએ છીએ.

લોડ થઈ રહ્યું છે...

જોકે સંતાકૂકડી એજન્ટ ઘણા ટ્રાન્સફર કાર્યોમાં વધુ સારું પ્રદર્શન કરે છે, તે કામગીરી અથવા convergence timeમાં નોંધપાત્ર સુધારો કરતું નથી. તેના વર્તનને જોઈને અમને ખબર છે કે સંતાકૂકડી રમતમાં આશ્રય બાંધવા માટે વસ્તુઓને ચોક્કસ રીતે ખસેડવાની સુપ્ત કુશળતા તેને છે. પરંતુ, ઓછી સંખ્યાના samples સાથે તાલીમ આપતાં તે અન્ય સંદર્ભોમાં આ કુશળતાનો ઉપયોગ કરવાની ક્ષમતા ધરાવતું નથી.

અમારી માન્યતા છે કે મિશ્ર ટ્રાન્સફર પરિણામોનું કારણ એ છે કે એજન્ટો એવી skill representations શીખે છે જે ગૂંચવાયેલી હોય છે અને fine-tune કરવી મુશ્કેલ હોય છે. ભવિષ્યના પર્યાવરણો વધુ વૈવિધ્યસભર બનતાં જાય અને એજન્ટોને વધુ સંદર્ભોમાં કુશળતાઓ વાપરવી પડે, ત્યારે અમને લાગે છે કે વધુ સામાન્ય રીતે લાગુ પડી શકે તેવી skill representations અને આ મૂલ્યાંકન પદ્ધતિમાં વધુ મહત્વપૂર્ણ સંકેત જોવા મળશે. અમારા પર્યાવરણમાં શૈક્ષણિક પ્રગતિનું મૂલ્યાંકન કરવા માટે અમે evaluation tasksને open-source પણ કરીએ છીએ.

આશ્ચર્યજનક વર્તનો

અમે બતાવ્યું છે કે એજન્ટો ઉચ્ચ-વિશ્વસનીયતા ધરાવતા physics simulatorમાં સુસંસ્કૃત સાધન ઉપયોગ શીખી શકે છે. છતાં, આ પરિણામ સુધી પહોંચવાના માર્ગમાં ઘણા પાઠ શીખવા મળ્યા. પર્યાવરણો બનાવવું સહેલું નથી, અને ઘણીવાર એવું બને છે કે એજન્ટો તમે બનાવેલા પર્યાવરણ અથવા physics engineનો અણધાર્યા રીતે લાભ લેવા રસ્તો શોધી કાઢે છે.

લોડ થઈ રહ્યું છે...

લેખકો

Bowen Baker, Ingmar Kanitscheider, Todor Markov, Yi Wu, Glenn Powell, Bob McGrew, Igor Mordatch

પ્રતિસાદ

આ પોસ્ટ અને પેપર પર પ્રતિસાદ માટે નીચેના લોકોનો આભાર: Pieter Abbeel, Jeff Clune, Jessica Hamrick, Joel Leibo, Natasha Jaques, Calvin French-Owen, Azalia Mirhoseini, Ilya Sutskever, Greg Brockman, Jack Clark, Brooke Chan & Karson Elmgren