Ús emergent d’eines a partir de la interacció multiagent

Il·lustració: Ben Barry
Hem observat agents descobrint un ús d’eines progressivament més complex mentre jugaven a un simple joc d’amagar i buscar. Mitjançant l’entrenament en el nostre nou entorn simulat d’amagar i buscar, els agents construeixen una sèrie de sis estratègies i contraestratègies diferents, algunes de les quals no sabíem que el nostre entorn permetia. La complexitat emergent autosupervisada en aquest entorn simple suggereix, a més, que la coadaptació multiagent algun dia podria produir un comportament extremament complex i intel·ligent.
En el nostre entorn, els agents juguen a un joc d’amagar i buscar per equips. La tasca dels qui s’amaguen (blau) és evitar la línia de visió dels cercadors (vermell), i la dels cercadors és mantenir els qui s’amaguen dins del seu camp de visió. Hi ha objectes repartits per l’entorn que els qui s’amaguen i els cercadors poden agafar i bloquejar al seu lloc, així com sales i murs immòbils generats aleatòriament que els agents han d’aprendre a recórrer. Abans que comenci el joc, els qui s’amaguen disposen d’una fase de preparació en què els cercadors estan immobilitzats perquè tinguin l’oportunitat de fugir o modificar el seu entorn.
No hi ha incentius explícits perquè els agents interactuïn amb objectes de l’entorn; l’única supervisió que es dona és mitjançant l’objectiu de l’amagar i buscar. Els agents reben una recompensa per equips; els qui s’amaguen reben una recompensa de +1 si tots els qui s’amaguen estan ocults i de -1 si qualsevol dels qui s’amaguen és vist per un cercador. Els cercadors reben la recompensa contrària, -1 si tots els qui s’amaguen estan ocults i +1 en cas contrari. Per limitar el comportament dels agents a un espai raonable, se’ls penalitza si s’allunyen massa de l’àrea de joc. Durant la fase de preparació, tots els agents reben recompensa zero.
A mesura que els agents s’entrenen els uns contra els altres a l’amagar i buscar, emergeixen fins a sis estratègies diferents. Cada estratègia nova crea una pressió abans inexistent perquè els agents avancin a la següent etapa. Cal tenir en compte que no hi ha incentius directes perquè els agents interactuïn amb objectes o explorin; més aviat, les estratègies emergents que es mostren a continuació són el resultat de l’autocurrículum(s'obre en una finestra nova) induït per la competència multiagent i la dinàmica simple de l’amagar i buscar.
Utilitzem la mateixa infraestructura d’entrenament i els mateixos algorismes que es van fer servir per entrenar OpenAI Five i Dactyl. Tanmateix, en el nostre entorn cada agent actua de manera independent, fent servir les seves pròpies observacions i el seu estat de memòria oculta. Els agents utilitzen una representació del món basada en l’estat i centrada en entitats, que és invariant a la permutació respecte dels objectes i dels altres agents.
Cada objecte s’incrusta i després passa per un bloc d’autoatenció residual emmascarada, semblant als que es fan servir en els transformadors(s'obre en una finestra nova), on l’atenció es fa sobre objectes en lloc de fer-se sobre el temps. Els objectes que no estan dins de la línia de visió i davant de l’agent queden emmascarats de manera que l’agent no en té cap informació.

Les polítiques dels agents s’entrenen amb autojoc i optimització de les polítiques proximals. Durant l’optimització, els agents poden utilitzar informació privilegiada sobre objectes ocults i altres agents en la seva funció de valor.
Vam comprovar que l’entrenament a gran escala era crucial perquè els agents progressessin per les diverses etapes d’emergència. A continuació mostrem tant el temps com el nombre d’episodis que necessiten els agents per arribar a l’etapa 4 (defensa amb rampa) per a diverses mides de lot. Observem que augmentar la mida del lot accelera dràsticament el temps real fins a la convergència, tot i que no afecta gaire l’eficiència mostral a 32k o més. Tanmateix, vam observar que les mides de lot de 8k i 16k mai no van arribar a l’etapa 4 en el nombre d’episodis assignat.
En aquest treball mostrem evidències que els agents aprenen estratègies i contraestratègies complexes mitjançant un autocurrículum autosupervisat en l’amagar i buscar. Un altre mètode per aprendre habilitats de manera no supervisada és la motivació intrínseca, que incentiva els agents a explorar amb diverses mètriques com ara l’error del model o el recompte d’estats. Vam executar exploració basada en recomptes en el nostre entorn, en què els agents mantenen un recompte explícit dels estats que han visitat i tenen incentius per anar a estats visitats amb poca freqüència. La principal decisió de modelatge que cal ajustar en aquest context és la representació de l’estat; per exemple, en la nostra primera línia de base només incloem les posicions de les caixes en 2D a l’estat, de manera que els agents només tenen incentius per interactuar amb les caixes i moure-les cap a posicions noves. Després comparem això amb una política basada en recomptes que pren l’estat complet proporcionat als agents que juguen a amagar i buscar.
Com es pot veure, els agents entrenats en l’amagar i buscar se centren qualitativament en comportaments molt més interpretables per als humans, com ara la construcció de refugis, mentre que els agents entrenats amb motivació intrínseca mouen objectes d’una manera aparentment no dirigida. A més, a mesura que l’espai d’estats augmenta en complexitat, observem que els mètodes de motivació intrínseca tenen interaccions cada cop menys significatives amb els objectes del seu entorn. Per aquest motiu, creiem que la competència multiagent serà un mètode més escalable per generar habilitats rellevants per als humans de manera no supervisada a mesura que els entorns continuïn augmentant de mida i complexitat.
A la secció anterior, comparem qualitativament els comportaments apresos a l’amagar i buscar amb els apresos amb motivació intrínseca. Tanmateix, a mesura que els entorns augmenten d’escala, també ho fa la dificultat de mesurar qualitativament el progrés. Fer un seguiment de la recompensa és una mètrica d’avaluació insuficient en contextos multiagent, ja que pot ser ambigu a l’hora d’indicar si els agents milloren de manera uniforme o s’han estancat. Mètriques com l’ELO o el Trueskill poden mesurar amb més fiabilitat si el rendiment millora respecte de versions anteriors de la política o d’altres polítiques d’una població; no obstant això, aquestes mètriques encara no aporten informació sobre si la millora del rendiment és causada per noves adaptacions o per la millora d’habilitats apreses anteriorment. Finalment, l’ús d’estadístiques específiques de l’entorn, com ara el moviment d’objectes, també pot ser ambigu (per exemple, l’elecció de seguir el moviment absolut no aclareix en quina direcció s’han mogut els agents), i dissenyar mètriques suficients esdevindrà difícil i costós a mesura que els entorns augmentin d’escala.
Proposem utilitzar un conjunt de proves d’intel·ligència específiques del domini orientades a capacitats que creiem que els agents podrien acabar adquirint. El rendiment de transferència en aquests contextos pot actuar com una mesura quantitativa de la qualitat de la representació o de l’habilitat, i ho comparem amb el preentrenament amb exploració basada en recomptes, així com amb una línia de base entrenada des de zero.
Tot i que l’agent d’amagar i buscar obté un millor rendiment en moltes de les tasques de transferència, no millora dràsticament ni el rendiment ni el temps de convergència. Observant-ne el comportament, sabem que té l’habilitat latent de moure objectes amb precisió per construir refugi en el joc d’amagar i buscar; tanmateix, no té la capacitat d’utilitzar aquesta habilitat en altres contextos quan s’entrena amb un nombre reduït de mostres.
Creiem que la causa dels resultats mixtos de transferència rau en el fet que els agents aprenen representacions d’habilitats entrellaçades i difícils d’ajustar finament. A mesura que els entorns futurs esdevinguin més diversos i els agents hagin d’utilitzar habilitats en més contextos, creiem que veurem representacions d’habilitats més generalitzables i un senyal més significatiu en aquest enfocament d’avaluació. A més, publiquem en obert les tasques d’avaluació com una manera d’avaluar el progrés de l’aprenentatge en el nostre entorn.
Hem demostrat que els agents poden aprendre un ús sofisticat d’eines en un simulador de física d’alta fidelitat; tanmateix, pel camí fins a aquest resultat vam aprendre moltes lliçons. Construir entorns no és fàcil i sovint passa que els agents troben una manera d’explotar l’entorn que has construït o el motor de física d’una manera no desitjada.
Autors
Comentaris
Gràcies a les persones següents pels comentaris sobre aquesta entrada i aquest article: Pieter Abbeel, Jeff Clune, Jessica Hamrick, Joel Leibo, Natasha Jaques, Calvin French-Owen, Azalia Mirhoseini, Ilya Sutskever, Greg Brockman, Jack Clark, Brooke Chan & Karson Elmgren
Altres
Vídeo: Glenn Powell, Leo Ogawa Lillrank, Ivy Lillrank, Andie Lee
Edició: Ashley Pilipiszyn
Disseny: Justin Jay Wang
Il·lustració de portada: Ben Barry


