Uso de herramientas emergentes a partir de la interacción entre varios agentes

Ilustración: Ben Barry
Observamos que los agentes aprenden a usar herramientas cada vez más complejas jugando al escondite. Entrenándose en nuestro nuevo entorno simulado del juego del escondite, los agentes definen seis estrategias y contraestrategias diferenciadas, algunas de las cuales no sabíamos que nuestro entorno admitía. La complejidad emergente autosupervisada de este entorno tan sencillo sugiere, además, que la coadaptación de varios agentes puede dar lugar a comportamientos extremadamente complejos e inteligentes.
Hemos creado un entorno en el que varios agentes juegan al escondite por equipos. Los agentes azules tienen la misión de esconderse de los agentes rojos, que a su vez tienen la misión de no perderlos de vista. Hay una serie de objetos repartidos por el entorno que tanto el equipo que busca como el que se esconde puede agarrar y cambiar de sitio. También hay varias salas y paredes fijas, generadas de forma aleatoria, que los agentes tienen que aprender a recorrer. Antes de empezar el juego, el equipo que se esconde dispone de tiempo para huir o modificar el entorno mientras el equipo que busca permanece inmovilizado. Es lo que se conoce como «fase preparatoria».
Los agentes no reciben incentivos explícitos por interactuar con los objetos del entorno; la única supervisión que hemos incluido es el propio objetivo del juego del escondite. Los agentes reciben las recompensas por equipo: el equipo que se esconde consigue un +1 si todos los agentes están escondidos y un -1 si algún agente del equipo contrario detecta a uno de ellos. Las recompensas funcionan al revés para el equipo que busca: -1 si el equipo contrario está escondido y +1 si ven a algún agente. Para restringir el comportamiento de los agentes a un espacio razonable, se penaliza a los agentes que se alejan demasiado de la zona de juego. Durante la fase preparatoria, ningún equipo recibe recompensas.
Mientras los agentes se entrenan unos contra otros en el juego del escondite, emergen hasta seis estrategias distintas. Con cada nueva estrategia, se somete a los agentes a una nueva presión para avanzar a la fase siguiente. Los agentes no reciben directamente ningún incentivo por interactuar con los objetos ni por explorar el entorno. En su lugar, las estrategias que han emergido, y que mostramos a continuación, son el resultado del aprendizaje autónomo(se abre en una ventana nueva), motivado por la competición multiagente y por la dinámica sencilla del escondite.
Hemos utilizado la infraestructura y los algoritmos que empleamos para entrenar OpenAI Five y Dactyl. Sin embargo, en nuestro entorno, cada agente actúa con independencia a partir de sus propias observaciones y la memoria oculta. Los agentes usan una representación del mundo basada en los estados y centrada en las entidades, que es invariable a la permutación de los objetos y otros agentes.
Cada objeto se incrusta y, a continuación, pasa a través de un bloque de autoatención residual enmascarado, similar a los que utilizan los transformadores(se abre en una ventana nueva), en el que la atención se centra en los objetos y no en el tiempo. Los objetos que no están en la línea de visión ni frente a los agentes se enmascaran para que estos no dispongan de información al respecto.

Las políticas de agentes se entrenan a partir de dos métodos: el autojuego y la optimización de políticas próximas. Durante la optimización, los agentes tienen acceso a información privilegiada sobre los objetos ocultos y otros agentes en su función de valor.
Hemos observado que el entrenamiento a gran escala es fundamental para que los agentes avancen por las distintas fases de la emergencia de comportamientos. A continuación, mostramos tanto el tiempo como el número de episodios que transcurren hasta que los agentes alcanzan la fase 4 (defensa en rampa) con tamaños de lote distintos. Hemos visto que aumentar el tamaño de los lotes disminuye radicalmente el tiempo real hasta alcanzar la convergencia, pero que la eficiencia de la muestra no sigue mejorando a partir de lotes iguales o superiores a 32 000 ejemplos. Sin embargo, hemos observado que los lotes de 8000 y 16 000 no alcanzaron la fase 4 en el número de episodios definido.
En este estudio presentamos evidencias de que los agentes aprenden estrategias y contraestrategias complejas a partir de un aprendizaje autónomo autosupervisado en el juego del escondite. La motivación intrínseca es otra forma de aprender habilidades de forma no supervisada, ya que incentiva a los agentes a explorar el entorno aplicando métricas diversas, como el error del modelo o el recuento de estados. Para ponerlo a prueba, lanzamos una exploración basada en el recuento en nuestro entorno, durante la cual los agentes llevan el recuento de los estados que han visitado y reciben un incentivo cuando se dirigen a estados que han visitado con menor frecuencia. La primera decisión con respecto al modelado es la forma de representar los estados en el entorno; por ejemplo, en nuestro modelo de referencia solo contemplamos las posiciones en 2D de las cajas, de modo que los agentes solo reciben incentivos por interactuar con las cajas y cambiarlas de sitio. A continuación, comparamos este modelo con una política basada en el recuento, en la que los agentes tienen en cuenta todos los aspectos de los estados mientras juegan al escondite.
Como vemos arriba, los agentes entrenados en el escondite presentan comportamientos cualitativamente más humanos, como construir un refugio, mientras que los entrenados con motivación intrínseca trasladan objetos de un lado a otro aparentemente sin un objetivo. Es más, a medida que aumenta la complejidad de los estados, los métodos de motivación intrínseca generan interacciones menos efectivas con los objetos del entorno. Por este motivo, creemos que la competición multiagente será un método más escalable para generar habilidades relevantes para el ser humano de forma no supervisada a medida que aumente el tamaño y la complejidad de los entornos.
En el apartado anterior, comparamos a nivel cualitativo los comportamientos aprendidos durante el juego del escondite con los aprendidos con la motivación intrínseca. No obstante, conforme aumenta la dimensión y la complejidad de un entorno, es más difícil evaluar el progreso en términos cualitativos. En un entorno multiagente, llevar un registro de las recompensas obtenidas no es un indicador suficiente, ya que no sirve para determinar de manera inequívoca si los agentes progresan gradualmente o, por el contrario, se han quedado estancados. Métricas como ELO o Trueskill permiten evaluar de manera más fiable si el rendimiento mejora con respecto a versiones anteriores de la política o de un conjunto de políticas. Sin embargo, estas métricas siguen sin darnos información definitiva sobre si la mejora en el rendimiento es fruto de nuevas adaptaciones o de haber perfeccionado las habilidades aprendidas previamente. Por último, recurrir a estadísticas específicas del entorno, como el movimiento de los objetos, también puede dar resultados ambiguos (por ejemplo, contabilizar el número de movimientos no aclara en qué dirección se han movido los agentes). Además, a medida que escalen los entornos, resultará más caro y laborioso definir las métricas necesarias.
Proponemos aplicar una serie de pruebas de inteligencia específicas del dominio para evaluar las capacidades que prevemos que los agentes adquirirán en algún momento. El rendimiento de la transferencia en estos entornos puede servir de indicador cuantitativo de la calidad o habilidad de la representación, y podemos compararlo con el entrenamiento previo centrado en la exploración basada en el recuento, así como con un sistema de referencia entrenado desde cero.
Aunque los agentes del escondite rinden mejor en muchas de las tareas de transferencia, los resultados y el tiempo de convergencia no mejoran de forma destacable. Por el comportamiento observado, sabemos que tienen la habilidad latente de mover objetos de forma precisa para construir refugios en el juego del escondite, pero no pueden emplear esta capacidad en otros contextos tras entrenarlos con una cantidad reducida de muestras.
Creemos que el motivo de que la transferencia presente resultados tan dispares es que los agentes aprenden representaciones de habilidades que son confusas y difíciles de ajustar. Conforme aumente la diversidad de los entornos y los agentes se vean obligados a poner en práctica sus habilidades en más contextos, probablemente observaremos representaciones de habilidades más generalizables y este método de evaluación se volverá más representativo. Las tareas de evaluación son, además, de código abierto con el objetivo de evaluar el progreso del aprendizaje en nuestro entorno.
Hemos demostrado que los agentes son capaces de aprender a usar herramientas sofisticadas en un simulador físico con un alto nivel de realismo. Sin embargo, llegar a este resultado no fue un camino de rosas. Diseñar entornos no es tarea fácil y, a menudo, nos encontramos con que los agentes encuentran formas de usar los entornos o los motores físicos de forma totalmente inesperada.
Autores
Comentarios
Gracias por leer esta publicación y el artículo, y por trasladarnos vuestros comentarios: Pieter Abbeel, Jeff Clune, Jessica Hamrick, Joel Leibo, Natasha Jaques, Calvin French-Owen, Azalia Mirhoseini, Ilya Sutskever, Greg Brockman, Jack Clark, Brooke Chan y Karson Elmgren
Otros colaboradores
Vídeo: Glenn Powell, Leo Ogawa Lillrank, Ivy Lillrank y Andie Lee
Editora: Ashley Pilipiszyn
Diseño: Justin Jay Wang
Diseño de portada: Ben Barry


