Usos inéditos a partir de la interacción con múltiples agentes

Ilustración: Ben Barry
Hemos observado cómo los agentes descubrían el uso de herramientas cada vez más complejas mientras jugaban a las escondidas. Con el entrenamiento en nuestro nuevo entorno simulado de escondidas, los agentes desarrollaron una serie de seis estrategias y contraestrategias distintas, algunas de las cuales no sabíamos que nuestro entorno admitía. La complejidad emergente autosupervisada en este sencillo entorno sugiere, además, que la coadaptación de varios agentes puede producir algún día un comportamiento extremadamente complejo e inteligente.
En nuestro entorno, los agentes juegan a las escondidas en equipo. Los agentes que se esconden (azules) deben evitar la línea de visión de los que buscan (rojos), y estos deben mantener la visión en los escondidos. Hay objetos distribuidos en el entorno que los que se esconden y los que buscan pueden agarrar y fijar en un sitio, así como salas y paredes inamovibles generadas aleatoriamente que los agentes deben aprender a recorrer. Antes de que comience el juego, los agentes que se esconden disponen de una fase de preparación en la que se inmoviliza a los que buscan para dar a los que se esconden la oportunidad de huir o cambiar su entorno.
No hay incentivos explícitos para que los agentes interactúen con los objetos del entorno; la única supervisión que se da es a través del objetivo de las escondidas. Los agentes reciben una recompensa basada en el equipo; los que se esconden reciben una recompensa de +1 si todos están ocultos y de -1 si un buscador ve a algún agente escondido. Los que buscan reciben la recompensa contraria, -1 si todos los que se esconden están ocultos y +1 en caso contrario. Para limitar el comportamiento de los agentes a un espacio razonable, se aplica una sanción si se salen demasiado de la zona de juego. Durante la fase de preparación, todos los agentes reciben una recompensa de cero.
A medida que los agentes se entrenan unos contra otros en las escondidas, surgen hasta seis estrategias distintas. Cada estrategia nueva crea una presión antes inexistente para que los agentes avancen a la siguiente fase. Es importante notar que no hay incentivos directos para que los agentes interactúen con los objetos o exploren; más bien, las estrategias emergentes que se muestran a continuación son el resultado del autocurrículo(se abre en una nueva ventana) que se crea a partir de la competencia entre varios agentes y la dinámica simple de las escondidas.
Utilizamos la misma infraestructura de entrenamiento y los mismos algoritmos que para OpenAI Five y Dactyl. Sin embargo, en nuestro entorno cada agente actúa de forma independiente con sus propias observaciones y estado de memoria oculta. Los agentes utilizan una representación del mundo basada en el estado y centrada en la entidad, que es constante respecto de la permutación de los objetos y otros agentes.
Cada objeto se incrusta y, a continuación, pasa a través de un bloque de autoatención residual enmascarado, similar a los que se utilizan en los transformadores(se abre en una nueva ventana), donde la atención es sobre los objetos en lugar de sobre el tiempo. Los objetos que no están en la línea de visión y delante del agente se enmascaran para que el agente no tenga información de ellos.

Las políticas de los agentes se entrenan con autojuegos y con el uso de la optimización de políticas proximales. Durante la optimización, los agentes pueden utilizar información privilegiada sobre objetos ocultos y otros agentes en su función de valor.
Descubrimos que la formación a gran escala era fundamental para que los agentes progresaran por las distintas fases de emergencia. A continuación, mostramos tanto el tiempo como el número de episodios que los agentes tardan en alcanzar la fase cuatro (defensa en rampa) para varios tamaños de lote. Aumentar el tamaño de los lotes acelera drásticamente el tiempo de convergencia, aunque no afecta en gran medida la eficiencia de la muestra por encima de 32 000. Sin embargo, descubrimos que los tamaños de lote de 8000 y 16 000 nunca alcanzaban la fase cuatro en el número de episodios asignado.
En este trabajo mostramos pruebas de que los agentes aprenden estrategias y contraestrategias complejas a través de un autocurrículo autosupervisado en el juego de las escondidas. Otro método para aprender habilidades de forma no supervisada es la motivación intrínseca, que incentiva a los agentes a explorar con diversas métricas, como el error del modelo o el recuento de estados. En nuestro entorno realizamos una exploración basada en el recuento, en la que los agentes mantienen un recuento explícito de los estados que ya visitaron y se les incentiva para que vayan a estados visitados con poca frecuencia. Por ejemplo, en nuestra primera línea de referencia, solo incluimos posiciones de cajas bidimensionales en el estado, de modo que los agentes solo tienen el incentivo de interactuar con cajas y moverlas a posiciones nuevas. Luego, comparamos esto con una política con base en el recuento que toma el estado completo que se les dio a los agentes que juegan a las escondidas.
Como se puede ver, los agentes entrenados en las escondidas se centran de forma cualitativa en comportamientos mucho más interpretables por humanos, como la construcción de refugios, mientras que los entrenados con motivación intrínseca mueven objetos de un lado a otro de forma aparentemente no dirigida. Además, a medida que el espacio de estados aumenta en complejidad, comprobamos que los métodos de motivación intrínseca tienen interacciones cada vez menos significativas con los objetos de su entorno. Por este motivo, creemos que la competencia de varios agentes será un método más escalable para generar habilidades relevantes para el ser humano de forma no supervisada a medida que los entornos sigan aumentando en tamaño y complejidad.
En la sección anterior, comparamos de forma cualitativa los comportamientos aprendidos en las escondidas con los aprendidos con motivación intrínseca. Sin embargo, a medida que aumente la escala de los entornos, también lo hará la dificultad para medir los avances de forma cualitativa. El seguimiento de la recompensa es una métrica de evaluación insuficiente en entornos de varios agentes, ya que puede ser ambigua a la hora de indicar si los agentes están mejorando de forma uniforme o se han estancado. Métricas como ELO o Trueskill pueden medir de forma más fiable si el rendimiento mejora en relación con versiones anteriores de políticas u otras políticas de una población. Sin embargo, estas métricas siguen sin dar una idea de si la mejora del rendimiento se debe a nuevas adaptaciones o a la mejora de habilidades aprendidas previamente. Por último, el uso de estadísticas específicas del entorno, como el movimiento de los objetos, también puede ser ambiguo (por ejemplo, la elección de realizar un seguimiento del movimiento absoluto no aclara en qué dirección se movieron los agentes). Además, el diseño de métricas suficientes será difícil y costoso a medida que se amplíen los entornos.
Proponemos utilizar un conjunto de pruebas de inteligencia específicas del dominio que se centran en las capacidades que creemos que los agentes pueden llegar a adquirir. El rendimiento de la transferencia en estos entornos puede actuar como una medida cuantitativa de la calidad o capacidad de la representación, y lo comparamos con el entrenamiento previo con exploración con base en el recuento, así como con una línea de referencia que se entrenó desde cero.
A pesar de que el agente de las escondidas obtiene mejores resultados en muchas de las tareas de transferencia, no mejora drásticamente el rendimiento ni el tiempo de convergencia. Al revisar su comportamiento, sabemos que tiene la capacidad latente de mover objetos de forma precisa para construir un refugio en el juego de las escondidas; sin embargo, no tiene la capacidad de utilizar esta habilidad en otros contextos cuando se entrena con un número bajo de muestras.
Creemos que la causa de los resultados dispares de la transferencia radica en que los agentes aprenden representaciones de capacidades que están entrelazadas y son difíciles de someter a un ajuste fino. A medida que los entornos futuros sean más diversos y los agentes deban utilizar capacidades en más contextos, creemos que veremos representaciones de capacidades más generalizables y una señal más significativa en este enfoque de evaluación. Además, las tareas de evaluación son de código abierto para evaluar el progreso del aprendizaje en nuestro entorno.
Ya demostramos que los agentes pueden aprender el uso de herramientas sofisticadas en un simulador de física de alta fidelidad; sin embargo, aprendimos muchas lecciones en el proceso hacia este resultado. Desarrollar entornos no es fácil y es bastante frecuente que los agentes encuentren una forma de aprovechar el entorno que se desarrolla o el motor de física de forma no intencionada.
Autores
Opinión
Gracias a las siguientes personas por sus comentarios sobre esta publicación y artículo: Pieter Abbeel, Jeff Clune, Jessica Hamrick, Joel Leibo, Natasha Jaques, Calvin French-Owen, Azalia Mirhoseini, Ilya Sutskever, Greg Brockman, Jack Clark, Brooke Chan y Karson Elmgren
Otros
Video: Glenn Powell, Leo Ogawa Lillrank, Ivy Lillrank, Andie Lee
Editora: Ashley Pilipiszyn
Diseño: Justin Jay Wang
Portada: Ben Barry


