Емергентна употреба алата из интеракције више агената

Илустрација: Ben Barry
Уочили смо да агенти откривају прогресивно све сложенију употребу алата док играју једноставну игру жмурке. Кроз тренирање у нашем новом симулираном окружењу за жмурку, агенти граде низ од шест различитих стратегија и контрастратегија, од којих за неке нисмо знали да их наше окружење подржава. Самонадгледана емергентна сложеност у овом једноставном окружењу додатно указује на то да би коадаптација више агената једног дана могла да произведе изузетно сложено и интелигентно понашање.
У нашем окружењу, агенти играју тимску игру жмурке. Сакривачи (плави) имају задатак да избегну видно поље трагача (црвени), а трагачи имају задатак да одрже сакриваче у видокругу. По окружењу су распоређени објекти које сакривачи и трагачи могу да зграбе и закључају на месту, као и насумично генерисане непокретне собе и зидови кроз које агенти морају да науче да се крећу. Пре почетка игре, сакривачи добијају фазу припреме током које су трагачи имобилисани, како би сакривачи имали прилику да побегну или измене своје окружење.
Не постоје експлицитни подстицаји да агенти интерагују са објектима у окружењу; једини надзор који се даје долази кроз циљ жмурке. Агентима се даје тимска награда; сакривачи добијају награду +1 ако су сви сакривачи скривени и -1 ако било ког сакривача види трагач. Трагачи добијају супротну награду, -1 ако су сви сакривачи скривени и +1 у супротном. Да би се понашање агената ограничило на разуман простор, агенти се кажњавају ако оду предалеко ван простора за игру. Током фазе припреме, свим агентима се даје нулта награда.
Док се агенти тренирају једни против других у жмурки, појављује се чак шест различитих стратегија. Свака нова стратегија ствара претходно непостојећи притисак да агенти пређу у следећу фазу. Имајте у виду да не постоје директни подстицаји да агенти интерагују са објектима или да истражују; уместо тога, емергентне стратегије приказане испод резултат су аутокурикулума(отвара се у новом прозору) изазваног такмичењем више агената и једноставном динамиком жмурке.
Користимо исту инфраструктуру за тренирање и исте алгоритме који су коришћени за тренирање OpenAI Five и Dactyl. Међутим, у нашем окружењу сваки агент делује независно, користећи сопствена запажања и скривено стање меморије. Агенти користе ентитетски усмерену репрезентацију света засновану на стању, која је инваријантна на пермутацију у односу на објекте и друге агенте.
Сваки објекат се угнежђује, а затим пролази кроз маскирани резидуални блок самопажње, сличан онима који се користе у трансформаторима(отвара се у новом прозору), где је пажња усмерена на објекте уместо на време. Објекти који нису у видокругу и испред агента бивају маскирани тако да агент нема никакве информације о њима.

Политике агената тренирају се уз самоигру и стабилно оптимизовање политике. Током оптимизације, агенти могу да користе привилеговане информације о заклоњеним објектима и другим агентима у својој вредносној функцији.
Утврдили смо да је тренирање великих размера било кључно да агенти напредују кроз различите фазе емергенције. У наставку приказујемо и време и број епизода потребних агентима да достигну фазу 4 (одбрана рампом) за различите величине batch-а. Видимо да повећање величине batch-а драстично убрзава време до конвергенције у реалном времену, мада не утиче много на ефикасност узорака на 32k или више. Међутим, открили смо да batch величине од 8k и 16k никада нису достигле фазу 4 у додељеном броју епизода.
У овом раду показујемо доказе да агенти уче сложене стратегије и контрастратегије кроз самонадгледани аутокурикулум у жмурки. Други метод за учење вештина на ненадгледан начин јесте интринзичка мотивација, која подстиче агенте да истражују помоћу различитих метрика као што су грешка модела или број стања. Покренули смо истраживање засновано на бројању у нашем окружењу, у коме агенти воде експлицитан број стања која су посетили и подстичу се да иду у ретко посећена стања. Главни избор моделовања који се у овом подешавању фино подешава јесте репрезентација стања; на пример, у нашој првој базној линији укључујемо само 2-D позиције кутија у стање, тако да се агенти подстичу само да интерагују са кутијама и померају их на нове позиције. Затим то поредимо са политиком заснованом на бројању која узима целокупно стање дато агентима који играју жмурку.
Као што се може видети, агенти тренирани у жмурки квалитативно се много више ослањају на човеку разумљива понашања, као што је изградња заклона, док агенти тренирани уз интринзичку мотивацију померају објекте наизглед без јасног правца. Штавише, како простор стања постаје сложенији, откривамо да методе интринзичке мотивације имају све мање смислених интеракција са објектима у свом окружењу. Из тог разлога, верујемо да ће такмичење више агената бити скалабилнији метод за генерисање вештина релевантних за људе на ненадгледан начин, како окружења настављају да расту по величини и сложености.
У претходном одељку квалитативно поредимо понашања научена у жмурки са онима наученим уз интринзичку мотивацију. Међутим, како окружења расту по обиму, тако ће расти и тешкоћа квалитативног мерења напретка. Праћење награде је недовољна метрика евалуације у подешавањима са више агената, јер може бити нејасно да ли се агенти равномерно побољшавају или су стагнирали. Метрике као што су ELO или Trueskill могу поузданије да измере да ли се перформансе побољшавају у односу на претходне верзије политике или друге политике у популацији; међутим, ни ове метрике и даље не дају увид у то да ли су боље перформансе изазване новим адаптацијама или унапређењем раније научених вештина. На крају, коришћење статистика специфичних за окружење, као што је кретање објеката, такође може бити нејасно (на пример, избор да се прати апсолутно кретање не објашњава у ком смеру су се агенти кретали), а осмишљавање довољно добрих метрика постајаће тешко и скупо како се окружења буду ширила.
Предлажемо коришћење скупа тестова интелигенције специфичних за домен који циљају способности за које верујемо да би агенти на крају могли да стекну. Перформансе трансфера у овим подешавањима могу послужити као квантитативна мера квалитета репрезентације или вештине, а поредимо их са претходним тренирањем уз истраживање засновано на бројању, као и са базном линијом тренираном од нуле.
Иако агент за жмурку постиже боље резултате на многим задацима трансфера, он не побољшава драстично перформансе нити време до конвергенције. Посматрањем његовог понашања знамо да поседује латентну вештину да прецизно помера објекте како би конструисао заклон у игри жмурке; међутим, нема способност да ту вештину користи у другим контекстима када се тренира са малим бројем узорака.
Верујемо да је узрок мешовитих резултата трансфера у томе што агенти уче репрезентације вештина које су испреплетене и тешке за фино подешавање. Како будућа окружења буду постајала разноврснија и агенти буду морали да користе вештине у више контекста, верујемо да ћемо видети општије репрезентације вештина и снажнији сигнал у овом приступу евалуацији. Поред тога, објављујемо изворни код задатака за евалуацију као начин за процену напретка учења у нашем окружењу.
Показали смо да агенти могу да науче софистицирану употребу алата у симулатору физике високе верности; међутим, било је много лекција научених на путу до овог резултата. Изградња окружења није лака и врло често се дешава да агенти пронађу начин да искористе окружење које сте направили или физички погон на ненамераван начин.
Аутори
Повратне информације
Хвала следећима на повратним информацијама о овом тексту и раду: Pieter Abbeel, Jeff Clune, Jessica Hamrick, Joel Leibo, Natasha Jaques, Calvin French-Owen, Azalia Mirhoseini, Ilya Sutskever, Greg Brockman, Jack Clark, Brooke Chan & Karson Elmgren
Остало
Видео: Glenn Powell, Leo Ogawa Lillrank, Ivy Lillrank, Andie Lee
Уредница: Ashley Pilipiszyn
Дизајн: Justin Jay Wang
Насловна илустрација: Ben Barry


