
イラストレーション: Ben Barry
エージェントが、かくれんぼという単純な遊びを行っている間に、より複雑なツールを徐々に発見していくことが観察されました。この新規のかくれんぼシミュレーション環境で学習させることで、エージェントは異なる6つの戦略および対抗戦略を次々に構築し、その中には、この環境で提供されることを私たちが把握していなかったものさえありました。この単純な環境における自己教師による創発的複雑性は、マルチエージェントの協調適応によって極めて複雑で知的な挙動がいつの日か生み出される可能性も示唆しています。
私たちの作った環境において、エージェントはチーム対抗のかくれんぼをします。子(隠れ役:青)は、鬼(探し役:赤)の視線を避けることをタスクとされ、鬼は子を視野に入れることをタスクとされます。環境の全体には、子および鬼による把持と固定が可能な物体、ならびに動き回るためにエージェントの学習しなければならない動かせない部屋と壁(ランダムに生成されたもの)が散在しています。かくれんぼの開始前、子には準備段階が与えられ、その間は鬼は動くことができず、子は逃げたり、環境を変えたりできます。
エージェントには環境内の物体とのインタラクションに対する明示的な動機付けはされず、かくれんぼの目的を介したものだけが教師となります。エージェントにはチームベースで報酬が与えられます。子には全員が隠れていられたら+1、一人でも鬼に見つかったら‐1という報酬で、鬼には逆に、子の全員を見つけられなかったら‐1、一人でも子を見つけたら+1という報酬です。エージェントの挙動を合理的空間内に制限するため、プレイエリア外部に行きすぎた場合にはペナルティが科されます。準備段階の間は、どのエージェントにも報酬が与えられることはありません。
エージェントたちがかくれんぼで対抗しながら学習するにつれ、戦略が6つも創発されました。新しい戦略の各々は、次の段階への進行という以前には存在しなかったプレッシャーをエージェントにもたらします。なお、物体とのインタラクションまたは探索に対する直接的な動機付けはされず、むしろマルチエージェントの競争およびかくれんぼの単純なダイナミクスに誘発された自動カリキュラム(新しいウィンドウで開く)の結果が、下に示す創発的戦略となりました。
学習インフラストラクチャとアルゴリズムは、OpenAI Five と Dactyl と同じものを使いましたが、私たちの環境では各エージェントは自己の観察と隠れ状態のメモリを用いて、独立して活動します。エージェントは、物体や他のエージェントに関して順列不変である、エンティティ中心で状態ベースの世界表現を用います。
各物体は埋め込みされ、マスクされた self-attention の残余ブロックに入れられます。これは Attention の対象が時間でなく物体である Transformer(新しいウィンドウで開く) で用いられているのと同様のものです。視線の範囲内またはエージェント自身の前にない物体は、その情報をエージェントが持たないようにマスクされます。

エージェント方策はセルフプレイと PPO(Proximal Policy Optimization:近接方策最適化)で学習されます。最適化の際、エージェントは隠れた物体や他のエージェントに関して自分だけに与えられる情報を自分の価値関数に用いることができます。
エージェントに様々な創発の段階を進めさせるためには、大規模な学習が不可欠であることが分かりました。この下に、様々なバッチサイズにおいてステージ4(スロープの防御)に達するまでの時間とエピソード数を示しています。バッチサイズが大きくなるほど収束までの経過実時間が大幅にスピードアップされますが、32,000以上になるとサンプル効率に大きな影響はなくなることが分かりました。ただし、バッチサイズ8,000および16,000では、割り当てのエピソード数内ではステージ4に到達できないことが明らかになっています。
この研究では、かくれんぼにおける自己教師自動カリキュラムによってエージェントが複雑な戦略と対抗戦略を学習するエビデンスが示されました。教師なしでスキルを学習するためのもうひとつの手法は内発的動機付けで、これはモデルエラーや状態カウントなどの様々な指標を探索するようエージェントに動機付けるものです。本環境においては、エージェントが訪れた状態の明確な回数を記録し、あまり訪れない状態の訪問を動機付けるカウントベースの探索を行わせました。この設定で調整する最初のモデル選択は、状態表現です。例えば、最初のベースラインでは、新しい位置の箱とのインタラクトや、新しい位置への箱の移動をエージェントに動機付けるように、状態には箱の2D 位置のみを入れました。これを次に、かくれんぼをするエージェントに与えられた完全な状態に基づくカウントベースの方策と比較します。
お分かりのように、かくれんぼの学習を受けたエージェントは、隠れ場所を作るなど、かなり人間に解釈可能な挙動を定性的に中心とします。一方で、内発的動機付けによる学習を受けたエージェントは、方向性がないと思われるやり方で物体を動かします。さらに、状態空間の複雑性が増すにつれて、内発的動機付け手法では環境内の物体とのインタラクションにおける意味が低くなっていくことも分かりました。この理由により、環境のサイズと複雑さが上がり続ける中、教師なし手法によって人間に関連するスキルを生成するためには、マルチエージェントの競争の方がスケーラブルな手法であると私たちは考えます。
先のセクションでは、かくれんぼで学習した挙動と内発的動機付けで学習した挙動を定性的に比較しています。しかし、環境の規模が大きくなるにつれて、進捗の定性的測定の難しさも増していきます。報酬の追跡は、示していることがエージェントの均等な向上か、停滞かが曖昧になる可能性があるため、マルチエージェント設定の場合には不十分な評価指標です。前のバージョンの方策または集団内の他の方策と比較してパフォーマンスが向上しているかの測定には、ELO や Trueskill のような指標の方が信頼できる可能性があります。ただし、これらの指標でも、向上したパフォーマンスが新しい適応によるものか、以前学習したスキルが向上したからであるかの洞察はもたらされません。最後に、物体の動きなどの環境特化の統計も曖昧であり(例えば、絶対的動きの追跡という選択は、エージェントの動きの方向を示しません)、環境がスケールアップするにつれ、適切な指標の設計は困難かつ高額となります。
私たちはエージェントが最終的に獲得したと思われる能力を対象とする、ドメイン特化の知能テストを用いることを提案します。この環境での転移パフォーマンスは、表現の質やスキルの定量的な尺度として機能させることが可能で、それをカウントベースの探索による事前学習およびゼロから学習させたベースラインと比較します。
かくれんぼで学習したエージェントは、転移タスクの多くにおいて優れたパフォーマンスを示しますが、パフォーマンスや収束時間が劇的に向上することはありません。その挙動を見ると、かくれんぼ遊びにおいて物体を正確に移動させて隠れ場所を構築する潜在スキルを持っていることが分かります。ただし、少数のサンプルで学習させた場合には、このスキルを他の状況で用いる能力はありません。
転移結果がまちまちとなる根本原因は、複雑に絡み合ってファインチューニングが難しいスキル表現をエージェントが学習することにあると考えています。今後、環境がより多様化し、エージェントがより多くの状況でスキルを使用しなければならなくなるにつれて、この評価アプローチにおいて、より汎用化可能なスキル表現と、より重要な兆候を見るだろうと考えています。さらに、本環境内における学習の進捗状況を評価する方法として、この評価タスクをオープンソースにしています。
エージェントが、忠実度の高い物理シミュレーターでツールの高度な使用方法を学習できることを示しましたが、この結果に至るまでには多くのことを学ばさせられました。環境構築は容易なことではなく、構築された環境または物理エンジンを意図されないやり方で悪用する方法をエージェントはよく見つけてしまうのです。
著者
フィードバック
本投稿と論文にフィードバックをしていただいた以下の各位に感謝の言葉を捧げます。Pieter Abbeel、Jeff Clune、Jessica Hamrick、Joel Leibo、Natasha Jaques、Calvin French-Owen、Azalia Mirhoseini、Ilya Sutskever、Greg Brockman、Jack Clark、Brooke Chan、Karson Elmgren
その他
動画:Glenn Powell、Leo Ogawa Lillrank、Ivy Lillrank、Andie Lee
編集者:Ashley Pilipiszyn
デザイン:Justin Jay Wang
カバーアートワーク:Ben Barry


