2019 оны есдүгээр сарын 17

Олон агентын харилцан үйлчлэлээс бий болсон хэрэгслийн хэрэглээ

Өгүүллийг унших Орчин үүсгэх Дэлхий үүсгэгч

Саарал торон дүрсний изометр харагдац, нүд бүрт нь олон агент нуугдаж-эрэх тоглож байна

Зураглал: Ben Barry

Ачаалж байна…

Бид агентууд энгийн нуугдаж-эрэх тоглоом тоглох явцдаа улам бүр нарийн төвөгтэй хэрэгслийн хэрэглээг нээж байгааг ажигласан. Манай шинэ симуляцлагдсан нуугдаж-эрэх орчинд сургах замаар агентууд зургаан ялгаатай стратеги ба сөрөг стратегийн дарааллыг бий болгодог бөгөөд тэдгээрийн заримыг манай орчин дэмждэгийг бид мэдээгүй байсан. Энэ энгийн орчин дахь өөрөө хянагдсан шинээр бий болсон нарийн төвөгтэй байдал нь олон агентын хам дасан зохицол нэг өдөр туйлын нарийн төвөгтэй, ухаалаг зан төлөвийг төрүүлж болохыг цаашид харуулж байна.

Манай орчинд агентууд багаар тоглодог нуугдаж-эрэх тоглоом тоглодог. Нуугдагсад (цэнхэр) нь хайгчдаас (улаан) харааны шугамд өртөхөөс зайлсхийх үүрэгтэй, харин хайгчид нуугдагсдыг хараандаа байлгах үүрэгтэй. Орчин даяар нуугдагч, хайгчид барьж авч, түгжиж тогтоож болох объектууд, мөн агентууд суралцан туулах ёстой санамсаргүй үүсгэсэн хөдөлгөөнгүй өрөөнүүд ба хананууд тархсан байдаг. Тоглоом эхлэхээс өмнө нуугдагсдад бэлтгэлийн үе өгдөг бөгөөд энэ үед хайгчдыг хөдөлгөөнгүй болгож, нуугдагсдад зугтах эсвэл орчноо өөрчлөх боломж олгодог.

Ачаалж байна...

Орчин дахь объектуудтай харилцах тодорхой урамшуулал агентуудад байхгүй; өгөгдсөн цорын ганц хяналт нь нуугдаж-эрэх зорилтоор дамжина. Агентуудад багийн шагнал өгдөг; бүх нуугдагч нуугдсан бол нуугдагчид +1 шагнал, хайгч ямар нэг нуугдагчийг харвал -1 шагнал авна. Хайгчид эсрэг шагнал авдаг: бүх нуугдагч нуугдсан бол -1, бусад тохиолдолд +1. Агентын зан төлөвийг зохистой хүрээнд барихын тулд тоглох талбайгаас хэт хол гарвал тэдэнд торгууль оноодог. Бэлтгэлийн үе шатанд бүх агент 0 шагнал авдаг.

Автокуррикулум ба шинээр бий болсон зан төлөв

Агентууд нуугдаж-эрэх тоглоомд хоорондоо сургах тусам зургаа хүртэлх ялгаатай стратеги шинээр бий болдог. Шинэ стратеги бүр агентуудад дараагийн шат руу ахихын өмнө байгаагүй дарамтыг үүсгэдэг. Агентуудад объекттой харилцах эсвэл судлах шууд урамшуулал байхгүйг анхаарна уу; харин доор үзүүлсэн шинээр бий болсон стратегиуд нь олон агентын өрсөлдөөн болон нуугдаж-эрэхийн энгийн динамикаас үүдэн бий болсон автокуррикулум⁠(шинэ цонхонд нээгдэнэ)-ын үр дүн юм.

Ачаалж байна...

Нуугдаж-эрэх агентуудыг сургах

Бид OpenAI Five⁠ болон Dactyl⁠-ийг сургахад ашигласан ижил сургалтын дэд бүтэц болон алгоритмуудыг ашигладаг. Гэвч манай орчинд агент бүр өөрийн ажиглалт болон далд санах ойн төлөвөө ашиглан бие даан үйлдэл хийдэг. Агентууд дэлхийн entity-centric, төлөвт суурилсан дүрслэлийг ашигладаг бөгөөд энэ нь объектууд болон бусад агентуудын хувьд пермутацид үл хамаарах шинжтэй.

Объект бүрийг embedding хийж, дараа нь трансформер⁠(шинэ цонхонд нээгдэнэ)-уудад ашиглагддагтай төстэй masked residual self attention блок дундуур дамжуулдаг бөгөөд энд attention нь хугацаан дээр биш, объектууд дээр явагдана. Харааны шугамд ороогүй, агентын өмнө байхгүй объектуудыг mask хийдэг тул агент тэдгээрийн талаар ямар ч мэдээлэлгүй байдаг.

Олон агентын бодлогын архитектурын диаграм

Агентын бодлогуудыг өөртэйгөө тоглуулах⁠ болон PPO алгоритм (Proximal Policy Optimization)⁠-аар сургадаг. Оновчлолын үеэр агентууд өөрсдийн value function-д халхлагдсан объектууд болон бусад агентуудын тухай давуу эрхтэй мэдээллийг ашиглаж чадна.

Том цар хүрээтэй сургалт нь агентууд шинээр үүсэх янз бүрийн үе шатаар ахихад маш чухал байсныг бид олж мэдсэн. Доор бид янз бүрийн batch size-д агентууд 4-р шатанд (рамп хамгаалалт) хүрэхэд шаардагдах хугацаа болон эпизодын тоог хоёуланг нь харуулж байна. Batch size-ийг нэмэгдүүлэх нь нийлэх хүртэлх бодит хугацааг эрс хурдасгадаг ч 32k-д эсвэл түүнээс дээш түвшинд sample efficiency-д тийм их нөлөөлдөггүйг бид тогтоосон. Гэвч 8k ба 16k batch size-ууд өгөгдсөн эпизодын тоонд 4-р шатанд хэзээ ч хүрээгүй.

Ачаалж байна...

Олон агентын өрсөлдөөн ба дотоод сэдлийн харьцуулалт

Энэ ажилд бид агентууд нуугдаж-эрэх тоглоомд өөрөө хянагддаг автокуррикулумаар дамжин нарийн төвөгтэй стратеги болон сөрөг стратегиудыг сурдгийг нотлох баримт харуулсан. Ур чадварыг хяналтгүйгээр сурах өөр нэг арга нь дотоод сэдэл бөгөөд энэ нь загварын алдаа эсвэл төлөвийн тоолол зэрэг янз бүрийн хэмжүүрээр агентуудыг судлахад урамшуулдаг. Бид орчиндоо count-based exploration ажиллуулсан бөгөөд үүнд агентууд очсон төлөвүүдийнхөө тоог ил тод хадгалж, ховор очсон төлөвүүд рүү явах урамшуулал авдаг. Энэ нөхцөлд тааруулах ёстой үндсэн загварчлалын сонголт нь төлөвийн дүрслэл юм; жишээлбэл, манай эхний baseline-д бид зөвхөн 2-D хайрцгийн байрлалуудыг төлөвт оруулсан тул агентууд зөвхөн хайрцгуудтай харилцаж, тэднийг шинэ байрлал руу хөдөлгөхөд урамшуулагдана. Дараа нь бид үүнийг нуугдаж-эрэх тоглодог агентуудад өгдөг бүтэн төлөвийг авдаг count-based бодлоготой харьцуулсан.

Ачаалж байна...

Харж байгаачлан, нуугдаж-эрэхэд сурсан агентууд чанарын хувьд хоргодох байр барих зэрэг хүнд илүү ойлгомжтой зан төлөвийн эргэн тойронд төвлөрдөг бол дотоод сэдлээр сурсан агентууд объектуудыг чиглэлгүй мэт байдлаар нааш цааш хөдөлгөдөг. Цаашилбал, төлөвийн орон зай илүү төвөгтэй болох тусам дотоод сэдлийн аргууд орчин дахь объектуудтайгаа улам бага утга учиртай харилцдагийг бид олж мэдсэн. Иймээс орчны хэмжээ, төвөгшил цаашид өсөхийн хэрээр олон агентын өрсөлдөөн нь хүнд хамааралтай ур чадварыг хяналтгүй аргаар үүсгэхэд илүү өргөтгөх боломжтой арга болно гэж бид үзэж байна.

Үнэлгээ болгон шилжүүлэлт ба fine-tuning

Өмнөх хэсэгт бид нуугдаж-эрэхэд сурсан зан төлөвийг дотоод сэдэлтэйгээр сурсан зан төлөвтэй чанарын хувьд харьцуулсан. Гэвч орчны цар хүрээ өсөх тусам ахицыг чанарын хувьд хэмжих хүндрэл мөн өснө. Олон агентын нөхцөлд шагналыг мөрдөх нь хангалтгүй үнэлгээний хэмжүүр бөгөөд агентууд жигд сайжирч байна уу эсвэл гацсан уу гэдгийг тодорхойлоход хоёрдмол байж болно. ELO эсвэл Trueskill зэрэг хэмжүүрүүд нь өмнөх бодлогын хувилбарууд эсвэл популяц дахь бусад бодлоготой харьцуулахад гүйцэтгэл сайжирч буй эсэхийг илүү найдвартай хэмжиж чадна; гэхдээ эдгээр хэмжүүрүүд ч сайжирсан гүйцэтгэл шинэ дасан зохицлоос үү, эсвэл өмнө сурсан ур чадварууд сайжирснаас уу гэдэгт ойлголт өгдөггүй. Эцэст нь, объектын хөдөлгөөн зэрэг орчин-онцлог статистик ч мөн хоёрдмол байж болно (жишээлбэл, абсолют хөдөлгөөнийг хянах сонголт агентууд аль чиглэлд хөдөлснийг тодруулдаггүй), мөн орчны цар хүрээ өсөхийн хэрээр хангалттай хэмжүүр зохиох нь хэцүү, өртөг өндөртэй болно.

Бид агентууд эцэст нь эзэмшиж магадгүй гэж үзсэн чадваруудад чиглэсэн, домэйн-онцлог оюун ухааны тестүүдийн багцыг ашиглахыг санал болгож байна. Эдгээр орчин дахь шилжүүлэлтийн гүйцэтгэл нь дүрслэлийн чанар эсвэл ур чадварын тоон хэмжүүр болж чадна, мөн бид үүнийг count-based exploration ашигласан урьдчилсан сургалт болон эхнээс нь сурсан baseline-тэй харьцуулдаг.

Ачаалж байна...

Нуугдаж-эрэх агент олон шилжүүлэлтийн даалгаварт илүү сайн гүйцэтгэлтэй ч, гүйцэтгэл эсвэл нийлэх хугацааг огцом сайжруулдаггүй. Түүний зан төлөвийг ажиглахад нуугдаж-эрэх тоглоомд хоргодох байр барихын тулд объектуудыг нарийн хөдөлгөх далд ур чадвартайг бид мэднэ; гэхдээ sample-ийн тоо бага үед сургахад энэ ур чадварыг өөр нөхцөлд ашиглах чадвар түүнд байдаггүй.

Шилжүүлэлтийн холимог үр дүнгийн шалтгаан нь агентууд хоорондоо орооцолдсон, fine-tune хийхэд хэцүү ур чадварын дүрслэлийг сурч байгаатай холбоотой гэж бид үздэг. Ирээдүйн орчин илүү олон янз болж, агентууд ур чадвараа илүү олон нөхцөлд ашиглах шаардлагатай болох тусам илүү ерөнхийшүүлэх боломжтой ур чадварын дүрслэл болон энэ үнэлгээний арга дахь илүү хүчтэй дохиог бид харах болно гэж итгэж байна. Мөн бид суралцах ахицыг манай орчинд үнэлэх арга болгон үнэлгээний даалгавруудыг нээлттэй эх болгож байна.

Сонирхолтой зан төлөвүүд

Бид агентууд өндөр нарийвчлалтай физикийн симуляторт нарийн хэрэгслийн хэрэглээг сурч чаддгийг харуулсан; гэхдээ энэ үр дүнд хүрэх замд олон сургамж бий болсон. Орчин бүтээх амаргүй бөгөөд агентууд таны бүтээсэн орчин эсвэл физикийн хөдөлгүүрийг санаандгүй аргаар ашиглах арга олох нь тун элбэг.

Ачаалж байна...

Зохиогчид

Bowen Baker, Ingmar Kanitscheider, Todor Markov, Yi Wu, Glenn Powell, Bob McGrew, Igor Mordatch

Санал хүсэлт

Энэ нийтлэл болон өгүүлэлд санал өгсөн дараах хүмүүст баярлалаа: Pieter Abbeel, Jeff Clune, Jessica Hamrick, Joel Leibo, Natasha Jaques, Calvin French-Owen, Azalia Mirhoseini, Ilya Sutskever, Greg Brockman, Jack Clark, Brooke Chan & Karson Elmgren