
OpenAI는 수천 시간 단계가 필요한 다양한 분야의 작업을 빠르게 해결할 수 있는 활용도가 높은 고수준의 동작을 학습하는 계층적 강화 학습 알고리즘을 개발했습니다. 우리 알고리즘은 내비게이션 문제에 적용될 때, 걷기 및 기기와 같은 다양한 방향의 여러 고수준 동작을 발견하여 에이전트가 새로운 내비게이션 작업을 빠르게 습득할 수 있게 합니다.
사람은 관리가 용이한 작은 요소로 문제를 분석하여 복잡한 과제를 해결합니다. 팬케이크를 굽는 것은 밀가루를 계량하고, 달걀을 젓고, 팬에 반죽을 붓고, 가스불을 켜는 등의 여러 가지 고수준 동작으로 구성되어 있습니다. 작업에 저수준의 동작이 수백만 가지가 포함되더라도(예: 각 근육의 수축) 사람은 이렇게 학습한 요소를 함께 나열하여 새로운 작업을 빠르게 학습할 수 있습니다.
한편 오늘날의 강화 학습 방식은 저수준의 동작에 대한 무차별 대입 검색을 통해 운영되기 때문에 새로운 작업을 해결하기 위해서는 막대한 횟수의 시도를 해야 합니다. 이러한 방식은 시간 단계가 많이 필요한 작업을 해결하기에는 무척 비효율적입니다.
OpeanAI의 솔루션은 에이전트가 복잡한 동작을 고수준 동작의 짧은 시퀀스로 표현하는 계층적 강화 학습의 개념을 기반으로 합니다. 이를 통해 에이전트는 훨씬 더 어려운 작업을 해결할 수 있습니다. 솔루션이 2,000개의 저수준 동작이 필요한 경우에도, 계층 정책이 이를 10개의 고수준 동작의 시퀀스로 변환하여 2,000단계 시퀀스가 아닌 10단계 시퀀스에서 검색하게 되기 때문에 훨씬 효율적입니다.

우리 알고리즘인 계층간 공유 메타 학습(MLSH)은 마스터 정책이 일련의 하위 정책들을 전환하는 계층적 정책을 학습합니다. 마스터는 N 시간 단계마다 동작을 선택하는데 여기서 N=200이 될 수 있습니다. N 시간 단계에 실행되는 하위 정책은 고수준 동작을 구성하며, 내비게이션 작업의 경우 하위 정책이 여러 방향으로 걷거나 기는 것에 해당합니다.
이전의 작업은 대부분 계층적 정책이 명시적으로 직접 설계되었습니다. 대신 우리는 이러한 계층적 구조를 환경과의 상호작용을 통해 자동으로 탐색하는 것을 목표로 합니다. 메타 학습 관점에서 우리는 좋은 계층이란 처음 처리하는 작업을 훈련할 때 빠르게 높은 보상에 도달하는 계층이라고 정의합니다. 따라서 MLSH 알고리즘은 이전의 처음 처리하는 작업에서 빠른 학습을 가능하게 하는 하위 정책을 학습하는 것을 목표로 합니다.
이 알고리즘은 각 샘플링된 작업에서 새로운 마스터 정책을 학습하는 동시에 하위 정책을 공유하여 분배된 작업을 훈련합니다. 새로운 마스터 정책을 반복 훈련함으로써, 이 과정은 마스터 정책의 학습 역학에 맞춰 자동으로 하위 정책을 찾아냅니다.
AntMaze 환경에서 Mujoco Ant 로봇은 9가지의 미로에 나뉘어 배치되며 시작점부터 목표까지 반드시 탐색을 완료해야 합니다. 우리 알고리즘은 환경과의 상호작용만을 통해 미로 작업을 해결하기 위해 함께 배열될 수 있는 다양한 하위 정책을 성공적으로 찾아낼 수 있습니다. 이러한 일련의 하위 정책은 기존에 훈련된 작업보다 추후 더 큰 작업을 수행하는 데 사용될 수 있습니다(게시물 시작 부분이 동영상을 참조하세요).
MLSH 에이전트 훈련을 위한 코드(새 창에서 열기)와 함께 이러한 알고리즘을 평가하기 위해 구축한 MuJoCo 환경을 공개합니다.


