Bỏ qua nội dung chính
OpenAI
Đang tải…

Chúng tôi đã phát triển một thuật toán học tăng cường theo phân cấp có khả năng học các hành động cấp cao hữu ích để giải quyết nhiều dạng nhiệm vụ khác nhau, cho phép giải quyết nhanh chóng những nhiệm vụ đòi hỏi hàng ngàn bước thời gian. Khi được áp dụng vào một tập hợp các bài toán dẫn đường, thuật toán này sẽ khám phá ra một bộ các hành động cấp cao cho hoạt động đi bộ và bò/trườn theo nhiều hướng khác nhau, giúp tác tử nhanh chóng làm chủ các nhiệm vụ dẫn đường mới.

Con người giải quyết những thách thức phức tạp bằng cách chia chúng thành các thành phần nhỏ, dễ quản lý. Việc nướng bánh kếp bao gồm một chuỗi các hành động cấp cao, chẳng hạn như đong bột, đánh trứng, đổ hỗn hợp vào chảo, bật bếp lò, v.v. Con người có khả năng học các nhiệm vụ mới một cách nhanh chóng bằng cách xâu chuỗi các thành phần đã học này lại với nhau, ngay cả khi nhiệm vụ đó có thể cần đến hàng triệu hành động cấp thấp, ví dụ như các lượt co rút cơ riêng lẻ.

Mặt khác, các phương pháp học tăng cường ngày nay hoạt động thông qua việc tìm kiếm vét cạn trên các hành động cấp thấp, đòi hỏi một lượng khổng lồ các thử nghiệm để giải quyết một nhiệm vụ mới. Các phương pháp này trở nên rất kém hiệu quả khi giải quyết những tác vụ đòi hỏi số lượng lớn các bước thời gian.

Giải pháp của chúng tôi dựa trên ý tưởng học tăng cường theo phân cấp, trong đó các tác tử biểu diễn những hành vi phức tạp dưới dạng một chuỗi ngắn các hành động cấp cao. Điều này cho phép các tác tử của chúng tôi giải quyết những tác vụ khó hơn nhiều: trong khi giải pháp có thể cần đến 2000 hành động cấp thấp, chính sách phân cấp sẽ chuyển đổi điều này thành một chuỗi 10 hành động cấp cao, và việc tìm kiếm trên chuỗi 10 bước sẽ hiệu quả hơn nhiều so với chuỗi 2000 bước.

Siêu học các cấu trúc phân cấp dùng chung

Sơ đồ luồng các quan sát qua xử lý bởi chính sách và chuyển đổi thành hành động

Thuật toán của chúng tôi, siêu học các cấu trúc phân cấp dùng chung (MLSH), sẽ học một chính sách phân cấp trong đó chính sách chủ sẽ chuyển đổi qua lại giữa một tập hợp các chính sách con. Chính sách chủ sẽ chọn một hành động sau mỗi N bước thời gian, ví dụ N=200. Một chính sách con được thực thi trong N bước thời gian sẽ cấu thành một hành động cấp cao, và với các tác vụ dẫn đường, các chính sách con tương ứng với đi bộ hoặc bò trườn theo các hướng khác nhau.

Trong hầu hết các công trình trước đây, các chính sách phân cấp thường được thiết kế thủ công một cách tường minh. Thay vào đó, chúng tôi hướng đến việc tự động khám phá cấu trúc phân cấp này thông qua tương tác với môi trường. Từ góc độ siêu học, chúng tôi định nghĩa một cấu trúc phân cấp tốt là cấu trúc có thể nhanh chóng đạt được mức thưởng cao khi huấn luyện trên các tác vụ chưa từng gặp. Do đó, thuật toán MLSH nhằm mục đích học các chính sách con mà có thể cho phép học nhanh trên các tác vụ chưa từng gặp trước đó.

Chúng tôi sẽ huấn luyện trên một tập hợp phân phối các tác vụ, dùng chung các chính sách con trong khi học một chính sách chủ mới cho mỗi tác vụ được lấy mẫu. Bằng cách huấn luyện lặp lại các chính sách chủ mới, quy trình này sẽ tự động tìm ra các chính sách con phù hợp với cách học của chính sách chủ.

Thử nghiệm

Đang tải...

Trong môi trường AntMaze của chúng tôi, một robot Kiến Mujoco được đặt vào một tập hợp phân phối gồm 9 mê cung khác nhau và phải di chuyển từ vị trí xuất phát đến đích. Thuật toán của chúng tôi đã thành công trong việc tìm ra một tập hợp đa dạng các chính sách con có thể được xâu chuỗi lại với nhau để giải quyết các tác vụ mê cung, hoàn toàn thông qua tương tác với môi trường. Tập hợp các chính sách con này sau đó có thể được dùng để giải quyết một tác vụ lớn hơn những tác vụ mà chúng đã được huấn luyện (xem video ở đầu bài đăng).

Đang tải...

Mã nguồn

Chúng tôi đang phát hành mã nguồn(mở trong cửa sổ mới) này để huấn luyện các tác tử MLSH, cũng như các môi trường MuJoCo mà chúng tôi đã xây dựng để đánh giá những thuật toán này.

Tác giả

Kevin Frans, Jonathan Ho, Peter Chen, Pieter Abbeel