2019年10月15日

用机械手解魔方

照片：埃里克·海因斯

正在加载…

我们已经训练出了一对神经网络，可以用类似人类的机械手来解决魔方问题。神经网络完全是在模拟中训练的，使用的是与 OpenAI Five⁠ 相同的强化学习代码，并搭配了一种名为自动域随机化 (ADR) 的新技术。该系统可以处理它在训练过程中从未见过的情况，比如被一只毛绒长颈鹿⁠戳了一下。这表明强化学习不仅仅是虚拟任务的工具，还能解决现实世界中需要前所未有的灵巧性的问题。

人类的双手能让我们解决各种各样的任务。在机器人技术过去 60 年的发展中，人类凭借一双固定的手完成的艰巨任务，往往需要为每项任务⁠（在新窗口中打开）专门设计定制机器人。作为替代方案，人们花了几十年时间尝试使用通用机器人硬件⁠（在新窗口中打开），但由于其自由度较高，成功率有限。特别是，我们在这里使用的硬件并不新鲜——我们使用的机械手在过去 15 年中就已经出现，但软件方法却很新颖。

自 2017 年 5 月以来，我们一直在尝试训练一只类似人类的机械手来解决魔方问题。我们之所以设定这个目标，是因为我们相信，成功训练这样一只机械人手完成复杂的操纵任务，将为通用机器人的发展奠定基础。2017 年 7 月，我们在模拟中解决了魔方问题。但截至 2018 年 7 月，我们只能操纵机器人上的一个方块。现在，我们已经达到了最初的目标。

魔方的完整解法。本视频实时播放，未经任何编辑。

即使对人类来说，单手解魔方也是一项极具挑战性的任务，儿童需要花费数年时间才能获得掌握这项任务所需的灵活性。不过，我们的机器人仍未掌握完美的技巧⁠，它能在 60% 的时间内解出魔方（在最大难度⁠（在新窗口中打开）的争夺中，它只能在 20% 的时间内解出魔方）。

我们的方法

我们在模拟⁠（在新窗口中打开）中训练神经网络解魔方，使用强化学习和科西姆巴算法⁠（在新窗口中打开）来选择解法步骤。^A域⁠（在新窗口中打开）随机化⁠（在新窗口中打开）使仅在模拟中训练的网络能够转移到真实机器人上。

我们面临的最大挑战是如何在模拟中创建足够多样化的环境，以捕捉真实世界的物理特性。对于像魔方或机械手这样复杂的物体，摩擦力、弹性和动力学等因素都是难以测量和建模的，我们发现仅靠域随机化是不够的。

为了解决这个问题，我们开发了一种名为自动域随机化 (ADR) 的新方法，它可以在模拟中无休止地生成难度逐渐增加的环境。^B这样，我们就不必再为现实世界建立精确模型，并能将模拟中学习到的神经网络应用到现实世界中。

ADR 从单一的非随机环境开始，让神经网络学习如何解魔方。随着神经网络在任务中的表现越来越好并达到性能阈值，域随机化的数量会自动增加。这就增加了任务的难度，因为神经网络现在必须学会泛化到更多的随机环境中。神经网络会不断学习，直到再次超过性能阈值，此时会启动更多的随机化，并重复这一过程。

正在加载...

我们随机化的参数之一是魔方的大小（上图）。ADR 一开始使用的魔方大小是固定的，随着训练的进行，随机化范围会逐渐增大。我们将同样的技术应用于所有其他参数，例如魔方的质量、机器人手指的摩擦力以及手的视觉表面材料。因此，神经网络必须学会在所有这些越来越困难的条件下解出魔方。

正在加载...

域随机化要求我们手动指定随机化范围，这很困难，因为过多的随机化会给学习带来困难，而过少的随机化又会阻碍向真实机器人的转移。ADR 可以解决这个问题，它可以随着时间的推移自动扩展随机化范围，无需人工干预。ADR 消除了对域知识的需求，使我们的方法更容易应用于新任务。与人工域随机化不同的是，ADR 还能使任务始终充满挑战，训练永远不会收敛。

我们将 ADR 与人工域随机化进行了比较，在块翻转任务中，我们已经有了很强的基准⁠。一开始，ADR 在真实机器人上的成功次数表现较差。但随着 ADR 增加了熵值——熵值是衡量环境复杂性的一个指标——转移性能最终比基准提高了一倍，而无需人工调整。

分析

鲁棒性测试

利用 ADR，我们能够在模拟中训练神经网络，使其能够在真实机械手上解魔方。这是因为 ADR 将网络暴露于无穷无尽的随机模拟中。正是这种训练过程中的复杂性，为网络从模拟世界转移到真实世界做好了准备，因为它必须学会快速识别和调整，以适应它所面临的任何现实世界。

正在加载...

为了测试我们方法的极限，我们在机械手解魔方时尝试了各种扰动。这不仅测试了我们控制网络的鲁棒性，还测试了我们的视觉网络，我们在此使用视觉网络来估计魔方的位置和方向。

我们发现，使用 ADR 训练的系统对扰动的鲁棒性令人惊讶，尽管我们从未使用过这些扰动进行训练：在所有测试过的扰动条件下，机器人都能成功完成大多数翻转和面旋转动作，尽管没有达到最佳性能。

新兴元学习

我们认为，元学习⁠（在新窗口中打开）或学会学习是构建通用系统的重要前提，因为它能使系统快速适应环境中不断变化的条件。ADR 背后的假设是，记忆增强网络与足够随机化的环境相结合，会导致出现新兴元学习，即网络实施一种学习算法，使自身行为迅速适应所处环境。^C

为了系统地测试这一点，我们测量了神经网络在不同扰动下每次翻转立方体（旋转立方体使不同颜色的面朝上）的成功时间，如重置网络内存、重置动态或断开关节。我们在模拟中进行了这些实验，这样我们就能在受控环境中通过 10,000 次试验获得平均性能。

正在加载...

开始时，随着神经网络成功实现更多翻转，每次成功的时间都会缩短，因为神经网络学会了适应。当施加扰动时（上图中的垂直灰线），我们会看到成功时间骤增。这是因为网络采用的策略在变化的环境中不起作用。随后，网络重新认识了新环境，我们再次看到成功时间下降到之前的基准。

我们还测量了失败概率，并对面旋转（将上面的面顺时针或逆时针旋转 90 度）进行了相同的实验，发现了相同的适应模式。^D

了解我们的神经网络

可视化我们的网络能让我们了解它们在记忆中存储了什么。随着网络复杂性的增加，这一点变得越来越重要。

正在加载...

我们神经网络的内存如上图所示。我们使用可解释性工具箱中的基础模块⁠（在新窗口中打开），即非负矩阵分解方法，将这个高维向量压缩成 6 组，并为每组分配一种独特的颜色。然后，我们在每个时间步显示当前占主导地位的组的颜色。

我们发现，每个记忆组都有与之相关的语义行为。例如，我们仅需观察神经网络记忆中的主导组别颜色，就能预判其后续动作——无论是在魔方即将旋转前，还是顶层结构准备顺时针转动时。

挑战

用机械手解魔方仍然不是一件容易的事。目前，我们的方法在应用需要旋转 26 个面的最高难度扰动⁠（在新窗口中打开）时，能在 20% 的时间内解出魔方。对于需要旋转 15 次才能解开的简单扰动，成功率为 60%。当魔方被丢弃或超时时，我们认为尝试失败。不过，我们的网络能够在任何初始条件下解出魔方。因此，如果魔方掉了，我们可以把它放回手中继续解。

我们通常会发现，在最初的几次面旋转和翻转过程中，我们的神经网络更容易失败。这是因为早期旋转和翻转过程中，神经网络需要在解魔方与适应现实世界之间取得平衡。

幕后花絮：魔方原型

为了衡量我们的进展并使问题具有可操作性，我们制作并设计了定制版本的魔方，作为最终解出普通魔方的垫脚石。^E

魔方原型，从左到右：锁定魔方、面魔方、全魔方、计客 (Giiker)⁠（在新窗口中打开）魔方、普通魔方。

原型	位置 + 方向	内部自由度（传感器）
锁定魔方	视觉	0（无传感器）
面魔方	PhaseSpace	2（相位空间）
全魔方	PhaseSpace	6（相位空间）
计客 (Giiker) 魔方	视觉	6（内置传感器）
普通魔方	视觉	6（视觉）

下一步工作

我们相信，人类水平的灵巧性是制造通用机器人的必经之路，我们很高兴能朝着这个方向前进。

如果您想帮助制造越来越通用的人工智能系统，无论是机器人还是虚拟系统，我们正在招聘⁠！

脚注

A
我们专注于目前机器难以掌握的问题：感知和灵巧操作。因此，我们对神经网络进行训练，以实现由科先巴 (Kociemba) 算法生成的所需的面旋转和魔方翻转。
B
我们的工作与 POET⁠（在新窗口中打开）密切相关，后者可自动生成 2D 环境。不过，我们的工作是学习所有环境的联合策略，并将其转移到任何新生成的环境中。
C
更具体地说，我们假设一个容量有限的神经网络在复杂度无限制的环境中接受训练，这就迫使该网络学习一种特殊用途的学习算法，因为它无法记住每个环境的解决方案，而且不存在在所有随机化条件下都有效的单一稳健策略。
D
完整结果请参阅我们的论文⁠（在新窗口中打开）。
E
我们所做的唯一修改是在每个魔方中心小块的彩色贴纸上剪掉一小片。这是打破旋转对称性⁠（在新窗口中打开）所必需的。

作者

OpenAI、Ilge Akkaya、Marcin Andrychowicz、Maciek Chociej、Mateusz Litwin、Bob McGrew、Arthur Petron、Alex Paino、Matthias Plappert、Glenn Powell、Raphael Ribas、Jonas Schneider、Nikolas Tezak、Jerry Tworek、Peter Welinder、Lilian Weng、Qiming Yuan、Wojciech Zaremba、Lei Zhang

致谢

感谢以下人士对本篇文章和论文草稿的反馈意见：乔希·阿奇姆 (Josh Achiam)、格雷格·布罗克曼 (Greg Brockman)、尼克·卡马拉塔 (Nick Cammarata)、杰克·克拉克 (Jack Clark)、杰夫·克伦 (Jeff Clune)、鲁本·德萨 (Ruben D’Sa)、哈里·爱德华兹 (Harri Edwards)、戴维·法尔希 (David Farhi)、肯·戈德堡 (Ken Goldberg)、莱斯利·P·凯布林 (Leslie P. Kaelbling)、诺贤宇 (Hyeonwoo Noh)、勒雷尔·平托 (Lerrel Pinto)、约翰·舒尔曼 (John Schulman)、伊利亚·苏茨克弗 (Ilya Sutskever)和徐韬 (Tao Xu)。

视频：彼得·乔丹（Peter Jordan，导演）、伊薇特·索利斯（Yvette Solis，制片人）、布鲁克·陈（Brooke Chan，制片人）

编辑：阿什莉·皮利皮申 (Ashley Pilipiszyn)

设计：贾斯汀·杰·王 (Justin Jay Wang)和本·巴里 (Ben Barry)

摄影：埃里克·海因斯

查看全部