OpenAI训练神经网络操作单个机器手掌解魔方-DOIT-数据产业媒体与服务平台

人工智能研究公司OpenAI最新成果即是用单个机器手掌解魔方，其采用与操作⟪Dota 2⟫OpenAI Five相同的增强学习代码，搭配一种称为自动域随机化（Automatic Domain Randomization，ADR）的新技术，以完全模拟的方式训练机器手掌，现在机器手掌能有60％的成功率解开魔方。

对人类来说，单手解魔方也不是一件简单的事，孩子需要花费数年的时间，才能掌握单手操作需要的灵巧性。在过去60年的机器人技术，人类需要为困难的任务设计定制化的机器人，因此开发使用通用机器人硬件的方法，一直是近几十年人类的目标，而OpenAI在这项最新的研究中，使用15年前的机器手掌，搭配最新的方法，在通用机器人硬件操作课题上前进了一步。

OpenAI利用了神经网络来解决魔方的问题，透过增强学习进行模拟，并且使用Kociemba演算法以挑选魔术方块解法的步骤，并且利用域随机化（Domain Randomization）将训练模拟转移到真实的机器手掌上。

而让机器手掌操作魔术方块最大的挑战，是在创建的模拟环境中，模拟出真实世界特徵，研究人员表示，像是魔术方块或是机器手掌这类複杂的物体，非常难模拟其摩擦、弹性或是动态性，仅是靠现有的域随机化技术是远远不够的，因此为了克服这个问题，他们开发了自动域随机化技术，这个技术可以在模拟训练中产生越来越困难的环境。

自动域随机化训练会从单一且非随机的环境开始，让神经网络先学会解决魔术方块，随著神经网络的表现越来越好，在达到一定的效能阈值时，域随机化的数量便会自动增加，让神经网络应付更随机的环境，使得需要解决的任务更加困难，当神经网络不断学习后，再次超过效能阈值时，便会再加入更多的随机化，然后重複该过程。

自动域随机化的参数有很多种，一开始从固定魔术方块的大小开始，之后随著训练逐渐增加随机范围，变动魔术方块的尺寸和重量，也会随机化机器手指的摩擦力和手的视觉表面材质，神经网络需要在越来越困难的情况下，解决魔术方块。

研究人员提到，过去域随机化需要手动指定随机范围，但这并不容易，太多随机化使得学习太困难，太少又会阻碍模拟转移到真正机器人上的效果，而自动域随机化能够自动扩展随机范围，不需要人工干预，也不需要研究人员对域知识的理解，降低了该方法使用到不同领域的难度，而且由于自动域随机化让训练任务始终具有挑战性，训练成效不会收敛。

自动域随机化让神经网络在无数种随机情况中进行模拟，进而增加了强健性，当神经网络从模拟转移到真实机器人上的时候，就能够快速辨识并适应真实世界的环境条件。研究人员利用了各种扰动，以测试机器手掌解决魔术方块的强健性，包括把机器手掌的两只手指绑起来、戴上橡胶手套、阻碍视觉或是以长颈鹿玩偶随意干扰等。