OpenAI 机器手自学解魔方:只经虚拟训练,就能单手玩转

机器人
OpenAI 机器手自学解魔方:只经虚拟训练,就能单手玩转
麻省理工科技评论 2019-10-19

2019-10-19

人工智能研究实验室OpenAI宣布,其训练的一只机器手能够以惊人的灵巧程度操纵魔方
机器人
人工智能研究实验室OpenAI宣布,其训练的一只机器手能够以惊人的灵巧程度操纵魔方

OpenAI的研究人员开发了一种新方法,可以将复杂的操作技能从模拟环境转移到现实世界中。

一年多前,总部位于旧金山的人工智能研究实验室OpenAI宣布,其训练的一只机器手能够以惊人的灵巧程度操纵魔方。

这听起来可能并不令人惊奇。但在人工智能领域,它令人印象深刻,原因有二:首先,这只手通过强化学习算法自学了如何摆弄魔方;其次,所有的训练都是在模拟环境中进行的,但它成功地将其转化为现实世界。从这两个方面来说,这都是迈向更敏捷机器人的重要一步。

“我有点惊讶,”麻省理工学院(MIT)机器人专家和教授莱斯利•克尔布林(Leslie Kaelbling)在谈到2018年的研究结果时说,“我从没想过他们会做出这样的事来。”

在近期的一篇新论文中,OpenAI发布了它的机器手Dactyl的最新成果。这一次Dactyl学会了用一只手来转魔方,同样是通过模拟中的强化学习。同样,这并不是机器人破解了古老的谜题,而是这一成就提高了机器人的灵活性。

“这是一个非常困难的问题,”密歇根大学专门研究机器操作的机器人专家德米特里•贝伦森(Dmitry Berenson)表示。“事实上,用物理机器手实操转魔方要比理论上通过模拟转魔方难得多。”

从虚拟世界到物理世界

传统上,机器人只能以非常简单的方式操纵物体。尽管强化学习算法在完成软件中的复杂任务方面取得了巨大成功,比如在古老的围棋游戏中击败了最优秀的人类棋手,但用它们来训练一台物理机器却没有那么简单。这是因为算法必须通过反复试验来完善自己,试验次数可能需要达到数百万次。一个物理机器人要在现实世界中做到这一点,就需要很长的时间。

为了避免这种情况,机器人专家使用仿真技术:他们为自己的机器人建立一个虚拟模型,并对其进行虚拟训练,以完成手头的任务。该算法在安全的数字空间中学习,然后可以移植到物理机器人身上。但这一过程也伴随着自身的挑战。建立一个完全复制现实世界中所有相同物理定律、物质属性和操作行为的虚拟模型几乎不可能,更不用说遇到一些意想不到的情况了。因此,机器人和任务越复杂,在物理现实中应用虚拟训练的算法就越困难。

这就是让Kaelbling对OpenAI一年前的结果印象深刻的地方。成功的关键是实验室打乱了每一轮训练的模拟条件,使算法更能适应不同的可能性。

“他们用各种疯狂的方式把模拟器弄乱了,”Kaelbling说,“他们不仅改变了重力的大小,还改变了重力指向的方向。因此,通过尝试构建一个能在所有这些疯狂的模拟排列下可靠工作的策略,该算法才可以在真实的机器人中工作。”

在最新的论文中,OpenAI将这种技术又向前推进了一步。在此之前,研究人员必须通过手工选择他们认为会产生更好算法的排列方式来随机化环境中的参数。现在的训练系统自己就能做到这一点。每当机器人在现有环境中达到一定的熟练程度时,模拟器就会调整自己的参数,使训练条件变得更加困难。

其结果是一个更加稳定的算法,可以按照现实生活中旋转魔方所需的精度移动。通过测试,研究人员发现,Dactyl在各种没有经过训练的情况下也能成功地解决魔方。比如,它戴着橡胶手套,几根手指被绑在一起,还有一个填充玩具长颈鹿在戳它。

图 | 机器臂的鲁棒性测试(来源:OpenAI)

解锁通用机器人?

OpenAI认为,最新的研究结果提供了强有力的证据,证明他们的方法将解锁更多的通用型机器人,这些机器人可以适应开放式的环境,比如家庭厨房。OpenAI的Marcin Andrychowicz说:“魔方是世界上最复杂的刚性物体之一。”他说,尽管有一些涉及更多物体或可变形物体的更复杂的任务,但他相信实验室的方法可以训练操作所有这些物体的机器人:“我认为这种方法是机器人广泛采用的方法。”

然而,Berenson和Kaelbling仍然持怀疑态度。“大家可能会想,是不是存在一个统一的理论或系统,而OpenAI现在只是将其应用于这个任务和那个任务,”Berenson在谈到之前和当前的论文时说,事实并非如此。这些是独立的任务。有通用的组件,但也有大量的工程来让每个新任务工作。

“这就是为什么我觉得有点不舒服的原因,”他说,“我认为这是一个针对特定应用的非常具体的系统。”

Berenson认为,问题的一部分在于强化学习本身。从本质上讲,这种技术是为了掌握一件特定的事情而设计的,具有处理变化的灵活性。但在现实世界中,潜在变化的数量超出了可以合理模拟的范围。例如,在一个清洁任务中,你可能会有不同种类的拖把,不同种类的泼洒物,和不同种类的地板。

强化学习也主要是为了从头开始学习新能力而设计的。在机器人效率低下的情况下,人类的学习方式并不适用。“如果你已经是一个相当有能力的人,我教你在厨房里帮忙的时候,你不需要重新学习你的整个运动控制”,Kaelbling说。

Berenson认为,要超越这些限制,就需要其他更传统的机器人技术。

麻省理工科技评论

From Tech to Deeptech