比人类队友更靠谱?DeepMind 的 AI 会玩多人游戏雷神之锤 3 了!

机器人
比人类队友更靠谱?DeepMind 的 AI 会玩多人游戏雷神之锤 3 了!
麻省理工科技评论 2018年7月5日

2018年7月5日

在训练中,每一场比赛地图都会不同。因此,智能体不得不学习一种通用的策略,而不是记住特定的地图或技巧。
科学 机器人
在训练中,每一场比赛地图都会不同。因此,智能体不得不学习一种通用的策略,而不是记住特定的地图或技巧。

AI 正在帮助我们持续地优化游戏体验。目前,AI 能够让 NPC 更真实的运动和打斗,赋予游戏中的半兽人以人格和逼真的外表。现在 DeepMind 的 AI 能像人类一样,通过战略、战术和团队协作玩画面定制版的雷神之锤 3 了。

该团队选择了夺旗模式(Capture The Flag,CTF)进行训练。在该模式下,每一场游戏地图都会变化。AI 智能体需要学习通用的策略,来适应每一场比赛的新地图。这对人类来说当然很容易。这些智能体还需要团队合作并与敌队竞争,针对敌情调整游戏策略研究人员在博客中写道:“我们的 AI 智能体必须要在未知的环境下从头学习如何观察、行动、合作和竞争,这一切都是从每场比赛中的单个强化信号——队伍赢了还是输了学到的。”他们训练了许多像人类一样能在游戏中不断学习的 AI 智能体。每一个智能体都由一个内部奖励信号来驱动。这个信号可以驱使他们实现目标,比如获取旗子。智能体们在快节奏和慢节奏的比赛下互相比赛,并与人类玩家竞赛,来提高他们的记忆能力,让行为始终一致。研究者发现, 游戏中 AI 智能体不但比人类更出色,而且也学会了一些人类行为,如跟随队友,或者埋伏在敌人基地等。

本次研究的亮点在于,只以成绩奖惩信号学习,通过多智能体强化学习,训练出在复杂条件下支持人机、机器之间协作的高适应性智能体。

游戏规则

CTF 夺旗赛的规则很简单,不过游戏状况却很复杂。两队玩家在一个地图里保护己方,抢夺敌方的旗子。为了获得战术优势,他们可以碰触敌人,让他们跳回出生点。在五分钟比赛后,夺旗次数最多的队伍获胜。本次研究使用的游戏是雷神之锤 III 竞技场。它是许多第一人称视角多人游戏的鼻祖,由于其沉浸式游戏体验和对战略、战术、手眼协调和团队协作的挑战,目前这是最流行的一类游戏,吸引了数以百万计的玩家。游戏中智能体需要像人类一样学习和行动,通过团队协作共同抗击敌队的智能体、其他类 AI 机器人或人类。从智能体的视角,夺旗赛不但需要玩家在与队友协作的同时抗击敌人,而且还要能够适应各种不同的游戏状况。

训练方式

在训练中,每一场比赛地图都会不同。因此,智能体不得不学习一种通用的策略,而不是记住特定的地图或技巧。此外,为了模仿真实游戏情况,智能体探索地图的方式与人类类似:先观察一系列图片像素,然后通过游戏控制器实现动作。

AI 智能体必须要在未知的环境下从头学习如何观察、行动、合作和竞争,这一切都是从每场比赛中的单个强化信号——队伍赢了还是输了习得的。这是个有挑战的学习问题,最终结果基于三个强化学习的通用原则:

最终形成智能体被叫做 "For The Win"(FTW) ,在夺旗赛中有高水平表现。重要的是,习得的智能体策略能够适应不同地图尺寸、队友种类和队友数量。团队选定四十个人类玩家进行了一场人机锦标赛。比赛中人类和智能体会被随机混合组队,作为队友和敌人。

训练结果

论文结果表明,FTW 智能体的表现比基线方法(Self-play + RS )更好,并且超过了人类玩家的胜率。事实上,对参与者的调查显示,智能体的协作能力比人类玩家更好。

理解智能体

除了结果评估,理解这些智能体的行为和内部游戏表示复杂度也同样重要。为了理解智能体,DeepMind 将智能体的神经网络画在平面上,观察其激活模式。上图中的点表示一种游戏情形,周围邻近的点表示它们具有类似的激活模式。这些点的颜色是根据高级别夺旗赛的比赛状态标注的,状态包括:智能体所在房间、双方旗子的状态、队友和敌人的情况。相同颜色的一簇点表示智能体处在相似的高级游戏状态中。

从来没有人告诉这些智能体游戏规则,但智能体却能学习出游戏的基本概念,并发展出对夺旗赛的直观解释。观察发现,特定的神经元将比赛中的重要状态直接编码,比如当旗子被夺走,或者当队友拿到旗子时。论文中还对智能体的记忆使用和视觉注意力进行了进一步分析。除了那些丰富的表征,那么智能体的实际表现如何呢?首先,智能体的反应速度非常快,且有精确的命中,这可以解释他们出色发挥的原因。然而,人工降低这个准确率和反应时间,他们的表现依旧不俗。所以这些都只是它们成功的因素之一而已。


通过无监督学习,DeepMind 建立了一个智能体和人类的原型行为,发现智能体能够学习出人类行为,比如跟随队友和在敌营埋伏。跟随队友等行为起初在通过强化学习和群体演化的训练中出现。但当智能体学习以更互补的方式“创新”合作时,这些行为就变少了。

总结

近期科学家们在复杂游戏如星际争霸 II 和 Dota 2 上做了非常棒的工作,而这篇论文则聚焦于夺旗游戏,但其研究贡献是通用的,DeepMind 也期待该方法用在不同的复杂环境中。未来,DeepMind 还希望进一步提升当前的强化学习和基于群体的训练方法。该研究强调了多智能体训练促进人工智能发展的潜力:利用多智能体训练提供的力量,并推动更高适应性的强大智能体和人类团队合作。

麻省理工科技评论

From Tech to Deeptech