AI在DOTA 2顶级赛事上一败涂地,这究竟意味着什么?

机器人
AI在DOTA 2顶级赛事上一败涂地,这究竟意味着什么?
麻省理工科技评论 2018年8月25日

2018年8月25日

随着昨日 OpenAI Five 被一支中国队伍打败以及前天的另一场失败, AI 提前结束了其在本届DOTA 2 国际顶尖赛事 TI 8 的旅程。
刀塔 OpenAI
随着昨日 OpenAI Five 被一支中国队伍打败以及前天的另一场失败, AI 提前结束了其在本届DOTA 2 国际顶尖赛事 TI 8 的旅程。

随着昨日 OpenAI Five 被一支中国队伍打败以及前天的另一场失败, AI 提前结束了其在本届DOTA 2 国际顶尖赛事 TI 8 的旅程。

回顾这两场比赛,虽然 AI 在比赛的前 20-35 分钟内保持了很好的获胜机会,但 OpenAI Five 最终仍没有把握住机会:第一场比赛 AI 对阵世界排名前 18 的队伍的 paiN Gaming,比赛持续了大约 51 分钟(一般比赛持续 40 分钟);在第二场比赛中,AI 对阵由中国退役顶尖玩家组成的队伍,其中三人曾在一支明星队伍中比赛过,在经历了一些精彩额来回战斗后,人类 45 分钟后获胜。

OpenAI Five 在比赛中确实展现了自己一定的实力,根据 OpenAI 赛后发布的博客文章,导致失败的主要原因是对战的游戏玩家明显实力比 AI 高出不少量级 ,如今年5月以来玩家排名的图表所示:

除此之外,缺乏战略规划也导致了 AI 的失败。

“我们并不感到震惊,”OpenAI 成员 Filip Wolski 赛后对媒体表示。“我们以极高的不确定性参加了比赛。我们不知道某些因素,比如在比赛那天我们会对战谁”。

在周三遭遇首次失败之后,开发人员也重新调整了 AI 的奖励系统,试图最大限度地获得胜利的机会。Wolski 向表示:“当机器人赢得比赛时,最大的回报是给予奖励……这个项目让我们经历了很多不眠之夜,我们会休息一下,并考虑是否为 AI 上传新的超参数。我们将继续研究Dota 2,以便更好地使用越来越少的限制来玩游戏。”

总体来说,在保留一定限制的前提下,OpenAI 的系统仍然无法全面理解 DOTA复杂的游戏系统和规则,比如对侦查守卫和诡计之雾的错误使用,站在 Roshan 洞穴发呆,将 Roshan 复活盾交给辅助等等。这些行为和操作无疑浪费了游戏中宝贵的资源和稍纵即逝的战机。

退一步讲,即使 AI 系统对这些物品和机制有人类无法理解的“独特看法”,但是结合局势来看,这些做法似乎不符合 OpenAI 团队所说的“为全局最优设计的算法”,反倒像是 AI 系统在通过不断试错,来找到物品的正确使用方法和机制背后蕴藏的原理。这或许是因为新的 AI 算法还存在 Bug 和训练时间不足。

AI在DOTA 2顶级赛事上一败涂地,这究竟意味着什么?

图:OpenAI 在泉水处疯狂插眼

纵观八月中旬和 TI8 的几场比赛,OpenAI 的系统似乎并没有展现出太多的进步。虽然比赛规则有所调整,但是面对更加默契和高水平的职业队伍时,AI 系统精密计算的技能释放和反应极快的微操可以惊艳观众,打赢遭遇战,但是无法带来胜利。

归根结底,这是因为规则修改后的游戏更加真实,同时顶级职业选手对 Dota 的理解更加成熟,比如抱团、刷野和带线的时机;对战术的执行更为彻底,比如黑皇杖等关键装备出炉后的开雾抓人;针对不同局势的出装也更加灵活,比如关键英雄补出永恒之盘,防止被秒。

这些战略上的部署是目前 AI 系统所缺失的,它还无法针对局势制定和变化战术。本质上讲,如果人类选手的所有操作都可以被 AI视为一种输入值,那么 OpenAI 的强大算法就会处理这些输入值,并产生相应的输出值,即 AI 英雄的操作。显而易见,AI 通常可以完美地执行这些反馈操作,比如利用跳刀和风杖躲斧王跳吼。

然而 AI 系统缺少在无信息情况下的主动的预测性行动,比如在特定位置被抓后进行反眼,在关键时间点组织开雾进攻,或者围绕 Roshan 盾进行推进和反打。这种特征在逆风局势下尤为明显,因为 OpenAI 作为被动的一方需要寻求突破口来打开局面,有效的战术转变是一种必须掌握的技能。

AI在DOTA 2顶级赛事上一败涂地,这究竟意味着什么?

图|OpenAI 重大事件时间轴 (来源:DT君)

值得注意的是,OpenAI Five 整个从零开始最终达到世界级职业玩家水平的道路中,并没有使用任何人类提供的额外数据进行训练。但在这次比赛结束后,如果开发团队希望 AI 能够更快地进步,他们真的需要考虑让 AI 学习人类的经验了。

麻省理工科技评论

From Tech to Deeptech