DeepMind《Nature》子刊发文:AI“元强化学习”的关键因素同样存在于人类大脑

计算
DeepMind《Nature》子刊发文:AI“元强化学习”的关键因素同样存在于人类大脑
麻省理工科技评论 2018年5月15日

2018年5月15日

今天,DeepMind 又发布了一项新的突破——利用元强化学习来解释人类大脑的快速学习原理,探索多巴胺(dopamine)在人脑学习中的地位,并据此提出了强化学习模型未来的发展思路。
人工智能
今天,DeepMind 又发布了一项新的突破——利用元强化学习来解释人类大脑的快速学习原理,探索多巴胺(dopamine)在人脑学习中的地位,并据此提出了强化学习模型未来的发展思路。

上周,《Nature》刊登了 DeepMind 用 AI 算法模拟人类大脑导航功能的论文,而就在今天,DeepMind 又发布了一项新的突破——利用元强化学习来解释人类大脑的快速学习原理,探索多巴胺(dopamine)在人脑学习中的地位,并据此提出了强化学习模型未来的发展思路。

1.jpg

以下为 DeepMind 官方博客对此次突破的解读:

前额叶皮质——人脑中的“元强化学习系统”

近年来,人工智能逐渐系统掌握了视频游戏的诀窍,比如雅达利经典游戏的《Breakout》和《Pong》。但是,尽管这些人工智能的表现已称得上相当出色,它们依然需要上千小时的游戏学习才能赶超人类玩家水平;而另一方面,人类却能在几分钟之内就能掌握陌生游戏的基本技巧。

由于人脑往往轻而易举便能学会更加错综复杂的事物,人们提出了“元学习”理论(theory of meta-learning),换句话说,就是“学习如何学习”。一般认为,我们的学习可以分为两个时间尺度:短期学习中,我们往往更专注于事实的学习;而长期学习中,我们更偏重任务中抽象的技巧与规则。正是这样长期、短期学习的结合帮助我们有效学习,并得以在新任务中快速而灵活地应用新知识。而在人工智能系统中,这种“元学习”结构的再创造被称为“元强化学习”(meta-reinforcement learning),在进行快速、单次的学习任务中极富有成效。然而,要从神经科学角度解释人脑中相应的机制则困难得多。

我们最新发表在期刊《Nature Neuroscience》上的文章中运用了人工智能研究中“元强化学习”的框架,以探索多巴胺(dopamine)在人脑学习中的地位。多巴胺因作为大脑中的“快乐信号”被大家熟知,目前被认为是一种“奖励预测误差”(reward prediction error,RPE)信号,类似于人工智能中的强化学习算法。我们在文中提出,多巴胺的功能并不只是从过往事件中估测奖励值。事实上,多巴胺尤其在前额叶皮质区中扮演着且重要的整体性角色,使我们在新任务中高效、迅速、灵活地学习。

为了证明该理论,我们从神经科学领域实验中改造了 6 项元学习实验,实验均需要受试完成一定的任务,虽然 6 项任务的基本原理或所需技巧相同,在不同方面却各有侧重。我们训练了一个循环神经网络(recurrent neural network,RNN)以代表前额叶皮质,用标准深度强化学习技术代表人脑中的多巴胺功能,然后将循环网络的动态活动与过去神经科学实验中的实际数据相比较。事实证明,循环网络非常擅长元学习,因为它们能将历史的行动与观察结果内化,然后运用到多项受训任务里。

实验中的一项 Harlow 实验是 19 世纪 40 年代的著名心理学实验,用于摸索元学习概念。在原始实验中,研究者让一组受试猴从两个陌生物体中选择,只有其中一个才能让猴得到食物奖励。两个物体出现 6 次,每次的左右摆放位置都是随机的,因此实验猴必须学习究竟选择哪一个物体才能获得食物奖励。之后又换上两个新的陌生物体,同样也只有其中一个与食物奖励相关联。在这一训练阶段中,猴子们学会了选中正确物体的策略:首先在第一次物体出现时先随机选择一个,之后再根据奖励与否的结果反馈选择特定物体,而不是左右位置。这一实验表明,这些猴能够内化实验任务的原理,并习得抽象的规则结构——也就是“学习如何学习”。

当我们在计算机中进行类似的模拟实验时,我们发现,即使提供全新的图片,这些受试的“元强化学习”网络依旧表现出了和 Harlow 实验中动物类似的学习行为。事实上,这些元强化学习网络迅速地适应了一系列不同规则和结构的实验任务;也正是因为它们已经了解了如何适应各种任务,它们还学会了高效学习的一些普适性原则。

重要的一点是,我们观察到的大多数学习都发生在循环网络中,这就支持了我们的观点——多巴胺在元学习过程中有着更为整体性的作用。传统观点认为,多巴胺能增强前额叶系统中的突触连接,强化某些特定行为。在人工智能系统学习解决一项任务时,类似多巴胺的奖励信号负责调整神经网络中人工突触的权重。然而,在我们的实验中,神经网络的突触权重是固定的,无法在学习过程中进行调整,而元强化学习网络仍然解决并适应了任务。这就说明类似多巴胺的奖励信号不仅仅是对权重进行调整,它还负责编码、传递抽象任务与规则结构的重要信息,从而使快速任务适应成为可能。

一直以来,神经科学家们在前额叶皮质中观察到了不少类似的神经活动模式,然而关于这些适应及时且具有灵活性的模式,他们始终没能找到合理的解释。对于神经模式的多变性,有一种较为合理的观点:前额叶皮质并不依赖于突触权重随着规则结构学习的缓慢改变,而是基于直接编码于多巴胺的抽象模型信息。我们的研究证明了,人工智能中元强化学习的关键因素同样存在于大脑中,而提出的理论不仅结合了对多巴胺和前额叶皮质的现有认知,还解释了神经科学与心理学的许多未知现象。

这进而引发一些对其他问题的思考:基于结构和模型的学习是如何发生在脑中的?为什么多巴胺本身就编码模型信息?前额叶皮质的神经元是如何调节学习信号的?此外,从人工智能得到的结果能应用到神经科学、心理学等其他学科的发现上,这就进一步强调了不同学科领域间的互惠价值。未来我们期待这一研究成果能够反向,从大脑神经环路的组织结构中获得启发,从而设计出更新、更好的强化学习模型。

麻省理工科技评论

From Tech to Deeptech