让 AI 理解人类的“看走眼”:新研究解释人眼错觉并优化机器视觉

机器人
让 AI 理解人类的“看走眼”:新研究解释人眼错觉并优化机器视觉
麻省理工科技评论 2018-10-03

2018-10-03

最近,美国布朗大学一个计算机视觉专家小组建立了能像人眼那样产生光学错觉的神经网络模型,提高了对人类视觉系统的认识,也将改善机器视觉。
人工智能
最近,美国布朗大学一个计算机视觉专家小组建立了能像人眼那样产生光学错觉的神经网络模型,提高了对人类视觉系统的认识,也将改善机器视觉。

相信大家都体验过光学错觉图片“乱花渐欲迷人眼”,但是研究人类大脑如何出现感知错觉的现象仍是科学研究的一个活跃领域。

光学错觉中有一类被称为“环境现象”,眼见不一定为实,而是依赖图片的“环境”。当一种颜色被另一种不同的颜色包围时,它显示的颜色会受到所处环境的影响。有时被包围的图形会显示出相近的颜色,如下图 (f),蓝色细环被深绿色的环包围,细环显出淡绿色;但有时颜色会完全被“改变”,如下图 (b),粉色大环让灰色小圆看起来像绿色的。

让 AI 理解人类的“看走眼”:新研究解释人眼错觉并优化机器视觉

图 | 造成视觉错误的图片(来源:布朗大学)

最近,美国布朗大学一个计算机视觉专家小组建立了能像人眼那样产生光学错觉的神经网络模型,提高了对人类视觉系统的认识,也将改善机器视觉。他们从最原始的正方形出发,研究“环境现象”的视觉神经机制,他们的研究成果于 9 月 20 号在 Psychological Review杂志上发表。

布朗大学认知、语言和心理科学副教授 Thomas Serre 是论文的通讯作者。“我们的视觉在日常生活和识别物体方面是如此强大,错觉现象可能代表了我们视觉系统的边缘情况。”这项研究由布朗大学卡尼脑科学研究所由 Serre 领导的小组发起,他们建立的模型考虑了视觉皮层解剖学和神经生理学的数据。该模型旨在捕捉相邻皮层神经元如何相互发送信息,并在呈现复杂刺激(如环境现象错觉)时如何调整彼此的反应。研究的一个创新点是假设了神经元间产生反馈连接的特定模式。根据视觉环境,这些反馈连接能够增加或减少,也就是刺激或抑制中枢神经元的反应。

建立合适的神经网络模型则是一项难题。如今流行的深度学习是一种强大的人工智能,它能够学习数据中的复杂模式,例如识别图像和解析正常语音,并且依赖于多层人工神经网络协同工作。但大多数深度学习算法只包括层之间的前馈连接,无法诠释 Serre 开创的层内神经元之间的反馈连接。

模型构建完成后团队开始了对环境错觉的测试。通过调节刺激或抑制连接的强度,神经元以与灵长类动物视觉皮层神经生理学一致的方式作出反应。研究小组在各种情境下测试模型,发现模型能像人类一样感知幻觉。为了测试模型,他们有选择地去除了一些可能太复杂的不必要连接,发现当模型缺少一些连接时,数据与人类的感知不匹配。

Serre 说:“我们的模型是最简单的,足以解释视觉皮层在环境现象错觉方面的行为。这真是一本教科书式的计算神经科学论文——我们以一个模型来解释神经生理学数据,并以人类心理物理学数据的预测结束。”

除了为人类眼中的环境现象错觉提供统一的解释之外,Serre 还希望借此模型提高机器视觉。他指出,目前最先进的机器视觉算法,例如或识别人脸或停车标志的算法,在观察整体环境方面尚有一定困难。比如,如果在停车标志上贴上另一种图案时, 机器视觉可能会误认为是一个限速标志,这是有安全隐患的。也许考虑到环境现象的机器视觉深度学习程序能够解决这样的弱点,在辨识过程中更不易受影响。

麻省理工科技评论

From Tech to Deeptech