DeepMind《Science》发文:生成的GQN可自动补全场景,更接近人类

计算
DeepMind《Science》发文:生成的GQN可自动补全场景,更接近人类
麻省理工科技评论 2018-06-15

2018-06-15

DeepMind表示,GQN还无法投入实际应用,还需要做很多的研究,但是,这个项目是朝着自动化场景理解所迈出的一大步。
人工智能
DeepMind表示,GQN还无法投入实际应用,还需要做很多的研究,但是,这个项目是朝着自动化场景理解所迈出的一大步。

谷歌DeepMind团队今日在《Science》发表文章,宣布构建出“生成查询网络”(Generative Query Network,简称GQN)。在GQN中,机器在场景中移动,并基于自身获取的数据进行训练,来感知周围环境。并且,此系统可以基于几张2D图像生成3D图形。

人类在理解一个视觉场景时,大脑所能感知到的不仅仅是眼前的事物,事实上,人脑能利用已有的知识来做推理。比如说,当第一次进入某个房间的时候,你可以立即观察、了解房间里摆放的东西和它们的位置。如果你看到一张桌子的三条腿,你会推断还有第四条腿隐藏在视线之外,它跟另外三条有着同样的形状和颜色。就算你不能看到房间里的每一个东西,你也很可能勾画出房间的布局,或者想象从另外一个角度看会是什么模样。

这种人类似乎毫不费力就能完成的任务,对于人工智能来说却是一个挑战。当今几乎所有的视觉识别系统还需要基于海量的标注过的图像进行训练才能完成上述任务,而标注一般由人工操作。人工标注图像成本高且耗时长,要求一个人给数据集里的每个对象在每个场景的每个方面都进行标记。因此,机器往往只能捕捉到一个整体场景当中的一小部分,导致智能视觉系统的能力受限。我们在为现实世界建造更加复杂的机器之时,其实希望它们能够充分了解周遭环境:最近的、能坐下来的表面在哪里?沙发由什么材料制成?光源在哪?电灯开关可能在哪里?

相比此前的视觉识别系统,GQN学习的过程与婴儿、动物学习环境的过程一样,基于对周围世界所做出的观察来进行学习,无需人类来对环境中的内容进行标记。GQN由两部分组成:表征网络和生成网络。表征网络将观察结果作为输入数据,然后生成一个表征(向量)来描述潜在场景。生成网络则能够从之前未观察过的角度,来预测和想象这一场景。

3.jpg

图 | GQN 工作过程图解

表征网络并不知道生成网络会被要求预测哪个角度的场景,所以它必须找到一个有效的办法,来尽可能精确地描述场景的真实布局。它通过捕捉最重要的元素(比如对象位置、颜色和房间布局),并将其置于一个简洁的分布式表征来实现这一点。在训练过程中,生成器会学习环境的典型物体、特征、环境中的关系和规律。这种共享的“概念”集合使表征网络能够以高度压缩和抽象的方式来描述场景,细节则由生成网络在必要时填充。例如,表征网络简洁地将“蓝色立方体”表示为一组小的数字集合,而生成网络将会知道这些数字如何从特定的视角显示为像素点。

在模拟的3D世界中,DeepMind对GQN进行了一系列在程序生成环境中的受控实验,这些环境包含多个物体,它们的位置、颜色、形状和纹理都是随机的,并且包含随机光源和重度遮挡。在用这些环境进行训练之后,DeepMind使用表征网络来形成新的、未观察过的场景的表征。DeepMind的实验表明,GQN具有以下几个重要特性:GQN的生成网络能极其精确地从新的视角“想像出”之前没有观察过的场景。当给出场景的表征和新的相机视点时,它会生成清晰的图像,而无需预先指定透视、遮挡或光照的规律。因此,生成网络近似于一个使用数据进行学习的渲染器:

15290489436796af7c0c1d1.jpg

GQN的表征网络能学习给物体计算数量、定位和归类,而无需给物体添加标签。尽管GQN的表征可能非常小,但是它在查询视点方面的预测高度准确。这意味着表征网络有准确感知的能力。GQN可以表示、测量和减少不确定性。它可以在内容不完全可见的情况下,对场景的不确定性进行解释,并且可以将场景的多个部分视图组合成一个连贯的整体。如下图所见,这体现在它第一人称和自上而下所做出的预测里。模型通过其预测的变化性来表达它的不确定性,而这一不确定性随着在迷宫中的移动而逐渐减小 (灰色的圆锥表示已观测的位置,黄色的圆锥表示正查询的位置):

2.jpg

GQN的表征支持鲁棒性、数据效率高的强化学习。和无模型基线智能体比起来,当给定由GQN产生的小型表征时,深度强化学习智能体完成任务时的数据效率更高。如下图所示,对于这些智能体来说,生成网络中所编码的信息,可以被看作对环境的“先天”认知:

1.jpg

图 | 根据DeepMind观察,使用GQN显著提高了强化学习的数据效率,与使用原始像素的标准方法相比,所需要的互动减少了约4倍。

GQN基于多视角几何、生成建模、无监督学习和预测学习领域的大量成果而成,它展示了一种学习小型真实场景的新方法。关键的是,这一方法并不需要对特定领域进行工程设计,或者耗时给场景内容进行标记,就能将同一模型应用到一系列不同的环境中。它还有一个强大的神经渲染器,能够从新的视点生成精确的场景图像。

当然,和更传统的计算机视觉技术相比,GQN仍然有许多局限性,目前其训练只适用于合成场景。不过,随着新的数据源的增加和硬件的进步,DeepMind期待能研究GQN在更高分辨率的真实场景图像中的应用,探索GQN在场景理解的更广泛方面的应用。比方说,GQN可以用于通过跨空间和时间查询来学习物理和运动的常识,以及在VR和AR中的应用。DeepMind表示,GQN还无法投入实际应用,还需要做很多的研究,但是,这个项目是朝着自动化场景理解所迈出的一大步。

麻省理工科技评论

From Tech to Deeptech