AR学术顶会首次来华,中国AI视觉公司正加速AR下一轮演化

互联网
AR学术顶会首次来华,中国AI视觉公司正加速AR下一轮演化
麻省理工科技评论 2019-10-16

2019-10-16

智能手机很棒,但是今年来看,创新所带来的惊喜已大不如前。
AI 技术
智能手机很棒,但是今年来看,创新所带来的惊喜已大不如前。

智能手机很棒,但是今年来看,创新所带来的惊喜已大不如前。

随着 2019 年进度条已经拉至 6 分之 5,站在一年的尾巴之上,哪项技术有望在即将到来的 2020 年给移动智能世界创造更多的变化?至少,Facebook、微软、谷歌等巨头仍没放弃的下一代智能计算探索仍包括 AR(增强现实)。

随着 AR 在过去几年前走过 Gartner 技术炒作曲线图中的“泡沫狂热期”,看似消寂多时的 AR 技术,正在迎来新的发展机会。

在最近于北京举办的全球 AR 领域最著名学术会议 ISMAR,来自学术界和工业界最新展示的一系列 AR 研究和应用,显现出这项技术改变移动智能世界的潜力。这也是 ISMAR 在 20 多年的历史中首次来到中国。

其中,正是 AI 让 AR 拥有了具备更多智能的可能性,开启“沉浸式智能计算”的阶段。因此,在这个 AR 前沿学术研究场合看到中国 AI 视觉公司商汤的身影,也就不奇怪了。

AR学术顶会首次来华,中国AI视觉公司正加速AR下一轮演化

图|汤晓鸥在 ISMAR 上演讲(来源:商汤)

10 月 16 日,在 ISMAR 上,商汤科技创始人汤晓鸥认为,AI 与 AR 的深度融合,将能使虚拟世界和现实世界实现无缝对接;AI 赋能 AR,从 AR 化妆、AR 导航、AR 测量到 AR 游戏、AR 数字人等,一系列创新的 AR 应用,有望覆盖并改变你每天的生活和工作。

AI 视觉技术正在加持 AR 进化

AI 究竟是如何能帮到 AR?首先我们需要理解 AR 的运作流程。

简单来说,AR 效果实现的过程划分为输入、虚实融合、输出这三步。

输入环节需要借助 AR 终端将现实环境录入,包括人机交互过程中的人的手势、语言、体感信息等,然后借助一系列的渲染,最终在显示输出上达到增强现实的输出效果。其中,人机交互、SLAM(同时定位与地图构建)为 AR 的几个关键的软件算法技术,3D Sensing、计算芯片、成像模组等为硬件支撑技术。

而基于深度学习的计算机视觉,则可以在输入和虚实渲染的两个步骤中,帮助 AR 更加准确地理解显示环境以及和人的交互,特别是视觉识别和 3D 重建,AI 算法正在取代更为传统的方法以带来更好的 AR 效果。

在 3D 重建上,AR 须在虚拟的环境中构建出真实世界的 3D 形式,让数字形象和物理对象在其中并存。过去,这样的任务使用传统的计算机视觉技术而未通过深度学习,但事实证明,深度学习视觉模型更擅长于理解现实真实世界、构建 3D 世界,例如应用深度神经网络识别垂直和水平方向、测试深度、分割图像甚至是实时推断对象的 3D 位置等等。基于这样的优势,人工智能模型正在取代支持 AR 体验的一些更传统的计算机视觉方法。

现在,全球范围内,包括谷歌、英伟达、IBM,Blippar,TechSee,Octi,Wrnch 等公司都在致力于开发 AI + AR 解决方案以释放新的商机。而在国内,商汤等 AI 视觉公司,也在中国的娱乐互联网行业(短视频、直播等)、智能手机两大方向上,为 AR 的发展储备创新技术。

AR学术顶会首次来华,中国AI视觉公司正加速AR下一轮演化

图|SenseAR Avatar(来源:商汤)

正如汤晓鸥在 ISMAR 会上所说:“今天的 AI 技术已经能让我们更好地理解这个现实世界,而 AR 技术可以将现实世界和虚拟世界无缝融合起。”

据介绍,商汤为包括微博、美图、酷狗、虎牙等 200 多个短视频和直播应用程序,以及国内一众顶级手机公司(包括 OPPO、Vivo、小米、联想等)提供了 AR 技术服务。

商汤所积累的计算机视觉技术对外加持 AR 的发展,主要以商汤的 SenseAR 平台为“出海口”。

商汤在 2016 年宣布推出 SenseAR,在那个时候,计算机视觉主要在表情、手势甚至肢体动作的全方位精确描述和跟踪上崭露头角,这样的视觉能力是互联网娱乐中对 AR 的刚需,许多互联网平台都在追逐能够提供诸如主播做出心形手势、屏幕则会出现爱心气泡的效果的技术,当时已经具有动态表情贴纸的 SenseAR 平台由此率先帮助降低了互联网娱乐的 AR 技术门槛。

也正是在那一年,火遍全球的 AR 游戏 Pokemon Go,让 AR 第一次在真正意义上进入大众用户的视野,尤其是 AR 在智能手机上的想象力。智能手机上流行的 AR 应用程序和技术,主要包括 3D 建模、Avatar,基于面部、身体和 SLAM 的 AR 等。Pokemon Go 的火爆,一方面证明了热门 IP 的内容生命力,另一方面,作为游戏重要催化剂的 AR 技术也功不可没。

市场对 AR 的需求在牵引着商汤在 AR 上的技术探索,商汤的 AI+AR 主要在按照两个细分的方向在演化:

一是 SenseAR 特效引擎,针对软件开发者的 AR 内容生成解决方案。

二是 SenseAR 开发者平台,针对不同硬件设备的 AR 功能和服务解决方案。

AR学术顶会首次来华,中国AI视觉公司正加速AR下一轮演化

图|SenseAR(来源:商汤)

随着商汤从一开始主要面向互联网娱乐场景到延伸至智能手机,商汤 SenseAR 的“AI 赋能 AR”的范围,也已从最初的人脸识别扩展至全身姿态,现已涵盖 AR 更核心的 SLAM 能力、环境感知、光照估计等技术。

尤其是 SLAM,是近年来 AR 落地应用的最受关注的技术之一,现也是商汤在 AR 上的重点研究方向。

SLAM,即同时定位与地图构建技术,能够实时跟踪设备的三维空间位置,同时构建场景的三维几何地图,支持移动平台的实时定位和虚拟物体植入,从而达到完美的“虚实融合”的效果。

通俗地说,即让机器依靠自身传感器在未知环境中获得感知信息,递增地创建周围环境的地图,同时利用创建的地图实现自主定位。该技术可被广泛应用于 AR/VR、机器人、无人机、自动驾驶等行业。

AR学术顶会首次来华,中国AI视觉公司正加速AR下一轮演化

图|AR 导航(来源:商汤)

业内基于 SLAM 技术开发的代表性产品有微软的 Hololens、谷歌的 Project Tango 等。对于 AR 来说,SLAM 支撑了 AR 应用实现最基本的室内导航功能。

在本次大会,商汤还带来了可实现室内外定位和 AR 导航的“SenseAR 高精定位和内容增强解决方案”。

据了解,“SenseAR 高精定位和内容增强解决方案”利用了 SLAM、视觉高精度地图、视觉高精度定位、AR 云及 SenseMap 大场景高精度三维重建等一系列原创技术,通过实时 AR 箭头进行导航,不仅可以助力实现高精度的准确定位,还能让用户在此过程中与融入真实世界的虚拟景观即时互动。

另外,作为本届 ISMAR 大会的钻石赞助商,商汤还独家赞助了专为 AR 应用设计的 SLAM 竞赛,旨在较为全面地评估 SLAM 系统在 AR 应用下的性能。竞赛正是基于商汤此前与浙江大学联合发布的测试数据集,从跟踪精度、初始化质量、跟踪鲁棒性、重定位时间和运行效率等方面对 AR 应用中 SLAM 系统的性能进行评估,进而推动 AR 应用的创新和开发。该数据集为产业界的实际应用提供了有效的评估参考。

AR学术顶会首次来华,中国AI视觉公司正加速AR下一轮演化

图|室内场景下的视觉惯性 SLAM(来源:商汤)

但 SLAM 离直接催化 AR 应用的爆发仍存在不少技术上的挑战,例如场景可能缺乏足够的特征或存在相似的区域、有动态物体干扰等等,而且目前国内工业界仍十分缺乏 SLAM 人才。因此,在探索最前沿的 SLAM 技术上,商汤在 2017 年与浙江大学共建“浙江大学-商汤三维视觉联合实验室”,在 SLAM 和三维重建等领域的前沿研究展开深入合作。

商汤-浙大联合实验室负责人章国锋曾接受 DeepTech 采访表示,一些公司可能意识到诸如 SLAM 技术的重要性,但却难有这个精力和资源去聚集相关的人才、专门关注和发展技术的最前沿,但是学校的课题组却可以做到与前沿技术的同步追踪。

“如此一来,就可确保公司在长期的技术方向上,不至于由于战略性错误,最后遭受降维打击。这将是联合实验室发挥的非常重要的一个作用”,他说。

“完整 AR 解决方案提供商”:商汤 AI+AR 技术布局显山露水

自 2016 年推出 SenseAR 以来,作为 AI 视觉公司被广泛认知的商汤,对其在中国 AR 产业的定位却不局限在 AI 视觉技术提供商上,而是要做完整的 AR 解决方案提供商。

从这个定位出发,商汤对于“AI+AR”的软硬件以及行业生态发展进行了全方位布局。

针对软件开发者,SenseAR 特效引擎提供 AR 内容生成解决方案。

具体而言,SenseAR 特效引擎能够识别和定位到图片及视频中的人物面部、手势、肢体等部位,从而完成瘦身、美颜、背景替换等特效,还可以做到舌头跟踪、眼神追踪、头发染色等玩法,为娱乐互联网行业的短视频、直播、图像美化、社交等应用提供增强现实特效解决方案。曾经在今年早些时候出现的刷屏级特效应用 Zepeto,正基于这一特效引擎。

面向不同硬件设备,SenseAR 平台则能为 AR 开发者和内容创作提供一站式 AR 功能和服务解决方案。

最新版的 SenseAR 平台已经升级为 2.0,加入了 SenseAR Glass 眼镜平台、SenseAR Cloud 云平台等功能,可以根据不同的应用场景、硬件设备需求,提供客制化、跨平台的解决方案,适配性更强。与此同时,商汤还与全球领先的实时 3D 内容创作平台 Unity 展开战略合作,将商汤 SenseAR 平台与 Unity 引擎的 Unity AR Foundation 深度集成,使得开发者在开发过程中可以无缝切换至 SenseAR 平台。

作为中国原创 AR 开发者平台,商汤认为,相较于其他 AR 平台,商汤科技 SenseAR 开发者平台在平台适配性、硬件需求、应用开发、沟通维护、开发成本等各个方面,均有显著优势。

对于广大的消费者来说,基于 SenseAR Glass 眼镜平台的国产 AR 眼镜将值得关注。目前,商汤正在探索与国内 AR 眼镜制造商的合作,推动新一代的 AR 眼镜产品面世。

但需要指出,尽管相比早些年,由于 AI 等相关技术的同步驱动,AR 从硬件到软件再到应用方案已经有了很大的进步,并开始渗透到许多行业和领域,但国内整个 AR 产业还面临着核心技术不过硬、应用标准不够统一、优质内容不够突出等问题。

这些是整个行业面临的问题,也需要整个行业的力量才能推进解决,因此,标准和生态的建立,和技术突破同等重要。

今年 6 月,商汤联合产业和学术各方共同成立了“中国增强现实核心技术产业联盟”(CARA),通过聚集各类资源形成创新生态,推动中国增强现实产业核心技术的创新与发展,提升中国在全球范围内增强现实领域的核心竞争力。包括浙江大学、OPPO、小米、北京大学、清华大学、传英信息、之江实验室、中国移动研究院等 39 家企业和机构当选为理事会成员,同时联盟还包括了近 200 家成员单位。

据了解,该联盟的诸多使命,就包括推动关键技术标准化研究和制定、建立交流平台以促进生态建设、开展增强现实专业人才培养等。

相信未来几年,这一行业联盟的成立将继续加速国内的 AR 产业发展。现在,AR 产业已经在 AI 的推动下呈现回温态势,据调研报告显示,到 2019 年底 AR 市场规模预计达到 34 亿美元,2020 年将突破 96 亿美元。国内此前印发的新一代人工智能发展规划也明确提出,要加快增强现实等创新技术的推广和应用。

还有一个正在路上的市场催化剂或花落 5G。伴随着 5G 网络的铺设,AI+AR+5G 形成的合力又会给整个产业带来怎样的变化和机会将值得期待。

麻省理工科技评论

From Tech to Deeptech