后深度学习时代,计算机视觉技术如何走向未来?

科学
后深度学习时代,计算机视觉技术如何走向未来?
麻省理工科技评论 2019-10-23

2019-10-23

人类获取的信息 70% 来自于视觉,而城市感知和获取信息的方式主要就来自于计算机视觉技术
技术 视觉识别 深度学习
人类获取的信息 70% 来自于视觉,而城市感知和获取信息的方式主要就来自于计算机视觉技术

智慧城市是使用不同类型的物联网传感器来收集数据,然后利用这些数据来有效地管理资产和资源的新型城市。人类获取的信息 70% 来自于视觉,而城市感知和获取信息的方式主要就来自于计算机视觉技术。计算机视觉技术为智慧城市中的公共安全和城市治理、交通、社区、教育、健康医疗、工业互联网等行业应用和服务体系提供有力的赋能。

据 IDC 的最新预测,2023 年全球智慧城市技术相关投资将达到 1894.6 亿美元,中国市场规模将达到 389.2 亿美元。中国市场的三大重点投资领域依次为弹性能源管理与基础设施、数据驱动的公共安全治理以及智能交通。作为 AI 领域最热门的研究与应用方向,目前计算机视觉技术在学术研究和产业落地方面都走在人工智能发展的最前沿。从前几年的概念普及,到如今在智慧城市领域的落地,计算机视觉技术正在深刻改变着整个社会的信息资源使用观念和方式。所以,把计算机视觉技术和智慧城市建设相结合成为当前产学研各界关心的热点。

在刚刚结束的由中国计算机学会(CCF)主办的 CNCC 2019 大会中,由澎思科技承办的“计算机视觉技术赋能智慧城市”论坛成为爆款技术论坛,尽管在大会第三天举办,现场仍然十分火爆。本论坛由澎思科技首席科学家、新加坡研究院院长申省梅担任论坛主席,中科院计算所研究员、IEEE Fellow、IAPR Fellow、CCF 会士陈熙霖担任共同主席,邀请了西湖大学讲席教授李子青,西安电子科技大学教授、博士生导师杨淑媛,阿里巴巴自动驾驶实验室主任、首席科学家王刚,清华大学自动化系副教授鲁继文,商汤科技副总裁、智能驾驶业务总经理劳世竑等共同就当前技术和行业热点话题展开了探讨。

后深度学习时代,计算机视觉技术如何走向未来?

图 | 西湖大学讲席教授李子青发表《人脸识别挑战问题和解决技术》演讲报告(来源:CNCC)

西湖大学讲席教授李子青以《人脸识别挑战问题和解决技术》为题,讨论了人脸识别尚未能很好解决的关键问题并提出解决方向。

李子青是 IEEE Fellow,曾任微软亚洲研究院 Research Lead,中科院自动化所模式识别国家重点实验室资深研究员。作为人脸识别和智能视频监控专家,主持了多个国家科学研究项目和重大应用工程项目,在相关领域获准和申请专利 20 余项。比尔·盖茨接受 CNN 采访时,曾为他在微软研发的人脸识别系统 EyeCU 做讲解。

他认为目前的人脸识别有三个问题和挑战:多数量多类别的模式识别问题;刷脸被破解问题;光照问题。

他认为解决第一个问题,用以前的欧氏距离的话基本是不可分的,需要用 Angular similarity 按角度来分,这是一个趋势。这种方式有三个特点:angle loss、margin 和 imbalanced data。解决第二个问题,以前区分对象是皮肤、肉体还是一个假体会提取纹理、三维的形状这种特征,但这种方式很难将硅胶区分开来。现在基本都采用深度学习的方法,用到可见光、近红外和三维传感器三个模态。解决第三个问题,他认为还是需要用主动光源而不是算法来解决。他们团队提出的 CCA 方法可以把可见光图像和近红外图像提取一个共同特征,在 CCA 的空间来进行,然后用各种各样的局部特征进行处理和滤波,提取一些共同特征。

后深度学习时代,计算机视觉技术如何走向未来?

图 | 西安电子科技大学教授杨淑媛发表《基于深度学习的复杂场景解译》演讲报告(来源:CNCC)

西安电子科技大学教授杨淑媛带来了《基于深度学习的复杂场景解译》的演讲报告,围绕深度学习技术分享了其团队在场景解译与目标识别方面的研究进展。

杨淑媛同时也是西安电子科技大学博士生导师,是国家 111 基地成员、IEEE 和中国电子学会高级会员,主持参与了国家自然科学基金、863 计划等多项科研项目,主要研究方向是智能信号处理与图像处理、机器学习和压缩采样。她所在的西安电子科技大学智能感知与图像理解的教育部重点实验室,前身是 2007 年成立的我国第一个神经网络的研究中心,研究领域主要面向国防安全和民生健康。

基于深度学习的方法,她所在的团队做了几部分内容:一个是关于认知建模方面,他们的研究思路是建模人类认知的某部分一些特性,综合对这些深度结构宏观的模拟,设计具有一些认知特点的一些新型的神经元,去构造出来新型的神经网络模型。通过认知特性的建模,来提升对复杂数据的表彰处理和信息提取的能力。

就此,该团队构建了一个张量深度滤波网络模型,用这种模型去限制网络的输出,作为网络输出的特征,去做一些分类任务,发现我们的模型里面用非常少的特征,就能完成较大类别,十几类目标的一个比较准确的分类。另外,他们在稀疏性建模、认知过程的协同性建模都做了一些工作。同时,在深度学习中的数据、算法和计算等问题,杨淑媛也分享了一些看法。

后深度学习时代,计算机视觉技术如何走向未来?

图 | 阿里巴巴自动驾驶实验室主任王刚发表《自动驾驶没有免费的午餐》演讲报告(来源:CNCC)

阿里巴巴自动驾驶实验室主任王刚带来了以《自动驾驶没有免费的午餐》为题的演讲报告,讨论了将自动驾驶分解为简单问题的方法,并介绍阿里巴巴自动驾驶实验室的平台解决此类问题的思路。

王刚同时也是阿里巴巴自动驾驶实验室的首席科学家。在此之前,王刚为新加坡南洋理工大学终身教授。于 2016 和 2017 年,分别入选美国《麻省理工科技评论》评选的亚洲区和全球的 TR35 奖。国家千人计划专家,人工智能顶尖期刊 IEEE TPAMI 的编委,顶尖会议如 CVPR 和 ICCV 等的领域主席。

王刚认为,物流车的无人化是整个物流产业发展的必然选择,也是这个社会发展的必然选择。在物流行业上,阿里巴巴自动驾驶专注于两个场景:末端的物流场景和公开道路的技术研发。面对交通场景复杂化、多样化的难题,他提到了人工智能里面非常经典的 no free lunch 理论,提出要针对自动驾驶中每一个问题进行相对应的研发和针对化的优化,包括从分类到感知,再到决策。他认为,未来自动驾驶的研发需要依赖精细化场景、算法、自动化平台和云平台这三个要素。

后深度学习时代,计算机视觉技术如何走向未来?

图 | 清华大学自动化系副教授鲁继文发表《深度强化学习与视觉内容理解》演讲报告(来源:CNCC)

清华大学自动化系副教授鲁继文以《深度强化学习与视觉内容理解》为题,分享了清华大学自动化系智能视觉实验室近年来提出的面向视觉内容理解的多个深度强化学习方法,主要包括多智能体深度强化学习、图深度强化学习和结构化深度强化学习等,以及它们在物体检测与识别、目标跟踪与检索、行为预测与识别等多个视觉内容理解任务中的应用。

鲁继文主要研究领域为计算机视觉、机器学习、智能机器人。发表 IEEE 汇刊论文 70 余篇,CVPR/ICCV/ECCV 论文 50 余篇。主持承担国家自然科学基金联合重点基金、国家重点研发计划课题等科研项目 10 余项。2015 年入选中组部青年千人计划,2018 年获得国家优秀青年基金项目。

他介绍,清华大学自动化系智能视觉实验室主要围绕深度强化学习、深度度量学习和非监督深度学习三块内容。

他认为,深度强化学习用在计算机视觉中主要是做两件事:看的清和看的懂。他所在的实验室用深度强化学习主要解决了三个方面的问题:策略学习、离散优化问题、无监督和弱监督的学习。他认为深度强化学习可以同时利用深度学习的表示能力和强化学习的决策能力,对视觉内容做更好的建模策略并提升任务的性能,未来他们将致力于把认知功能跟模型进行结合。

后深度学习时代,计算机视觉技术如何走向未来?

图 | 商汤科技副总裁劳世竑发表《中日计算机视觉技术:从人脸识别到自动驾驶的产业化历程》演讲报告(来源:CNCC)

商汤科技副总裁劳世竑带来了《中日计算机视觉技术:从人脸识别到自动驾驶的产业化历程》的演讲报告,分享了 20 余年中日两国的技术交流合作经验,人脸检测及人脸识别的产业应用及计算机视觉在自动驾驶领域的应用。他的演讲主要讲了两个阶段:第一个阶段我们是怎么样把美国的技术拿来用上,第二个 jie'duan 中国的技术是怎么来超越美国的技术。

劳世竑同时是商汤科技智能驾驶业务总经理、商汤日本总经理,负责商汤科技的自动驾驶业务以及商汤科技在日本的业务。他是前日本欧姆龙公司的人脸技术负责人。在欧姆龙工作期间,他领导团队和清华大学合作开发出了以“OKAO Vision”著称的世界上第一块商用人脸检测芯片、开发了嵌入式人脸识别技术和世界第一款驾驶员状态识别芯片及系统(DMS)。2009 年荣获日本图像处理领域中最权威的 SSII“高木奖”。

后深度学习时代,计算机视觉技术如何走向未来?

图 | 澎思科技首席科学家申省梅发表《视频图像智能化助力智慧安防建设》演讲报告(来源:CNCC)

澎思科技首席科学家申省梅围绕《视频图像智能化助力智慧安防建设》,以澎思科技的解决方案为例,阐述了视频图像智能化在智慧安防领域的应用。

申省梅是澎思科技首席科学家、新加坡研究院院长,也是前新加坡(松下)研究院副院长,她曾领导超过 40 人的算法研究团队在基于深度学习的人脸检测和识别、行人检测和跟踪、行人再识别、车辆识别、自动驾驶、驾驶员行为检测、移动操作机器人等领域均取得了世界顶级成果。2019 年 3 月,申省梅宣布加入国内人工智能公司澎思科技,致力于监控与安全、智慧城市、自动驾驶、智能机器人以及 AI 工厂自动化等领域的相关技术研究。

她认为视频图像智能化需要提高图像质量、目标检测分类和识别、视频结构化、智能压缩。澎思科技最新的成果“深度超分辨率技术”利用深度学习的超分辨率方法可实现人脸识别从 0.75 提高到 0.97。澎思科技最近在做的是 ReID,解决了数据采集和数据长尾问题,实现动态捕捉下模糊情况的处理。智能压缩和视频摘要方面,澎思科技使用 Acation Q5 的方式来做到关键内容的保留、压缩和摘要,根据不同的情况可以达到 10 倍、100 倍、甚至 1000 倍的压缩。最后她重申,要做好视频图像的智能化就一定要把它结构化。

后深度学习时代,计算机视觉技术如何走向未来?

图 | 论坛合影(来源:CNCC)

深度学习是近年来人工智能技术发展的核心,虽然取得了巨大成功,但它具有明显的局限性。与人类视觉系统相比,深度学习在通用性、灵活性和适应性上要差很多,而在遇到复杂的自然图像时,深度学习可能还会遇到机制性困难。

随着研究人员开始处理越来越复杂的视觉任务,他们所面临的最严峻的挑战是如何开发能够处理组合性爆炸的算法。当然,深度网络会是解决方案的一部分,但同时依然需要组合原则和因果模型的互补方法来捕捉数据的基本结构。

麻省理工科技评论

From Tech to Deeptech