超人戴上眼镜穿上西装依旧躲不过!云从计算机视觉黑科技跨镜识别更上一层

商业
超人戴上眼镜穿上西装依旧躲不过!云从计算机视觉黑科技跨镜识别更上一层
麻省理工科技评论 2018-04-13

2018-04-13

行人再识别能够根据行人的穿著、体态、发型等信息认知行人。这将人工智能的认知水平提高到一个新的阶段,现在行人再识别已成为人工智能领域的重要研究方向。
计算机视觉
行人再识别能够根据行人的穿著、体态、发型等信息认知行人。这将人工智能的认知水平提高到一个新的阶段,现在行人再识别已成为人工智能领域的重要研究方向。

在前两年的AI浪潮之中,计算机视觉技术可以说是发展最快的一门学问。顾名思义,该技术就是一门研究如何使机器学会怎么“看”的科学,换言之,就是指用摄影机和计算机代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使计算机处理成为更适合人眼观察或传送给仪器检测的图像。计算机视觉也可以看作是研究如何使人工系统从图像或多维数据中“感知”的科学,其最终目标就是使计算机能像人那样通过视觉观察和理解世界,具有自主适应环境的能力。

云从科技成立于2015年4月,其主打的就是计算机视觉技术,而其核心技术源于四院院士、计算机视觉之父—黄煦涛教授。其研发团队曾于 2007 年到 2016 年 7 次斩获 PASCAL VOC、IMAGENET、FERA 等智能识别世界冠军。目前云从在上海、成都、重庆有三个研发中心,在美国URUC和硅谷有两个实验室,并与中科院、上海交大学合作推进学术成果转化。云从主打的视觉识别技术目前已经获得极为广泛的采用,包含农行、建行、中行、交行等超过100家金融机构,以及和各主要机场、公安部门进行紧密合作,提供包括交易认证、安防保全等服务,另外也围绕着图像识别技术推出一系列的终端产品,包含门禁设备、人证终端、摄像头、智能相机等。

一般机器视觉产品已经相当成熟了,云从科技则是从其原本的计算机视觉基础上,又发展出了行人再识别(ReID)技术,其识别出的人物特征模型可以跨越不同镜头,即便人物本身的特征进行了微幅更改,比如说戴上帽子或者是换了衣服颜色,仍能进行特征比对,达到跨镜追人的目的,也因此云从科技把这个技术定名为跨镜追踪技术。这个技术也让我们忍不住想象,看来超人拿下眼镜穿上红内裤、披上斗蓬就可以伪装成不同身份这招,已经行不通了。


行人再识别的达成方式与应用价值

云从科技发言人傅小龙对DT君表示,由于在计算机视觉发展历程中,人脸算是相当简单识别的一种特征,也因此,基于人脸识别技术的辨识应用能够达到99.9%以上的高准确度,错误率极低,也因此能够快速的应用到各种与资安、财产息息相关的领域中,比如说金融产业中,越来越风行的刷脸付账肯定承受不起任何的误判,而安防领域中,误判更更可能代表着生命财产的损失风险,极高的识别率代表着这些风险可以被降到最低。

要从远程识别一个人,脸部当然是最简单特征也最明显的,但很多时候摄像头所撷取到的脸孔其实并不完整,甚至很多时候是完全撷取不到特征的状况,那该如何解决这个情况之下的个体追踪需求?那就是云从科技目前主打的行人再识别技术。行人再识别能够根据行人的穿著、体态、发型等信息认知行人。这将人工智能的认知水平提高到一个新的阶段,现在行人再识别已成为人工智能领域的重要研究方向。

其实多年前业界就已经提出这样的技术概念,但早期采用基于检索的比对法,虽然算法简易,但随着图库的规模增加,计算复杂度也跟着水涨船高,因此很难应用到安防监控等实时系统当中,一方面也会因为行人刻意的改变特征而识别失败。随后AI与机器学习技术兴起,通过机器学习训练的行人重识别技术突飞猛进,然而即便拥有强大的计算硬件与算法,准确度还是不够高,商用化仍然遥遥无期。但如今云从科技一举把准确度提升到96.6%,不仅超越之前由阿里iDST技术所创下的96.16%,也让商用化的道路越来越清晰。不要小看这0.44%的差别,要知道在机器学习领域,即便使用强大数倍的硬件,如果没有好的算法配合,那么正确率也很难有效提升。傅小龙提到,目前云从已经把行人再识别定名为跨镜识别,此技术不只是作为过去人脸识别技术的强化与补充,同时更能够满足包括安防领域与商业行为中的许多应用情景。

v2-fc6b817fbaca527da4e3b2227816aa8c_hd.jpg

举例来说,在安防应用情境中,通过跨镜识别技术,可以在前一个镜头中识别、定位出某个人物,系统会记住该人物的识别特征,当该人物离开了第一个镜头的涵盖区域,跨进第二个镜头之后,系统仍然能够依照之前已经辨识出的人物特征持续进行追踪动作,而这个追踪流程能够持续跨越更多的镜头,只要是基于同一个系统之下。当然,业界目前遭遇到得最大困难,就是跨镜识别情境中,如果被识别出来的人物改变了穿着或者是特定外观,可能就会造成识别失败的结果,而这也是云从科技技术独到之处,即便人物外观有一定程度的改变,系统仍然能够依照特征识别技术,正确定位、追踪特定人物。

我们在传统安防摄影设备中,很少是针对犯罪防范或实时追踪,最多仅能做到证据确保的程度,而且很多时候需要依靠肉眼辨识,误判的状况相当常见。通过跨镜追踪在安防领域的应用,不仅可以在犯罪发生前就先以人脸识别定位,甚至还可以依照动作特征来判断是否在从事犯罪行为,并且通过持续的跨镜追踪,协助治安人员扩大追查区域,从而快速防制犯罪事件。而在商业应用当中,跨镜识别也能为客户带来相当大的好处,举例来说,人流的掌握就可通过跨镜识别技术来更精准的计算,不论是流动率、来客率、重复来客率等的统计,都能为商业活动得到更精准的信息,从而进行更有效的营销行为。


背后的技术细节

针对摄像头撷取的视频可视为一段具有连续帧的图集,这样图集由于包含了时序信息,系统准确率肯定高于基于图片的重识别方法。目前,已经有一些video-based的行人重识别数据集,比如MARS。当然,凡是涉及到时序相关的深度学习方法,必然涉及到LSTM或者GRU这些时序网络(RNN)。目前GPU处理起RNN来要比CNN困难许多,效率也更低,但云从使用的是来自英特尔的Myriad X架构,因此很好的解决了这方面的瓶颈。

v2-2130201cc6a0905237c8e7955940fc01_hd.jpg

云从的行人再识别技术的人物特征撷取分为三个步骤,分别是全身、上下两个部分以及上中下三个部分,如此很好的兼顾了取样的复杂度以及计算的负载,即便是在庞大的群众当中,亦可达到实时处理的地步。而在模型训练过程中,云从使用了多粒度网络(Multiple Granularity Network,MGN),该结构的基础网络部分采用业内最为常用的Resnet50。而根据对Resnet50网络以及行人再识别的深刻分析,对Resnet50进行了合理的修改,使用Resnet50前三层提取图像的基础特征,而在高层次的语意级特征则是设计了3个独立分支。

v2-3a231c29afa1e41117c09261f0996862_hd.jpg

如图所示,第一个分支负责整张图片的全局信息提取,第二个分支会将图片分为上下两个部分提取中粒度的语意信息,第三个分支会将图片分为上中下三个部分提取更细粒度的信息。这三个分支既有合作又有分工,前三个低层权重共享,后面的高级层权重独立,这样就能够像人类认知事物的原理一样即可以看到行人的整体信息与又可以兼顾到多粒度的局部信息。

跑完前面的流程之后,最后再使用Re-Ranking(重排序)技术对结果进行处理,可进一步提高命中率,重排序技术常见于很多机器学习应用场景中。前面也提到,人脸识别是相对好做的一种机器视觉技术,然而行人相对人脸的最大不足就是资料的稀缺,目前关于行人最主流的数据集顶多才1000-3000个行人ID,而人脸的公开数据集ID规模已超100万,且企业私有的ID规模可能更大。这样的现象主要是由于行人数据集需要采集自同一个人在一段时间内同时出现在多个摄像头下,这样严苛的要求限制了行人数据集的构建。正因为数据的缺失,ReID算法的研究也就有着更高的门坎需要跨越。

云从科技本次的方案不是以堆数据这么”简单粗暴”的方式提高精准度,而是通过对深度学习对行人学习的本质研究,通过设计针对性的网络结构与算法,使得人工智能对行人识别的理解达到一个全新的高度。云从科技研发人员使用了Market-1501,CUHK03,DukeMTMC-reID这3个衡量ReID技术的最主流的数据集。而首位命中率(Rank-1 Accuracy)、平均精度均值(Mean Average Precision,mAP)是衡量ReID技术水准的核心指标。通过对算法的雕琢,云从科技在这三个数据集中都刷新了业内最好的水平,在Market-1501数据集的Rank-1 Accuracy达到惊人的95.7%,使用Re-Ranking 技术后更是达到96.6%。


走出中国,将尖端视觉识别技术推向世界

傅小龙表示,目前研发行人再识别算法的研究人员几乎都是华人,而这方面的技术也以中国为主的华人业界最为成熟,而考虑到全球层级的恐攻行动不断,且犯罪事件也随着科技发展越来越难追踪,若单纯就安防应用而言,其实海外市场对此类技术的需求并不下于中国。中国在此类技术的优势,除了投入的研发人员多以外,国内研发人员多半也都会针对算法关键知识进行共享,互相切磋,这种研究氛围也带动了技术的更高层次进展。而这也是中国在相关科研领域优于国外的基本原因之一。

当然,考虑到国际市场的需求,云从也在积极拓展海外客户,目前与一带一路上的重点国家正展开合作,目前首个合作对像是位于非洲的津巴布韦,云从将提供当地政府针对交通、安防、金融等领域输出人工智能技术,并协助其建立国民人脸数据库。而这还只是个开始,未来也有更多的国家会加入合作。

麻省理工科技评论

From Tech to Deeptech