中国团队最新研究,把计算机“词汇级唇读”精度提高到84.41%

计算
中国团队最新研究,把计算机“词汇级唇读”精度提高到84.41%
麻省理工科技评论 2020-03-19

2020-03-19

随着深度学习的迅速发展和广泛的潜在应用,基于计算机视觉的唇读技术受到越来越多的关注
科技 计算机
随着深度学习的迅速发展和广泛的潜在应用,基于计算机视觉的唇读技术受到越来越多的关注

近年来,随着深度学习的迅速发展和广泛的潜在应用,基于计算机视觉的唇读技术受到越来越多的关注,它在实践中有许多重要的应用,如辅助语音识别、生物认证、帮助听障人士等。

但是唇读任务的难度非常高,一个关键点是如何有效地获取唇部的运动信息,同时抵抗由姿势、光线变化引起的识别困难,讲话人的外貌、讲话速度变化等干扰因素,此外,如何把唇语图像特征与词汇文本进行精确关联或者区分同音词也挑战重重。

来自浙江工业大学、中国科学院智能信息处理重点实验室以及中国科学院计算技术研究所的研究人员针对这些问题,提出在局部特征层和全局序列层引入互信息约束,以增强唇部视觉特征与语音内容的关系。

通过在一些主流数据集上测试,该团队提出的方法有望同时具有较好的鉴别能力和鲁棒性,以实现有效的唇读。

中国团队最新研究,把计算机“词汇级唇读”精度提高到84.41%

图|单词级唇读是一项挑战性的任务。(a) 实际的注释词 “ABOUT” 的框架在当时仅包括框架步骤 T=12∼19。(b) 同一个词标签总是有着千变万化的外观变化。(来源:arxiv)

唇读领域有一个重要技术分支即词汇级唇读,对于该任务,需要用单个单词标签对每个输入视频进行注释,尽管在同一视频中也存在其他单词,如上图所示:(a)中的视频样本总共包括 29 帧,被注释为 “ABOUT”,但是单词“ABOUT” 的实际帧仅包括时间步骤 T=12∼19 的帧,这个间隔前后的帧分别对应于单词是 “JUST” 和“TEN”,而不是“ABOUT”。在基于唇语视觉的研究中,我们总是很难划分一个单词的确切边界。

这种特性要求一个好的唇读模型能够学习到同一个词标签下不同视频中反映的潜在但一致的特性,从而能够更多地关注有效的关键帧,而较少关注其他无关帧。

除了不精确的词汇边界挑战外,对应于同一个词标签的视频样本总是具有极大的多样化和外观变化,如(b)所示,所有这些特性都要求唇读模型能够抵抗序列中的噪声,从而在不同的语音条件下捕获一致的潜在模式。

同时,由于唇部动作的有效面积有限,不同的词在说话过程中可能表现出相似的现象。特别是,同音词的存在,不同的词看起来可能相同或非常相似,增加了许多额外的困难,这些属性要求模型能够发现与帧级别中不同单词相关的细粒度差异,以便区分每个单词。

为了解决上述问题,研究人员在不同层次上引入了互信息最大化(MIM),以帮助该模型学习鲁棒性和区分性表示,从而实现有效的唇读。

一方面,通过施加局部互信息最大化约束(LMIM)来约束每个时间步产生的特征,使其与语音内容之间具有很强的相关性,从而提高了模型发现精细的嘴唇动作的能力,以及发音相似的单词之间的细微差别,比如 “spend” 和“spending”;另一方面,引入了全局序列水平上的互信息最大化约束(GMIM),使得模型能够更加注意区分与语音内容相关的关键帧,而且在说话过程中出现的各种噪音也较少。

中国团队最新研究,把计算机“词汇级唇读”精度提高到84.41%

图|基本架构(来源:arxiv)

此外,GMIM 迫使模型学习不同样本中同一个词标签的潜在一致全局模式,同时对姿势、光照和其他不相关条件的变化具有鲁棒性;LMIM 可增强每个时间步与单词相关的细粒度运动,进一步增强不同单词之间的差异。通过将这两类约束结合起来,模型可以自动发现和区分目标词的有效重要帧,而忽略其他无关帧,进一步提高了识别的精准度。

中国团队最新研究,把计算机“词汇级唇读”精度提高到84.41%

图|对发音相似词的识别改进(来源:arxiv)

最后,团队在两个大规模的单词级唇读数据集 LRW 和 LRW-1000 上与同行提出的主流唇语识别模型方法做了对比评估,这两个数据集的样本都是从各种不同的电视节目中收集的,并且演讲条件也有很大的变化,涵盖了包括灯光条件、分辨率、姿势、性别、化妆等在内的多种说话条件。

LRW 于 2016 年发布,包括 500 个单词的唇形样本,1000 多个演讲者,训练集中的实例数达到 488766 个,验证和测试集中的每个实例数为 25000 个;LRW-1000 数据集则是一个大规模的自然分布的字级基准数据集,总共有 1000 个中文词汇,总计大约 718018 个样本实例,持续时间约 57 小时,不过该数据集旨在覆盖不同语音模式和成像条件下的自然变化,以纳入实际应用中遇到的挑战。

中国团队最新研究,把计算机“词汇级唇读”精度提高到84.41%

图|与此前领域中最先进的方法模型比较测试结果(来源:arxiv)

在 LRW 数据集上,引入 LMIM 之后,在基线准确率基础上提高了约 1.19%,LMIM 有望为主要任务捕获更具区分性和细粒度的特征,同时引入 GMIM 则把精度提高到了 84.41%,主要得益于其对不同帧的不同关注。

不过,在 LRW-1000 数据集上因其语音条件变化较大,包括灯光条件、分辨率、演讲者年龄、姿势、性别、化妆等,此前行业最佳测试结果仅为 38.19%。在这个数据集上获得良好的识别效果仍是一个挑战,新的模型方式获得了 38.79% 的识别精度,略微优于现有的最新结果。

结果表明,该团队提出的方法在不使用额外数据或额外的预训练模型的情况下,在两个具有挑战性的数据集上相比其他唇语识别模型,呈现出一种新的实时性能状态。此外,团队表示,该方法还可以很容易地修改为其他任务的模型,从而为其他任务的研究提供一些有意义的见解。

麻省理工科技评论

From Tech to Deeptech