“火眼金睛”的 AI:透过声音看到脸

计算
“火眼金睛”的 AI:透过声音看到脸
麻省理工科技评论 2019-06-14

2019-06-14

不少人都拥有“伪声”的天赋,再通过练习,可以轻易伪装成老人、孩子,哪怕是与自己性别不符的声音,更有甚者可以模仿动物、昆虫,十分逼真,只凭耳朵根本无法分辨。
人工智能
不少人都拥有“伪声”的天赋,再通过练习,可以轻易伪装成老人、孩子,哪怕是与自己性别不符的声音,更有甚者可以模仿动物、昆虫,十分逼真,只凭耳朵根本无法分辨。

网上冲浪时,如果突然收到一位陌生美女的好友申请,你会不会同意?假如你添加对方为好友,她要求和你通话,你听到她的声音也是甜甜的。她向你寻求帮助,索要钱财,你贪图“美色”同意了,却不料对方真实身份是一名成年男子……

这种网络骗术层出不穷。不少人都拥有“伪声”的天赋,再通过练习,可以轻易伪装成老人、孩子,哪怕是与自己性别不符的声音,更有甚者可以模仿动物、昆虫,十分逼真,只凭耳朵根本无法分辨。

(来源:unsplash)

我们能从一个人说话的方式来大致推断出他的长相?你无法辨别屏幕背后的人“是男还是女,是人还是狗”,但 AI 可以。

近日,来自康奈尔大学的科学家们,利用互联网上数百万人的在线视频资料,设计并训练了一个深度神经网络。模型在训练过程中学习了视听、音像、声音和面部的关联性,从而根据声音来推测面部特征。它可以通过一个简短的音频片段来重建一个人的脸部图像,捕捉语言、口音、速度和发音等,从而推测年龄、性别、族裔、嘴唇形状、嘴唇大小、骨骼结构等等。目前此模型只接受输入音频波形。

研究者提醒道,他们的目标不是重建一个准确的人的图像,而是恢复与输入语音片段相关的物理特征。

此项研究成果发表在 2019 年的 CVPR(IEEE Conference on Computer Vision and Pattern Recognition)上。其实,在 2018 年的大会上,就有过类似的研究了。不过当时的 AI 是做选择题,在“听”完音频后,只能从提供的两张人脸图片中选出说话者,并不能自主模拟。今年可谓是大大的进步。

不过,由于这个 AI 只接受了捕捉许多个体共有的视觉特征(与年龄、性别等相关)的训练,有一定的局限性。因此,他只能生成长相平平的面孔,拥有与输入语音片段相关的视觉特征。它无法生成特定个体的图像。也就是说,合成的图片看起来会有点儿“大众脸”,没有太鲜明的个人特征。

图丨一些成功范例。(左)原始图像,即,从视频中截取的有代表性的演讲者的脸;(中)从原始图像中提取人脸特征,进行人脸正前方化、光照归一化;(右)语音人脸重构,通过解码音频中预测的人脸特征计算得出。

可以看出,重建的脸部图像与真实的长相还是有一定的差距。虽然可以还原部分的特征,但却无法准确到看起来像“一个模子里刻出来的”。

图丨从同一视频中(a)从不同视频中(b)提取同一个人的语音片段进行人脸重建。

即便是同一个人,在不同的场合说话,语调、语气也会有细微的差别。所以AI模拟出来的脸部图像也有些许的差异。

图丨部分失败案例(a)高音调的男性声音,例如孩子的声音,可能会获得具有女性特征的面部图像。(b)口语与种族不符。(c、d)与实际年龄不匹配。

此种 AI 提升的空间还很大。如果可以进一步提高捕捉声音特征的敏感性,将研究范围扩展到胸腔的发声,声带的震动频率、方式,气息的运用,语癖等,相信会得到更精准的面部重建图像。

也有不少人提出了自己的疑惑。“声音和外貌真的有关联性吗?”“头部的三维结构编码到一维的声音之中,这个过程中会损失很多信息,准确度上升到一定程度就无法再提高了吧?”“对受过专业训练的播音员能起作用吗?”“能从声音感知到身高及体重吗?”希望科学家们在今后的研究中逐步解决这些问题。

有网友评论:“如果能准确重建出配音演员的脸,这个 AI 就真的逆天了。” 这句话背后,是配音演员都有极强的声音塑造能力,能够掩盖本来的声音特质。

相信到了那个时候,这个 AI 用来对付犯罪分子早已不在话下。

麻省理工科技评论

From Tech to Deeptech