苹果如何让 Siri 在 HomePod 上更聪明?技术细节

互联网
苹果如何让 Siri 在 HomePod 上更聪明?技术细节
麻省理工科技评论 2018-12-05

2018-12-05

苹果音频软件工程和 Siri Speech 团队在苹果的AI blog “机器学习期刊”撰文,透露了他们是如何在远场设置中优化 HomePod 上的 Siri。
人工智能
苹果音频软件工程和 Siri Speech 团队在苹果的AI blog “机器学习期刊”撰文,透露了他们是如何在远场设置中优化 HomePod 上的 Siri。

智能音箱常发生一些搞笑事件,像是答非所问、容易被错误唤醒、胡乱下电商订单等,背后的问题与语音识别、噪音信息的干扰大有关系,苹果音频软件工程和 Siri Speech 团队在苹果的AI blog “机器学习期刊”撰文,透露了他们是如何在远场设置中优化 HomePod 上的 Siri。

在智能手机上使用语音助理时,用户的嘴巴通常是很靠近收音的麦克风,但使用智能音箱的情境则不同,用户往往在有点距离的位置来操控音箱,这种“远场交互”或是嘈杂环境就带来了许多挑战,包括回声、混响(reverberation)和噪音等,都会降低目标说话者音频的质量和可理解度,是智能音箱在设计上必须克服的难题。

而 HomePod 上 的 Siri 如何正确识别命令?简单来说,苹果为 HomePod 建立了一个多通道信号处理系统,使用 6 个麦克风,并在 Apple A8 芯片上连续进行多通道信号处理系统,同时,当环境噪声条件和说话者改变,多通道滤波也会持续性调节运作。

苹果指出,HomePod 的多通道信号处理系统主要有两大方面的技术,一是基于掩模的多通道滤波(Mask-based multichannel filtering),使用了深度学习来消除回声和背景噪声,二是基于无监督学习(Unsupervised Learning)打造的“在线学习”算法,可以处理多麦克风信号、分离同时声源。所以,当用户说出“Hey Siri”唤醒词时,集成上述两大方法的系统,就会为语音识别器选择出最好的音频流,消除干扰语音。

图|Siri 在 HomePod 上的在线多通道信号处理架构(图片来源:苹果)



信号处理从传统算法走向机器学习


耳朵可让人类听得清楚,识别声音的方向,或者判断处在一个什么样的环境当中。想要让机器能够具备如同人类耳朵的完整功能,现有技术还是很难实现,主要在于声音是一种叠加的信号,一个场景里面有各种的人声、噪声等叠加在一起,信号能量混在一起之后,想要将其分开就很困难。

传统声音信号处理的思路是基于噪音特征,比如噪音的形态(Pattern)是如何、在频率上有什么特性等,接着设计滤波器,把噪音留在滤网上,剩下的声音就留下来。但此法存在一个问题,世界上的噪声种类变化太多,聚合一起有各种排列组合,而且很多的动态噪音没有办法事先预测何时会出现。

以往主流作法是使用多个麦克风来收音、增强语音,焦点也多放在去除混响、噪声抑制。不过,近几年,前端的信号处理也开始引入了深度学习,在特征提取之前,对原始语音进行处理,如噪声抑制、回声消除、混响抑制等。

图|苹果智能音箱 HomePod(图片来源:苹果)



利用无监督学习进行盲源分离


在苹果公布的文章中,提出了多声道回声消除(MCEC)算法、基于掩模的回声抑制和抑制等方法,不过,更值得注意的是,苹果提出了一个关于盲源分离(BSS,Blind Source Separation)的观点:BSS 可以通过无监督学习把多个音频来源分离为单个音频流,但是如何从多个输出流选择正确的音频流(audio stream)仍然是个挑战。

因此,苹果认为需要建立自上而下的知识(Top-Down Knowledge)来了解用户的语音命令,除了使用唤醒词“Hey Siri”来识别目标对象的音频之外,他们还开发了一种“分离竞争说话者”(competing talker separation)的方法,并且通过深度学习来选择是哪一个讲话者正在发出命令,应专注于处理该讲话者。通过上述做法可以改善 Siri 在智能音箱上的体验。

盲源分离可以说是目前声学、语音识别领域一个很受关注的议题,许多科研人员或企业都想要突破这个问题,BSS 是指一种不需要预先得到资讯,从感测器所量测到的混合信号(mixtures)中,把信号源(sources)抽取、分离出来的方式,说得更简单一点,BSS 的目标就是在信号和混合过程均未知的情况下,分离出各种音源。

在 Competing Talker Separation 部分,苹果采用一种轻量的无监督学习方法,把麦克风阵列信号分解为独立的音频流,以进行盲源分离。此外,苹果也开发一个基于深度学习的音频流选择系统,当系统侦测到“Hey Siri”时,会为每个音频流打分数,并选择最高分的音频流,将其发送到 Siri 进行语音识别和完成任务。

语音被视为是继触控之后,将大量普及于日常生活的新交互模式,但仍旧有许多挑战等待被解决,近年来,图像或视频的 AI 发展,快速,但相较于机器视觉的多样化和活跃度,机器听觉领域仍处于起步阶段,而 AI 辅助语音处理优化智能语音助理在远场交互体验,也有机会为机器听觉带来更多突破。



麻省理工科技评论

From Tech to Deeptech