告别英伟达,亚马逊计划将Alexa语音处理任务转移至自研芯片

互联网
告别英伟达,亚马逊计划将Alexa语音处理任务转移至自研芯片
麻省理工科技评论 2020-11-17

2020-11-17

在“引领未来移动AI的女性”系列视频中,来自高通的许昕宜说到:“我们现在看到的趋势就是说你要怎么样把模型变小
芯片
在“引领未来移动AI的女性”系列视频中,来自高通的许昕宜说到:“我们现在看到的趋势就是说你要怎么样把模型变小

芯片自研的趋势正愈演愈烈。

云服务巨头亚马逊最近发表声明称,计划将 Alexa 语音助手的部分计算任务转移到自主设计的定制设计芯片 Inferentia 上,以便加速任务的执行速度,同时降低成本。

这意味着亚马逊将减少对英伟达芯片的依赖。

当用户使用亚马逊 Echo 智能音箱呼叫 Alexa 语音助手时,语音数据将发送到数据中心的服务器上,然后再由 AI 系统分析和处理,以文本的形式生成反馈信息,最后再转换成 Alex 的语音,转达给用户。

在此之前,整套流程都是由英伟达芯片驱动的,但从今往后,亚马逊将逐步起用自家的 Inferentia 计算芯片。该芯片发布于 2018 年,专门为执行机器学习任务而定制设计,可以加速文本转语音、识别图像等任务的执行速度。

告别英伟达,亚马逊计划将Alexa语音处理任务转移至自研芯片

亚马逊官方介绍,AWS 云服务是使深度学习普及到普通开发者,并以低成本提供按需付费服务的顶尖基础架构。作为加速机器学习任务的定制芯片,Inferentia 是实现这一愿景的长期战略的一部分。

Inferentia 旨在在云端提供高性能推理,降低推理的总成本,配套的软件开发套件(SDK)可以方便开发人员将机器学习集成到其业务中。它的特点主要是高性能,低延迟和高灵活性。

每个 Inferentia 芯片的运算性能最高可达 128 TOPS,而现有的每个 EC2 Inf1 服务最多支持 16 个 Inferentia 芯片。芯片经过了特殊优化,以最大程度地提高小样本尺寸的吞吐量,这对于语音生成和搜索等对延迟要求很高的任务特别有用。

另一方面,Inferentia 拥有大量的片上内存,可用于缓存大型模型,而不是存储在芯片外。由于它的处理核心(又被称作神经核心)可以高速访问存储片上内存中的模型且不受片外存储器带宽限制,因此可以有效减少延迟对推理的重大影响。

亚马逊表示,将 Alexa 相关任务转移到 Inferentia 芯片,可以将延迟降低 25%,成本降低 30%。

亚马逊还强调,开发人员可以使用 TensorFlow,PyTorch 和 MXNet 等流行框架来训练模型,并使用 AWS Neuron SDK 轻松地将它们部署到云服务器上。Inferentia 支持 FP16,BF16 和 INT8 数据类型,还可以采用 32 位训练模型并使用 BFloat16 以 16 位模型的速度自动运行。

近年来,亚马逊,微软和谷歌等公司正在大力发展云计算服务,因此需要大量的数据中心和服务器西元,由此成为了最大的计算芯片客户。这种趋势推动了英伟达,AMD 和英特尔等公司加大了对计算芯片的研发力度,而且相关营收也不断增长。

但最近的趋势显示,越来越多的技术公司正在尝试摆脱对传统芯片供应商的依赖,转向自主设计芯片的道路。比如苹果最近推出了搭载自研中央处理器 M1 芯片的 Mac 电脑。

目前,亚马逊的云端面部识别服务 Rekognition 也已经已开始使用 Inferentia 芯片,但仍有大部分服务依赖于英伟达芯片。

麻省理工科技评论

From Tech to Deeptech