吃掉NPU的骁龙!高通版Tensor Core成AI大杀器,855技术细节揭露

商业
吃掉NPU的骁龙!高通版Tensor Core成AI大杀器,855技术细节揭露
麻省理工科技评论 2018-12-06

2018-12-06

在峰会第二天议程中正式公布的 AI 计算细节,却不是一如业界期待的 NPU 计算单元,而是改名为 Tensor 计算单元,不过虽然名称不同,但骨子里其实是差不多的东西。
高通 芯片
在峰会第二天议程中正式公布的 AI 计算细节,却不是一如业界期待的 NPU 计算单元,而是改名为 Tensor 计算单元,不过虽然名称不同,但骨子里其实是差不多的东西。

昨天 DT 君提到,高通将会引入硬件化的 AI 计算单元,作为对抗其他两家已经迈入 7nm 工艺竞争产品的最大武器,不过在峰会第二天议程中正式公布的 AI 计算细节,却不是一如业界期待的 NPU 计算单元,而是改名为 Tensor 计算单元,不过虽然名称不同,但骨子里其实是差不多的东西。

而在原来 Hexgon DSP 中增加 Tensor 核心,其实和 NVIDIA 在 GPU 当中增加 Tensor Core 的作法的目的相当类似,那就是在不舍弃原本计算单元的过往兼容能力,以及可编程能力的前提下,增加更有效率的硬件计算单元,使整体计算能力更为往上提升,同时也满足未来 AI 应用将无所不在,但同时又要兼顾低功耗持续计算的特性。

通过包含 DSP、GPU 以及 CPU 等综合算力的提升,加上 Tensor 核心的导入,高通骁龙 855 的整体 AI 算力超过 7TOPS,远远把麒麟 980 和苹果的 A12 抛在后头,后二者都只有 5TOPS 左右。

不过 AI 算力的增加还只是整场 Keynote 中的一个小亮点而已,骁龙 855 不愧是高通亲儿子,不只在硬件功能方面更加精进,也把 Arm 的生态策略玩到淋漓尽致,引入更多软件应用、AI 算法、终端设计,以及更丰富的应用情境,当真有成为手机界至尊魔戒的气势。

吃掉NPU的骁龙!高通版Tensor Core成AI大杀器,855技术细节揭露

图|一加 CEO 刘作虎是骁龙技术峰会第二天的开场嘉宾。

吃掉NPU的骁龙!高通版Tensor Core成AI大杀器,855技术细节揭露

图|高通骁龙技术副总裁 Keith Kressin 将本日骁龙技术细节诉求分成五大块。



更强化的整体连接能力


首先,做为手机芯片,连接能力还是重中之重,也因此,高通在骁龙 855 中,强化了包含 LTE 连接能力、WiFi 连接能力,以及最重要的,也就是作为整个峰会的主轴—5G 连接能力。

吃掉NPU的骁龙!高通版Tensor Core成AI大杀器,855技术细节揭露

图|一言以蔽之,不论是 LTE、5G 或者是 WiFi,都能达到数个 G 以上的传输效率。

吃掉NPU的骁龙!高通版Tensor Core成AI大杀器,855技术细节揭露

图|作为目前最主流的 LTE 连接能力,骁龙 855 内建的 X24 调制解调器支持高达 7X 的 CA 合并带宽,最高可达 2Gbps 的传输速度,符合 Cat.20 规格。

吃掉NPU的骁龙!高通版Tensor Core成AI大杀器,855技术细节揭露

图|同时,骁龙 855 也支持了 8x8 MIMO 技术,可更好的对应不同环境下的无线传输需求,并且支持了更安全的 WPA3 加密机制。

吃掉NPU的骁龙!高通版Tensor Core成AI大杀器,855技术细节揭露

图|骁龙 855 更是业界首个引进 60GHz 的 802.11 ay 连接技术的手机芯片,同时也支持 802.11 ad,最高可提供达 10Gbps 的传输性能表现,而极低的传输延迟可和有线网络相提并论。DT 君认为,这对于未来基于高通计算平台的无线 AR/VR 设备连接所需要的带宽和低延迟特性,可带来立竿见影的效果。

吃掉NPU的骁龙!高通版Tensor Core成AI大杀器,855技术细节揭露

图|当然,作为最先进的手机芯片,2019 年即将迎来 5G 的大爆发,高通也早就准备好最佳武器,提供在能耗、效率,以及机构大小都能达到最均衡的方案,帮助其客户面对市场对传输需求的挑战。

吃掉NPU的骁龙!高通版Tensor Core成AI大杀器,855技术细节揭露

图|配合更有效率的天线设计,以及多工 RF 元件,骁龙 855 可以同时处于 4G 与 5G 工作模式之下,不需进行网络的切换。



CPU 和 GPU 的巨幅强化


麒麟 980 和苹果 A12 通过最新 CPU/GPU 架构的引进,在效能方面分别达到 iOS 与 Android 平台的一时之选,当然,高通作为传统 Android 平台的第一方案,性能方面自然要尽可能达到顶级的条件。

吃掉NPU的骁龙!高通版Tensor Core成AI大杀器,855技术细节揭露

自从骁龙 820 之后,高通就已经放弃从零开发自有 CPU 架构,毕竟 CPU 每年架构改朝换代速度极快,自研已经赶不上市场的需求,但为了取得与市场其他竞争者的差异化,高通也不可能直接把公版架构搬进自家 SoC 之中,而是经过极大的调整和优化。

吃掉NPU的骁龙!高通版Tensor Core成AI大杀器,855技术细节揭露

新的 Kryo 核心分为四个大核以及四个小核,不过与传统直接分成两组大小核的作法不同,高通引进了新的 Prime Core 概念,变成三组配置,分别是一个超高速大核,三个高性能大核,以及 4 个高能效小核。时钟速度分别是 2.84GHz、2.42GHz 以及 1.8GHz。

而 Prime Core 的三丛集配置方式,应该就是来自 Arm 的 DynamIQ 技术。

由于使用了新的核心,以及采用了新的工艺,Kryo CPU 核心的整体性能比前一代产品高出 45%,考虑到整个骁龙 855 有太多革命性的技术的引入或规模的扩增,能在规模或时钟速度没有明显增加的情况下达到这样的效能成长,的确是相当不简单的事情。

吃掉NPU的骁龙!高通版Tensor Core成AI大杀器,855技术细节揭露

另外在GPU方面,Adreno 640 得益于 7nm 带来的规模扩大,ALU(算数计算单元) 数量增加了 50%,虽然基本架构并没有太大的改变,但性能也成长了 20%,毕竟 GPU 规模的增长还是要配合总线以及缓存设计的优化,骁龙 855 还需要考虑其他非常复杂,而且多元化的计算单元设计,所以 GPU 能有这样的效能增长,其实也已经相当不错,要期待更大的效能成长,可能要下一代全新设计的 Adreno GPU 核心了。



Hexgon DSP 的异构化:引进硬件 Tensor 核心


吃掉NPU的骁龙!高通版Tensor Core成AI大杀器,855技术细节揭露

过去 Hexgon 只是个传统 DSP,只能进行纯量与矢量的计算工作,但通过 Tensor 核心的引入,Hexgon 如今也能以硬件处理神经网络计算工作,效率要比过去的半软半硬方式高出极多。同时也能更好的处理更高层次的 AI 计算工作。

吃掉NPU的骁龙!高通版Tensor Core成AI大杀器,855技术细节揭露

图|新引进的 Tensor 核心在概念上与 NVIDIA 的 TensorCore 概念类似,都是要在不改变原本 DSP 过往兼容性以及可编程弹性的前提下,增加对神经网络计算的性能优化。

吃掉NPU的骁龙!高通版Tensor Core成AI大杀器,855技术细节揭露

图|而与其他号称 Tensro 的计算单元有著相似的地方,那就是以推理计算工作为主,可执行 INT16、INT8 以及混合精度的计算工作。

吃掉NPU的骁龙!高通版Tensor Core成AI大杀器,855技术细节揭露

图|通过 CPU、GPU、DSP 和 Tensor 核心的搭配,骁龙 855 可完成各种需要不同精度的计算工作,在应用适配能力上达到前所未有的高度。

吃掉NPU的骁龙!高通版Tensor Core成AI大杀器,855技术细节揭露

吃掉NPU的骁龙!高通版Tensor Core成AI大杀器,855技术细节揭露

图|通过整体架构的优化,骁龙 855 可输出的 AI 算力高达 7TOPS 以上,是前代骁龙产品的 3 倍,也是对手 7nm 产品的两倍以上。

高通也与骁龙 855 同步发表了第四代 AI Engine 软件套件,可以为神经处理器 SDK、Google Android NN-API 以及 Hexagon NN 和 Math Library 带来使用效率和开发易用性的明显提升。

对于更广范围网络精度的优化和神经网络类别,能够实现对终端侧 AI 语音、拍摄、游戏和 XR 体验的支持,目前上述许多体验已经可以通过高通 AI 软件生态合作伙伴实现,并将在即将上市的骁龙 855 终端上获得支持。

吃掉NPU的骁龙!高通版Tensor Core成AI大杀器,855技术细节揭露

吃掉NPU的骁龙!高通版Tensor Core成AI大杀器,855技术细节揭露

图|高通的 AI 平台已经在短短两年间成长到规模极为庞大的生态。

高通也在峰会上强调,其软件生态系统合作伙伴正在不断拓展,本次公布出来的新增合作伙伴包括思必驰、AnyVision、科大讯飞、大象声科、Nalbi 等。



更强大的图像视频处理能力


除了计算能力的改善,在多媒体处理能力上,骁龙 855 也有极大的改善,通过新的 Spectra 380 ISP 架构,在硬件计算特性上有著极大的改进,不仅可以硬件解压未来视频编码主流 H.265 以及 VP9,本身也整合了传统计算机视觉的相关处理机能,同时也可和骁龙 855 的 AI 计算单元配合进行复杂的计算工作,达成更复杂的相片与视频的即时处理能力。

吃掉NPU的骁龙!高通版Tensor Core成AI大杀器,855技术细节揭露

图|骁龙 855 支持硬件加速的 H.265/VP9 编解码能力,并已经获得广泛的应用支持。

Spectra 380 包括基于硬件的深度感测,支持在 4K HDR@60fps 的状态下即时进行视频拍摄、对象分类和对象分割。

这意味着用户可以拍摄一段视频并且精准地对选定的对象或背景进行实时替换,而这一切操作都可以在能够表现超过 10 亿色的 4K HRD 分辨率下获得实现。

不仅如此,Spectra 380 ISP 还是首个支持 HDR10+视频拍摄的 ISP,可以在摄影、录制视频,以及输出呈现超过 10 亿色的颜色深度。

吃掉NPU的骁龙!高通版Tensor Core成AI大杀器,855技术细节揭露

图|高通对其最新的 Spectra 380 ISP 给出了计算机视觉 (CV)IS 的定位。

吃掉NPU的骁龙!高通版Tensor Core成AI大杀器,855技术细节揭露

图|新的机器视觉 ISP 可带来极大的能效优化效果。



游戏性能与游戏体验的共同优化


与其他竞争业者使用特定优化作法来改善游戏效能不同,高通选择通过硬件性能/功能的改善和强化,来达到更好的游戏画面效果以及稳定的效能输出,同时,通过其强调的低延迟高带宽无线传输能力,以及包含音效与画面上的整体优化,为玩家带来更好的游戏感受。

除了实打实的底层改善工作外,高通也为其游戏环境打造了多个针对游戏过程的优化工具,包含游戏瑕疵避免工具、反作弊工具、画面重清率同步、快速载入及网络延迟降低管理等有助于游戏体验优化的工具,并且使用定制算法来解决大部分的掉帧问题,打造真正对游戏玩家友善的执行平台。而不是单纯以牺牲画质换取流畅度的作法。

吃掉NPU的骁龙!高通版Tensor Core成AI大杀器,855技术细节揭露

图|高通以硬件功能的增加和改善,配合一系列定制工具来改善整体游戏体验,对于游戏画面毫不妥协。

麻省理工科技评论

From Tech to Deeptech