震撼柏林城!华为发布全球首款7nmAI芯片,余承东:性能非常恐怖

商业
震撼柏林城!华为发布全球首款7nmAI芯片,余承东:性能非常恐怖
麻省理工科技评论 2018-08-31

2018-08-31

华为终于在市场殷殷期盼之下,由华为消费者业务 CEO 余承东在柏林 IFA 会场上发布了全新一代的麒麟 980 AI 智能手机方案。
华为
华为终于在市场殷殷期盼之下,由华为消费者业务 CEO 余承东在柏林 IFA 会场上发布了全新一代的麒麟 980 AI 智能手机方案。

华为终于在市场殷殷期盼之下,由华为消费者业务 CEO 余承东在柏林 IFA 会场上发布了全新一代的麒麟 980 AI 智能手机方案。

震撼柏林城!华为发布全球首款7nmAI芯片,余承东:性能非常恐怖

此次的麒麟 980 芯片强调可持续的高效能运作模式,在高性能表现的同时,也能兼顾长时间使用。

震撼柏林城!华为发布全球首款7nmAI芯片,余承东:性能非常恐怖

据华为介绍,作为最前沿的手机 SoC 芯片,麒麟 980 拥有全球首商用领先的 TSMC 7nm 制造工艺,工艺性能提升 20%,能效提升 40%,晶体管密度提升 1.6 倍,因此可以实现性能与能效的双重提升。

麒麟 980 使用了全新设计的双 ISP 架构,可以在更低的延迟之下达到更高的处理效率。

全新一代的 NPU 设计,在 AI 性能上远超过现有其他强调 AI 的竞争产品。

震撼柏林城!华为发布全球首款7nmAI芯片,余承东:性能非常恐怖

据介绍,麒麟 980 采用全球首度商用的 Cortex-A76 架构CPU与 Mali-G76 GPU。搭载业内首款双核 NPU,实现每分钟图像识别 4500 张,支持人脸识别、物体识别、物体检测等 AI 场景。率先支持 LTE Cat.21,峰值下载速率 1.4Gbps。

随著双 NPU 的加入,视频实时处理成为可能,而对物体识别的精确度也大幅提升。

双 NPU 也能对视频进行实时的多人动作捕捉能力。

相较前一代,AI 性能提升了 135%,能耗也改善了 88%。

4.5G 基带,提供 4x4 MIMO 以及高达 5CC 的 CA 能力,可说是 5G 时代来临前的最强基带。

麒麟 980 也在过去比较弱的 Wi-Fi 连线能力上有极大的改进,最高传输速度达 1732Mbps。

华为也提供麒麟 980 加 Balong 5000 的准 5G 方案。

华为和 Amazon 合作,把 Alexa 内建至华为 AI Cube 之中。

作为旗舰方案,麒麟 980 抢先业界竞争者发布,有其指标性意义,去年麒麟 970 便是凭借着领先全球业界发布的 AI 硬件功能,抢走了不少消费者的眼光。

然而,在经过这一年智能手机对人工智能定义与硬件功能的演化,麒麟 980 面临的竞争也明显增加,恐无法像前一代的麒麟 970 般如入无人之境。毕竟经过一年时间准备,其他竞争者也摩拳擦掌准备进入市场,在 7nm 工艺,以及整合 AI 功能等一致诉求下,以各自的技术优势与生态经营同台竞技。

身为手机终端人工智能领跑者的华为,除了拥有将近一年的领先优势,麒麟 980 的推出,其真正的使命在于:不只要领先,更要持续领先。



AI 方案各家着眼点不同,华为诉求开放生态


手机上的终端 AI 应用于 2017 年由苹果及华为带起一波浪潮,二者几乎同时在其主打方案,也就是 A11 Bionic 与麒麟 970 中引入了 NPU 硬件神经计算网路单元,大幅加速终端与边缘 AI 计算落地时程。

同时期的其他方案供应商,多半只能通过软件来模拟 AI 功能,这导致一来计算性能不足,使得 AI 场景在应用时明显会感觉到迟滞,无法随心所欲;二来,AI 计算包含了复杂的数学与逻辑计算,需要处理大量的数据,因此缺乏硬件设计的方案在功耗及发热等层面的表现亦更为疲弱;最后,如果是以丢回云端处理再回传结果的作法,除了迟延性的问题,云端存储个人数据所建立的学习模型,又可能牵涉到个人数据隐私疑虑。也因此,诸如苹果或华为的本地端 AI 方案也就成为手机 AI 发展主流。

以硬件 NPU 而言,A11Bionic 的神经网络专用加速模块比较特殊,目前只用在了 Face ID 人脸解锁上,没有开放给第三方。而华为的 NPU 则是支持了标准 AI 框架,并且对第三方开发者开放,由此所衍生的整体生态效应非常具有想象空间,也可看出华为极力打造自有 AI 生态的强烈企图心。

即将在 2018 下半年推出的新款手机方案中,硬件 AI 计算单元基本上已经是必备要件,这主要归功于苹果和华为带动的潮流效应,而可以预期的是,苹果与华为也必定会在此处持续加强,以延续先前的优势。但联发科等追随者也不甘示弱,AI 计算单元成为其主流芯片方案中的标配功能。联发科将采用与高通同样的 GPU 与 DSP 混合计算,这种设计虽然弹性高,但能耗表现并不漂亮,而高通则传言未来将全面走向硬件 AI 计算设计。



手机成为全能接口:他傻瓜你聪明背后隐藏庞大商机


为什么要重视 AI 在手机上的发展?各家厂商或方案公司之所以争先恐后要推出相关产品,主要就是因为手机是作为日常陪伴用户时间最长的消费类电子产品,其上捆绑的应用已经成为用户黏着性最高的商业接口,不论是游戏,或者是智能语音服务,其对接的是庞大无比的商机,任何对此趋势有基本认知的厂商都不会轻易放过这块市场大饼。

也因此,如何让消费者更自然而然的接触、并依赖相关接口,就成为这些手机厂商努力的方向,而AI 就成为让这些构想成真的启动装置。

这些所谓的 AI 功能,其目的之一就是为了带给消费者更便利的日常生活,尽量用最少的程序就可以完成最大多数的工作步骤,很多关键问题的判断就是交由 AI 来处理。换言之,通过 AI 辅助,麻烦琐碎的工作都交由手机来代劳,使用者只要动动手,甚至连动手都不用,动口就好。

然而 AI 并不是先天就什么都懂,它必须通过训练才能获得处理这些工作流程的“知识”,在主流的 AI 神经网络框架中,我们可以通过对庞大样本的观察与学习,训练出可解决特定应用问题的模型。而这也是包含华为在内的各大手机厂商所努力的方向。



麒麟方案将作为华为全场景智能生活布局核心


华为从手机跨足各种网络产品,也深度布局未来 5G 应用。从今年华为全球合作伙伴及开发者大会上,余承东就阐述了华为的全新战略即“全场景智能生活生态战略”,包括手机、平板、PC、可穿戴、电视、音箱、车机、以及泛 IoT 的照明、安防、监控等,构建起汽车、家庭、办公、运动健身等几大主要场景。

华为真正目标想打造一个开放的 AI 生态平台。从设立诺亚方舟实验室进行 AI 算法的研究、管理 AI 的技术合作、识别 AI 主要应用场景和需求管理,还与高校开展合作。去年,华为推出 AI 手机芯片麒麟 970 由自己进行 AI 芯片设计,便是交由台积电制造、硅品封装、京元电测试,今年的麒麟 980 也是延续这样的合作模式。

华为有 5G 技术优势,结合 AI 技术后,未来在智能家庭、车联网、智能商店、工业 4.0 等等,全都要仰赖 5G 网路。而手机作为各类服务的主要接口,为了兼顾这些未来的应用方向,其核心架构自然也是要面向未来,在各方各面采用最先进技术是确保竞争优势的最好方法。



华为自研架构是为确保生态优势的必走方向


华为的自研之路其实已经走了非常久的时间,早在 2G 时代,华为就曾推出自有的基带与手机芯片方案,然而从推出到堪用,足足花了五年的时间打磨。而华为逐渐掌握手机芯片设计的诀窍之后,也期望能够从这方面取得市场竞争优势,而不是只能作为目的是降低成本的跟风之作。

麒麟芯片整合 AI 计算单元带给业界相当大的震撼,过去多数手机厂商虽然在其产品中导入了类似 AI 处理的辅助功能,但有没有专用硬件处理,在执行效率上可以说天差地远。

华为更抢在苹果之前进行全球营销战,硬是把首款 AI 手机这个名号从苹果的手中抢过来,让华为在后续的产品行销战中一直处于强势地位。

然而,麒麟方案的研发与推展,对华为而言是痛与快乐并陈,由于研发所投入的资金极为庞大,基本上很难回收,且过去很长一段时间麒麟芯片的采用与相关终端出货规模其实也不足以支撑获利,对华为手机部门而言,麒麟极为昂贵,甚至不下于高通的高端方案,因此早期华为采用麒麟芯片设计生产的终端比重并不高。

不过,随着华为在渠道与产品定位和策略逐渐清晰,高端产品的销售力道也越来越强,相关高端手机产品占华为出货比重也逐渐增加,到了麒麟 970,甚至已经占到华为季度出货约 2 成。这是个相当大的比重,尤其华为基于高通、联发科方案的中低端手机出货量极大的情况之下,高达 20% 的比重已然是非常可观的数字。



从麒麟 970 到麒麟 980,最新架构的引进大幅改进能效表现


麒麟 970 这款在 2017 下半年推出的芯片对华为而言极具有战略意义,其推动的华为产品布局与 AI 应用生态,夺走了许多消费者的眼光,也顺势推动华为的许多产品的销售。

然而,从麒麟 970 的设计理念中,还是能看出华为为了节省成本而做的努力。首先,其 CPU 架构采用 4 个Cortex-A73 搭配 4 个 Cortex-A53,是当时的主流高端架构,但是在 GPU 方面,却只采用了 12 核心的Mali G72,并通过提升运行频率以强化其性能表现。这种作法相当简单粗暴,但是对于降低芯片面积以及 IP 授权成本有一定的效果,只不过还是有些副作用出现,首先,由于频率较高,将直接挑战架构和工艺本身的功耗墙,一旦超过边界极限,那么功耗和温度就会直线上升,影响持续性能输出表现和稳定性,手机也会明显发热。

为了控制成本,麒麟芯片通常会使用少核心高频的手段来取得成本和效能的平衡,但功耗效能上的表现多少都会受到影响。为了解决这个问题,华为利用软件优化手段,也就是 GPU-Turbo 手法,针对性的瞄准特定游戏应用来优化其功耗与性能表现,的确发挥了不错的效果,就连高通也希望仿效这种作法来改善其硬件的表现,对业界整体而言,华为的确带起了一波技术革新与示范作用。

而麒麟 970 的另一个重点在于全球首发的 AI 硬件 NPU 设计,其AI算力很强,可以在 1W 功耗下达到4TOPS 的性能表现,不止相关应用的性能与效果超出高通的异构计算,甚至苹果 NPU 也自叹不如,而其他的“纯软件模拟 AI 方案”就更不用说了。

而此次在 IFA 大会上发布的麒麟980,采用的是 Cortex-A76。Cortex-A76 是在今年 6 月才发布,官标的数据方面,基于台积电 7nm 工艺的 3GHz A76 核心比 10nm 2.8GHz 的 A75 核心性能提升 35%、省电40%、机器学习的负载能力提升 4 倍。

在 GeekBench 4 跑分方面,整数和浮点相较于 A73 提升了 90% 和 150%,最终得分提升 35%。

A76 同样支持 DynamIQ 拓扑特性,官方建议 1+7/2+6 这样的 Big.little 大小核设计。通过使用最新核心,麒麟 980 的性能表现也达到惊人的程度,另外在 GPU 部分,同样也采用了最新的 Mali-G76,其性能密度提升了 30%,节电 30%,用于手机的图形性能会提高 50%,现在可以支持最高 8K 分辨率的屏幕了。不过由于成本考虑,虽然核心数量只有 10 个,较麒麟 970 少了 2 个,但性能是相当于 20 个旧版核心。

但值得注意的是,由于必须考虑到成本架构,华为在麒麟 980 的架构设计上依然还是偏重成本控制,所以除了使用最新架构外,核心数量或者是自定核心并没有太过积极的动作,因此,在同业对手的方案相继跟上 7nm 脚步后,华为要面对的竞争态势也将会有所改变。

不过在重点的 AI 单元,华为将继续使用专用 NPU 的方案,并使用了双核配置,性能达前代方案的 135%。而且其设计原生为 7nm 工艺优化,更能适合麒麟 980 的设计方向,而这点也将成为麒麟 980 能否领导未来手机 AI 方案的重要关键。



其他 AI 手机方案竞争者


作为全球最大的手机方案供应商,高通过去通过 Hexagon 与 GPU、CPU 协同工作,达成对主流AI 框架的计算加速能力,虽然在效率上还是明显落后苹果与华为的硬件方案,但总是给市场一个交代。

然而,异构计算(Heterogeneous computing)虽然弹性高,且可以有效利用芯片中的不同类型计算架构,但目前 AI 计算方案讲求的是更高的能效表现,而在手机等移动终端上,更显重要,虽然高通的异构计算已经属于相当高效的技术,但仍与 ASIC 有一定的落差,也因此,在使用针对 AI 加速框架进行性能的评比应用时,高通很明显要落后采用硬件 NPU 的竞争对手,未来如果 AI 模型往更复杂的方向发展,或者是同时需要执行多种 AI 服务,那么在发展空间上就可能会明显不如竞争对手了。

震撼柏林城!华为发布全球首款7nmAI芯片,余承东:性能非常恐怖

(来源:高通官网)

不过,高通也不是不知应变,根据市场传闻,其在下一代中高端方案骁龙 700 系列中,将引入硬件 NPU 设计,而如果成真,其下一代高端方案,也就是骁龙 855,也将可能沿用同样的方式。

而目前高通也引进了包含商汤等多家 AI 算法设计公司所设计出来的应用框架,想要快速冲刺相关市场,不过高通目前的 AI 性能还有相当大的改善空间,如果要负载更复杂、多元的 AI 计算,恐怕还是要等到下一世代的 AI 设计问世。而根据 DT 君得到的信息,高通将在 12 月正式发布新一代的高端 AI 手机方案,按照往例,明年初就可以见到实际终端产品。

三星作为全球最大的手机厂商,其势力涵盖终端、消费、云端服务、半导体制造与设计等领域,而其中,手机市场是其最重视的一块,而为了推动其手机市场的布局,三星过去亦步亦趋的追随包含苹果与高通的步伐,并将学习到的设计精髓转化为自有的方案设计。

目前三星主要的芯片来源包含了自行设计的 Exynos 系列、高通的骁龙系列、联发科的低端 MT 系列,以及展讯的 SC 系列,市场从最高端,到最低等级,可能会被我们直接当作电子垃圾的产品,几乎都有覆盖。

目前 Exynos 9810 是三星的主力自产高端产品,今年的 Galaxy S9 系列、Note9 系列都可见到其身影,其采用的 AI 计算方式与高通类似,主要是通过 DSP、GPU 与 CPU 的协同计算,不过三星有个特殊的作法,那就是视觉相关的处理交由硬件,而非异构计算。

目前的 9810 采用脱胎自 Cortex-A75 的 M3 定制架构,并搭配 Cortex-A55 作为小核心,而与华为最大的不同是,三星在 GPU 规模上相当舍得下工本,其 Mali-G72 核心数量配置高达 18 个,比麒麟 970 多出 6 个,虽然芯片成本会较高,但可以在较低的时钟水频达到更稳定、更好的效能表现,换言之,能效也更好。

震撼柏林城!华为发布全球首款7nmAI芯片,余承东:性能非常恐怖

(来源:三星官网)

而 9810 中有个 VPU 计算单元,顾名思义,是用来处理视觉方面的计算工作,这个单元应该是硬件设计,但只能用来处理比较固定的功能,三星也未公开发布任何支持该计算单元的可编程或开发套件框架。

而其他的 AI 计算工作就如高通般,是使用异构计算,统 GPU 与 CPU 来达成,这方面可能主要是沿用 Arm 的软件资源,三星也同样没有发布任何相关的开发套件给第三方开发者。

而下一代方案,也就是 Exynos 9820,将会采用 ARM DynamIQ 架构设计,并且将以“2+2+4”三丛集形式打造,其中两组大核将采用三星第四代自主架构“M4”,第二道两组大核则以 ARM Cortex-A75 构成 (也可能以 Cortex-A76 取代),而小核部分则将以 4 组 ARM Cortex-A55 构成。

AI 部分则将可能维持 9810 的作法,那就是采用 VPU 硬件处理单元来处理部分视觉计算工作,并搭配既有的异构计算方式来处理标准 AI 计算框架,也就是半软半硬的方式。

最后,9810 采用的是三星 10nm工艺,而 9820 将可能是三星 7nm 方案首发,但因为三星的 7nm 采用 EUV 技术,目前还在调试中,真正量产最快也要今年底或明年初,这也可能让 9820 成为最晚推出的次世代 AI 手机芯片方案。

苹果基本的手机芯片布局是每年一款,当然,为了配合如平板电脑或者是手表等其他终端的产品时程,也会在不特定的时间点发布相关方案。而苹果最新的手机芯片是去年发表的 A11 Bionic,内建的硬件 NPU 是最大特色。而苹果在其芯片中往往都使用较少的核心,相较对手都已经走到 8 核以上,苹果 A11 还只是个 6核产品,但其表现出来的性能数据却远远超越所有竞争对手,其原因包括苹果对其使用的 Arm 架构深度定制化,并舍得为了特定性能目的来堆加更多晶体管,因此其芯片制造成本往往也都比同时期的手机芯片方案更高。但此策略成功推动手机的销售,并创造更高的获利,因此每一代方案苹果也就更舍得堆料,形成正向发展。

A11 使用的是台积电 10nm 工艺,这也是少数几次没有使用到三星代工工艺的苹果芯片,由于目前苹果的开发套件中,只开放 GPU 计算能力给开发者,而 GPU 也负担包括第三方 AI 应用的训练或推理的工作,对苹果而言,GPU 的份量也越来越重要,这也是之所以苹果要推动自有 GPU 架构的发展。

虽然目前所采用的 PowerVR 架构在性能与菜单现上相当出色,该公司也愿意配合苹果进行高度定制工作,但这对于苹果而言仍远远不足,而展望未来苹果对其 GPU 架构的布局,将可能是个结合绘图、计算以及推理、训练的全功能 AI 优化设计,当然,为了能耗表现,推理工作可能还是维持独立的 NPU 单元来进行。

而未来 A12 将会如何?其实在现阶段也只能猜测,唯一能确定的只有使用 7nm 制造工艺这点。而在架构方面,根据过去的惯例,性能的增长肯定是不能忽略的,毕竟对手也都在积极追赶,今年对手的主流方案都已经在整体性能上有相当大的改善,也拉近了与 A11 的距离,A12 肯定会在CPU 与 GPU 方面进行更深度的改造,不论是增加更多的处理管线,更优化 CPU 或 GPU 内部的流水线设计,亦或者粗暴的堆加核心,都是可能的作法。

至于在关键的 AI 硬件单元方面,除了强化效率以外,也可能就规模方面进行扩展,借以压制华为或高通等即将面世的下一代 AI 方案。

联发科 2018 年主打的 AI 手机方案 P60,具备 AI 专用计算模块的APU(AI specialized Processing Unit),基于 DSP 计算架构,而 CPU 则是采用Cortex-A73 搭配 Cortex-A53 的四大四小设计,虽然不是采用最新的 Cortex-A76,但性能表现仍有一定水准,GPU 方案则是使用 Mali-G72 这款相当稳定的 GPU 架构,不过可惜的是,联发科为了成本考虑,只采用 MP3 配置,并以高频率运作来补足性能表现,因此在运行游戏时,可能会对电池寿命产生负面影响。目前 P60 已经被应用在包含 OPPO 等多款手机产品当中,虽后的小改版产品也已经箭在弦上。

震撼柏林城!华为发布全球首款7nmAI芯片,余承东:性能非常恐怖

(来源:联发科官网)

目前,中国前几大手机厂商都是联发科的客户,产品多分布在中低端,包含华为、OPPO、VIVO、小米、魅族,以及其他二三线厂商,基本上都摆脱不了联发科,毕竟中低端手机中具备成本优势,产品线完整且技术更新还能跟上市场脚步,且能提供最好技术支持服务的,就属联发科了。而在前两年,联发科也打入三星的供应炼,通过使用一定比重的三星芯片代工工艺服务,三星也在其低端手机中采用联发科的方案作为交换。

联发科的方案成本相对较低,且过去在包裹 TurnKey 服务方面口碑极好,在中国的支持人力也最广泛,虽然是 AI 生态的后进者,但是在商汤等 AI 大公司的协助之下,或许第一时间就能够提出够成熟的语音与视觉 AI 方案,对客户而言,联发科一直都是便宜又大碗的选择。

麻省理工科技评论

From Tech to Deeptech