霸主再临!刚刚,英特尔解密全新芯片布局,芯片教父狂怼“摩尔定律悲观论” | 现场直击

商业
霸主再临!刚刚,英特尔解密全新芯片布局,芯片教父狂怼“摩尔定律悲观论” | 现场直击
麻省理工科技评论 2018-12-13

2018-12-13

北京时间 12 日早上,英特尔于加州 Los Altos 举办了架构日,揭露未来数年的架构布局,以及未来英特尔应对市场挑战所将采取的策略。
英特尔 芯片
北京时间 12 日早上,英特尔于加州 Los Altos 举办了架构日,揭露未来数年的架构布局,以及未来英特尔应对市场挑战所将采取的策略。

刚刚(北京时间12日23时),英特尔的NDA终于正式解密,就在现场的DT君为大家送上第一手报道。

北京时间 12 日早上,英特尔于加州 Los Altos 举办了架构日,揭露未来数年的架构布局,以及未来英特尔应对市场挑战所将采取的策略。

DT君参与了整个架构日议程,见证英特尔揭露包含异构计算生态布局、CPU 核心架构、GPU 核心架构、存储技术、数据中心方案等最快在明年就可以和世人见面的最新架构发展。

图|Raja Koduri 与 Jim Keller 一同出席于加州 Los Altos,仙童半导体与英特尔的联合创始人 Robert Noyce 故居举办的英特尔架构日,共同揭露未来英特尔技术与架构走向。

开场由 Raja 主持,他指出,由于现今社会,人们产生数据的速度已经远超出现有基础设施所能处理的速度,因此,未来的社会亟需要更高效率,且规模能够更弹性扩大的计算架构,他断言,未来 10 年计算架构的发展将远超过过去 50 年的速度。

图|Raja 与 Jim 在英特尔中的工作分担,二者属于平行地位,主导未来 GPU 与 CPU 的发展,可说是整个英特尔太极中的两仪。

而 Jim Keller 登场时,更是不客气的怼了产业那些高喊摩尔定律已死的家伙,他表示,在英特尔任职的这几个月中是他职涯中最有趣的一段,在他看完整个英特尔的技术布局之后,深觉得他能够发挥的空间极大,身为工程师,解决问题就是最大的乐趣,而他相信能够在英特尔中获得极大的乐趣。而且没错,他会让摩尔定律在未来很长的一段时间内持续下去,要跌破那些评论家的眼镜。

Raja 剖析了整个计算市场的走向,由于计算产业的转变,未来英特尔在架构设计上也会越来越灵活,不但核心本身的设计会更接地气,同时也将更强调不同场景的计算适配,未来不止 CPU 或 GPU,而是将引入更多计算概念,构成 xPU 生态,从各种方向去解决未来计算领域会面对的各种问题。

未来英特尔将针对三大计算领域布局更广的计算架构,而这些架构将不会像过去一样在核心设计方面泾渭分明,而是混合了更多元,更具弹性的计算能力,包含 CPU 或 GPU 都是。

不同时代所需要的计算架构不同,Raja 把整个计算轨迹分为三个阶段,分别是 2000 年左右的 GHz 时钟速度阶段、2005 年开始的多核阶段,以及未来的架构阶段,未来架构将是主导整个计算市场的最主要核心。

而由于未来 AI 应用将是主流计算趋势,为了更好解决来自这方面的计算问题,英特尔也会在其主力架构中增加更多针对包含深度学习、训练以及推理计算加速的功能区块,让英特尔的整体计算架构能更好的因应未来 AI 产业的走向。

当然,Raja 在开场也揭露了英特尔在 CPU 以及 GPU 方面的最新布局,其在 CPU 核心方面,除了大方秀出未来英特尔 CPU 的核心发展路线,并且深入介绍了即将在明年 CES 显露真身的 Sunny Core 微架构。

另一方面,Raja 也介绍了其最新的 Gen 11 世代绘图核心,而以其为基础,未来也将会把规模做大,设计出更符合全方位计算与绘图应用的独立 GPU 架构,正面挑战 AMD 与 NVIDIA。

Raja 也介绍了包含在存储、封装以及服务器的技术布局。

值得一提的是,在封装领域,英特尔推出的 Foveros 是业界首个真正的 3D 封装,可以把整个系统封进一颗芯片中,达成真正的 System in Package 概念,远比目前台积电与三星都在发展的 2D 或 2.5D 封装技术更为先进。

英特尔预计将从2019年下半年开始使用Foveros推出一系列产品。首款Foveros产品将结合高性能10nm计算堆叠小芯片和低功耗基础。 英特尔称,它将在小巧的外形中实现世界一流的性能和功效结合。

图|Foveros 封装技术的侧面图,此封装技术可做到极薄,约 1mm 的厚度,Raja 也秀出仅有 12mm*12mm 大小的量产芯片。

Raja 也揭露了其 FPGA 的最新布局,作为 xPU 成员中的重要角色,FPGA 不仅在计算方面肩负重责大任,挑起以推理为主的 AI 计算工作,另外在 Interconnector 连接总线中,也成为未来推动总线技术前进的最大动力,通过新架构的建立,提升未来包含PCIE等主流总线传输规格。

图|新款的异构 FPGA 计算方案将会进入 10nm 制程世代,且规模将涵盖从过去的中低端方案到高端方案,以同一架构,但以不同规模的设计来解决不同层次的计算问题。

图|下一代 FPGA 芯片将会引入 3D 封装技术。

与计算架构相对应的是软件环境,Raja 也宣布了新的 OneAPI 软件 Stack,可以在单一开发环境之下,开发出针对所有英特尔旗下所有可调整规模计算方案的应用软件。



针对 AI 计算优化,Sunny Cove 微架构将彻底压制 AMD 的 Zen 架构


在介绍全新的 Sunny Cove 架构之前,英特尔方面先秀了一张关于近年来层出不穷的芯片漏洞以及对应解决方案,最早是从软件层面修改来修正已经发生的各种漏洞攻击,Cascade Lake 更是引入了硬件防范设计,与操作系统配合,在防范手段上更有效率。未来则是将会尝试以纯硬件方式解决,一方面避免性能损耗,一方面也要更早应对未来硬件资安事件的发生。

接下来,英特尔也介绍了过去在 14nm 架构的发展历程,可以看到,从最早的 14nm 芯片中,时钟速度仅能达到 4.2GHz,而到最新一代的产品中,已经可以把时钟速度拉到 5GHz,虽然同样是 14nm,但也是有随著时间不断强化精进,配合微架构的改善,达到计算效率的明显增长。

另一方面,未来 CPU 计算也不会只是针对过去认知的一般通用计算,由于 AI 计算已经成为通用计算的一部份,因此针对这方面计算应用的加速也是势在必行的工作,英特尔在首款 10nm 方案中将引进 VNNI 框架,以及针对深度学习发展全新的指令集来加速深度学习计算的工作。

具体的指令集强化主要是在 INT8/INT16 计算工作的强化,由于这是 AI 推理工作最常使用的精度,因此主流 AI 计算架构都是针对这方面进行大幅强化,英特尔在其 CPU 架构中也将引入同样的概念。

由于英特尔处理器中已经包含了非常强大的 AVX-512 多媒体加速指令集,因此主要的修改就是来自于这个计算区块,通过增加 4 道指令,将乘加计算的周期大幅缩短,让相关精度的数据可以在最短的时间获得处理,理论上可获得比没有内建相关指令的前代处理器产品 3 倍的 INT8 计算效能,以及 2 倍的 INT16 计算性能。

在处理器的 AI 计算加速方面,下一代 14nm 处理器 Cooper Lake 会引进 AI 模型训练加速能力,并原生支持 bfloat16 的数据格式,达到比 fp32 强 2 倍的数据输出能力。而未来架构中,将会更进一步把 AI 和机器学习的加速能力做到更彻底,不只在推理,训练也同样会被重视,并同步改进。

当然,这些不会只是由英特尔自己来推动,而是结合业界力量共同推动。

Sunny Cove将成为明年晚些时候英特尔下一代服务器(至强)和客户端(酷睿)处理器的基础。 Sunny Cove的功能包括改进的设计,允许它同时并行执行更多操作。 英特尔研究员Ronak Singhal表示,Sunny Cove找到了更广泛,更深入,更智能的处理方法,并行完成更多工作,并通过更大的缓存来改善延迟。

接下来正戏登场,英特尔全新世代的 Sunny Cove 核心细节部分,以英特尔的定义而言,是接手 Skylake 的新一代微架构,虽是基于现有基础的改进,但其改进幅度极大,已经够格称为全新的微架构。

Sunny Cove 微架构最大的改进在于缓存设计上,增大 50%的一级缓存可以说是最大的亮点,这个在过去 10 年的微架构中几乎都没有被更动过的设计,面对未来计算应用的复杂化,也终于做出相对的改善,而二级缓存以及操作缓存也都有明显增加,有效对应 AI 计算所需要的大量数据流通与缓存需求。

其次,Sunny Cove 拥有更宽的 allocation,并增加了更多的执行端口,一集缓存的带宽也倍增,这些设计上的改变让 Sunny Cove 能够更好的应对单指令多数据流计算和高效载入管线设计的优化。

此外,Sunny Cove 也增加了更大的缓冲空间,更好的应对新算法的规模化需求,另外,在分支预测能力方面也有了极大的改善,这代表指令的预取准确度更高,整个 CPU 管线中的指令流通就不会因为预测错误而必须清除重来,造成更多的延迟。另外,在指令/数据载入管线的排程效率也获得极大的改善,减少了载入指令或数据所需要的延迟。

而在压缩/解压缩工作,以及单一指令多数据流、矢量记散工作中,也因入更多指令集来协助解决相关的效能瓶颈。

另一方面,Sunny Cove 也获得了更大的内存定址能力,最大可定址到 4096TB 的内存,足可负担未来庞大数据的存储与计算需求。

2019 年现身的 Sunny Cove 还只是个开端而已,接下来的 Willow Cove 以及 Golden Cove 也将分别针对缓存、晶体管使用优化进行更深的发掘,甚至也要瞄准包含网络设备以及 5G 应用进一步强化包含 AI 等关键应用的性能表现。

而下方 Atom 架构的路线图虽然不是本次架构大会的重点,但还是有不少有趣的地方值得探究。

而作为 CPU 核心主导者,Jim Keller 来到英特尔的时间不长,因此在 Sunny Cove 方面贡献不大,但是在未来几代的架构,甚至在 Cove 系列之后的全新架构,可望看到大神发挥其解决问题的实力,帮助英特尔在架构设计上达到更高的层次。



GPU 迎来重要革新,Tile-Based 架构成为未来绘图核心基础


目前英特尔在市场上采用的集成显示架构,是已经有数年历史之久的老旧架构,性能不只贫弱,连简单的 3D 游戏都很难顺利执行,更不用提过去由 NVIDIA 吹的火热的 GPGPU 计算概念,基本上是难以实现。

英特尔原本要在去年发布 10 代绘图核心,也就是 Gen 10,但由于改善幅度过小,最终被抛弃,取而代之的是持续使用旧款核心,并转而发展 11 代核心。

11 代 GPU 核心对英特尔来说有著极为重大的意义,其不仅代表集显有著可以顺利执行主流游戏的能力展现以外,也在计算能力方面达到更全方位的强化,是作为抗衡 NVIDIA 在计算领域呼风唤雨地位的重要武器。

Raja 其实在 11 代 GPU 核心并没有太多的涉入,毕竟 Raja 来英特尔也不过 1 年左右,基础核心架构都已经确立,但是在软件、规模定义方面则是给了设计小组不少建议,而未来走向独立设计,甚至 11 代 GPU 核心之后的全新设计,则将会由 Raja 真正接手主导。

图|左方为 11 代核心,右方为 9 代核心,执行铁拳游戏的对比,根据肉眼观察,其画面更新率在 11 代核心的表现非常流畅,有达到每秒 60 张的感觉,反之 9 代核心上的执行效果奇差无比,每秒可能不到 10 张画面更新率。

图|11 代核心的设计目标,主要是兼顾效能和效率,并且提供可接受的游戏效能表现,而后者在现场的 demo 展示中著实让与会者睁大了眼睛。

11 代核心,也就是 Gen11 有 4 大功能重点,首先就是该 GPU 是英特尔首个算力达到 1TFLOPS 的架构,虽然相较起其他高端手机 SoC 而言,已经不是很稀奇的事情,但对于英特尔架构已经是极大的进展。

其次,Gen11 也舍弃了传统绘图管线设计,而是以 Mali、PowerVR 等架构的移动芯片中占主流地位 Tile-Based 架构取而代之,藉此在内存带宽消耗取得极大的改善,同时绘图性能也有非常大的强化。而在内存子系统的优化方面也拥有独立的子系统。而值得一提的是,所谓的 COARSE PIXEL SHADING 技术则是可依据场景自动优化著色管线的工作,带来更高效的 3D 画面计算性能。

图|与传统桌面 GPU 强调训练性能不同,英特尔的 Gen11 还是著眼于推理性能的优化,并支持多操作系统。

图|值得一提的是,Gen11 也支持了 HDR 与自适应帧率功能,完全支持 Free Sync 屏幕产品,在这方面与 AMD 站在一起,要与 NVIDIA 打对台。

图|Gen11 之后的 X 系列,将会以 Gen11 架构为基础,将规模扩大到 NVIDIA 独显的程度,并针对包含数据中心的 GPGPU 计算、娱乐绘图,以及低端平台的显示工作的全方位的应用适配,X系列独显预计将在2020年面世。



通过多架构融合 xPU 概念,要把摩尔定律推往更远的未来


虽然过去英特尔在产品挤牙膏受到质疑,产能也因为制程技术难以突破,而面临双重困境,加上 AMD 和 NVIDIA 在各自的计算领域向英特尔发起挑战,严重威胁英特尔的霸主地位,但英特尔毕竟还是在技术层次拥有极深厚基础的公司,加上 Raja 以及 Jim 这两位分别在 GPU 和 CPU 架构堪称大神地位的人物进场主持,颇有扭转英特尔危机成转机的意味在。

其实过去英特尔亦曾多次遭遇危机,其严重程度也不下于这波,但能够化险为夷的关键,还是在于英特尔能够回归初心,打造出真正市场需要的架构,而这次英特尔在架构大会上展示的技术概念,也着实让 DT 君开了眼界,也对英特尔未来的布局有了更深的信心。

英特尔舍弃了过去的单一架构应对所有计算的传统概念,除过去几年积极收购市场中具备潜力的架构来补足自身的不足以外,也积极改造自有的架构,以更好的应对市场的需求。过去 10 年吹起的 AI 风潮,英特尔认为这是足以改变整个计算产业走向的重要趋势,虽然英特尔起步不算早,但其具备的庞大市场影响力,以及生态优势,仍将可能扭转过去英特尔在计算产业中不断衰退的地位。

而不只是计算架构本身,在半导体制造工艺方面,也通过多方位的技术发展,不只是制程微缩,甚至也在封装方面推出更具性能、应用优势的方案,制程微缩只是其广大半导体计算版图的一小部分,而不是全部,通过架构设计优势,即便制造工艺面临短暂瓶颈,仍可在产品部分获得市场认同。

英特尔此次推出的架构布局,意图从多面向来解决现今的计算问题,对其客户而言,能够在同一渠道取得满足所有计算需求的方案,这种一站式的逻辑虽然不新颖,但通过此次在架构日中发表的这些技术,我们可以说,在计算领域中,英特尔可以说是少数能够真正达成这种要求的公司。

最后,DT 君也要呼应 Jim Keller 大神的观点:摩尔定律万岁!

麻省理工科技评论

From Tech to Deeptech