Graphcore二代IPU发布,7nm制程片上存储高达900MB

科学
Graphcore二代IPU发布,7nm制程片上存储高达900MB
麻省理工科技评论 2020-08-02

2020-08-02

AI 时代,算力为王
芯片 科学
AI 时代,算力为王

2020年7月15日,Graphcore(中文名称:拟未)在布里斯托和北京同步推出了两款硬件产品。

第二代 IPU(智能处理单元)——Colossus™ MK2 GC200 和基于前者、可用于大规模集群系统的 IPU-Machine——M2000。同时,他们还宣布同金山云达成合作,并已推出面向开发者的 IPU 云服务。

专门为人工智能计算设计

从名字就可以看出,Graphcore 的 IPU 产品是专门为人工智能计算所设计,在这个赛道,IPU 被其缔造者们认为具有天然的优势。

据悉,本次发布的 GC200 仍然延续了第一代的“同构众核”架构,所不同的是,制造工艺从 16nm,提升为最新的 7nm。

得益于此,加之技术迭代,GC200 的处理器片上存储从 300MB 提升到了 900MB,晶体管数量更是达到了惊人的 594 亿(裸片823平方毫米),较 NVIDIA 今年5月发布最新旗舰 A100 的 540 亿还要多。

它的处理器核心从上一代的 1217 提升到了 1472,能够执行 8832 个单独的并行线程,系统性能提升了 8 倍以上。

Graphcore二代IPU发布,7nm制程片上存储高达900MB

图 | GC200

在数据处理方面,GC200 也延续了之前的高带宽高容量表现,这对于应对一些复杂的 AI 模型及算法很有帮助,官方声明它足以支持具有数千亿个参数的最大模型。

通信方面,Graphcore 推出了自创的 AI 专属的 IPU-FABRIC 横向扩展结构。

官方表示,该结构的延迟为 2.8Tbps,最多支持 64000 个 IPU 之间的横向扩展。

M2000 是 Graphcore 推出的基于 GC200 的刀片型服务器,每片能提供 1PetaFlop 的算力支持。M2000 可以被看作是 Graphcore IPU 系统产品部署的最小单元,基于它可以很方便地创建各种规模的集群。

Graphcore二代IPU发布,7nm制程片上存储高达900MB

图 | M2000

性能PK

Graphcore 对外一直宣传 IPU 可以同时进行很好的“训练”和“推理”,本次其官方虽然因对标的 A100 未公布结果而无法对比,但通过与自家上一代的对比,仍能间接看出明显的进步。

Graphcore二代IPU发布,7nm制程片上存储高达900MB

图 | BERT-Base:Inference(C2 & V100)

可以看到,在 NLP 中,相同框架的情况下进行推理运算,NVIDIA V100 表现仅为 C2 的一半。

Graphcore二代IPU发布,7nm制程片上存储高达900MB

图 | BERT-Base:Training(C2 & V100)

C2 的训练时间较 V100 缩短 25%,耗费 36.3小时。

Graphcore二代IPU发布,7nm制程片上存储高达900MB

图 | 百度 DEEP VOICE3 训练(C2 & GC200 & V100)

同样的条件,一代 C2 较 V100 提高了6.8倍,GC200 较 V100 提高了14.8倍。

Graphcore二代IPU发布,7nm制程片上存储高达900MB

图 | C2 & GC200

综上,第一代IPU 相较于 NVIDIA 上代旗舰 V100 的表现可圈可点,而二代 IPU GC200 的表现与 C2 相比有了 7 倍以上的提升。

可凡事也总有两面,GC200 同构众核的设计方案,虽然非常擅长处理大规模的并行计算,但也并非没有弱点,如在做稠密矩阵这类并行特征较弱运算时表现就要稍逊。

这个方案就像一把锤子,需要找到合适自己的钉子,才能发挥其最大优势。

需要说明的是,没有一种架构能适应所有 AI 计算场景,一切都是权衡的结果。想要充分调用算力,除了底层的硬件设计,在软件层面的调校也非常重要。

在 DeepTech 问及是否考虑在 MLPerf 平台测试时,Graphcore 高级副总裁兼中国区总经理卢涛这样回答。

“Graphcore 是 MLPerf 的成员之一,未来我们有计划在 MLPerf 组织里发挥自己的影响力,但是目前我们的策略跟其他友商不太一样,因为我们的 IPU 要解决的问题和 GPU 所解决的问题并不完全一样,可事实上 MLPerf 的 benchmark 是倾向于 GPU 架构的,很多适合于 IPU 的数据集和模型并没有加入到测试集中”。

快速成长

截止目前,这家成立仅 4 年的英国年轻公司已经累计获得了 4.5 亿美元融资,其投资人中既有红杉这样的金融投资者,也有戴尔、三星、微软这类战略投资者。与此同时,其团队规模也从几十人,发展到全球 430 人,其中工程技术人员占比 80% 以上。

作为资本的宠儿,Graphcore 显然并不满足于英国本地的发展,根据其官网显示,除英国本土,Graphcore 已经在中国、美国、挪威等地设立了分公司,其中中国包含两处,分别位于北京和台湾新竹。

卢涛表示,中国目前 AI 产业的体量可能是全球几个最大的国家之一,但论落地速度中国绝对是世界最快的国家,没有之一。未来我们将一面加强国内团队、开发者社区的建设,一面同国内各大云服务公司、AI产业公司加强沟通,展开合作。

麻省理工科技评论

From Tech to Deeptech