清华微电子13年磨一剑终示人,造出首枚多模态AI芯片 | 独家专访

科学
清华微电子13年磨一剑终示人,造出首枚多模态AI芯片 | 独家专访
麻省理工科技评论 2019-09-30

2019-09-30

思考者(Thinker)多模态神经网络计算芯片这项研究中的核心技术——可重构计算——已经走出实验室。
芯片 清华 人工智能
思考者(Thinker)多模态神经网络计算芯片这项研究中的核心技术——可重构计算——已经走出实验室。

两年前,《麻省理工科技评论》曾经率先报道过一项来自清华大学微电子所 的智能芯片学术突破——思考者(Thinker)多模态神经网络计算芯片,称其为“至上突破”(a crowning achievement)。

如今,当年这项研究中的核心技术——可重构计算——已经走出实验室。

清华微电子13年磨一剑终示人,造出首枚多模态AI芯片 | 独家专访

图|Thinker 芯片(来源:清华)

以清华微电子所可重构计算团队为背景于 2018 年成立的新公司“清微智能”(清代表清华,微代表微电子),在不久前的阿里云栖平头哥生态论坛,发布其全球首款可重构多模态智能芯片“TX510”。

在眼下行业纷纷推出专用 AI 芯片的大潮中,这颗面向通用计算而问世的 AI 芯片,似乎是个异类。

未来 AI 会究竟走向通用计算还是专用计算?

在这个巨大悬念之上,可以看到的是,一众人马在不断地提升工艺,这自然能提升芯片性能,但随着摩尔定律逐渐趋缓,在后摩尔时代,底层架构创新也已呈现来势汹汹、异军突起之势。

“可重构计算”:清华团队13年的芯片底层架构创新

作为一种架构创新,可重构计算可根据算法和应用的不同灵活配置硬件资源,执行不同的任务,同时具备通用芯片的灵活性和专用集成电路的高效性。

就像是芯片领域的“变形金刚”:硬件跟着软件变,软硬件双编程,“兵来将挡,水来土掩”。

清华微电子13年磨一剑终示人,造出首枚多模态AI芯片 | 独家专访

图|云栖现场展示的 TX510(来源:清微智能)

随着云计算、大数据、物联网等技术的发展,需要芯片具有更强的算力;万物智能孕育了巨大的市场需求,但这个市场碎片化,需求具有多样性,这要求芯片更灵活,更高效,能够适应不同的应用场景,同时,在对功耗敏感的场景下,依然能够保持一个较高的算力,可重构计算被寄予厚望以满足这样的需求。

而这也正是可重构计算在国际上备受重视的原因:《国际半导体技术路线图》称可重构技术是最具前景的未来计算架构。美国国防部高级研究计划局从 2017 年开始,投入巨大精力支持“运行时快速重构”的硬件架构研究。

不过,美国比较成型的研究和产品开发大概在 2016 年左右出现。在可重构技术的研究上,中国并不是跟随者:可重构计算是一种全新的芯片架构技术,拥有完全中国自主知识产权。

领导清华可重构计算研究的清华大学微电子学研究所所长魏少军教授也曾公开表示,“可重构计算芯片技术是集成电路领域非常有希望的差异化技术,具有广泛适用性。”

乍看之下,可重构计算和当下的主流做法异构计算有些类似,异构计算同样会调用不同的计算单元去执行各单元擅长的任务。

但事实上,两者并不相同。清微智能首席科学家、清华大学微电子所副所长尹首一在接受 DeepTech 独家专访时解释道:“异构计算相对容易,因为 CPU、DSP 等都是现成的,将它们集成在一起即可。可重构计算是更底层的计算架构技术创新,本身具有挺高的技术含量和门槛。”

清华微电子13年磨一剑终示人,造出首枚多模态AI芯片 | 独家专访

图|清微智能首席科学家、清华大学微电子所副所长尹首一教授(来源:清微智能)

清华微电子团队从 2006 年开始研究可重构计算。在成立公司之前,团队总共在实验室内开发了共四颗芯片,并进行了技术验证。且自研究的初始,团队的目标就是朝向通用计算。

“可重构计算使得芯片有能力去做通用计算,诸如 DSP、FPGA 这种相对通用的处理任务,都能很好在重构计算上完成,从 2015 年开始,我们把这个技术应用到一些AI计算中,发现它也能发挥出很好的效果。可重构计算这个技术本身的特点验证了它能够处理通用计算”,他说。

2016 年,第一颗基于可重构计算的芯片在清华的实验室中诞生。

当时的成果也以论文的形式发表在行业的顶刊 IEEE Journal of Solid-State Circuits(《IEEE固态电路期刊》),也正是那时候,《麻省理工科技评论》英文版专门报道了那颗芯片。

“经过实验室的多次验证以后,我们基本上对技术已经非常自信了,花了一些时间继续打磨,并对商业以及落地的方向,整个技术与产品模式做了规划,差不多在 2017 年开始筹备公司,2018 年公司成立”,他说。

成立之后,清微智能于去年推出第一款产品语音芯片“TX210”,主要面向智能耳机。最新带来的 TX510,不仅支持视觉智能处理,也支持语音智能处理。典型功耗为 400mW,峰值算力达 1.2TOPS@INT8,支持混合精度计算和稀疏神经网络,AI 计算有效能效比达 5.6TOPS/W@INT8。

清华微电子13年磨一剑终示人,造出首枚多模态AI芯片 | 独家专访

图|可重构计算的特点(来源:清微智能)

“多模态”定义的未来计算任务

拆分最新问世的 TX510 芯片,除了核心的“可重构”之外,另一个重点在于“多模态”的计算。

多模态则是指,其面向的计算任务的类型的多样性,一方面包括深度学习神经网络的图像算法、语音算法,另一方面,除了 AI 算法之外,还可以执行经典算法诸如传统的视频信号处理算法等。

现场展示的一款智能门锁应用,就是一个需要这种能力的场景。当然,这种“多模态”的能力同样源于可重构计算这一底层的基础架构创新。不过尹首一认为,广义来看,凡是需要语音,或者更高精度身份识别的场景,都可以应用 TX510。

尹首一指出,未来 AI 应用发展走向多元化,带来的计算任务也将是多元的,一款芯片产品应该同时可以进行经典计算、AI 计算,在 AI 计算中也可以跑不同类型的算法,而回归到真正的计算任务角度, AI 计算本质上也需要很多不同类型的算法合作。

“以人脸识别为例,其中除了神经网络、深度学习的算法,还有很多图像处理的算法。图像要缩放、旋转、对齐,这些属于经典的信号处理。因此,从应用的角度来说,即使它是 AI 应用,也应当具备相对通用的计算能力,才能真正地完成任务,否则只是一个单纯的神经网络加速器,不足以支撑一个完整的应用”,他说。

清华微电子13年磨一剑终示人,造出首枚多模态AI芯片 | 独家专访

图|现场展示的人脸识别门锁应用(来源:DeepTech)

为了更好地面向未来的视觉场景,TX510 搭载了时下热门的 3D 结构光引擎,据介绍可支持单、双目 3D 结构光,3D 活体检测、红外活体检测、可见光活体检测等,可以抵御照片、视频等二维攻击,面具等三维攻击。误识率千万分之一的情况下识别率大于 90%,大大高于指纹误识率五万分之一的安全指标,响应时间不超过 30ms。

3D 视觉是目前计算机视觉的一个热门产业话题,同样是经过了非常多年的积累,早期主要用于运动捕捉,近几年得益于技术的成熟实现了主布的小型化,价值结构光传感器的发展,3D 视觉的应用开始得以小型化,能够被集成到诸如手机等小型设备上。基于 3D 结构光引擎可以实现深度视觉信息的处理,3D 人脸识别、工业场景中的空间建模,也将是这款芯片的应用场景。

“我们认为,将来所有用到视觉的地方可能都会是 3D 视觉,因为人的视觉本身是立体的,3D 信息背后还隐藏着很多信息,3D 智能视觉肯定是未来的必然趋势,只是现在还受限于一些应用场景或者产品开发问题”,他说。

但 TX510 的 3D 结构光引擎中,3D 视觉深度生成的相关算法并未采用一众视觉算法公司的解决方案,而是团队自研。

清华微电子13年磨一剑终示人,造出首枚多模态AI芯片 | 独家专访

图|TX510 芯片架构(来源:清微智能)

另外值得一提的是,TX510 集成了阿里平头哥的两款 IP Core,团队也已经在和定位“AIoT 基础设施提供商”的平头哥有着密切的合作,例如应用无剑平台进行芯片设计,可在使用现成的通用模块级基础上,团队更专注于把架构做好。

“从这角度来讲,我们会长期的和平头哥合作下去,这样我们互相之间的优势就能很好的能够结合起来”,尹首一说。

据悉,TX510 的第一批客户,将阿里生态圈中的合作伙伴。预计到明年,清微智能的语音芯片和可重构多模态芯片 TX510 的总出货量可能在 4000 万颗左右。

对于未来市场可能的不确定性,他认为,可重构计算作为一种新技术出现在市场中,如果真实表现出了非常优越的能效比算力,存在各方面的优势,相信市场会很快接受它,这将是一个不断普及的一个过程。

那么,可重构计算追求实现通用计算,是否有什么会被牺牲掉了?

尹首一认为,做到通用,未必一定会牺牲一些其他的长处:“就像每一代 CPU 的更新,比如英特尔 CPU 一直在不断地进步,它并没牺牲什么。对于这个芯片来讲也是一样,它本身底层的架构是一种创新。如果是 trade-off 思维,技术就不会有进步,因为总是会牺牲了一些东西。

只有技术没进步的时候,我们才会说总得牺牲点什么才能换点什么。如果技术真的进步了,就不需要牺牲,芯片能力才是真正的提升”。

麻省理工科技评论

From Tech to Deeptech