陈丹琦:深度学习席卷NLP的大潮之中,姚班走出的新星冉冉升起

商业
陈丹琦:深度学习席卷NLP的大潮之中,姚班走出的新星冉冉升起
麻省理工科技评论 2020-01-19

2020-01-19

陈丹琦凭借其在自然语言处理领域取得的一系列成果,荣膺 2019 年《麻省理工科技评论》“35 岁以下科技创新 35 人”中国区得主
35岁以下科技创新35人 商业 科学
陈丹琦凭借其在自然语言处理领域取得的一系列成果,荣膺 2019 年《麻省理工科技评论》“35 岁以下科技创新 35 人”中国区得主

2019 年 12 月 14 日,《麻省理工科技评论》公布了 2019 年“35 岁以下科技创新 35 人”(Innovators Under 35 China)中国区榜单。在本届榜单上,虽然缺失了“创业家”的身影,但是我们看到了许多在具有产业化潜能的领域坚持科研使命的获奖人,也看到更多散布在海外顶尖学术机构的科学家们,用自身不改初心的坚持努力,取得了世界级标竿成就的科研成果,其中有超过半数以上的获奖者,都取得了世界级的突破性研究成果与发现。我们将陆续发出对 35 位获奖者的独家专访,介绍他们的科技创新成果与经验,以及他们对科技趋势的理解与判断。

关于 Innovators Under 35 China 榜单

自 1999 年起,《麻省理工科技评论》每年都会推出“35 岁以下科技创新 35 人”榜单,旨在于全球范围内评选出被认为最有才华、最具创新精神,以及最有可能改变世界的 35 位年轻技术创新者或企业家,共分为发明家、创业家、远见者、人文关怀者及先锋者五类。2017 年,该榜单正式推出中国区评选,遴选中国籍的青年科技创新者。新一届 2020 年度榜单正在征集提名与报名,截止时间 2020 年 6 月 30 日。详情请见文末。

陈丹琦:深度学习席卷NLP的大潮之中,姚班走出的新星冉冉升起

陈丹琦

先锋者

陈丹琦凭借其在自然语言处理领域取得的一系列成果,荣膺 2019 年《麻省理工科技评论》“35 岁以下科技创新 35 人”中国区得主。

获奖时年龄:29 岁

获奖时职位:普林斯顿大学计算机系助理教授获奖理由:她将深度学习用于一系列自然语言处理重要问题,帮助机器获取知识、更好地回答问题。

基于自然语言处理(NLP)的人机对话正在创造一个新的交互时代,但在这个时代真正爆发之前,还有巨大的挑战摆在我们面前:机器在阅读人类语言文字和模拟人类的语言能力上仍面临着非常多的难题和限制。

作为一名 NLP 学者,陈丹琦过去 6 年多的研究工作,正在一环扣一环地为机器解开“枷锁”。29 岁的她现为普林斯顿大学助理教授,还在通过自己的研究继续加速这个过程。

斯坦福大学语言学和计算机科学教授、自然语言处理泰斗 Dan Jurafsky 曾如此评价她:“陈丹琦在发现重要的研究问题上很有品位。她已经对该领域产生了非凡的影响,并且她的影响只会越来越大。”

当今的 NLP 研究领域新星中,陈丹琦绝对是最值得关注的学者之一。

在她于斯坦福攻读博士学位的 6 年间,NLP 领域经历了翻天覆地的变化。对于这位从清华姚班走出的个性好强的女生而言,这些变化成为她在日后输出一系列创新的重要契机。

2012 年 ~ 2013 年期间,陈丹琦进入斯坦福读书,开始师从斯坦福大学 AI Lab 主任、NLP 领域的权威专家 Christopher Manning。

据她的回忆,当时团队一共有 3 位教授、20 多位学生,尽管那时候的 NLP 领域和今天有很大的不同,但整个团队有着非常热烈的学术氛围,每年都会产出很多重要的 NLP 的成果。

而 2012 年也是人工智能发展中非常有记忆点的一年:在那一年,多伦多大学 Geoffrey Hinton 团队用反向传播训练的卷积神经网络问鼎图像识别第一,具备了工业应用的基础,自那以后,深度学习正式开启眼下这波人工智能应用浪潮。

深度学习在计算机视觉大放异彩的迹象,也很快在 NLP 领域上演。

NLP 任务的解决从早期的依赖于规则性知识,到 2000 年初开始转向使用统计的方法,再到 2014 ~ 2015 年期间迎来全新转折,“舞台中心”真正让位给基于深度学习的方法:NLP 由于深度学习的浪潮,数据处理和计算能力发生了非常大的变化。

陈丹琦回忆道,她读博期间的前三年几乎没有人在用 GPU,但到第三年之后,几乎所有 NLP 研究都开始大量使用了 GPU 和深度学习框架。另外,NLP 本身也引发了越来越多人的关注,加入到这个研究领域的人数也在迅速增加。

新的颠覆性创新技术正在崛起,顶尖高校和企业研究机构最先嗅到蛛丝马迹。于是,在 2013 年 ~ 2014 年之间,出现了最早一批成功将深度学习用于解决 NLP 任务的探索者,陈丹琦也成为了其中之一:这是一片全新的、开阔的、潜力巨大的空间,其中必然存在着非常重大的挑战。

但是,NLP 领域几乎没有人接触过深度学习,这也意味着大家处在同一起跑线上从零开始探索。

凭借姚班打下的良好计算机理论基础以及斯坦福 AI Lab 带给其的成长,陈丹琦在博士阶段,迅速成长为将深度学习应用于 NLP 任务的“先行者”之一。

简单地将 NLP 研究分成为两类,第一类是对于对于给定的文本拆解成多种语言结构的子任务,或者可以称为是处理理解语言本身结构的任务;第二类则是面向具体应用,例如机器翻译、问答系统、对话系统等。这两类工作贯穿了其博士研究生涯,她在句法分析、知识图谱、信息提取、对话及问答系统等几个 NLP 关键问题上都输出了重要研究成果。

例如陈丹琦在 2014 年发表的论文“A Fast and Accurate Dependency Parser using Neural Networks”,就是深度学习依存分析方法的开创性研究,该成果实现了一个准确快速的依存句法分析器(Dependency Parser),解决了语义分析此前曾普遍存在的部分难题。这项研究也成为了日后谷歌 NLP 团队等在后续分析器上进一步研究的基础。

而在改良问答系统的表现上,陈丹琦在 2017 年的论文“Reading Wikipedia to Answer Open-Domain Questions”为这个问题的解决打开了很多新的方向。

这篇论文的背后,是她在 Facebook 旗下 AI 研究机构 FAIR 实习期间主导搭建的开放域问答系统项目——DrQA。DrQA 由检索器和阅读器组成,其中检索器用于从维基百科海量的文本中获得相关的文章;阅读器用于从文章中获得相应的答案。为了回答任何问题,DrQA 必须首先在超过 500 万个文章中检索可能相关的文章,然后仔细扫描它们以确定答案。正是通过海量阅读,DrQA 试图回答所有在维基百科上出现的 factoid 问题。这个项目展示了借助大规模开源的外部知识库,机器阅读和问答能力是如何得到突破的。

类似的研究还有很多,其中还有一篇不得不提,那就是她的博士毕业论文。

去年年底,陈丹琦完成了她名为“Neural Reading Comprehension and Beyond”的 156 页博士毕业论文。

这篇专注于阅读理解的论文一经学校官方发布,浏览量节节攀升,很快就成为了斯坦福 10 年来最热门博士论文之一,现已被中国的 NLP 研究者自愿翻译成了中文版,躺在许多人的“必读论文” List 中。

对于这篇博士毕业论文,她的导师 Christopher Manning 也不吝溢美之词:“她简单、干净、高成功率的模型吸引了众人的目光……她的这篇毕业论文主要研究神经网络阅读理解和问答,这些新兴技术正在带来更好的信息访问方式。”

除了对阅读理解的技术梳理,这篇论文更深层次的价值是,它也向我们展示了一位年轻学者如何在读博 6 年间系统地挑战、优雅地解决该领域的重大问题。

从基础到深入,这篇博士论文以很高的完成度综述了阅读理解近几年的发展,当然,其中不少重要研究本身也出自陈丹琦之手,因此,对她而言,创作出这篇论文是自然而然。

谈及这篇意外走红的博士论文,陈丹琦语气平静。因为对她而言,这已经翻页,一个新的起点又在展开:她正在从零开始组建自己的普林斯顿 NLP 团队,以期在未来继续解决更多 NLP 领域的重要问题,例如建立更有效地访问、组织和推理知识的 Agents,这也是人工智能整体的核心问题之一。

“我非常关心如何构建实用的 NLP 系统,我希望我的研究结果不仅是美好想法的证明,而且在实际应用中是有用和可行的。” 她说。

微软创始人比尔·盖茨曾经表示,“自然语言理解是人工智能领域皇冠上的明珠”。作为 AI 技术的一大热门方向,NLP 激烈的历史进程仍在继续:一方面得益于深度学习开启新的研究范式,许多问题得到了更好的解决;另一方面,新的研究范式下,一个问题的解决,往往意味着更多问题的暴露。尤其人类语言本身就具有浓厚的“剪不断理还乱”的色彩,NLP 要想持续地突破技术瓶颈,就更加难上加难了。

但在诸多难题中找到实际可行、简洁有效的解决方法,已经成为了陈丹琦一大人生乐趣:“我能从研究中获得那种很极致的乐趣,这种乐趣是生活中其他方面无法给我的。有时周末在家休息想做点自己真正喜欢的事情,几番思索,发现自己还是喜欢去读几篇特别想读、但周中没时间读的论文。”

值得一提的是,2019 年年底,陈丹琦回到了清华大学,为姚班和智班学生授课。“我是姚班第五届学生。非常感激姚先生当时能组建这样一个实验班,搭建了一个这样好的平台,给姚班每个人都打下了坚实的基础,打开了我们的视野。

现在姚班的影响力是之前每一届学生铺垫出来的,越来越多姚班出来的学生在各个领域都非常优秀。我对于自己是姚班的一员感到非常骄傲。” 她说。

麻省理工科技评论

From Tech to Deeptech