刘知远:开创多项NLP代表性算法,架起"机器"和"自然语言"之间的桥梁 | 35岁以下科技创新35人榜单人物专栏

生物医学
刘知远:开创多项NLP代表性算法,架起"机器"和"自然语言"之间的桥梁 | 35岁以下科技创新35人榜单人物专栏
麻省理工科技评论 2019-03-01

2019-03-01

刘知远表达了自己的一个心愿——“我最大的快乐就是能够帮助那些有潜力的青年同学建立学术和职业志趣。自然语言处理是人工智能得以实现的关键,人类语言也是充满未知的领域,希望更多年轻同学加入进来,一起探索前行。”
35岁以下科技创新35人
刘知远表达了自己的一个心愿——“我最大的快乐就是能够帮助那些有潜力的青年同学建立学术和职业志趣。自然语言处理是人工智能得以实现的关键,人类语言也是充满未知的领域,希望更多年轻同学加入进来,一起探索前行。”

2019年1月21日,《麻省理工科技评论》公布了2018年“35岁以下创新35人”(Innovators Under 35 China)中国区榜单。从榜单中,我们看到更多中国创新科研力量的崛起,也看到跨学科、跨领域、并且对落地应用有更强烈企图心与使命感的科研创新,这其中涵盖人工智能研究与应用、NLP、脑科学、新材料、新能源、生命科学、生物科技、自动驾驶等多个不同领域。我们将陆续发出对35位获奖者的独家专访,介绍他们的科技创新成果与经验,以及他们对科技趋势的理解与判断。

关于Innovators Under 35 China榜单

自 1999 年起,《麻省理工科技评论》每年都会推出“35岁以下创新35人”(Innovators Under 35 China)榜单,旨在于全球范围内评选出被认为最有才华、最具创新精神,以及最有可能改变世界的 35 位年轻技术创新者或企业家,共分为发明家、创业家、远见者、人文关怀者及先锋者五类。2017年,该榜单正式推出中国区评选,遴选中国籍的青年科技创新者。新一届榜单正在征集提名与报名,截止时间2019年5月31日。详情请见文末。

    

自从计算机发明以来,人类就一直梦想着能够赋予机器理解自然语言的能力,近年来深度学习的发展为这一领域注入了新的活力。深度学习是一个非常典型的数据驱动的方法,通过对大规模序列数据的学习来去解决一些特定的任务,比如机器翻译、文本分类等,但是实现真正对自然语言的理解还有很大的距离,其中的问题就是想要计算机理解人类的语言,只是通过对语言文本信息的训练是远远不够的,还需要大量外部知识的支持,这就是刘知远所做的工作,如何能够将数据驱动的深度学习,与丰富的复杂的外部知识结合在一起,实现对自然语言的深度理解。

刘知远本科就读于清华大学计算机科学与技术系,毕业后师从本校孙茂松教授攻读直博生,博士起一直致力于面向自然语言处理的语义表示学习,先后研究了基于关键词的显示表示,基于低维向量的隐式表示,以及基于结构知识图谱的知识表示,形成了一套统一的语义表示学习框架。在显式表示学习方面,他提出了一系列面向汉字、词义、实体和网络表示学习模型;在知识表示学习方面,他提出了一系列考虑知识图谱丰富信息的表示学习技术。这些算法均成为相关方向的代表方法。

知识图谱是一个对知识进行构建的强有力的工具,所谓的知识图谱是一个由大量的三元组<头实体、关系、尾实体>所构成的集合,描述现实世界中存在的实体以及实体之间的关系。在计算机中如何对知识图谱进行表示与存储,是知识图谱构建与应用的重要课题,其中一项重要的技术就是表示学习,表示学习又称表征学习(Representation learning),就是利用机器学习技术自动获取每一个实体或者关系的向量化表达。

近年来,知识图谱表示学习中的一些模型像TransE通过把关系作为从头实体到尾实体的翻译来建立实体和关系嵌入。刘知远团队注意到这些模型仅仅简单地假设实体和关系处于相同的语义空间。事实上,一个实体是多种属性的综合体,不同关系关注实体不同的属性,仅仅在同一空间下对他们进行建模是不够的。刘知远团队提出TransR,分别在实体空间和关系空间构建实体和关系嵌入。在学习嵌入阶段,首先将实体投影到对应的关系空间中,然后建立从头实体到尾实体的翻译关系。实验结果表明在链接预测,元组分类和关系事实抽取等任务中,TransR与之前的模型相比性能都有显著提高。

在传统深度学习方法发展如火如荼的时候,刘知远没有盲目跟踪热点,深度思考深度学习缺乏可解释性等严重缺陷,探索知识指导的自然语言处理框架,在非常多的任务中能够看到,引入外部的知识之后,能够在这些任务中取得非常显著的性能提升。

除了学术研究上的突出贡献,刘知远同样注重理论研究的实际应用。他根据博士成果完成的微博关键词抽取应用,曾获得500余万注册用户和3000多万次应用。致力于研制自然语言处理工具包60余项,包括中文词法分析工具包 THULAC、 中文文本分类工具包 THUCTC、知识表示学习工具包 OpenKE、知识获取工具包 THUNRE、网络表示学习工具包 OpenNE、关键词抽取工具包 THUTag 等。这些工具包已获数百家国内外研究机构与公司采用,在 GitHub 上获得超过 1万多星标关注,对NLP的研究与应用发挥了极大推动作用。

也许是在身为教师的爷爷的耳濡目染下,刘知远很早便立下了从事教师职业的志向。谈及学术研究与人才培养,刘知远是这样认为的,“做高水平研究,其实是培养人的一个途径。你想培养高水平的人才,那你就一定是通过做高水平研究来完成,所以我觉得两者是相辅相成的。”刘知远因此更倾向于做一些比较基础的研究,这样能够让同学的能力和潜力得到比较大的发挥。“高校最重要的还是培养人,它本身承担着要持续为社会培养高水平科技人才的任务。”

纵使这几年深度学习方法高歌猛进,刘知远认为不管是国内还是国外,做自然语言处理的学者还是太少。他指出扎实的基础教育与宽广的市场需求使得中国在这方面具有很大发展潜力,但同时也需要在原创性的想法和研究上做更多努力,刘知远表达了自己的一个心愿——“我最大的快乐就是能够帮助那些有潜力的青年同学建立学术和职业志趣。自然语言处理是人工智能得以实现的关键,人类语言也是充满未知的领域,希望更多年轻同学加入进来,一起探索前行。”

麻省理工科技评论

From Tech to Deeptech