材料学家好助手:AI 可以分析论文并提取关键“配方”

新材料
材料学家好助手:AI 可以分析论文并提取关键“配方”
麻省理工科技评论 2017-11-08

2017-11-08

一支由来自美国麻省理工学院(MIT),马萨诸塞大学阿默斯特分校(University of Massachusetts at Amherst),以及加州大学伯克利分校(UCB)的研究团队开展了旨在实现材料研究自动化的科研项目。
新材料
一支由来自美国麻省理工学院(MIT),马萨诸塞大学阿默斯特分校(University of Massachusetts at Amherst),以及加州大学伯克利分校(UCB)的研究团队开展了旨在实现材料研究自动化的科研项目。

近几年,例如 Materials Genome Initiative 和 Material Project 等的研究机构创造了许多用于新材料制造的计算工具。运用这些工具制造的材料被广泛应用在从航天材料到能源电路等的众多方面。但是,新材料的研制过程越来越依赖于对于科研经验,直觉,以及研究论文的系统性分析。

一支由来自美国麻省理工学院(MIT),马萨诸塞大学阿默斯特分校(University of Massachusetts at Amherst),以及加州大学伯克利分校(UCB)的研究团队开展了旨在实现材料研究自动化的科研项目。研究人员研发了一种能够分析科研论文并从中总结出新材料“配方”的人工智能技术。麻省理工学院(MIT)材料学与材料工程部(DMSE)的能量学 Atlantic Richfield 助理教授 Elsa Olivetti 表示:“目前,计算材料学的科学家在根据材料特性需求确定研制方向的方面做出了很大进步。这样一来,如何制造这种新材料便成为了材料学研究的瓶颈。”

研究人员希望,这项研究的成果将建立一个从数百万论文中提取的新材料“配方”的数据库。当科学家或工程师准备制造一种新材料时,他们可以将材料名称输入进系统,并输入其他如前驱材料、反应性质、制造过程等的条件,来获取制造配方。为了实现这样的目标,Olivetti 和她的同事研发了一种新的人工智能系统。这种系统将能够分析研究论文,推测出包含材料配方的段落,并将这些段落中的关键词进行分类:材料名称、性质数据、实验装置名称、操作环境、材料性质描述等等。

在团队发布在最新一期《材料化学》杂志上的论文中,研究人员展示了利用机器学习的系统能够通过分析提取的数据来推断不同材料种类的共有特性(如材料制造的温度范围)和单个材料的某个特性(如在不同制造条件下材料的不同物理性状)。这篇论文的首席作者是 Olivetti,其他作者为:MIT 研究生 Edward Kim,DMSE 博士后 Kevin Huang,UMass Amherst 电脑科学家 Adam Saunders 和 Andrew McCallum,UCB 材料学荣誉教授 Gerbrand Ceder。

研究人员利用了有人为介入与无人为介入的机器学习结合训练研究所利用的系统。有人为介入意味着训练系统所用的数据将会首先被人做标注,而系统将会分析得出数据与标注之间的联系。无人为介入意味着训练数据不会被标注,系统将会学习如何通过相似数据结构来将这些数据进行分类。由于材料配方的数据提取是一项全新的研究领域,研究领域不存在任何的已标注的数据来供 Olivetti 和她的同事使用。这样一来,她们需要自己标注训练数据(约 100 篇论文)。

根据机器学习领域的标准,这样的训练数据规模很小。为了优化训练数据库,研究团队利用了谷歌研发的 Word2vec 算法。这种算法通过分析关键词与上下文的联系来将拥有相似上下文的关键词进行归类。例如,如果一篇文章中有“我们将四氯化钛加热到 500 摄氏度”这样的句子,另一篇文章中有“氢氧化钠被加热到 500 摄氏度”这样的句子,Word2vec 算法会将“四氯化钛”和“氢氧化钠”归为一类。

这种算法能够将被应用到单个关键词上的标注同时应用到这个关键词所对应的组中,使研究人员能够大大扩充训练数据规模。这样一来,训练数据库从 100 篇论文扩张到了 640000 篇论文。由于没有任何标准来衡量新系统处理没有人为标注的数据得到的结果,研究人员只能利用新系统处理人为标记的数据的结果来衡量系统的精准程度。测试结果表明,系统在确定包含新材料配方所在的段落时拥有 99% 的准确度,而在标注段落中关键词时拥有 86% 的准确度。

研究人员希望未来的研究能够提高系统的准确度,并已经开展了一系列帮助系统归类材料配方的机器学习技术。研究人员的最终目标是利用系统来推测出不存在于已发布论文中的全新材料配方。Olivetti 过去的大部分研究注重于探索划算又环保的制造材料的方法。她希望这样的数据库也能够帮助她过去的研究项目。

加州大学圣巴巴拉分校材料学的 Fred and Linda R. Wudl 教授 Ram Seshadri 表示:“这样的研究具有重大意义。研究的发起人背负着利用人工智能来解决材料制造策略的重任。虽然研究已经展示了机器学习的能力,但要最终证明这样的系统的优势还需要确定实践者是否能够更相信这样的系统而不是自己的直觉来创造出可信的成果。”此研究得到了美国国家科学基金会,美国海军研究处,美国能源部的,特别是麻省理工学院能源计划的大力支持。Kim 得到了加拿大自然科学与工程研究理事会的部分支持。

壹伴上传_17-9-27 11-08-25.jpg

麻省理工科技评论

From Tech to Deeptech