《连线》:机器阅读真的超过人类了吗?还不一定

机器人
《连线》:机器阅读真的超过人类了吗?还不一定
麻省理工科技评论 2018年1月22日

2018年1月22日

AI还有很长的路要走。
人工智能
AI还有很长的路要走。

1月13日,微软和阿里巴巴同时宣布已开发出“在阅读上胜过人类”的人工智能软件。随后,媒体的发酵更是让这项技术突破承载了“夺走数百万份人类工作”的可能。不过用理性的眼光看,该技术还远不能在阅读方面与人类真正达到同等水平。

两家科技巨头的信心来源于自家AI软件在一项阅读理解测试上得分超过普通人类的表现。但是,开发该测试的斯坦福大学科研人员表示,这两家公司用于与机器数值对比的人类平均水平值,并不能反映英语母语人群的实际阅读能力,所以“机器比人类更会阅读”一说有失偏颇。一位直接参与此项目的微软研究人员也表示:只有人才能充分理解语言中的细节和含义,而机器确实还差得远。

过往科技公司在AI上的技术突破,尤其是豪言“超越人类”的突破,大多都值得商榷。2015年,谷歌和微软同时宣布自家的算法在图像辨别方面已胜过人类。事实上,当时作为评判依据的那项测试,要求被测试者将图像分为一千类,其中120类是不同狗的品种。自然,这对于普通人类的难度,要远远高于能预先通过大量样本学习的机器。另一方面,人类在真正理解图像上的能力仍远胜于机器,因为后者不具有常识性的认知能力:谷歌目前仍在特意审查“大猩猩”词条的搜索结果,以防自家的图像搜索引擎将其与黑人图像相混淆。

类似地,2016年微软宣布已开发出“历史性的”、能真正达到人类水准的语音识别软件。而几个月后,IBM重新评估了人类在微软所用评测中的平均水平,并发现人类的表现远比微软先前所取的数值高。到目前为止,机器还远不能像人类一样“听懂”在嘈杂环境中的闲聊内容、口语化或含糊的言谈、抑或是不同口音的对话。无独有偶,微软和阿里巴巴近日提出的关于软件在阅读理解方面超越人类的宣言也是建立在很多附加条件之上。这次用于横向比较机器和人类的测试叫SQuAD(Stanford Question Answering Dataset),由斯坦福大学开发,形式类似于大家以前上学做的阅读理解题。机器学习软件就从维基百科上摘录的文段答1万个问题,例如“水滴与冰晶碰撞形成降水的地方在哪里?”,作答形式是将答案(“云层中”)从原文中找出来并高亮。参与测试前,软件制作者可以通过分析9万个附有答案的样本题来搭建软件。

deep-machine-learning.jpg

在一月早些时候,微软和阿里巴巴向斯坦福大学提交了模型并分别做到在测试中准确高亮出82.65%和82.44%的答案,而斯坦福大学所取用的代表人类水平的数值是82.304%。阿里巴巴的官方报道中称自家软件“在最具难度的阅读理解测试中超越人类”,微软也自诩“已做出可以像真人一样阅读文件并答题的软件。”SQuAD的创造者之一、斯坦福大学教授PercyLiang表示自己在2016年设计该测试时的初衷并非为了精准比较机器和人类的能力,而且从设计原理上看,这项测试对机器更有利,因为机器和人类的评分标准是不一样的:微软和阿里巴巴使用的人类成绩来自Mechanical Terk,每道题目会选出三个答案,一个是所谓的“测试者答案”,两个是用来对比的答案,只用两个对比答案降低了“测试者答案”答对的几率,让人类和机器相比落了下风。

学界对科技行业这种结论也提出了质疑。以色列巴伊兰大学的一位高级讲师Yoav Goldberg就表示,该测试用Amazon Mechanical Turk上的普通劳动力资源答题,本质上就不能代表人类的真实水平。首先,众包平台上的劳动力水平参差不齐,其次这些一小时挣9美金的人在接这种科研性质的“活”时也不太可能认真阅读那些wiki文段或者在乎答案的对错。82.304%这个数字更多代表的是一群AMT worker答题的统一性,而非人类阅读理解的实际平均水平。

就此次“宣言”接受美国《连线》杂志询问时,微软科研经理Jianfeng Gao也通过一封公开信表示:“目前我们所做的研发和测试仍有很多限制和纰漏。总的来看,人类确实在理解语言这种复杂且微妙的事物时,远远强于机器。”不过,微软和阿里巴巴借此展现出的在AI领域取得的突破是有目共睹的。参与SQuAD的斯坦福大学科研团队成员Pranav Rajpurkar就对两家公司的科研团队大加赞赏。同时,他表示SQuAD团队要继续优化测试的机制,从而让SQuAD继续做衡量机器学习软件在阅读理解领域成功与否的标尺。前文提到的SQuAD创始人之一Liang教授也评论说:“[SQuAD]现有的评估机器能力的方法太过侧重于表面上的内容连线,而非考察真正的对文字含义的理解。”

美国西雅图艾伦人工智能研究所的CEO,Oren Etzioni对AI领域频频出现的突破既感到激动,又保持审慎:“看到机器学习已能在一些单一任务上赶超人类,我感到很高兴。开发专门应对某项任务的软件,比如广告定向、家用音响,将会是很实用且赚钱的行业。”不过同时,AI还有很长的路要走——“人类在进化中培养出的这种自然性的语言交流和理解,仍给AI留了很深远的探索空间。”Etzioni补充道。

壹伴上传_17-9-27 11-08-25.jpg

麻省理工科技评论

From Tech to Deeptech