马斯克的OpenAI:全新方案有望取代强化学习,通用人工智能并非不现实


本文属于本次Emtech Digital人工智能峰会独家精选文章。


2013年,英国一家人工智能创业公司DeepMind就教会了软件如何在经典的Atari游戏中战胜人类顶级玩家,这在计算机科学界引起了不小的轰动。不久之后,DeepMind就被Google收购。这款神秘软件背后的奥秘——强化学习,也逐渐成了人工智能和机器人领域内的研究的热点。

 

去年,Google再次使用强化学习构建了一款战胜人类顶级围棋玩家的软件。随后,机器学习正式成为时代的“宠儿”。



现在, OpenAI(由埃隆·马斯克等硅谷大亨联合建立的人工智能非营利组织)的研究人员表示,他们已经找到了一种更容易使用的方法,在玩游戏和执行其他任务中可以与强化学习相竞争,甚至可能取代强化学习。在昨天由《麻省理工科技评论》在旧金山举行的Digital EmTech大会上,OpenAI研究室主任Ilya Sutskever表示,他们的方法可以让研究人员加速推进机器学习领域的进展。

 

Sutskever表示,在标准基准测试中,这种方法能够与今天的强化学习相竞争。另人惊讶的是,这种方法有时更简单。Sutskever认为,找到让软件学会玩电脑游戏或引导机器人等任务的新方法对于开发执行更加复杂任务的机器学习软件具有重大意义,人们需要的不仅仅是识别图像和语音翻译。他说:“如果我们能让计算机系统学会处理现实世界中的复杂任务,然后,我认为我们才能把这些系统称为智能系统。”


Sutskever及其同事使用了“进化策略”的新方法构建了人工智能软件,并教会了它玩50多种Atari游戏,包括“Pong” 和“Centipede”这两个经典游戏。因为该新方法容易部署到多个处理器上,因此在一个小时内,他们就能训练好一个顶级的人工智能玩家,而训练由DeepMind去年开发的强化学习系统则需要约一天的时间。研究表明,在一些游戏中,这两种方法都表现出相同的学习能力。

 

▲  OpenAI的研究室主任Ilya Sutskever


在对机器人的标准测试中,进化策略也表现出类似的优势。在机器人测试中,软件需要找出如何在虚拟环境中模仿人的行走。研究人员表示,用新方法构建的系统只需要训练10分钟,就能达到目前用最先进的强化学习系统训练10小时所能达到的效果。

 

该新方法重现了几十年前的老观点:通过使学习软件尝试不同的方法,找到最高效的方法。这大概是受到自然选择促使生物适应环境的机制的启发。Sutskever表示:“一直以来,就人尽皆知的算法表现得比人们想象中的还要好。”


他拒绝透露可能得益于进化策略的人工智能有何具体应用。Sutskever表示,还需要进行更多的研究以找出其优势和劣势,但是相比于强化学习,这种方法可能会更好地执行更加复杂的任务。

 


因此,Sutskever表示,他相信进化策略将会帮助OpenAI实现构建通用人工智能系统的目标——可以应对多种复杂的场景。机器学习领域内的研究人员通常不主张研究通用人工智能系统,他们往往追求的是在特定的研究问题上取得进步。OpenAI曾经宣称,它要构建通用人工智能系统,这是它的使命之一。Sutskever表示,从机器学习所取进步的步伐来看,构建通用人工智能系统的目标现在需要引起人们的关注了。

 

他说:“现在看来,要构建通用人工智能系统似乎还很遥远,但反过来想想在五年前,它不是更加遥远吗?现在,无论是从事该算法开发的人数还是所付出的努力都是相当巨大的,通用人工智能的研究也正在以非常健康的步伐向前发展。“




上一篇:用云端大脑优化算法,这只机械… 下一篇:谷歌大脑:具备创造力的AI将…




推荐文章:

英特尔另辟蹊径,用硅材料打造量子计算机!深度学习模仿巴赫清唱曲,可以假乱真美空军成功测试IBM最新仿人脑芯片,以超低能耗识别俄罗斯坦克精度高达95%|独家即围棋之后,扑克又被人工智能攻陷最新量子计算机单价1500万美金成功出售,但仍遭遇科学家质疑|独家下一代AI家庭助手将拥有可视化界面