编者按:近几年来,人工智能一词可谓是赚足了公众的眼球,机器人不仅能处理各种繁重的工作,还学会了如何玩电子游戏,过不了多久,可能就能和人类一起 大打电竞了。
“拿到钥匙!”
通过简单的英语指令,AI(人工智能)学会了在一个最棘手的 Atari 视频游戏中解谜通关。
【资料图】
加利福尼亚斯坦福大学的一个团队开发了AI玩蒙特苏马复仇游戏的系统,在该游戏中玩家们要在Aztec寺庙中刷宝。AI学习该游戏是具有挑战性的,因为游戏里的宝藏分布稀疏,它要求玩家在得分前进行一些动作操作。
大多数视频游戏的人工智能运用强化学习策略,他们要依赖反馈,例如游戏得分,来告诉他们哪里操作得好。为了帮助AI更快地掌握游戏策略,斯坦福团队以自然语言指令的形式辅助强化学习系统,例如建议它“爬上梯子”或“拿到钥匙”。
团队成员 Russell Kaplan说:“想象教一个孩子打网球,把球拍交给他让他在乒乓球机旁练习10年。这基本上是我们现在教AI的情形;事实证明有教练教的孩子学习得更快。”
用这种方式教AI可能会有更深层次的应用,因为使用自然语言意味着,任何人都可以给AI建议,不仅仅是计算机程序员。
数字化的游戏
该小组首先训练 AI 把指令与游戏中正在进行的相同动作的截图关联起来。然后,他们让 AI 用一系列游戏角色通过的每个房间的指令练习玩游戏,对完成命令和游戏通过的行动进行奖励。
为了验证 AI 对“爬梯子”等命令有了大致的理解,研究人员进行了另一项实验,他们移除了第二个房间的训练数据。Kaplan说,系统尽管以前没有见过房间布局,但仍然能够按照该房间的指示进行操作,这表明它不仅仅是死记硬背。相反,它可能是从先前的指令进行了发散。当它找到一个更好的攻略时,它也学会了忽略指令。
在游戏中该系统获得了3500分,打破了OpenAI Gym(测试人工智能在虚拟环境中的在线平台)的最高分2500分。DeepMind 的人工智能在该游戏中获得高达6600分,但它花了近两倍的时间训练。它将强化学习与一种称为内在动机的方法结合,来奖励AI的好奇心和对其环境的探索。
自然引导
Kaplan说,DeepMind 的方法更先进,但他认为这两种方法都值得称赞并希望尝试将两者相结合。当AI在游戏中获得进步,该小组还计划减少指令的数量,看看它从获得指令到停止依赖于指引的学习速度有多快。
卡内基梅隆大学的Devendra Chaplot说,使用自然语言指导是一个有趣的方法。他说:“它为人类引导人工智能系统提供了一个自然的方式,所以非常实用。”
虽然把它翻译成现实世界可能是一个挑战。Chaplot说:“该项目采用一套固定的指令,但理解自由的自然语言指令仍是一个非常具有挑战性的开放式问题。”。
Kaplan 说,对他们有利的因素是丰富的数据集可以将真实世界图像与自然语言描述相联系,这可以用来帮助训练 AI。
翻译来自:虫洞翻翻 译者ID:看见一片海 编辑:杨志芳