乐智网

OpenAI的机器人现在可以击败熟练的Dota 2团队

2018-06-26 16:21 来源:乐智网编译

今天在一篇博客文章中,由Elon Musk,Reid Hoffman和Peter Thiel以及其他科技名人支持的非盈利的旧金山AI研究公司OpenAI透露,其最新版本的Dota 2播放AI -被称为OpenAI Five--在6月份击败了五支业余球员队伍,其中一支由Valve员工组成。

在上一代 OpenAI的系统被限制为1对1的比赛,这是不太复杂比赛。

“Dota是一个非常复杂的任务,你必须以非常连续的状态处理这些长时间的游戏视野,”OpenAI联合创始人兼首席技术官Greg Brockman在电话采访中告诉VentureBeat。“而不是棋盘游戏中的几百步棋,你说的是80,000个画面单帧。无论何时采取行动,许多行为都是增量式的。即使你的控件处于非常低的水平,也必须以某种方式弄清楚如何在这个漫长的时间范围内进行规划。”

OpenAI的机器学习算法涉及五个小组:一个OpenAI员工团队;一群观看OpenAI员工比赛的观众成员;一个Valve员工团队;一个业余团队和一个半职业团队。它在几轮中轻松击败前三队,并且在前三场比赛中赢得了两场,分别是第四和第五小队。

来自Dota 2战场的OpenAI Five的观点

图:来自Dota 2战场的OpenAI Five的观点。图片来源:OpenAI

无可否认,OpenAI Five在少数几个领域占据了一席之地。它可以立即响应每个玩家的健康状况,职位和物品库存的变化。平均而言,其神经网络以每分钟150-170次的动作(达到理论最大值450)进行,超人反应时间为80毫秒。它对许多特殊能力,物品和角色都有限制。

但是这些优势都没有帮助它完成它最令人印象深刻的成就:制定反映职业球员的战略。

在不止一次的比赛中,它牺牲了它的“安全车道” - 对敌方基地抵抗力最小的地图上的路线 - 有利于控制对方的安全车道。通过积极攻击路障和侧翼英雄,它比自己的英雄更加平坦,并且比许多人类对手更快地向敌方基地移动。

OpenAI Five在游戏过程中也学到了新技术,例如避免投射物并为英雄提供大量早期经验点。它甚至部署了诸如“蠕变阻塞”之类的技术,其中一名英雄实际上阻挡了恶意蠕变的路径,这是游戏中的一个基本单位,以减缓其进度。

OpenAI团队写道:“获得诸如战略地图控制之类的长期回报往往需要牺牲短期回报......因为组合攻击需要时间。“这一观察增强了我们的信念,即该系统真正在长期的优化。”

7月28日,OpenAI团队计划于7月28日在OpenAI Five和顶级Dota 2队之间进行比赛。8月底在Valve的年度电子竞技锦标赛国际赛上,它打算击败一支职业球员队伍。

培训OpenAI Five

OpenAI Five包含五个单层,1,024个单位长的短期记忆(LSTM)网络 - 一种可以在任意时间长度内“记住”数值的循环神经网络 - 每个网络分配给一个单一的英雄。网络训练使用深度强化学习模式,通过奖励激励他们的自我提升。在OpenAI Five的情况下,这些奖励包括杀死,死亡,助攻,最后一英里命中,净资产和其他跟踪Dota 2进度的统计数据。

有趣的是,这五个LSTM网络并不互相通信。相反,一个“团队精神”的超参数,范围从0到1,决定了每个由代理人控制的英雄有多少优先奖励或个人奖励。

为了准备比赛,该系统每天可以玩出180年的游戏价值--80%的游戏对抗自己,20%对抗过去的自我 - 在256个Nvidia Telsa P100图形卡和128,000个处理器内核的分布式系统上进行游戏(与旧的Dota bot的60,000个内核)。

有很多数据需要关注。在比赛中,每个角色可以执行数十万个可能的动作,并且组合起来,棋盘上的所有英雄每场平均完成10,000次移动。总之,OpenAI Five考虑到20,000个数字代表人类Dota玩家可以访问的所有信息。

OpenAI员工聚集在一起观看比赛

图:OpenAI员工聚集在一起观看比赛。图片来源:OpenAI

OpenAI的培训框架Rapid由两部分组成:一组运行Dota 2和LSTM网络的部署工作人员,以及在一系列GPU中执行同步梯度下降(机器学习中的重要步骤)的优化器节点。随着部署人员获得经验,他们会通知优化程序节点,另一组工作人员将经过培训的LSTM网络或代理与参考代理进行比较。

在开始的几场比赛中,AI控制的英雄“漫无目的地在地图上行走,”OpenAI写道。几个小时后,他们掌握了防守和农业等基本知识,并且在几天内学习了先进的策略,如旋转地图上的英雄和盗取符文 - 游戏地图上产生的特殊助推器 - 来自对手。

布罗克曼说:“人们过去认为这种事情在今天的深度学习中是不可能的。但事实证明,这些网络能够根据他们发现的一些策略在专业水平上发挥作用......并且真正做了一些长期规划,”布罗克曼说。“令我震惊的是,它正在使用已有的算法,人们说这些算法在特定方面存在缺陷。”

AI的“里程碑”

OpenAI Five不是第一个在复杂游戏中击败人类对手的AI系统。由Alphabet子公司DeepMind开发的深度神经网络AlphaZero在国际象棋、将棋和围棋中取得了超人的水平。卡内基梅隆的扑克玩家利撒拉斯AI在一场为期一个月的职业扑克玩家系列比赛中提出了数千美元的虚构美元。而且由谷歌在2017年收购的Maluuba开发的机器学习方法被用于创建一个系统,该系统在Pac-Man女士中获得了最高分数‘999,990’高于任何人类玩家的得分。

但是对于Brockman来说,OpenAI Five的成就不仅仅是Dota。这是向人工智能迈出的重要一步,可以执行比今天的系统更复杂的任务。

布罗克曼说:“游戏真的是人工智能研究的基准。这些复杂的战略游戏是我们一直在努力的目标,因为他们开始捕捉真实世界的各个方面。”

为此,OpenAI有许多人工智能派的手指。去年,该公司开发了一种软件,通过在模拟场景中随机化颜色,光照条件,纹理和相机设置,为神经网络生成高质量的数据集。(研究人员使用它来教一个机械臂从食品杂货中删除垃圾邮件罐)。最近,在2月份,它发布了Hindsight Experience Replay(HER),这是一种开源算法,有效地帮助机器人从故障中学习。

布罗克曼说:“你想最终得到能够影响真实世界的系统来帮助人们,无论是老年护理机器人还是其他真正有益于人的东西。人工智能是人类创造的对社会有意义的东西。”

(来源:venturebeat)

版权与免费声明
①本网凡注明来源“乐智网”的所有作品,版权均属于乐智网。转载方务必在文中注明来源,并附带链接 http://www.lezhiot.com/。若转载方没有严格执行上述约定,乐智网将视为侵权,并追究相关法律责任。 ②本网转载其他网站作品的过程中会注明来源,目的在于为读者传递更多信息,并不代表乐智网赞同其观点或证实相关内容的真实性,不承担此类作品侵权行为的直接责任及连带责任。其他媒体、网站或个人从本网转载时,必须保留本网注明的作品来源,并主动承担版权等法律责任。
乐智网二维码

扫一扫关注我们