本篇文章1898字,读完约5分钟
挑战雅达利游戏是深明的研究日常。 当地时间3月31日,世界上最受瞩目的人工智能企业在自己的官方博客上发表了挑战的最新进展:在57种雅达利游戏中全面超越人类,这在业界尚属首次。 57种阿塔利游戏deepmind是最近发表的预印本论文和博客,是agent57,在ale(arcadelearningenvironment )数据集的所有57个阿塔利游戏中实现了超越人类的表现 如果代理57真的像deepmind中提到的那样优秀,它将是建立越来越强大的ai决策模型的基础。 想象一下人工智能不仅能自动完成平凡反复的任务(如数据输入),还能自动推理环境。 这对想要自动化来提高生产力的企业来说可能是福音。 为什么选择雅达利游戏让每个代理尽可能多地完成任务是deepmind以往的研究目标,该企业也认为这是通往通用人工智能的必由之路。 利用游戏判断代理的性能是加强学习研究的普遍方法。 游戏中的环境是实际环境的模拟,一般来说代理人能够应对游戏中的环境越多越复杂,在实际环境中的适应力也越强。 这次deepmind挑战的街机学习环境中包含57种意大利游戏 选择雅达利游戏作为挑战目标的理由主要有三点。 首先,阿塔里游戏具有足够的多样性,可以判断代理的泛化性能。 其次,我有足够的兴趣模拟实际环境中可能遇到的情况。 第三,阿塔利游戏是由独立的组织构建的,可以不使实验偏见。 很早以前,deepmind就开发了deep q-network(dqn ),挑战了在雅达利57的游戏。 dqn是雅达利2600游戏众多挑战者中第一个达到人类控制水平的特工 期间有了进步,但改进的dqn没有克服montezuma's revenge、pitfall、solaris、skiing这四个比较难的游戏。 这次新公布的代理人57改变了这一局面。 代理人57是如何超越人类深明在自己的博客上发表代理人57的框架的 代理57采用强化学习算法,在多台计算机上运行,这些ai授予代理选择并执行在环境中能使奖最大化的动作。 迄今为止,强化学习在电脑游戏行业显示出很大的潜力。 openai的openai five和deepmind的alphastar rl代理分别打败了99.4%的dota 2玩家和99.8%的星际2玩家。 具体地说,代理57的计算框架通过向代理57可采样的中央存储库(也称为经验闪回缓冲区)提供大量的actor(actor可以理解为状态行为)来学习。 该缓冲器包括在与独立的高优先级游戏环境副本交互的actor过程中生成的定期剪枝转变序列。 deepmind团队使用两种不同的ai模型,证明代理使用特定策略执行特定操作的好坏,从而使代理57能够对应报酬的平均值和方差。 此外,集成了在各actor上独立运行的元控制器,可以在训练和判断时自适应地选择采用什么样的战略。 deepmind研究小组表示,该框架模型有以下两个优点:第一,通过训练中战略优先顺序的选择,代理57分配了越来越多的互联网容量,与手头任务最相关的战略的状态行为值关系 第二,在判断时,可以用自然的方法选择最佳的战略。 agent57提高了muzero、r2d2、ngu等领导算法和成绩,deepmind团队以自己的算法和muzero、r2d2、ngu等领导算法为对象。 其中,muzero在所有57种游戏中都达到了最高平均分( 5661.84 )和最高中位数( 2381.51 ),但在venture等游戏中成绩不好,得分只是相当于随机战略的水平。 与此相对,代理人57的整体表现上限高于100 ( 100 ),50亿帧训练后在51个游戏中超过了人,780亿帧训练后在skiing游戏中超过了人。 在表现优于人类之后,deepmind团队也在官方博客上明确了团队下一步的计划。 “代理57最终在所有基准集中最难的游戏中超过了人类的水平。 但是,这不意味着阿塔利亚游戏研究的结束,不仅要关注数据效率,还需要关注整体表现……将来的第一个改善可能会对代理57进行搜索、计划和可信度的分配。 “论文合作者之一在官方博客上写道。 但是,对于deepmind这次的新进展,很多网民在网上表示祝贺,也有人提出疑问。 有些人认为代理57优于人类的说法不正确,只能说优于人类的平均水平。 因为在名为montezuma's revenge的游戏中,代理57没有打破人类的最高级别。 另一方面,deepmind的研究一直侧重于雅达利等游戏中的性能表现,但如何利用该模型来处理现实世界的实际问题更重要。 (本文来自澎湃信息,越来越多的原始信息请下载“澎湃信息”APP )