本篇文章2021字,读完约5分钟
科杰输了和阿尔法戈的第一场比赛 对战前的深夜,科杰在社会交往网上发表了题为“最后的对决”的复印件,充满了易水决裂般的悲壮感,“现在的ai进步远远超出了我们的想象……我相信未来是人工智能。 王思聪在评论区说:“啊,李(世石)和阿尔法go在下面的时候,你那傲慢劲儿去哪儿了? 」提问了。 年3月,韩国选手李世石以1:4战胜阿尔法戈后,这个少年有志的天才棋手确实在微博上豪言壮语“阿尔法狗战胜李世石,战胜不了我”,成为超级网红。 人类棋手在过去的一年里,一直在研究阿尔法戈的做法,努力找出阿尔法戈的弱点,其实阿尔法戈也已经结束了世代交替,现在已经不如以前了。 科杰在比赛后的发表会上判断阿尔法戈和去年是“狗”,去年接近了人类,但现在感觉在作为“围棋神”的围棋中接近了没有失误的完美境界。 阿尔法戈的父亲,迪普明德创始人德米斯·哈萨服务也在当天的比赛后发表会上承认,与李世石联手的阿尔法戈还有一点漏洞,在过去一年里全力完成算法,填补了漏洞。 那么,现在的阿尔法戈到底发生了那些变化呢? 阿尔法戈的研发企业深明是怎么升级的? 5月24日上午,在中国乌镇人工智能峰会论坛上,哈扎维斯和alphago团队负责人dave silver (戴夫·席尔瓦)透露了新一代阿尔法go的奥秘。 深度强化学习:降低搜索树的宽度和深度 本文的照片都是 ; 澎湃情报记者王心馨 ; 这次洁具对的阿尔法戈主场版与去年李世石面对的阿尔法戈尔版主要有三大区别。 首先,阿尔法戈主场版抛弃了人类棋谱,单纯地从阿尔法戈里版的经验中学习。 其次,阿尔法go母版的计算量是阿尔法go李版的十分之一,只在单一的tpu机器上运行。 最后,阿尔法go主版有更强大的战略互联网和价值互联网。 要理解阿尔法戈的算法,首先从1997年打破国际象棋神话卡斯帕罗夫的“深蓝色”算法开始。 国际象棋的每一步都引出以下30种可能的走法。 局面的趋势和持续30个分支的大树一样。 “深蓝色”是搜索这棵大树的所有部分,找到现在最好的一步。 “深蓝色”的计算能力达到每秒1亿个位置,是那个时代的划时代产物。 但是如果来到围棋那里,就不能计算出这样相当大的力量。 围棋一步一步引出的后续选择有几百种 这样巨大的搜索树不会变穷 哈萨比斯说,围棋比解构性象棋更有构筑性的游戏,不是单纯的计算,而是依靠直觉。 阿尔法戈依赖两个互联网来简化这个巨大的搜索树。 是缩小搜索树宽度的战略互联网和缩小搜索树深度的价值互联网。 席尔瓦介绍说,阿尔法戈里版首先使用战略网络进行深入学习,输入很多人类棋谱,根据人类的经验排除搜索树的一部分。 也就是说,围棋现在的每一步都有一百种可能性,但根据人类的经验,只有一部分是好的选择,阿尔法戈只需要搜索这些部分,另一个是“臭棋”。 而且,阿尔法戈也不需要把这些分支点搜索到最后,模拟到棋盘结束,无法知道现在这一招的优劣。 在现在的特定选择下,阿尔法go只需要模拟几步就能得到一个分数。 这个数值越大,阿尔法戈获胜的概率就越高。 那么,这个数值是怎么得到的呢? 这是通过价值互联网进行的强化学习 在强化学习中,阿尔法戈根据战略网络推荐的走法进行自我游戏,左右互相战斗,反复自我训练,积累大量数据后,阿尔法戈可以更快地对现在走法的胜率有概念。 战略互联网和价值互联网联合形成的深度强化学习不能提高alpha go的计算能力(实际上,alpha go每秒计算1万个位置,远低于“深蓝”),但可以更聪明地计算alpha go。 阿尔法戈自学成才:上一代是新一代老师,这次洁具对的阿尔法戈主场版与去年李世石面对的阿尔法戈里版相比,作为深入学习的一环,采用大量训练数据的不是人类棋谱,而是阿尔法戈里版的自我游戏之德 ; 阿尔法go母版版支持阿尔法go李版的三大升级。 席尔瓦说。 “阿尔法戈的母带版本能够如此有效地计算的最重要的理由是我们采用了最高和最可用的数据来训练它。 我们说的最好的数据不是来自人,而是来自阿尔法戈自己 阿尔法戈等于说现在自学成功了 我们把它当作自己的老师,这一代阿尔法戈也将成为下一代阿尔法戈的老师。 “吸取了很多自我学习的经验,这次和科杰合作的阿尔法戈主场版的战略互联网和价值互联网,也是因为这更强大。 这大幅度提高了阿尔法戈的运算效率,将计算量削减到李世石对战时的十分之一。 从硬件上看,alpha gory版在下棋时需要50个tpu(Google为了加速深层神经互联网的运算能力而开发的芯片),alpha gory版现在在与科杰对战时只需要1个tpu。 而且更强大的alpha go母版版会带来更好的数据来训练下一代的alpha go。 这是一个很好的循环 阿尔法戈的反复强化 哈扎维斯说,阿尔法戈的主要目标是“追求完美”。 过去几千年,人类没有达到围棋真理的境界。 他希望阿尔法戈能和人类一起努力接近围棋真理。 (本文来自澎湃信息,越来越多的原始信息请下载“澎湃信息”APP )