AlphaGo Zero 文章来源: 财新网 作者:王烁
今天(10月19日)凌晨,谷歌旗下Deepmind团队在《自然》杂志发表人工智能界期待已久的论文《无须人类知识掌握围棋》(Mastering the game of go without human knowledge),印证了一个人们已经猜到的事实:今天的阿尔法围棋(AlphaGo)已经完全不是人了。
阿尔法围棋于2015年10月面世,击败欧洲冠军樊麾;2016年3月击败人类顶尖棋手之一李世石;2017年元旦前后在网络上化名大师(Master),60比0完败前来车轮战的人类一流棋手;2017年5月在乌镇3比0战胜当下人类最强者柯洁。
随后,Deepmind团队放出阿尔法围棋自战50局,人类陷入迷茫,完全看不懂。读完论文,就明白了为什么。
阿尔法演化得太快。
阿尔法樊麾版和李世石版是阿尔法围棋1.0版。它用了三种算法,策略网络加价值网络加蒙特卡洛树搜索,分别对应于人类的棋步选择、形势判断和深算;训练时,阿尔法1.0版走的是监督学习+强化学习路线,所谓监督学习,就是用人类的棋谱喂它,在此基础上,自我对弈,强化学习。阿尔法以人为师,学了半年,战胜人类。
到了阿尔法大师,已进化到阿尔法1.5版。大师仍然以人为师,但不再是三种算法并行,而是化归为一种创新的自我强化学习算法。如果我没读错论文的话,大体是自我对弈,用蒙特卡洛树搜索寻找最优下法,将输出结果作为输入值重新跑算法,如是反复迭代。
大师很强,但还是人的围棋。今天面世的论文则介绍了非人的围棋,阿尔法围棋2.0。除了使用新的自我强化学习算法,它完全放弃监督学习,而是直接从围棋规则开始,自我对弈,跑强化学习算法。
论文解释,在现实生活中,专业数据集往往昂贵或不可得,甚至可能给机器增加一层“天花板”。完全让机器自学,才有可能让它超越人类的局限性,发现前所未见的新方法。
这个阿尔法从零开始,所以,它的名字叫作零(Zero)。
谷歌用这个名字告诉人类,零需要的人类知识是零。它完全没有向人学棋,通过自我对弈学习。学到第36个小时的时候,已经超过李世石版;学过三天,自我对弈490万局,学成出关。
阿尔法零与李世石版大战100局,100比0。 与战绩一边倒相应的是算力消耗的一边倒:阿尔法零是单机版,只用4个TPU,李世石版使用了176个GPU(图形处理器)和48个TPU,而且学习时间是好几个月。
算法优化提升效率太多,大量减少对算力的要求。这篇论文因为提交时间较早没来得及提到,但我猜在乌镇战胜柯洁的那个阿尔法,肯定已是零——这次只带一台机器过来就可以了。
有意思的是,阿尔法零在预测职业棋手的下一步上,并不如李世石版精确,这说明零下的棋跟人下的棋已经不是同一种围棋:它不需要预知人类的下一步,因为人类下得有点差。
论文是4月7日提交的,当时还没有和柯洁下。大家可以去看英文原版,上面写的很清楚。(
Received 07 April 2017 Accepted 13 September 2017 Published online 18 October 2017 )。论文中zero 40天 89:11击败的master是网络60:0时的版本。记得乌镇人机大战时,deepmind就已经说alpha go可以不依赖人类棋谱了。
我也认为和柯洁下的应该是zero,至少是要比60:0时的master高的版本。