飞扬围棋

 找回密码
 注册
搜索
楼主: cateyes
打印 上一主题 下一主题

[轉帖]陈经:分析AlphaGo算法巨大的优势与可能的缺陷

[复制链接]
16#
发表于 2017-3-15 14:05 | 只看该作者
看看~                    
回复 支持 反对

使用道具 举报

17#
 楼主| 发表于 2017-4-1 14:58 | 只看该作者
专访田渊栋:AlphaGo之后研究智能围棋还有什么意义
http://k.sina.cn/article_2118746 ... doct=0&rfunc=23
03月27日 21:59






没有什么是永垂不朽的,没有什么会一直昌盛,所以我宁愿做点真正有意义的事情,来致敬这个风起云涌的人工智能时代。
-------题记。
近日,田渊栋受地平线曾经在Facebook的同事邀请,赴中国做了一期大牛讲堂,分享了关于游戏和增强学习等的话题。分享会后,AI科技评论采访了田渊栋,就他为什么离开Google无人驾驶团队去Facebook人工智能研究院,现在正在做的工作,如何平衡工作中理论和应用的比率,怎么看待绝艺和AlphaGo的棋艺水平,怎么看待智能围棋的实用价值,接受了AI科技评论的采访。以下是采访正文。
1. AlphaGo目前是世界第一的围棋选手,在此之后,研究智能围棋还有什么意义?
我觉得围棋是很有意思的游戏,AlphaGo虽然把它做出来了。但很多东西的做法和人是不一样的。人在学围棋的时候有很多概念,按照概念做判断,但是机器解决他还是比较暴力的。
一方面,你可以说人用概念来做推理局限了他的计算能力,体现出人本身有一个高度抽象的能力,就是用非常非常局限的计算能力,能达到那么强的棋力。而AlphaGo就是用非常多的计算能力去弥补这些不足,所以恰恰是互补的,我相信还是有意义的。
另一方面,联系到后面那个问题(目前你的研究团队,对围棋AI的研究进展到何种地步?相比AlphaGo如何。),我们这边在开源之后就先放在那儿了,可能等到以后我们有新想法再拿过来试一试。我们这边是七八十人的研究机构,要让我们花二十人做围棋,这个是不可能的。我们这边都是很有名的研究员,这些研究员每个人都有自己的方向,像计算机视觉和自然语言处理等等,不可能把自己的方向放弃掉来专门(搞围棋)。
最后,从本质上来说,我们的风格跟其它公司不一样。我们研究员的一个目标是说在大家不做这个东西的时候,在比较冷门或者大家不相信它能做得更好的时候去做它,证明这条路能走通。比如说我们在做DarkForest的时候,围棋还是很冷门的方向,大家都不认为围棋可以做出来。我们的文章比AlphaGo早了三个月出来,证明这个东西确实有效果,而且能提高挺多的,这就是我们的贡献。我之前在采访里面说过,好的研究就是“于无声处听惊雷”。
像星际这样的游戏,大家都不知道怎么做,研究员们的任务就是要想办法找到一些突破口,这个突破口可能没有人想到,或者是没有人觉得能做成,我们的目标是在这儿。我回到第一个问题,就是说智能围棋之后还有什么意义,就是我刚才说的,如果有人愿意想要做下去的话, 就看能不能自动从里面学出一些概念来,学出一些有意思的东西,比如说人有大局观或者是大势,或者是各种下棋时候的概念,概念是不是能从这里面自动学出来。像这些,目前大家都没什么办法。
(你说大局观吗?)
对,像这样的东西其实对于我们如何理解人的思维方式是更重要的。职业棋手是很厉害的,人脑的神经传导是毫秒级的,这点时间机器可以干很多事情,但人就是用这么慢的处理速度达到了这么强的水平。2. 绝艺和AlphaGo有差距么,差距是多少,是什么造成了这种差距?
这个我稍微看了一下,我觉得绝艺肯定是比Zen要强挺多,200手不到就让Zen认输了。我之前看新闻是它对职业棋手可以战胜80%甚至更高,所以我相信它已经是做得非常好了,我相信它肯定是超过了或者是相当于AlphaGo之前Paper(AI科技评论注:2016 年 1 月 28 日,Deepmind 公司在 Nature 杂志发表论文 Mastering the game of Go with deep neural networks and tree search,介绍了 AlphaGo 程序的细节。)的水平,但是它跟现在的Master相比,可能还是有差距。3. 跟AlphaGo 3月份比赛的水平比如何?
跟3月份(对战李世石)的时候这个我不好说,我只能说和Nature那篇论文相比做得好, 当然了跟Master比是有差距的,现在Master所有对战是全部都是赢的,没有输的,胜率是100%,而且都是赢的莫名其妙。Master赢了你,你都不知道什么地方出错了,好像下得挺好的,然后就输掉了。所以就是已经到了不知道错哪儿的程度了。我相信他们应该用别的方法做训练的,而不是单纯拓展之前的文章。像我是听说他们最近把训练好的值网络单独拿出来,根据它再从头训练一个策略网络。我觉得这样做的好处是会发现一些看起来很怪但其实是好棋的招法,毕竟人类千百年下棋的师承形成了思维定式,有些棋在任何时候都不会走,所以按照人类棋谱训练出来的策略网络终究会有局限性;而用值网络作为指导,从头训练一个策略网络的话,确实会发现很多新招。
(AlphaGo用其他的方法迭代的?)
我相信他们也用了别的办法,但是细节我也不知道,因为我最近也没有做,所以我也不知道他们用什么样的办法,我觉得这方面需要创新。4. 绝艺这次是跟电脑围棋比赛,跟下一次的真人比赛区别在哪?
电脑围棋我们之前也参加过,就是大家坐着,连上之后让计算机自己下,下到什么地方就说我输了你输了,然后就结束了,有可能说我们看看剩下好像不行了,但是机器误判,就让人去认输。 基本上是这样的过程。
(那我可以这样理解吗?跟电脑围棋比赛的是两个既定程序的对战,比如说电脑围棋绝艺跟真人,比如柯洁对战的时候,是变动性更大一点,是吗?)
我相信是的,因为电脑围棋至少在之前都是有些明显的风格,比如说有些喜欢在角上和你拼,不愿意去外面抢大场。人可能能看出来这个风格,就会击败它,特别是水平不是很高的两个AI下的话,很明显能看出问题,比如我们DarkForest就有死活的问题,我们自己会说,你看这里下得不对,肯定是这里下错了,这个地方他可能判断有问题,以为这块棋是活的,其实是死的,所以会有各种各样的问题。当然了,如果是达到绝艺或者是AlphaGo这样的水平的话,我肯定是看不出来,我需要计算机辅助帮我下到后面才能看到,但是我相信职业棋手还是能看出来,但Master我不知道,我不是特别清楚。5. 以DarkForest为例,除了围棋,这种完全信息博弈的游戏智慧要应用在其他领域需要解决哪些问题?
我觉得现在这个系统是针对于某个问题做特别优化,我之前在 talk里也说了,那么多方法,要依照不同的游戏用不同的方法,没有那么通用的。比如说你在国际象棋上用蒙特卡洛树搜索肯定是不行的,你可能漏搜了某一条特别重要的分支,然后导致一个杀王的走棋序列没有看到,这是非常有可能的。所以整个AlphaGo是一个大的系统工程和框架结构,它需要有几个人每天花时间在上面,还得每天不停地调啊调。所以说,现在所谓的 “人工智能” 还是比较弱的,还是需要人去监督,然后把它做出来。
(如果是要针对某一个特定领域呢?)
就是我刚才说的,你先要对这个领域有了解,然后去设计。比如说围棋和国际象棋就不一样,国际象棋每步的可能性比较少,对局面的判断相对容易,因为这个原因,你要换一个方法做,而不是用原来的方法做。所以对于方法的选择,其实是完全依赖于这个问题本身的,所以这个是需要大量的人工智能相关知识才能做出来的。6. 你刚才讲PPT的时候,讲到你们的围棋理论可以应用在游戏方面,还有其它现实生活中的应用场景吗?
一个问题就是说像完全信息博弈游戏,你知道你下完这步后局面会变成什么样子,你心里非常非常清楚。但到了现实世界的时候,有时候并不那么清楚,没有一个现实世界给你玩,你做完决定之后你得对这个决定的后果负责,所以对这个世界在你下完决定之后变成什么样子,你要有一个大概的估计。
所以你在现实世界做规划的时候,其实需要一个前向模型(forward model), 就是你对将来会发生什么事情的一个预计,前向模型是一种规划,是对将来会发生什么样事情的预计 。比如说你下完这步之后,可能整个情况变成什么样子,之后你再做下一步的计划。所以这个其实是很大的问题,是游戏和现实生活中是不同的。7. 能详细介绍一下前向模型?
前向模型就是你要对现实世界的运行规律做一个模型。比如说你这个房子过了几年会变成什么样子,比如说这朵花过几年会变成什么样子。你当然不可能能预测所有细节,要找到关键性的方面,才能让你的蒙特卡罗树之类的搜索产生效果。比如一个国家30年后会怎么样,和现在这束花是不是会枯萎没什么关系,但可能和大家的收入统计有关系。所以关键就是怎么对现实世界来做出抽象的建模。8. 我们看到绝艺那边,腾讯的副总裁姚星说他们可以把其 “精准决策” 能力用在无人驾驶,量化金融,辅助医疗等,这个是不是说得太早了?
长远来说,通过在绝艺上投入的人力和物力,这些工程师的思考本身可以变成经验。比如说它在人工智能上通过对于绝艺的提高,他知道了蒙特卡罗树的适用范围,知道了增强学习算法的适用范围,对这些算法有一个切身的理解。这样之后,如果去从事其它方向的AI,就更加得心应手 。
我不知道“绝艺”是怎么做的,如果他们用的是Alphago相似的(原理)的话,要用到其他领域上,就不是特别容易 。比如说像辅助医疗,可能更多的是去识别图片,去怎么样去找到病变组织,这个其实更多的是图像识别的问题,而不是说关于决策的问题。所以这个其实关系不是特别大,但是不好说,说不定他们有方法。9. 李开复之前说 “AlphaGo 其实做了相当多的围棋领域的优化,除了系统调整整合之外,里面甚至还有人工设定和调节的一些参数,因此还不能算是一个通用技术平台,不是一个工程师经过调动API就可以使用的,而且还距离比较远。”假如要应用在其他领域,以金融为例,这套系统大概需要改动或调整多少?
这个我也不知道多少,感觉是完全不一样的。你说金融领域,关键是你想要解决什么问题,你想预测股票价格,还是想要预测什么?
(比如信用体系一般比较多。)
根据不同的具体问题可能又是完全不一样的方法,所以你没有办法说把这套框架用在某一个很大的领域,因为这个领域有很多问题,你得列出来,对应每个问题去想这个方法能不能用,所以我觉得这个问题其实很难回答。
(这个是要靠AI加某个垂直应用场景的实践,是吧?)
嗯是的。目前为止现在还不存在一个强人工智能,像人一样什么都可以学会,现在没有这样的东西,所以现在对应具体的问题我要具体分析,根据这个问题再分析,决定用什么样的模型去做它比较好,所以现在是处于这样的状态。所以说机器还不能自己决定用什么模型,还是需要人的输入 。10. 你除了围棋还有其他的研究领域吗?
我们现在主要在做增强学习在游戏上的应用。比如说我在Talk里面讲了围棋和最近在第一人称射击游戏上的应用。另外我也做理论,比如说对于二层神经网络做一些收敛性分析,像这个非凸优化问题,要怎么分析才是好的。
(现在最主要的哪一部分是重点?是理论还是偏应用。)
重点当然是偏应用。理论这个是我以前读博的方向,也是我个人爱好,我自己比较喜欢,觉得深度学习之所以效果好,肯定有其背后的原因,这个是很重要的问题,需要人去理解,不能放弃。当然纯做理论风险比较大,这个大家都知道。11. 其实之前看你知乎的文章,好像是讲过目前深度学习在复杂推理的一些,还有今天的分享里面你也讲了有一些进展和挑战,在这么多挑战里面,最大的一个挑战是什么?
其实有很多点是挺关键的,没有特别重要的,说我们就差这个点了,不是这样的 。其中一个就是你怎么样去像人那样有高层的建模能力,人可能对一件事情会有比较整体的把握。什么是战略上的。什么是战术上的,什么是具体执行上的。人在处理问题时很自然就会有这样层次式的思考方式。目前为止很多人想做这个。虽然你可以设计很多模型,但没有看到特别稳定的,很多模型听起来很好,但是训练的时候,效果会有问题,会有很多实际的问题,没办法做到跟你想象中的那么好,这是一个问题。另外比如说,如何让机器能在外界监督信号极度稀缺的情况下学习,如何做无监督学习,如何把传统符号推理和深度学习结合起来。12. 你刚才说的目前研究的领域来说,能透露一下你最近一段时间比较重要的进展?
我觉得,理论上来说有一些小小的进展,我之前做了一篇文章研究了两层神经网络的动力学系统,神经网络它是怎么收敛的,需要什么条件。 像这个就是更偏研究类型的。实践上来说,有一些东西我们在做,不方便说。另外就是多看文章,现在还处在一个积累的过程,多看点儿文章,多理解一些别人做的工作,就会有一些更多的想法。
下一步工作也是围绕上面说的那些,继续往下进行?
对。13. 你目前负责项目和研究领域在整个Facebook公司的架构里面,是处于一个什么样的位置,起什么样的作用?
其实现在是这样的,我们组是比较偏研究的,所以我们组的东西不一定要跟产品组有直接联系。我们做的东西都会比较前沿一点,不一定会有直接的应用,这是我们这个组很好的地方。我们公司也赋予这样的自由度。你想,你做的东西完全跟产品挂钩,每隔几个月就要求汇报进展,那这样的话最后的结果就是大家只找最容易做的那些方向,在原来的系统上修修补补。这样大家就不会愿意去想更多的东西了。
(像您刚才说的做研究,需要把一个现在还冷门的东西钻进去。)
对,比如说训练围棋,当时没有多少人知道这个东西。做研究最重要的是能够在那么多方向上,你能看到一个方向是对的,愿意花时间把它做出来,证明它是对的,这个是很重要的。
(之前看过您那篇在谷歌和Facebook的一个比较,在谷歌是没有这种自由度的?)
不能这么说。因为在谷歌时我在无人车组,这是个产品组,决定了必须要有一个非常清楚的脉络和将来的走向。我当时其实也是想做一些开放性的东西,但是觉得环境也不是特别适合,所以就走了,这是原因之一,我并不是说这个组不好,这个组挺好的,确实是因为我个人的志向和组里的发展方向不一致,所以我就走了。14. 你其实特别喜欢写博客和杂文,甚至我还看到有古文,我想问写作不管是中文的还是英文的,对于你研究来说有什么帮助?
这个我觉得是一个思考的方式,东西要写下来之后你才知道什么地方出问题了,一个典型的例子就是做数学证明嘛,你觉得好像是对的,但是你写下来才能证明,很有可能一落笔就发现错误了,这个是司空见惯的事情。
(但是其实写博客和写论文还是两种东西嘛,因为写博客可能不会写得那么深。)
论文当然抠得细得多,但大方向都是一样的 。写博客的时候一样要有逻辑,很多话当时想的是这样,但是写下来发现这两句话不连贯,或者是逻辑不通,所以你在整理的过程中其实就是在整理你的思路,这个是挺重要的。15. 经常看见你说表达的重要性,它在你不管是做研究还是之前在谷歌做产品的时候,它扮演了一个什么样的角色?
这个对研究来说非常重要,研究者的一部分工作是要把自己的成果公诸于世。要以清楚的语言概括在做什么,所以这个其实是我作为这个职位的要求之一,所以这个重要性就不用多谈了。
(必须要把现在这个事情给别人说清楚,得到别人的认可?)
对,你要跟别人说清楚,当然公司里面还好,但你在学校里边的时候,你在团队里面作为技术带头人,必须出去跟其他公司谈,或者说跟上层说我需要资源做这样的事情。这样表达能力就非常重要了,如果你没有办法表达清楚你想要做什么的话,别人不一定能相信你,也不会给你各种资源。另外比如说你遇到的人才,觉得你做的东西他没听懂,或者是不知道你在做什么,他也不会愿意跟你一起共事。作为一个研究员来说,或者是任何在研究这条路上愿意走的后辈人来说,这个很重要。16. 对于AI领域的后进者们,比如说学生、创业者或者是研究者们来说,你作为一个过来人,当然还在继续往前走,对他们有什么建议?
第一点,我不是什么过来人,我还要往前走,我也觉得我也只是很多方向刚开始的人,我也不觉得我是一个非常资深的研究员。你之前说我是高级研究员,我们组没有高级研究员这个头衔。
(你现在在Facebook的头衔是什么?)
头衔就是研究科学家,其实就是研究员。我也不觉得我自己做得有多好,只能说很多事情尽力了 。如果你要翻一下我两三年前的文章,我之前是做非凸优化在图像扭曲上的理论分析的,很荣幸地拿了马尔奖提名。我都不是做这方面(深度学习)的,我也不是做强化学习的,这些方向都是我最近觉得很有意思,然后自己学并且尝试做的。所以从这方面来说,我对目前我的工作觉得还行,想想只有一两年时间,会有这样的知名度和曝光率,这已经是出乎我的意料了。但是不管怎么样,曝光率再高,我觉得我自己还是要往前走的,我有很多东西不懂的,前面的路还很长的。所以要说对于其他人的建议,我觉得是就静下心来做事情,文章该看的要看,该学的要学,程序该写的要写,该调通的调通,一步一步往前走。
(就是把眼前的事情做好?)
对。当然方向还要看清楚的。做为一个研究者,要自己看文章定方向,不能人云亦云,这个是身为科研人员最重要的特质。然后做自己想做的事情,重要的就是要做自己想做的事,并且花时间在上面。不要说今天公司有很多钱,我就去了,这样的话对将来的发展不是特别好的,希望大家能找到自己想做的方向,主要是这一点。还有就是珍惜时间吧,大家的时间都是很宝贵的,如果愿意做一些事情,就早点行动,把事情很快地做好。另外要不断地提高自己。小结:
AI科技评论在采访田渊栋的时候,
在问到DarkForest现在的进展时,他表示 “我们这边其实目前还没有继续做,在开源之后就先放在那儿了。”。
在说道人工智能有什么意义的时候,他表示“就是我刚才说的,如果你继续做下去的话,我们想能不能自动从这里面学出一些概念来,学出一些有意思的东西……像这样的东西其实对于我们如何理解人的思维方式是更重要的。”
在问道你现在在Facebook的头衔是什么时,他表示我的“头衔就是研究科学家,其实就是研究员。”
类似这样的风格的回答很多很多,给近在迟尺的AI科技评论展现了一个直白坦率,严格待己,谦虚待学的生动形象。这跟我们采访AI业界公司大佬时他们觉得他们能解决这个问题,他们没遇到什么困难,他们即将所向披靡的那一面然不同,眼前的这个年轻科学家体现的是学界人士低调,谨慎,求是的另一面。但值得一提的事,AI科技评论看到那张谦逊却带了一点点桀骜不驯的脸的背后,的是一个对自己有极高要求,对理想有极高追求的,不愿意人云亦云,却希望真的在人工智能领域有所作为的科学家的心。在孤独和庸俗,在跟着心走和大流之间,他选择了孤独和跟着心走。

回复 支持 反对

使用道具 举报

18#
 楼主| 发表于 2017-4-15 12:39 | 只看该作者
本帖最后由 cateyes 于 2017-4-15 12:43 编辑

AlphaGo之父:关于围棋,人类3000年来犯了一个错
http://www.thepaper.cn/baidu.jsp?contid=1660773
2017-04-13 18:43 来源:澎湃新闻 澎湃新闻特约撰稿 刘秀云

阿尔法狗(02:25)
4月10日,“人机大战”的消息再次传出,关于人类和AI的对抗再次牵动世界的神经。

“我会抱必胜心态、必死信念。我一定要击败阿尔法狗!”对于5月23日至27日与围棋人工智能程序AlphaGo(阿尔法狗)的对弈,目前世界排名第一的中国职业九段柯洁放出豪言。然而,AlphaGo(阿尔法狗)之父却说,“我们发明阿尔法狗,并不是为了赢取围棋比赛。”

AlphaGo之父杰米斯·哈萨比斯(Demis Hassabis)近日在母校英国剑桥大学做了一场题为“超越人类认知的极限”的演讲,解答了世人对于人工智能,对于阿尔法狗的诸多疑问——过去3000年里人类低估了棋局哪个区域的重要性?阿尔法狗去年赢了韩国职业九段李世石靠哪几个绝招?今年年初拿下数位国际大师的神秘棋手Master究竟是不是阿尔法狗?为什么围棋是人工智能难解之谜?


杰米斯·哈萨比斯,Deep Mind创始人, AlphaGo之父。

杰米斯·哈萨比斯,Deep Mind创始人,AlphaGo(阿尔法狗)之父, 4岁开始下象棋,8岁时在棋盘上的成功促使他开始思考两个至今令他困扰的问题:第一,人脑是如何学会完成复杂任务的?第二,电脑能否做到这一点?17岁时,哈萨比斯就负责了经典模拟游戏《主题公园》的开发,并在1994年发布。他随后读完了剑桥大学计算机科学学位,2005年进入伦敦大学学院,攻读神经科学博士学位,希望了解真正的大脑究竟是如何工作的,以此促进人工智能的发展。2014年他创办的公司Deep Mind被谷歌收购, 公司产品阿尔法狗在2016年大战围棋冠军李世石事件上一举成名。

哈萨比斯在当天的演讲中透露了韩国棋手李世石去年输给阿尔法狗的致命原因,他最后也提到了阿尔法狗即将迎战的中国棋手柯洁,他说,“柯洁也在网上和阿尔法狗对决过,比赛之后柯洁说人类已经研究围棋研究了几千年了,然而人工智能却告诉我们,我们甚至连其表皮都没揭开。异曲同工,柯洁提到了围棋的真理,我们在这里谈的是科学的真理。”


世界围棋冠军柯洁即将迎战阿尔法狗。

澎湃新闻现场聆听了AlphaGo(阿尔法狗)之父在剑桥大学历时45分钟的演讲,干货满满,请不要漏掉任何一个细节:

非常感谢大家今天能够到场,今天,我将谈谈人工智能,以及DeepMind近期在做些什么,我把这场报告命名为“超越人类认知的极限”,我希望到了报告结束的时候,大家都清晰了解我想传达的思想。

1.你真的知道什么是人工智能吗?

对于不知道DeepMind公司的朋友,我做个简单介绍,我们是在2010年于伦敦成立了这家公司,在2014年我们被谷歌收购,希望借此加快我们人工智能技术的脚步。我们的使命是什么呢?我们的首要使命便是解决人工智能问题;一旦这个问题解决了,理论上任何问题都可以被解决。这就是我们的两大使命了,听起来可能有点狡猾,但是我们真的相信,如果人工智能最基本的问题都解决了的话,没有什么问题是困难的。

那么我们准备怎样实现这个目标呢?DeepMind现在在努力制造世界上第一台通用学习机,大体上学习可以分为两类:一种就是直接从输入和经验中学习,没有既定的程序或者规则可循,系统需要从原始数据自己进行学习;第二种学习系统就是通用学习系统,指的是一种算法可以用于不同的任务和领域,甚至是一些从未见过的全新领域。大家肯定会问,系统是怎么做到这一点的?

其实,人脑就是一个非常明显的例子,这是可能的,关键在于如何通过大量的数据资源,寻找到最合适的解决方式和算法。我们把这种系统叫做通用人工智能,来区别于如今我们当前大部分人在用的仅在某一领域发挥特长的狭义人工智能,这种狭义人工智能在过去的40-50年非常流行。

IBM 发明的深蓝系统(Deep Blue)就是一个很好的狭义人工智能的例子,他在上世纪90年代末期曾打败了国际象棋冠军加里·卡斯帕罗夫(Gary Kasporov) 。如今,我们到了人工智能的新的转折点,我们有着更加先进、更加匹配的技术。


1997年5月,IBM与世界国际象棋冠军加里·卡斯帕罗夫对决。

2.如何让机器听从人类的命令?

大家可能想问机器是如何听从人类的命令的,其实并不是机器或者算法本身,而是一群聪明的编程者智慧的结晶。他们与每一位国际象棋大师对话,汲取他们的经验,把其转化成代码和规则,组建了人类最强的象棋大师团队。但是这样的系统仅限于象棋,不能用于其他游戏。对于新的游戏,你需要重新开始编程。在某种程度上,这些技术仍然不够完美,并不是传统意义上的完全人工智能,其中所缺失的就是普适性和学习性。我们想通过“增强学习”来解决这一难题。在这里我解释一下增强学习,我相信很多人都了解这个算法。

首先,想像一下有一个主体,在AI领域我们称我们的人工智能系统为主体,它需要了解自己所处的环境,并尽力找出自己要达到的目的。这里的环境可以指真实事件,可以是机器人,也可以是虚拟世界,比如游戏环境;主体通过两种方式与周围环境接触;它先通过观察熟悉环境,我们起初通过视觉,也可以通过听觉、触觉等,我们也在发展多感觉的系统;

第二个任务,就是在此基础上,建模并找出最佳选择。这可能涉及到对未来的预期,想像,以及假设检验。这个主体经常处在真实环境中,当时间节点到了的时候,系统需要输出当前找到的最佳方案。这个方案可能或多或少会改变所处环境,从而进一步驱动观察的结果,并反馈给主体。

简单来说,这就是增强学习的原则,示意图虽然简单,但是其中却涉及了极其复杂的算法和原理。如果我们能够解决大部分问题,我们就能够搭建普适人工智能。这是因为两个主要原因:首先,从数学角度来讲,我的合伙人,一名博士,他搭建了一个系统叫‘AI-XI’,用这个模型,他证明了在计算机硬件条件和时间无限的情况下,搭建一个普适人工智能,需要的信息。另外,从生物角度来讲,动物和人类等,人类的大脑是多巴胺控制的,它在执行增强学习的行为。因此,不论是从数学的角度,还是生物的角度,增强学习是一个有效的解决人工智能问题的工具。

3.为什么围棋是人工智能难解之谜?

接下来,我要主要讲讲我们最近的技术,那就是去年诞生的阿尔法狗;希望在座的大家了解这个游戏,并尝试玩玩,这是个非常棒的游戏。围棋使用方形格状棋盘及黑白二色圆形棋子进行对弈,棋盘上有纵横各19条直线将棋盘分成361个交叉点,棋子走在交叉点上,双方交替行棋,以围地多者为胜。围棋规则没有多复杂,我可以在五分钟之内教给大家。这张图展示的就是一局已结束,整个棋盘基本布满棋子,然后数一下你的棋子圈出的空间以及对方棋子圈出的空间,谁的空间大,谁就获胜。在图示的这场势均力敌的比赛中,白棋一格之差险胜。


白棋以一格之差险胜。

其实,了解这个游戏的最终目的非常难,因为它并不像象棋那样,有着直接明确的目标,在围棋里,完全是凭直觉的,甚至连如何决定游戏结束对于初学者来说,都很难。围棋是个历史悠久的游戏,有着3000多年的历史,起源于中国,在亚洲,围棋有着很深的文化意义。孔子还曾指出,围棋是每一个真正的学者都应该掌握的四大技能之一(琴棋书画),所以在亚洲围棋是种艺术,专家们都会玩。

如今,这个游戏更加流行,有4000万人在玩围棋,超过2000多个顶级专家,如果你在4-5岁的时候就展示了围棋的天赋,这些小孩将会被选中,并进入特殊的专业围棋学校,在那里,学生从6岁起,每天花12个小时学习围棋,一周七天,天天如此。直到你成为这个领域的专家,才可以离开学校毕业。这些专家基本是投入人生全部的精力,去揣摩学习掌握这门技巧,我认为围棋也许是最优雅的一种游戏了。

像我说的那样,这个游戏只有两个非常简单的规则,而其复杂性却是难以想象的,一共有10170 (10的170次方) 种可能性,这个数字比整个宇宙中的原子数1080(10的80次方)都多的去了,是没有办法穷举出围棋所有的可能结果的。我们需要一种更加聪明的方法。你也许会问为什么计算机进行围棋的游戏会如此困难,1997年,IBM的人工智能DeepBlue(深蓝)打败了当时的象棋世界冠军加里·卡斯帕罗夫,围棋一直是人工智能领域的难解之谜。我们能否做出一个算法来与世界围棋冠军竞争呢?要做到这一点,有两个大的挑战:

一、搜索空间庞大(分支因数就有200),一个很好的例子,就是在围棋中,平均每一个棋子有两百个可能的位置,而象棋仅仅是20. 围棋的分支因数远大于象棋。

二、比这个更难的是,几乎没有一个合适的评价函数来定义谁是赢家,赢了多少;这个评价函数对于该系统是至关重要的。而对于象棋来说,写一个评价函数是非常简单的,因为象棋不仅是个相对简单的游戏,而且是实体的,只用数一下双方的棋子,就能轻而易举得出结论了。你也可以通过其他指标来评价象棋,比如棋子移动性等。

所有的这些在围棋里都是不可能的,并不是所有的部分都一样,甚至一个小小部分的变动,会完全变化格局,所以每一个小的棋子都对棋局有着至关重要的影响。最难的部分是,我称象棋为毁灭性的游戏,游戏开始的时候,所有的棋子都在棋盘上了,随着游戏的进行,棋子被对方吃掉,棋子数目不断减少,游戏也变得越来越简单。相反,围棋是个建设性的游戏,开始的时候,棋盘是空的,慢慢的下棋双方把棋盘填满。

因此,如果你准备在中场判断一下当前形势,在象棋里,你只需看现在的棋盘,就能告诉你大致情况;在围棋里,你必须评估未来可能会发生什么,才能评估当前局势,所以相比较而言,围棋难得多。也有很多人试着将DeepBlue的技术应用在围棋上,但是结果并不理想,这些技术连一个专业的围棋手都打不赢,更别说世界冠军了。

所以大家就要问了,连电脑操作起来都这么难,人类是怎样解决这个问题的?其实,人类是靠直觉的,而围棋一开始就是一个靠直觉而非计算的游戏。所以,如果你问一个象棋选手,为什么这步这样走,他会告诉你,这样走完之后,下一步和下下一步会怎样走,就可以达到什么样的目的。这样的计划,有时候也许不尽如人意,但是起码选手是有原因的。

然而围棋就不同了,如果你去问世界级的大师,为什么走这一步,他们经常回答你直觉告诉他这么走,这是真的,他们是没法描述其中的原因的。我们通过用加强学习的方式来提高人工神经网络算法,希望能够解决这一问题。
我们试图通过深度神经网络模仿人类的这种直觉行为,在这里,需要训练两个神经网络,一种是决策网络,我们从网上下载了成百万的业余围棋游戏,通过监督学习,我们让阿尔法狗模拟人类下围棋的行为;我们从棋盘上任意选择一个落子点,训练系统去预测下一步人类将作出的决定;系统的输入是在那个特殊位置最有可能发生的前五或者前十的位置移动;这样,你只需看那5-10种可能性,而不用分析所有的200种可能性了。

一旦我们有了这个,我们对系统进行几百万次的训练,通过误差加强学习,对于赢了的情况,让系统意识到,下次出现类似的情形时,更有可能做相似的决定。相反,如果系统输了,那么下次再出现类似的情况,就不会选择这种走法。我们建立了自己的游戏数据库,通过百万次的游戏,对系统进行训练,得到第二种神经网络。选择不同的落子点,经过置信区间进行学习,选出能够赢的情况,这个几率介于0-1之间,0是根本不可能赢,1是百分之百赢。

通过把这两个神经网络结合起来(决策网络和数值网络),我们可以大致预估出当前的情况。这两个神经网络树,通过蒙特卡洛算法,把这种本来不能解决的问题,变得可以解决。我们网罗了大部分的围棋下法,然后和欧洲的围棋冠军比赛,结果是阿尔法狗赢了,那是我们的第一次突破,而且相关算法还被发表在《自然》科学杂志。

接下来,我们在韩国设立了100万美元的奖金,并在2016年3月,与世界围棋冠军李世石进行了对决。李世石先生是围棋界的传奇,在过去的10年里都被认为是最顶级的围棋专家。我们与他进行对决,发现他有非常多创新的玩法,有的时候阿尔法狗很难掌控。比赛开始之前,世界上每个人(包括他本人在内)都认为他一定会很轻松就打赢这五场比赛,但实际结果是我们的阿尔法狗以4:1获胜。围棋专家和人工智能领域的专家都称这具有划时代的意义。对于业界人员来说,之前根本没想到。

4.棋局哪个关键区域被人类忽视了

这对于我们来说也是一生仅有一次的偶然事件。这场比赛,全世界28亿人在关注,35000多篇关于此的报道。整个韩国那一周都在围绕这个话题。真是一件非常美妙的事情。对于我们而言,重要的不是阿尔法狗赢了这个比赛,而是了解分析他是如何赢的,这个系统有多强的创新能力。阿尔法狗不仅仅只是模仿其他人类选手的下法,他在不断创新。在这里举个例子 ,这是第二局里的一个情况,第37步,这一步是我整个比赛中最喜欢的一步。在这里,黑棋代表阿尔法狗,他将棋子落在了图中三角标出的位置。为什么这步这么关键呢?为什么大家都被震惊到了。


图左:第二局里,第37步,黑棋的落子位置  图右:之前貌似陷入困境的两个棋子。
其实在围棋中有两条至关重要的分界线,从右数第三根线。如果在第三根线上移动棋子,意味着你将占领这个线右边的领域。而如果是在第四根线上落子,意味着你想向棋盘中部进军,潜在的,未来你会占棋盘上其他部分的领域,可能和你在第三根线上得到的领域相当。

所以在过去的3000多年里,人们认为在第三根线上落子和第四根线上落子有着相同的重要性。但是在这场游戏中,大家看到在这第37步中,阿尔法狗落子在了第五条线,进军棋局的中部区域。与第四根线相比,这根线离中部区域更近。这可能意味着,在几千年里,人们低估了棋局中部区域的重要性。

有趣的是,围棋就是一门艺术,是一种客观的艺术。我们坐在这里的每一个人,都可能因为心情好坏产生成千上百种的新想法,但并不意味着每一种想法都是好的。而阿尔法狗却是客观的,他的目标就是赢得游戏。

5.阿尔法狗拿下李世石靠哪几个绝招?大家看到在当前的棋局下,左下角那两个用三角标出的棋子看起来好像陷入了困难,而15步之后,这两个棋子的力量扩散到了棋局中心,一直延续到棋盘的右边,使得这第37步恰恰落在这里,成为一个获胜的决定性因素。在这一步上阿尔法狗非常具有创新性。我本人是一个很业余的棋手,让我们看看一位世界级专家Michael Redmond对这一步的评价。 Michael是一位9段选手(围棋最高段),就像是功夫中的黑段一样,他说:“这是非常令人震惊的一步,就像是一个错误的决定。”在实际模拟中,Michael其实一开始把棋子放在了另外一个地方,根本没想到阿尔法狗会走这一步。像这样的创新,在这个比赛中,阿尔法狗还有许多。在这里,我特别感谢李世石先生,其实在我们赢了前三局的时候,他下去了。


2016年3月阿尔法狗大战世界围棋冠军李世石,以4:1的总分战胜了人类。

那是三场非常艰难的比赛,尤其是第一场。因为我们需要不断训练我们的算法,阿尔法狗之前打赢了欧洲冠军,经过这场比赛,我们知道了欧洲冠军和世界冠军的差别。理论上来讲,我们的系统也进步了。但是当你训练这个系统的时候,我们不知道有多少是过度拟合的,因此,在第一局比赛结束之前,系统是不知道自己的统计结果的。所以,其实第一局,我们非常紧张,因为如果第一局输了,很有可能我们的算法存在巨大漏洞,有可能会连输五局。但是如果我们第一局赢了,证明我们的加权系统是对的。

不过,李世石先生在第四场的时候,回来了,也许压力缓解了许多,他做出了一步非常创新性的举动,我认为这是历史上的创新之举。这一步迷惑了阿尔法狗,使他的决策树进行了错误估计,一些中国的专家甚至称之为“黄金之举”。通过这个例子,我们可以看到多少的哲理蕴含于围棋中。这些顶级专家,用尽必生的精力,去找出这种黄金之举。其实,在这步里,阿尔法狗知道这是非常不寻常的一步,他当时估计李世石通过这步赢的可能性是0.007%,阿尔法狗之前没有见过这样的落子方式,在那2分钟里,他需要重新搜索决策计算。我刚刚已经提到过这个游戏的影响:28亿人观看,35000相关文章的媒体报道,在西方网售的围棋被一抢而空,我听说MIT(美国麻省理工学院)还有其他很多高校,许多人新加入了围棋社。

第四局里,李世石第78步的创新之举。

我刚才谈到了直觉和创新,直觉是一种含蓄的表达,它是基于人类的经历和本能的一种思维形式,不需要精确计算。这一决策的准确性可以通过行为进行评判。在围棋里很简单,我们给系统输入棋子的位置,来评估其重要性。阿尔法狗就是在模拟人类这种直觉行为。创新,我认为就是在已有知识和经验的基础上,产生一种原始的,创新的观点。阿尔法狗很明显的示范了这两种能力。

6.神秘棋手Master究竟是不是阿尔法狗?

那么我们今天的主题是“超越人类认知的极限”,下一步应该是什么呢?从去年三月以来,我们一直在不断完善和改进阿尔法狗,大家肯定会问,既然我们已经是世界冠军了,还有什么可完善的? 其实,我们认为阿尔法狗还不是完美的,还需要做更多的研究。

首先,我们想要继续研究刚才提到的和李世石的第四局的比赛,来填充知识的空白;这个问题其实已经被解决了,我们建立了一个新的阿尔法狗分系统,不同于主系统,这个分支系统是用来困惑主系统的。我们也优化了系统的行为,以前我们需要花至少3个月来训练系统,现在只需要一周时间。

第二,我们需要理解阿尔法狗所采取的决定,并对其进行解释;阿尔法狗这样做的原因是什么,是否符合人类的想法等等;我们通过对比人类大脑对于不同落子位置的反应以及阿尔法狗对于棋子位置的反应,以期找到一些新的知识;本质上就是想让系统更专业。我们在网络上与世界顶级的专家对决,一开始我们使用了一个假名(Master),在连胜之后被大家猜出是阿尔法狗。这些都是顶级的专家,我们至今已赢了60位大师了。如果你做个简单的贝叶斯分析,你会发现阿尔法狗赢不同对手的难易也不一样。而且,阿尔法狗也在不断自我创新,比如说图中右下角这个棋子(圆圈标处),落在第二根线里,以往我们并不认为这是个有效的位置。实际上,韩国有的团队预约了这些游戏,想研究其中新的意义和信息。


阿尔法狗自我创新,落在第二格线的旗子。

柯洁,既是中国的围棋冠军,也是目前的世界围棋冠军,他才19岁。他也在网上和阿尔法狗对决过,比赛之后他说人类已经研究围棋研究了几千年了,然而人工智能却告诉我们,我们甚至连其表皮都没揭开。他也说人类和人工智能的联合将会开创一个新纪元,将共同发现围棋的真谛。异曲同工,柯洁提到了围棋的真理,我们在这里谈的是科学的真理。


红遍网络的神秘棋手Master2017年1月3日在腾讯围棋对弈平台赢了柯洁。


Master执白中盘胜柯洁,Master就是AlphaGo的升级版。

那么围棋的新纪元是否真的到来了呢?围棋史上这样的划时代事件曾经发生过两次,第一次是发生在1600年左右的日本,20世纪30-40年代的日本,日本一位当时非常杰出的围棋高手吴清源提出了一个全新的关于围棋的理论,将围棋提升到了一个全新的境界。大家说如今,阿尔法狗带来的是围棋界的第三次变革。

7.为什么人工智能“围棋强于象棋

我想解释一下,为什么人工智能在围棋界所作出的贡献,要远大于象棋界。如果我们看看当今的世界国际象棋冠军芒努斯·卡尔森,他其实和之前的世界冠军没什么大的区别,他们都很优秀,都很聪明。但为什么当人工智能出现的时候,他们可以远远超越人类?我认为其中的原因是,国际象棋更注重战术,而阿尔法狗更注重战略。如今世界顶级的国际象棋程序再不会犯技术性的错误,而在人类身上,不可能不犯错。第二,国际象棋有着巨大的数据库,如果棋盘上少于9个棋子的时候,通过数学算法就可以计算出谁胜谁败了。计算机通过成千上万的迭代算法,就可以计算出来了。因此,当棋盘上少于九个棋子的时候,下象棋时人类是没有办法获胜的。

因此,国际象棋的算法已经近乎极致,我们没有办法再去提高它。然而围棋里的阿尔法狗,在不断创造新的想法,这些全新的想法,在和真人对决的时候,顶级的棋手也可以把其纳入到考虑的范畴,不断提高自己。

就如欧洲围棋冠军樊麾(第一位与阿尔法狗对阵的人类职业棋手)所说的那样,在和阿尔法狗对决的过程中,机器人不断创新的下法,也让人类不断跳出自己的思维局限,不断提高自己。大家都知道,经过专业围棋学校里30多年的磨练,他们的很多思维已经固化,机器人的创新想法能为其带来意想不到的灵感。我真的相信如果人类和机器人结合在一起,能创造出许多不可思议的事情。我们的天性和真正的潜力会被真正释放出来。

8.阿尔法狗不为了赢取比赛又是为了什么?

就像是天文学家利用哈勃望远镜观察宇宙一样,利用阿尔法狗,围棋专家可以去探索他们的未知世界,探索围棋世界的奥秘。我们发明阿尔法狗,并不是为了赢取围棋比赛,我们是想为测试我们自己的人工智能算法搭建一个有效的平台,我们的最终目的是把这些算法应用到真实的世界中,为社会所服务。

当今世界面临的一个巨大挑战就是过量的信息和复杂的系统,我们怎么才能找到其中的规律和结构,从疾病到气候,我们需要解决不同领域的问题。这些领域十分复杂,对于这些问题,即使是最聪明的人类也无法解决的。

我认为人工智能是解决这些问题的一个潜在方式。在如今这个充斥着各种新技术的时代,人工智能必须在人类道德基准范围内被开发和利用。本来,技术是中性的,但是我们使用它的目的和使用它的范围,大大决定了其功能和性质,这必须是一个让人人受益的技术才行。

我自己的理想是通过自己的努力,让人工智能科学家或者人工智能助理和医药助理成为可能,通过该技术,我们可以真正加速技术的更新和进步。(本文作者系英国剑桥大学神经学博士生,AlphaGo之父哈萨比斯在剑桥大学的校友,文章小标题系编者所注)



回复 支持 反对

使用道具 举报

19#
发表于 2017-4-15 18:33 | 只看该作者
Thanks for sharing!
回复 支持 反对

使用道具 举报

20#
 楼主| 发表于 2017-5-30 15:08 | 只看该作者
http://sports.sina.com.cn/go/2017-05-30/doc-ifyfqvmh9531628.shtml陈经:从人机大战看中美人工智能竞争态势
2017年05月30日10:23 新浪体育 微博
  陈经
  2017年5月27日
  (5月27日在上海,我在观察者网举办的观天下论坛讲了人机大战、人工智能的误解、中美竞争等问题,并回答了现场观众提问。观察者网和Bilibili有视频直播。本文为文字整理版,首发于观察者网:观天下讲坛|柯洁战败了,中国AI技术距离世界第一还有多远?)
  大家好,我今天要讲的是人工智能与人工智能的热潮。
  我是计算机专业出身,也是做人工智能研发的。在历史上,人工智能从来没有这么火过,它的根源就是因为去年AlphaGo的横空出世,现在适逢其会,今天10点半柯洁就要和AlphaGo进行第三局比赛,这是很多人都很关注的,但我今天要讲的不仅是围棋,还包括人工智能。
  人工智能对社会的方方面面都有影响,但是人工智能这么热,也带来了一个问题,就是社会对人工智能有很多误解,所以今天我也要讲一下如何正确理解人工智能;另外一个方面,人工智能热潮对我们中国是很有利的,中国在人工智能行业的积累是很不错的,应该说中国和美国在人工智能行业是遥遥领先的。中国和美国比较的话,差距在哪里?中国有没有可能挑战美国?相信大家对这些都会很感兴趣。
  柯洁全负,但证明了他是人类最强棋手实至名归
  柯洁和AlphaGo对局,目前是0:2落后。如果柯洁能以2:1获胜的话,他的奖金将高达1000万人民币,这是围棋史上最高的一笔奖金,但是赛前大家都不相信柯洁能拿到这笔钱。我感觉第二局已经是柯洁实力发挥的巅峰了,第三局如果他能创造奇迹达到1:2的战绩,那将是人类的一个超级大胜利。但是我理智地预测的话他应该会0:3告负,虽然他第三局要求执白,柯洁比较擅长执白。
  去年3月份李世石对战AlphaGo,李世石是赢了一局,这对人类棋手来说已经是非常大的鼓励了。如果当时0:5告负,那现在的气氛会完全不一样。那么李世石赢过一盘,柯洁全负,是不是就可以说柯洁不如李世石?我可以明确地告诉大家柯洁的表现远远好于李世石。为什么?因为根据Deepmind发布的信息,现在这个版本的AlphaGo能够让李世石那时的AlphaGo三子,这个在懂围棋的职业棋手看来,简直是一个天大的差距,简直不敢相信,但真的就这样发生了。
  柯洁能和这么强大的AlphaGo战得如此难解难分,那么跟李世石相比他的表现确实要好很多,这是围棋专业人士一致认同的。这次即使柯洁0:3告负,也能够给人们留下深刻的印象:柯洁是人类最强棋手。因为下图这个局面就能够看出来,这是5月25号柯洁与AlphaGo第二局。不懂围棋的没关系,我来形容一下。AlphaGo以前化名Master在网络上和人类高手混战60局,全胜。在60局里,还没有一局达到过这个混乱程度。
  之前我在文章中说,要制造混乱的、复杂的局面,才有机会。但是以前的人想混乱都混乱不起来,想复杂也复杂不起来,Master使出简简单单几个招数,人类棋手就不行了,50手就不行了。没有任何棋手和AlphaGo达到过这种局面,柯洁在前100手表现完美,达到了一个其他棋手不敢想象的局面。我跟应氏杯冠军唐韦星一起直播过棋赛,我跟他也讨论过这个制造混乱的战术,他说我们想混乱,但是没有那个能力。但是柯洁证明自己有这个能力,所以棋手们都服气了,都认同柯洁是人类棋手中最强的。
  即使这样,是不是就说柯洁有机会战胜AlphaGo了呢?我还不敢这么说。柯洁自己在第二局结束后的采访中说当时真实地感觉有胜机,心怦怦地乱跳。但局后我们冷静下来,包括一些职业棋手去摆棋做分析,认为AlphaGo根本没有给柯洁胜机,即使面对这么复杂的局面,AlphaGo仍然在掌控之中。
  经过第二局,以及昨天的“五人打狗”,我相信基本上没有人不服气了,AlphaGo确实已经超过了人类棋手,只是差距有多大而已。我之前写了很多文章,核心思想就是如何战胜AlphaGo,构想了很多招数,但是现在我觉得应该放弃这个思想了。
  为什么棋手和研究人工智能的都服气了呢?因为伴随着人工智能的技术突破,它确实已经从原理上让人服气了。一方面是战绩,和人类最强棋手3:0全胜;另外一方面,从学术角度看,人工智能领域有一个深度学习,就像前面讲到的深度神经网络,它是模仿人脑的。比如说腾讯和Deepmind有很多服务器,10万服务器生成一大堆数据,这都是以前没法想象的,然后又通过模拟人类的思维方式实现自我训练。这里涉及的技术细节太多了,我在观察者网发表的一系列文章里头有介绍,大家可以去看。
  而且,人总是有缺陷的,有时候发挥很好,但是偶然出了一个错招,那也没办法。即使最厉害的职业棋手,也会犯错。但是机器是永远稳定发挥的,不会出简单的错招,如果出了错,也是属于算法这一非常深层次的原因。所以机器相对于人的优势是没有办法的事,而且它以后水平可能越来越高,而人年纪大了,水平就下降了。
  对人工智能的误解
  现在人工智能这么热,导致我们对它产生了很多误解,我具体说一下都有哪些误解。
  第一个,很多人说围棋这么复杂的一个游戏,居然人赢不了机器,这下完了,AI崛起了,又出了一个新物种,人类要毁灭了……这个实际上过于夸张了,甚至连开这个玩笑的人自己都不相信吧,只是一种科幻的念头。
  第二个,大家老是把人工智能想象成一个人。下面这个图是中国科技大学做的机器人“佳佳”,其实就是一个聊天机器人,它也可以是一个电脑,但是偏偏把它造成了人的模样。我觉得这是蒙人,它长什么样子根本没关系,美女的想象纯粹是为了抓眼球。现在人工智能跟人的外貌毫无关系,它其实就是一些程序,没有任何自己的思想,我们称之为弱人工智能。
  第三,人工智能崛起了,机器人不仅在体力劳动上比人类强,连智力都要战胜人类了。那以后人类大量工作都被机器人取代了,以后我们怎么生活啊?体力劳动者做不成,智力工作者也不好干了。这个其实也是在吓唬人,我一会再详细解释。
  IT是母行业,人工智能是子行业
  这个是硅谷推出的IT业新技术的曲线发展图。这个顶点不是技术最高,而是社会对技术的期望达到最高值了。大家觉得这个技术非常值钱或者说无所不能,各种风投都一扑而上,直接投钱。
  这是2014年的图,那时候没有机器学习,人工智能也不是太热,热的是大数据和物联网。按照技术规律,热了之后,因为人夸张了它的能力,大家发现它没那么厉害,有些人就撤了,它就会进入一个低谷期。但像我这样的人工智能或者说是计算机研发者会努力突破一些技术障碍,突破低谷期,又进入复苏期、成熟期,这是一个正常的发展规律。
  下面是2016年的曲线发展图。这个时候我们发现最热的是机器学习,也代表2016年的人工智能热,完全是因为人机大战、AlphaGo激发出来的。而且这张图还不足够彻底展现机器学习的热度,如果完全呈现出来这张图就爆表了,还没有任何技术的热度超过机器学习的。但是我们冷静下来看,机器学习或者说人工智能还是会碰到低谷期的,不是说它就会一直这么热下去。
  为什么人工智能在中国这么热门呢?因为人工智能在中国发展状态是很好的。美国在人工智能领域的技术是最好的,中国可以排第二,以后也只主要是中国和美国竞争。
  我一直在搞算法,但我不会觉得自己是一个做人工智能的,向别人介绍时我会说我是干IT的。以前我们会说人工智能革命改造世界,这完全属于夸张。IT业是真正在改造世界,而且不是要改造世界,而是真的已经在改变世界了。看看我们这些年生活发生这么大的变化,主要都是IT带来的。我们说三次工业革命,而这第三次工业革命最大的动力就是IT,人工智能其实只是属于IT行业里头的一个子行业。
  如果说一个IT从业人员跳槽到人工智能领域,不会感觉到有什么大的隔阂。IT这么多年就没有低谷,从三四十年前有了IT业到现在从来都缺人,工资也在不断地加,跟其他行业的工资差距越来越大。人工智能以前火过一阵子,比如日本的第五代计算机,但是那次第五代计算机失败了,人工智能也进入了低潮。从另一角度来看,也是因为IT业太火了,反衬出人工智能进入瓶颈,其实一直以来人工智能的热潮都是IT行业在推动。但接下来我预测人工智能可能会进入低潮。
  中美在人工智能领域的竞争与优势
  为什么我说未来人工智能领域是中美竞争呢?这张表是20个IT大公司的市值排名,里面全是美国和中国的公司,只有一个日本Yahoo,但Yahoo还是美国的。而人工智能又是IT的子行业,所以人工智能领域必然是中美竞争。前两次工业革命,中国都是落后的。但是在IT引领的工业革命,中国自2000年后迅速崛起,其中IT是一个重要的工具。有IT,中国实现了跨越式成长。
  除了刚才所讲的宏观方面,还有一些具体的例证。下图是关于深度学习领域的论文,可以看出中国和美国的论文数量遥遥领先于其他国家,也就是说从研发的角度,中美也是遥遥领先。
  我们再从围棋AI来看,可以说最厉害的就是AlphaGo,第二名是腾讯开发的绝艺,第三名是一个日本的程序DeepZenGo。3月份在日本有一个UEC杯,30多个人工智能程序互相比赛。绝艺两次战胜DeepZenGo,夺得冠军。AlphaGo没有参赛,因为觉得其他都太弱了。总之,这个名次是得到公认的。
  中美在围棋AI也是竞争关系,腾讯投入三个团队开发绝艺,淘汰了两个,剩下的一个胜出。这个投入是非常大的,为了训练绝艺,让它下了30亿局棋,光是投入的服务器就不计其数。相比之下,日本DeepZenGo的开发者抱怨得到的支持太少了,太穷了,所以日本的围棋AI虽然也能够和职业棋手比赛,但是明显投入不足,落后于中美。AlphaGo背靠大公司,绝艺背后的腾讯市值也不低,我估计腾讯以后会是中国市值最大的一个公司,现在是不是已经最大了需要再确认一下,反正在港股是最大的市值。
  据我观察,绝艺的开发也进入瓶颈期了,它跟职业棋手比赛总是会输,比如十盘会输两盘,我感觉绝艺跟AlphaGo还是有很大差距的。但是之后绝艺会不会有进步呢?一定会。因为马上AlphaGo团队会公布新版本的技术秘密,去年他们发表在Nature的文章把所有的技术细节都公布了,今年6月份会再发一篇文章,公布主要的技术细节。我相信看过“武功秘籍”后就会知道他们是怎么做的,绝艺团队现在应该已经在用新思想开发了,我估计不用太久绝艺就可以取得技术突破,慢慢就跟AlphaGo一样,对战人类棋手不可能输了。
  中国能不能在人工智能领域挑战美国?我觉得是有可能的。中美双方各有所长。
  第一,美国原创研发能力极强,中国应用研发可以做到指标最高。我非常佩服美国的原创研发能力,在它做出这个原创研发之前,大家都想不到居然会有一个程序,能够在这么短的时间内就把围棋攻破了,之前预测都是十年、二十年,甚至有上百年。中国的优势是很多IT公司的应用做得非常好,比如语音识别、人脸识别的正确率指标比较高。中美两国对研发的导向不太相同,有批评者说中国的原创研发太少了,我觉得这也不能说完全就是劣势,只是双方各有特点。
  第二,美国吸引世界人才,中国自己培养海量人才。美国能够招到全世界最优秀的研发人才,但中国也不怕。因为中国人口多,人才数量已经足够了,而且现在信息交流这么发达,美国发表的先进的研究思想,全世界都能第一时间看到。
  第三,美国产品天然面向全世界,中国市场同样大。英语有全球优势,美国推出的产品很快就能遍布全球。但中国自身市场就很大,人口比发达国家总数还多,如果开发好了丝毫不弱于美国的市场。
  第四,“美国设计,中国与制造业产业链紧密结合”其实是中国优势,因为美国基本没有生产。苹果鼓吹多厉害,设计研发多好,但是中国华为等很多公司和产业紧密联系在一起。研发东西,除了原创,还需经历落地的过程。不能只发论文不管后续,要根据研究论文做出智能产品,人们才能理解那些高深论文在讨论什么。而中国,在应用和产业链方面具有优势。
  所以,我在写文章以及和朋友聊天时,都强调不要唱衰美国,当然更不能唱衰中国。中国和美国在以后都会发展得不错,中国和美国相对于其他国家优势会越来越大。
  为什么说人工智能天生可能会陷入低潮
  我们常听到“这神奇的科技,了不得”。意义很大的未来科技我总结有三个,一是可控核聚变,二是量子计算机,还有一个是强人工智能。这三个科技讲了很多年,都是很困难的。
  50年前,科学家就告诉大家,50年后大家就能用上核聚变能源了。但是现在还未实现,说还要40年,其实就是基础问题没解决。量子计算机现在有很多实验性的突破,但是物理上极困难,特别不稳定,量子比特容易破坏。而强人工智能,也就是机器有自我意识,我认为比前两个靠谱点,因为至少计算机操作是稳定的,但在算法上怎么发展,还是没招。
  所以,要从基础考察的话,这些未来科技不牢靠,只能是幻想。也可能出现突破,只是不一定。
  IT火了这么多年,其实从基础上考察的话,我们会发现,IT的基础特别牢靠。硬件基础方面,计算机的逻辑门极可靠,从来不出错。摩尔定律、越来越大的存储等,都是基础好的缘故。
  其实只有一小撮人搞硬件基础,而软件基础,是很多程序员写代码、算法。写代码、算法有一个特性,就是要无漏洞。代码出错,必须要改正确了。所以,他们推崇的精神就是代码要靠谱。程序员不能忽悠机器,所以特征是靠谱。
  IT为什么这么火,我认为就是基础特别好,无论是软件还是硬件基本不会出错,有错误我们也可调试改正。我为什么觉得人工智能会陷入低潮?因为人工智能不可靠。
  现在吹说机器学习厉害,说学习正确率越来越高,超过人的能力。比如100万张图片里找十个人,人可能找不出,而机器能有百分之七八十的概率找到。再比如语音识别正确率也跟人接近。但是,它不精确,即使指标达到95%或者更高,不精确还是会出错。IT出了错有办法调试,而机器学习是内在错误,不可能消除。所以,它天生有点不靠谱。
  说AlphaGo等人工智能会战胜人类,那是人类受生理条件的限制。人类本身有各种各样的缺陷,因此战胜人不是一件特别了不起的事。汽车比博尔特跑得快,那不是很正常的事?人类会犯错,而机器稳定,因此有些事超过人很正常。
  但是,人类有很厉害的能力,是机器绝对比不了的。比如,人类会搞科研,而机器不行。不能光说人类不行,还得强调人比机器强在哪儿。人类互相合作就会扎根生长,而机器最大的问题是没有思想——思想能够产生各种灿烂的文明,各种科技都是人类的思想。在强人工智能出现之前,现在的机器离人类文明差太远了。
  我现在对聊天机器人的评价是,它们根本不懂我们在聊什么,但是会抓住你言语中的一个词关联其他事物,其实并不理解对话是怎么回事儿。作诗机也是在蒙人,它根本不知道自己在写什么,只是把“玩具”、“床”等词汇换成1234,再13535等词一堆,就这么出来了。是人给作品赋予了意义,而不是机器。再比如与柯洁下围棋的AlphaGo,机器是不知道自己的棋谱有多厉害的,而人知道,能从中解读出AlphaGo的实力有多强。DeepMind公司说与人类一同探索棋艺的奥妙,这不是谦虚的话。
  现在人工智能比较火的还有自动驾驶。最近百度把自动驾驶开发包公开,说是促进社会共同研发人工智能自动驾驶,自己不干或不全力去干了。我个人认为,这是因为自动驾驶太难了。机器下棋是一个单纯的事件,在绝对单一的场景里,目的设定非常清楚,而自动驾驶面临的各种条件太复杂。谷歌、特斯拉的自动驾驶在美国开得还不错,但放到中国,得重新开发。换了一个场景就不行了,这是人工智能的问题。
  我自己是搞人工智能的,所以我知道人工智能的特性是不靠谱,要非常小心,不能认为它超过人。可以用它去做事,但是得事先做好它不靠谱后要怎么办的预防。
  人工智能为什么现在这么火?观察生活,会发现有些人工智能已很靠谱。如车牌识别已是很成熟的技术,在这个行业已一统天下。我相信以后在停车场停车会是无人管理,用软件、算法去解决,这是因为车牌识别的准确率已超过人了,也超过了RFID等硬件。突破一个指标,就可以取代人,但这种行业还不太多。
  说人工智能一个程序搞定一切,绝对是不对的,因为社会生活包括方方面面,人工智能目前只能干单一的任务。把单一的任务嵌入社会生活过程中,才能起到作用。
  比如送快递,人人都能干,没有学历等要求。但要让一个人工智能机器人去送快递,这事不靠谱。因为送快递有很多步骤,如要识字、跑腿、上楼等,人工智能只能在分发、条形码扫描等某个步骤做事,不可能全程包揽。现在的微信、支付宝支付,用二维码识别,人工智能的识别率非常高,但是我不承认这是人工智能对社会革命化改造。我只承认,这是IT化对社会的改造,主要还是IT大公司的贡献。
  人工智能行业中国赶超美国的机会
  人工智能行业,中美两国排名前两,其他国家无法与之抗衡。而中美两国,哪个更有机会?我个人认为有两种情况:
  第一种情况,现在人工智能被说得上天入地很神奇,但是过两年大家会发现要想取得进展不容易。这样,它就会从过热期进入低谷期,那时研发者估计会偏保守点,就是我能干的事去干,不能干的不干。进入低谷期,就是中国的拿手好戏了,我称之为“白菜化”。为什么中国在世界的经济影响力这么大?那是因为中国把很多行业的高科技都给“白菜化”了,人工智能也逃不脱这一命运。
  如果人工智能的研发进入低谷期,高水平的研发人员就无用武之地了。(当然,积极搞强人工智能突破是另一回事。)当其一旦进入瓶颈,中国的优势就会显现。举个例子。 今年一月,我在微博上推荐过一支股票——海康威视。那时股价为25,现在26元。但是它期间除权了一次,十送六,所以它的价格其实上涨了60%多。在现在股市大跌的情况下,海康威视已变成深市的第一大股了,市值接近2000亿,超过万科。海康威视为什么能增长这么多?
  海康威视不是搞人工智能的,而是世界上最大的摄像头生产商,是德州仪器芯片、索尼CCD等部件的最大客户。所以,海康威视的所有元件成本是世界最低的,生产摄像头的成本是一般厂家的70%。海康威视用30%的成本优势发展技术,如人脸识别、车牌识别等技术,还全部不要钱,白送。其摄像头就是一人工智能产品。人脸识别创业企业在2014~2016年市场估值一度很高,但是海康威视招人来干人脸识别就行了,要转型成人工智能企业,有很大的优势,这也是其市值变成深市第一名的原因。
  这例子对中国也是有用的。“白菜化”,包含生产、研发两阶段。现在中国各生产企业都在疯狂招搞人工智能的人,和生产结合一块儿,生产人工智能产品,从而改造社会。我相信,人工智能要改造全球,不是美国去推动,而是中国。因为改造全球的不是论文,而是具体的产品,而产品是中国的优势。按这图景,我相信未来人工智能行业,中国会因应用做得最好,而超过美国。
  第二种情况,如强人工智能被研发出来,可以取代人的工作。很多人的工作危险、辛苦、无聊,如果机器能做是很好的事。还有稀缺的如专家医生,如果人工智能可以成为医疗专家,对排队等专家治病的广大群众而言是一件好事。如果人工智能真有这些本事,就是人工智能革命,而非IT革命。那时社会生产力将急剧发展,翻十倍都可以想象。人要做的工作将减少,底层福利又上升。
  中国在这些好的图景上是有优势的,因为中国国家体制是社会主义,一旦人工智能对社会造成巨大冲击,国家政府有能力照顾大众的利益,而不只是大公司的利益。如有公司研发出超级厉害的人工智能,抢占了所有工作,国家是会想办法对其进行限制的。外国特别注重公司权益,按照谁投入谁收获的原则,人工智能福利会不会传给大众要扯皮。  机器代替人类工作,人没工作是否要完蛋?不是的。人类社会会进行调整,如搞机器共产主义。某公司研发很厉害的机器人,可以替代众多人的工作,人们可以要求立法,关于这一机器人的收益,研发公司收10%,90%归政府,政府再分给个人。再比如,人缺乏工作能力,政府派两机器仆人帮赚钱去,那人整天打游戏就行。机器人特别听话,特别有执行力,那就可以大搞计划经济了。
  相信若出现人工智能大发展,中国社会变革能力是能够领先美国的,中国搞改革是本能。在这一情况下,我相信中国人民的福利会得到大幅度提升。当然,这一情况不是必然的,还只是一种美梦。至于说人工智能替代人,这是在吓唬人,人类社会还是很能适应变革与发展的。

回复 支持 反对

使用道具 举报

21#
 楼主| 发表于 2017-5-30 15:10 | 只看该作者
http://sports.sina.com.cn/go/2017-05-30/doc-ifyfqvmh9530669.shtml
AlphaGo的强大远超人类 该放弃击败它的想法了2017年05月30日10:15 新浪体育 微博分享|评论13

中国5将团灭
  陈经
  2017年5月27日
  (本文首发于观察者网:如何战胜AlphaGo?该放弃这想法了)
  2017年5月27日,柯洁在与AlphaGo的最后一局中执白发挥不佳,最后求投场大龙被吃负于AlphaGo,人机大战0:3没有取得突破。
  在前一天的人机配对赛中(前一天文章我以为是人参考AlphaGo提供的选点下,其实不是,配对赛人机虽然是一边但是不商量,轮流各下一手),连笑与AlphaGo执白战胜了古力与AlphaGo,比赛中人类棋手明显发挥更差,导致棋局缺少逻辑状况不断不够流畅。女棋手唐奕透露说,古力一方本来胜率高达75%胜定(由于之前连笑的错着),古力一招错棋胜率降成60%,再一招掉成45%,后来继续犯错被翻盘。人机联棋,人类高手的表现明显差于AlphaGo,就象人类混双赛中女棋手的表现。
  同一天唐韦星等五位中国世界冠军以相谈棋(五人商量着下)的形式执黑对战AlphaGo,第一个接触战就早早出败着。猜到自认为不利的黑棋后,五位高手心态受影响,27手长过于松垮,在这个局部地势全失,早早就陷入困境。整盘棋早早进入了AlphaGo的控制流,它开始标志性地不断送目。棋手们眼看又要以最小差距负,干脆中盘认负,最大的贡献可能是一个神同步的表情包。
  今天第三局柯洁执白不是猜先的,是第二局后他主动要求的,更利于第三局发挥水平。柯洁2015年执白全年只负一局,他的白棋可以说代表了人类高手的最高水平。但本局还是较早阶段就出了败招,以较大差距负于AlphaGo,发挥可能还不如第一局。
  二次人机大战五盘棋结束,应该可以得出结论了:AlphaGo远强于人类棋手,而且即使它有bug,人类棋手也几乎找不到。我之前的文章中不断为人类棋手想办法,试图从算法的角度发现AlphaGo的弱点,希望人类棋手能利用其弱点战而胜之。现在看来,由于人类棋手与它差距实在太大,应该放弃这种想法了。
  但是人机大战的意义还是很大的,AlphaGo到底有多强大,作为没有自我意识的弱人工智能,它只是一个算术工具,自己肯定不知道。而AlphaGo的开发者Deepmind团队的人类算法大师们,虽然开发出了一个强大到可怕的工具,但自己也难以解读这种强大。人类顶尖棋手通过与AlphaGo的对战,亲自感受到了这种强大,也对AlphaGo作出了高强度的测试。柯洁的第二盘甚至第三盘棋,还是提供了很复杂的局面,AlphaGo都完美地应对了下来。另一方面,AlaphGo不仅是通过战绩让世人震惊,从围棋艺术来说,它的很多招法,都体现了极度的震憾与美感。而这种震憾与美感,是人类的宝贵财富,是艺术精品,只有职业棋手才能最好的阐释,AlphaGo团队反而做不了。所以,人机大战人类棋手与机器并不只是对抗,即使人类失利,双方也共同对围棋艺术作出了极大贡献。
  这也是现阶段弱人工智能的意义。人工智能程序越来越强大,但只有人类对手或者使用者,才知道人工智能的意义。更深层的意义,只有等有自主意识的强人工智能来发掘了。从这个角度上看,AlphaGo也让我们对人工智能的哲学意义认识更深。第三局进行的同时,笔者正在观察者网观天下论坛演讲,提前预测柯洁会0:3负,从理性上放弃了战胜AlphaGo的希望。但职业棋手也不是失败,柯洁、李世石以及参与人机大战的所有中国高手,对AI算法意义的阐释,也是很大的贡献。
  下面对第三局的关键之处加以解说,并对围棋AI后续的发展作出展望。
  一。第三局的关键之处
  柯洁白棋开局平稳,至12手是常见局面。AlphaGo的13手是新手。这一手拆一很难想到,但很难应对,白棋容易重复。柯洁在此局部的解决办法是脱先。
  柯洁14位尖顶后16位打入,18同样还以一个拆一,并果断出手20位打入角部。这一手也很难应对,黑怎么应都会被利。AlphaGo同样应以脱先。
  AlphaGo的21压迫白角部,占住外面。柯洁26手飞出,但AlphaGo仍然执意要控制大势,27位控场,仍然不理右下角。柯洁28手终于忍不住在右下角出手。双方在这几个局部的脱先大战韵味深长。
  对柯洁28,AlphaGo简单地29位31位顶住走厚。这个局面白棋花的手数不少,却难以获得重大战果只是单纯破空。可能柯洁28位没忍住有问题。这时柯洁感觉右下角不好走了,再次脱先在右上角32位碰,而AlphaGo作出了令人吃惊的选择,简单地37位占住角,让白38位挡上。但仔细品味,黑右边两子虽然陷入包围,但是仍然很有活力,白并不能将右边算成实空。黑棋39立下威胁白棋左下角和中下的棋,这一手诱发了柯洁的败招。
  柯洁40手威胁分断黑棋,是一招严重的问题手,遭到了AlphaGo的反击。AlphaGo不去连接而是41手点角,而白棋却不敢断!如果白切断,由于自身毛病太多,左下角的白棋会被搜刮得很苦,失去了切断的意义。柯洁考虑之后,作出了42冲,44切断黑棋的激烈选择。柯洁的意图是,彻底分断左中五个黑子,把40位威胁切断的意义体现出来。但这是一厢情愿的盘算,事实证明是败招。
  柯洁50、54、56将角部紧急处理一下,左下总算是“先手活”。然后58手威胁黑棋,企图让黑棋五子在F5位连回,这种“外边和里边”的交换白便宜了。但是AlphaGo下出了胜招59位罩!这招棋拿住了白棋48这块棋的棋形,白棋怎么应都会变成效率低下的愚型。硬吃黑五子更不可行,没有多少目,外面还会被黑全封住大败。
  柯洁被63吃后只好继续脱先做活右下角。这不是好招,而是没办法的脱先。AlphaGo稳稳地71扳73跳。这个结果,白右下角是先手活了。但和左下角的“先手活”一样,目数很少。而且黑外面有借用,几块黑棋都很安全,做眼、出头都方便,还随时可以从71这联络。但白58、70这块棋就很困难,加上60、62这块棋等于是被缠绕攻击。白实空又不足,已经是非常困难的局面了。
  柯洁78手补棋的选点很有妙味,是劣势下走得不错的一招。AlphaGo的选择很明快,它简单地走厚右下与右上,放弃了右边两子,让白棋获得了一大块实空。但是黑争得先手89位扳缠绕攻击,柯洁为了下边中间的大块棋安全,只能让黑95长出,左边几个子基本被吃。这个局面,黑棋非常厚实,白棋实空虽然算有,但是大势到处被制,局势已经必败了。但是根源是左下40手和44手的切断,战略上方向大错。
  后面柯洁败势下努力拼搏,在中上部形成了一个很复杂的局面。但AlphaGo似乎已经算清了,走出127手静待白棋出招。柯洁苦思良久还是没有办法,上面被吃了,黑棋盘面15目优势,比第一局的优势还大得多。这说明AlphaGo似乎并不惧怕局部的复杂情况,计算能力比其它围棋AI以及之前版本明显提升。包括第二局很复杂的局面,AlphaGo也没有应错,还是能掌控局势的。
  这是终局的情况,白中腹大龙无法回家被吃。但这是柯洁拼搏或者说求投场的结果。如果平稳收官大约是盘面十目的劣势,无非是看AlphaGo是不是又送成最小差距。柯洁和昨天的五人一样,选择了壮烈。
  本局柯洁发挥不佳,主要的看点还是AlphaGo的妙招,以及双方的几手脱先。柯洁的脱先多半是局部应不好的无奈选择,AlphaGo的脱先有妙味。
  二。围棋AI后续将如何发展?人类棋手如何面对?
  二次人机大战,AlphaGo以及之前的Master,以令人信服的表现,基本上终结了人类棋手能否战胜它这个悬念。柯洁是对此认识最深的,他赛前就说,这是与AI的最后三盘棋,无论胜负都不下了。因为之后差距会越来越大,与机器对局从胜负上没有意义了。
  但这并不是说围棋与人类棋手就会惨遭打击,其实国际象棋早就有这样的事了。国际象棋高手连手机版本都战胜不了,但是国际象棋运动近20年来发展得很好。在AI的帮助下,人类国际象棋水平迅速提升,大师的数量翻了好几倍,正式比赛数量翻了十倍,棋界非常活跃。高等级的比赛很多,人类高手对局时,棋迷们在线观看AI的评棋。AI会实时给出各个选择的后续变化,棋迷们就象监考老师一样盯着双方高手,看他们是下出了好棋还是下出败招,对手是不是找到了惩罚的办法。
  相信围棋也会发展成这样,至少从棋迷的角度,观赏比赛不再象以前那样一头雾水。如果真有人类高手像柯洁第二局前50手表现那样,下得和AlphaGo推荐的招数一样,也会得到棋迷与棋手们真心的喝彩。而棋手也会追求这种荣誉,为之兴奋,为之落泪,这种感情是冷冰冰的AlphaGo永远无法体会到的。
  近一段时间,棋迷们显得对人类棋手之间对局兴趣下降,对绝艺、AlphaGo与人类高手的对局更有兴趣。我相信这是暂时的,主要原因还是人类棋手水平低犯错太多。如果人类棋手在向AI学棋之后,水平取得巨大进步,有艺术美感的高水平棋局一定会比以前更多,而棋迷们会更有兴趣看人类棋手之间有血性与情感的对局。国际象棋顶级AI之间,动则大战100回合,虽然水平很高,但棋迷们其实看不过来,关注度比卡尔森的世界冠军赛要低得多。
  现在顶级的围棋AI只有AlphaGo一个。腾讯绝艺团队的开发似乎进入瓶颈,正如AlphaGo去年的版本,总是会被时间充足的人类对手以一定概率找到Bug。但是这次Deepmind团队已经透露了Master的技术秘密,我上篇文章已经简单介绍了。Deepmind将在6月以论文形式公布更多细节,并将在几个月以后象2016年《自然》那篇文章一样公布非常完整的技术细节。这将对绝艺、DeepZenGo等高水平AI帮助极大,其它开发者也可能迅速追上。
  柯洁的意见是,人类的围棋比赛就应该人来下,让AI来是不正确的。国际象棋比赛确实如此,正式比赛不仅AI不能来,还要严查棋手不准AI支招。只有人机结合趣味赛之类的比赛,才让AI来比赛。  接下来6月,梦百合杯64强战就将开打,日本的DeepZenGo特约参赛。如果DeepZenGo连胜两局进入16强,会到9月再续战。这几个月时间,得到Deepmind公布信息的帮助,DeepZenGo的实力很大可能将突飞猛进。即使只是接近Master的水平,DeepZenGo获得最终冠军的可能性也不小。如果柯洁在过程中或者决赛中碰上它,再不与AI对局的宣告也只能放弃了。
  当然AI之间互相比赛也是很有意思的,围棋AI肯定也会有很多比赛继续举办。如果其它AI取得实力突破,例如对人类高手也是100%胜率,也可能AlphaGo也会参与“机机大战”。
  不管如何,围棋AI的出现对围棋是很好的事,能够促进人类围棋艺术的极大发展。而对“围棋艺术”的理解,又需要职业棋手们的阐释。这从一个侧面,说明了人类与人工智能的辩证关系。


回复 支持 反对

使用道具 举报

22#
 楼主| 发表于 2017-12-13 17:52 | 只看该作者

Alphago进化史 漫画告诉你Zero为什么这么牛

本帖最后由 cateyes 于 2017-12-13 18:01 编辑

http://sports.sina.com.cn/chess/ ... ymyyxw4023875.shtml
Alphago进化史 漫画告诉你Zero为什么这么牛
2017-10-21 22:18:10 新浪综合

Alphago家族又添新成员
  来源:环球科学ScientificAmerican公众号
  策划 | 吴非    绘制 | 铁蛋公主

专家评Alphago Zero 成绩令人欣喜但AI还在路上
  Alphago进步速度示意图
  作者:葛熔金
  在金庸的小说《射雕英雄传》里,周伯通“左手画圆,右手画方”,左手攻击右手,右手及时反搏,自娱自乐,终无敌于天下。
  现实世界中,亦有这么一个“幼童”,他没见过一个棋谱,也没有得到一个人指点,从零开始,自娱自乐,自己参悟,用了仅仅40天,便称霸围棋武林。
  这个“幼童”,叫阿尔法元(AlphaGo Zero),就是今年5月在乌镇围棋峰会上打败了人类第一高手柯洁的阿尔法狗强化版AlphaGo Master的同门“师弟”。不过,这个遍读人类几乎所有棋谱、以3比0打败人类第一高手的师兄,在“师弟”阿尔法元从零自学第21天后,便被其击败。
  10月19日,一手创造了AlphaGo神话的谷歌DeepMind团队在Nature杂志上发表重磅论文Mastering the game of Go without human knowledge,介绍了团队最新研究成果——阿尔法元的出世,引起业内轰动。
  虽师出同门,但是师兄弟的看家本领却有本质的差别。
  “过去所有版本的AlphaGo都从利用人类数据进行培训开始,它们被告知人类高手在这个地方怎么下,在另一个地方又怎么下。” DeepMind阿尔法狗项目负责人David Silver博士在一段采访中介绍,“而阿尔法元不使用任何人类数据,完全是自我学习,从自我对弈中实践。”
  David Silver博士介绍,在他们所设计的算法中,阿尔法元的对手,或者叫陪练,总是被调成与其水平一致。“所以它是从最基础的水平起步,从零开始,从随机招式开始,但在学习过程中的每一步,它的对手都会正好被校准为匹配器当前水平,一开始,这些对手都非常弱,但是之后渐渐变得越来越强大。”
  这种学习方式正是当今人工智能最热门的研究领域之一——强化学习(Reinforcement learning)。
  昆山杜克大学和美国杜克大学电子与计算机工程学教授李昕博士向澎湃新闻(www.thepaper.cn)介绍,DeepMind团队此次所利用的一种新的强化学习方式,是从一个对围棋没有任何知识的神经网络开始,然后与一种强大的搜索算法相结合,“简单地解释就是,它开始不知道该怎么做,就去尝试,尝试之后,看到了结果,若是正面结果,就知道做对了,反之,就知道做错了,这就是它自我学习的方法。”
  这一过程中,阿尔法元成为自己的“老师”,神经网络不断被调整更新,以评估预测下一个落子位置以及输赢,更新后的神经网络又与搜索算法重新组合,进而创建一个新的、更强大的版本,然而再次重复这个过程,系统性能经过每一次迭代得到提高,使得神经网络预测越来越准确,阿尔法元也越来越强大。
  其中值得一提的是,以前版本的阿尔法狗通常使用预测下一步的“策略网络(policy network)”和评估棋局输赢的“价值网络(value network)”两个神经网络。而更为强大的阿尔法元只使用了一个神经网络,也就是两个网络的整合版本。
  这个意义上而言,“AlphaGo Zero”译成“阿尔法元”,而不是字面上的“阿尔法零”,“内涵更加丰富,代表了人类认知的起点——神经元。”李昕教授说。
  上述研究更新了人们对于机器学习的认知。“人们一般认为,机器学习就是关于大数据和海量计算,但是通过阿尔法元,我们发现,其实算法比所谓计算或数据可用性更重要。”DavidSilver博士说。
  李昕教授长期专注于制造业大数据研究,他认为,这个研究最有意义的一点在于,证明了人工智能在某些领域,也许可以摆脱对人类经验和辅助的依赖。“人工智能的一大难点就是,需要大量人力对数据样本进行标注,而阿尔法元则证明,人工智能可以通过‘无监督数据(unsupervised data)’,也就是人类未标注的数据,来解决问题。”
  有人畅想,类似的深度强化学习算法,或许能更容易地被广泛应用到其他人类缺乏了解或是缺乏大量标注数据的领域。
  不过,究竟有多大实际意义,能应用到哪些现实领域,李昕教授表示“还前途未卜”,“下围棋本身是一个比较局限的应用,人类觉得下围棋很复杂,但是对于机器来说并不难。而且,下围棋只是一种娱乐方式,不算作人们在生活中遇到的实际问题。”
  那么,谷歌的AI为什么会选择围棋?
  据《第一财经》报道,历史上,电脑最早掌握的第一款经典游戏是井字游戏,这是1952年一位博士在读生的研究项目;随后是1994年电脑程序Chinook成功挑战西洋跳棋游戏;3年后,IBM深蓝超级计算机在国际象棋比赛中战胜世界冠军加里•卡斯帕罗夫。
  除了棋盘游戏外,IBM的Watson系统在2011年成功挑战老牌智力竞赛节目Jeopardy游戏一战成名;2014年,Google自己编写的算法,学会了仅需输入初始像素信息就能玩几十种Atari游戏。
  但有一项游戏仍然是人类代表着顶尖水平,那就是围棋。
  谷歌DeepMind创始人兼CEO Demis Hassabis博士曾在2016年AlphaGo对阵李世石时就做过说明,有着3000多年历史的围棋是人类有史以来发明出来的最复杂的游戏,对于人工智能来说,这是一次最尖端的大挑战,需要直觉和计算,要想熟练玩围棋需要将模式识别和运筹帷幄结合。
  “围棋的搜索空间是漫无边际的——比围棋棋盘要大1个古戈尔(数量级单位,10的100次方,甚至比宇宙中的原子数量还要多)。”因此,传统的人工智能方法也就是“为所有可能的步数建立搜索树”,在围棋游戏中几乎无法实现。
  而打败了人类的AlphaGo系统的关键则是,将围棋巨大无比的搜索空间压缩到可控的范围之内。David Silver博士此前曾介绍,策略网络的作用是预测下一步,并用来将搜索范围缩小至最有可能的那些步骤。另一个神经网络“价值网络(valuenetwork)”则是用来减少搜索树的深度,每走一步估算一次游戏的赢家,而不是搜索所有结束棋局的途径。
  李昕教授对阿尔法元带来的突破表示欣喜,但同时他也提到,“阿尔法元证明的只是在下围棋这个游戏中,无监督学习(unsupervised learning)比有监督学习(supervised learning)‘更优’,但并未证明这就是‘最优’方法,也许两者结合的semi-supervised learning,也就是在不同时间和阶段,结合有监督或无监督学习各自的优点,可以得到更优的结果。”
  李昕教授说,人工智能的技术还远没有达到人们所想象的程度,“比如,互联网登录时用的reCAPTCHA验证码(图像或者文字),就无法通过机器学习算法自动识别”,他说,在某些方面,机器人确实比人做得更好,但目前并不能完全替换人。“只有当科研证明,一项人工智能技术能够解决一些实际问题和人工痛点时,才真正算作是一个重大突破。”
  昆山杜克大学常务副校长、中美科技政策和关系专家丹尼斯·西蒙(Denis Simon)博士在接受澎湃新闻采访时表示,阿尔法元在围棋领域的成功说明它确实有极大的潜力。阿尔法元通过与自身对弈实现了自身能力的提升,每一次它都变得更聪明,每一次棋局也更有挑战性。这种重复性的、充分参与的学习增强了阿尔法元处理更高层次的、战略复杂问题的能力。但缺点是这是一个封闭的系统。“阿尔法元如何能够超过自身的局限获得进一步的成长?换句话说,它能跳出框框思考吗?”
  AI科学家详解AlphaGo Zero的伟大与局限
  AlphaGo Zero
  (文章来源:量子位 报道 | 公众号 QbitAI 作者:夏乙 李根 发自 凹非寺 )
  “人类太多余了。”
  面对无师自通碾压一切前辈的AlphaGo Zero,柯洁说出了这样一句话。
  如果你无法理解柯洁的绝望,请先跟着量子位回顾上一集:
  今年5月,20岁生日还未到的世界围棋第一人柯洁,在乌镇0:3败给了DeepMind的人工智能程序AlphaGo,当时的版本叫做Master,就是今年年初在网上60:0挑落中日韩高手的那个神秘AI。
  AlphaGo Zero骤然出现,可以说是在柯洁快要被人类对手和迷妹们治愈的伤口上,撒了一大把胡椒粉。
  被震动的不止柯洁,在DeepMind的Nature论文公布之后,悲观、甚至恐慌的情绪,在大众之间蔓延着,甚至有媒体一本正经地探讨“未来是终结者还是黑客帝国”。
  于是,不少认真读了论文的人工智能“圈内人”纷纷站出来,为这次技术进展“去魅”。
  无师自通?
  首当其冲的问题就是:在AlphaGo Zero下棋的过程中,人类知识和经验真的一点用都没有吗?
  在这一版本的AlphaGo中,虽说人类的知识和经验没多大作用,但也不至于“多余”。
  在Zero下棋的过程中,并没有从人类的对局经验和数据中进行学习,但这个算法依然需要人类向它灌输围棋的规则:哪些地方可以落子、怎样才算获胜等等。
  剩下的,就由AI自己来搞定了。
  对于这个话题,鲜有人比旷视科技首席科学家孙剑更有发言权了,因为AlphaGo Zero里面最核心使用的技术ResNet,正是孙剑在微软亚洲研究院时期的发明。
  孙剑
  孙剑也在接受量子位等媒体采访的过程中,对AlphaGo Zero的“无师自通”作出了评价,他认为这个说法“对,也不对”,并且表示“伟大与局限并存”。
  究竟对不对,还是取决于怎样定义无师自通,从哪个角度来看。
  和之前三版AlphaGo相比,这一版去掉了人类教授棋谱的过程,在训练过程最开始的时候,AI落子完全是随机的,AlphaGo团队的负责人David Silver透露,它一开始甚至会把开局第一手下在1-1。在和自己对弈的过程中,算法才逐渐掌握了胜利的秘诀。
  从这个角度来看,Zero的确可以说是第一次做到了无师自通,也正是出于这个原因,DeepMind这篇Nature论文才能引起这么多圈内人关注。
  但要说它是“无监督学习”,就有点“不对”。孙剑说:“如果仔细看这个系统,它还是有监督的。”它的监督不是来自棋谱,而是围棋规则所决定的最后谁输谁赢这个信号。
  “从这个意义上说,它不是百分之百绝对的无师自通,而是通过这个规则所带来的监督信号,它是一种非常弱监督的增强学习,它不是完全的无师自通。”
  孙剑还进一步强调:“但是同时这种无师自通在很多AI落地上也存在一些局限,因为严格意义上讲,围棋规则和判定棋局输赢也是一种监督信号,所以有人说人类无用、或者说机器可以自己产生认知,都是对AlphaGo Zero错误理解。”
  离全面碾压人类有多远?
  Zero发布之后,媒体关切地询问“这个算法以后会用在哪些其他领域”,网友认真地担心“这个AI会不会在各个领域全面碾压人类”。
  对于Zero算法的未来发展,DeepMind联合创始人哈萨比斯介绍说,AlphaGo团队的成员都已经转移到其他团队中,正在尝试将这项技术用到其他领域,“最终,我们想用这样的算法突破,来解决真实世界中各种各样紧迫的问题。”
  DeepMind期待Zero解决的,是“其他结构性问题”,他们在博客中特别列举出几项:蛋白质折叠、降低能耗、寻找革命性的新材料。
  哈萨比斯说AlphaGo可以看做一个在复杂数据中进行搜索的机器,除了博客中提到几项,新药发现、量子化学、粒子物理学也是AlphaGo可能大展拳脚的领域。
  不过,究竟哪些领域可以扩展、哪些领域不行呢?
  孙剑说要解释AlphaGo算法能扩展到哪些领域,需要先了解它现在所解决的问题——围棋——具有哪些特性。
  首先,它没有噪声,是能够完美重现的算法;
  其次,围棋中的信息是完全可观测的,不像在麻将、扑克里,对手的信息观测不到;
  最后也是最重要的一点,是围棋对局可以用计算机迅速模拟,很快地输出输赢信号。
  基于对围棋这个领域特性的理解,提到用AlphaGo算法来发现新药,孙剑是持怀疑态度的。
  他说,发现新药和下围棋之间有一个非常显著的区别,就是“输赢信号”能不能很快输出:“新药品很多内部的结构需要通过搜索,搜索完以后制成药,再到真正怎么去检验这个药有效,这个闭环非常代价昂贵,非常慢,你很难像下围棋这么简单做出来。”
  不过,如果找到快速验证新药是否有效的方法,这项技术就能很好地用在新药开发上了。
  而用AlphaGo算法用来帮数据中心节能,孙剑就认为非常说得通,因为它和围棋的特性很一致,能快速输出结果反馈,也就是AlphaGo算法依赖的弱监督信号。
  当然,从AlphaGo算法的这些限制,我们也不难推想,它在某些小领域内可以做得非常好,但其实并没有“全面碾压人类”的潜力。
  去魅归去魅,对于AlphaGo Zero的算法,科研人员纷纷赞不绝口。
  大道至简的算法
  在评价Zero的算法时,创新工场AI工程院副院长王咏刚用了“大道至简”四个字。
  简单,是不少人工智能“圈内人”读完论文后对Zero的评价。刚刚宣布将要跳槽伯克利的前微软亚洲研究院首席研究员马毅教授就发微博评论说,这篇论文“没有提出任何新的方法和模型”,但是彻底地实现了一个简单有效的想法。
  为什么“简单”这件事如此被学术圈津津乐道?孙剑的解释是“我们做研究追求极简,去除复杂”,而Zero的算法基本就是在前代基础上从各方面去简化。
  他说,这种简化,一方面体现在把原来的策略网络和价值网络合并成一个网络,简化了搜索过程;另一方面体现在用深度残差网络(ResNet)来对输入进行简化,以前需要人工设计棋盘的输入,体现“这个子下过几次、周围有几个黑子几个白子”这样的信息,而现在是“把黑白子二值的图直接送进来,相当于可以理解成对着棋盘拍照片,把照片送给神经网络,让神经网络看着棋盘照片做决策”。
  孙剑认为,拟合搜索和ResNet,正是Zero算法中的两个核心技术。
  其中拟合搜索所解决的问题,主要是定制化,它可以对棋盘上的每一次落子都进行量化,比如会对最终获胜几率做多大贡献,但是这其实并不是近期才产生的一种理论,而是在很早之前就存在的一种基础算法理论。
  而另一核心技术是最深可达80层的ResNet。总的来说,神经网络越深,函数映射能力就越强、越有效率,越有可能有效预测一个复杂的映射。
  下围棋时要用到的,就是一个非常复杂的映射,神经网络需要输出每个可能位置落子时赢的概率,也就是最高要输出一个361维的向量。这是一个非常复杂的输出,需要很深的网络来解决。
  人类棋手下棋,落子很多时候靠直觉,而这背后实际上有一个非常复杂的函数,Zero就用深层ResNet,拟合出了这样的函数。
  ResNet特点就是利用残差学习,让非常深的网络可以很好地学习,2015年,孙剑带领的团队就用ResNet把深度神经网络的层数从十几二十层,推到了152层。
  也正是凭借这样的创新,孙剑团队拿下了ImageNet和MSCOCO图像识别大赛各项目的冠军。到2016年,他们又推出了第一个上千层的网络,获得了CVPR最佳论文奖。
  而令孙剑更加意料之外的是,ResNet还被AlphaGo团队看中,成为AlphaGo Zero算法中的核心组件之一。
  这位Face++首席科学家表示很开心为推动整个AI进步“做了一点微小的贡献”,同时也很钦佩DeepMind团队追求极致的精神。
  任剑还说,在旷视研究院的工作中,还会不断分享、开放研究成果,更注重技术在产业中的实用性,进一步推动整个AI产业的进步。
  另外,还有不少AI大咖和知名科研、棋手对AlphaGo Zero发表了评价,量子位汇集如下:
  大咖评说AlphaGo Zero
  李开复:AI进化超人类想象,但与“奇点”无关
  昨天AlphaGo Zero横空出世,碾压围棋界。AlphaGo Zero完全不用人类过去的棋谱和知识,就再次打破人类认知。很多媒体问我对AlphaGo Zero的看法,我的观点是:一是AI前进的速度比想象中更快,即便是行业内的人士都被AlphaGo Zero跌破眼镜;二是要正视中国在人工智能学术方面和英美的差距。
  一方面,AlphaGo Zero的自主学习带来的技术革新并非适用于所有人工智能领域。围棋是一种对弈游戏,是信息透明,有明确结构,而且可用规则穷举的。对弈之外,AlphaGo Zero的技术可能在其他领域应用,比如新材料开发,新药的化学结构探索等,但这也需要时间验证。而且语音识别、图像识别、自然语音理解、无人驾驶等领域,数据是无法穷举,也很难完全无中生有。AlphaGo Zero的技术可以降低数据需求(比如说WayMo的数据模拟),但是依然需要大量的数据。
  另一方面,AlphaGo Zero里面并没有新的巨大的理论突破。它使用的Tabula Rosa learning(白板学习,不用人类知识),是以前的围棋系统Crazy Stone最先使用的。AlphaGo Zero里面最核心使用的技术ResNet,是微软亚洲研究院的孙剑发明的。孙剑现任旷视科技Face++首席科学家。
  虽然如此,这篇论文的影响力也是巨大的。AlphaGo Zero 能够完美集成这些技术,本身就具有里程碑意义。DeepMind的这一成果具有指向标意义,证明这个方向的可行性。在科研工程领域,探索前所未知的方向是困难重重的,一旦有了可行性证明,跟随者的风险就会巨幅下降。我相信从昨天开始,所有做围棋对弈的研究人员都在开始学习或复制AlphaGo Zero。材料、医疗领域的很多研究员也开始探索。
  AlphaGo Zero的工程和算法确实非常厉害。但千万不要对此产生误解,认为人工智能是万能的,所有人工智能都可以无需人类经验从零学习,得出人工智能威胁论。AlphaGo Zero证明了AI 在快速发展,也验证了英美的科研能力,让我们看到在有些领域可以不用人类知识、人类数据、人类引导就做出顶级的突破。但是,AlphaGo Zero只能在单一简单领域应用,更不具有自主思考、设定目标、创意、自我意识。即便聪明如AlphaGo Zero,也是在人类给下目标,做好数字优化而已。这项结果并没有推进所谓“奇点”理论。
  南大周志华:与“无监督学习”无关
  花半小时看了下文章,说点个人浅见,未必正确仅供批评:
  别幻想什么无监督学习,监督信息来自精准规则,非常强的监督信息。
  不再把围棋当作从数据中学习的问题,回归到启发式搜索这个传统棋类解决思路。这里机器学习实质在解决搜索树启发式评分函数问题。
  如果说深度学习能在模式识别应用中取代人工设计特征,那么这里显示出强化学习能在启发式搜索中取代人工设计评分函数。这个意义重大。启发式搜索这个人工智能传统领域可能因此巨变,或许不亚于模式识别计算机视觉领域因深度学习而产生的巨变。机器学习进一步蚕食其他人工智能技术领域。
  类似想法以往有,但常见于小规模问题。没想到围棋这种状态空间巨大的问题其假设空间竟有强烈的结构,存在统一适用于任意多子局面的评价函数。巨大的状态空间诱使我们自然放弃此等假设,所以这个尝试相当大胆。
  工程实现能力超级强,别人即便跳出盲点,以启发式搜索界的工程能力也多半做不出来。
  目前并非普适,只适用于状态空间探索几乎零成本且探索过程不影响假设空间的任务。
  Facebook田渊栋:AI穷尽围棋还早
  老实说这篇Nature要比上一篇好很多,方法非常干净标准,结果非常好,以后肯定是经典文章了。
  Policy network和value network放在一起共享参数不是什么新鲜事了,基本上现在的强化学习算法都这样做了,包括我们这边拿了去年第一名的Doom Bot,还有ELF里面为了训练微缩版星际而使用的网络设计。另外我记得之前他们已经反复提到用Value network对局面进行估值会更加稳定,所以最后用完全不用人工设计的defaultpolicy rollout也在情理之中。
  让我非常吃惊的是仅仅用了四百九十万的自我对局,每步仅用1600的MCTS rollout,Zero就超过了去年三月份的水平。并且这些自我对局里有很大一部分是完全瞎走的。这个数字相当有意思。想一想围棋所有合法状态的数量级是10^170(见Counting Legal Positions in Go),五百万局棋所能覆盖的状态数目也就是10^9这个数量级,这两个数之间的比例比宇宙中所有原子的总数还要多得多。仅仅用这些样本就能学得非常好,只能说明卷积神经网络(CNN)的结构非常顺应围棋的走法,说句形象的话,这就相当于看了大英百科全书的第一个字母就能猜出其所有的内容。用ML的语言来说,CNN的inductivebias(模型的适用范围)极其适合围棋漂亮精致的规则,所以稍微给点样本水平就上去了。反观人类棋谱有很多不自然的地方,CNN学得反而不快了。我们经常看见跑KGS或者GoGoD的时候,最后一两个百分点费老大的劲,也许最后那点时间完全是花费在过拟合奇怪的招法上。
  如果这个推理是对的话,那么就有几点推断。一是对这个结果不能过分乐观。我们假设换一个问题(比如说protein folding),神经网络不能很好拟合它而只能采用死记硬背的方法,那泛化能力就很弱,Self-play就不会有效果。事实上这也正是以前围棋即使用Self-play都没有太大进展的原因,大家用手调特征加上线性分类器,模型不对路,就学不到太好的东西。一句话,重点不在左右互搏,重点在模型对路。
  二是或许卷积神经网络(CNN)系列算法在围棋上的成功,不是因为它达到了围棋之神的水平,而是因为人类棋手也是用CNN的方式去学棋去下棋,于是在同样的道路上,或者说同样的inductive bias下,计算机跑得比人类全体都快得多。假设有某种外星生物用RNN的方式学棋,换一种inductive bias,那它可能找到另一种(可能更强的)下棋方式。Zero用CNN及ResNet的框架在自学习过程中和人类世界中围棋的演化有大量的相似点,在侧面上印证了这个思路。在这点上来说,说穷尽了围棋肯定是还早。
  三就是更证明了在理论上理解深度学习算法的重要性。对于人类直觉能触及到的问题,机器通过采用有相同或者相似的inductive bias结构的模型,可以去解决。但是人不知道它是如何做到的,所以除了反复尝试之外,人并不知道如何针对新问题的关键特性去改进它。如果能在理论上定量地理解深度学习在不同的数据分布上如何工作,那么我相信到那时我们回头看来,针对什么问题,什么数据,用什么结构的模型会是很容易的事情。我坚信数据的结构是解开深度学习神奇效果的钥匙。
  另外推测一下为什么要用MCTS而不用强化学习的其它方法(我不是DM的人,所以肯定只能推测了)。MCTS其实是在线规划(online planning)的一种,从当前局面出发,以非参数方式估计局部Q函数,然后用局部Q函数估计去决定下一次rollout要怎么走。既然是规划,MCTS的限制就是得要知道环境的全部信息,及有完美的前向模型(forward model),这样才能知道走完一步后是什么状态。围棋因为规则固定,状态清晰,有完美快速的前向模型,所以MCTS是个好的选择。但要是用在Atari上的话,就得要在训练算法中内置一个Atari模拟器,或者去学习一个前向模型(forward model),相比actor-critic或者policy gradient可以用当前状态路径就地取材,要麻烦得多。但如果能放进去那一定是好的,像Atari这样的游戏,要是大家用MCTS我觉得可能不用学policy直接当场planning就会有很好的效果。很多文章都没比,因为比了就不好玩了。
  另外,这篇文章看起来实现的难度和所需要的计算资源都比上一篇少很多,我相信过不了多久就会有人重复出来,到时候应该会有更多的insight。大家期待一下吧。
  清华大学马少平教授:不能认为AI数据问题解决了
  从早上开始,就被AlphaGo Zero的消息刷屏了,DeepMind公司最新的论文显示,最新版本的AlphaGo,完全抛弃了人类棋谱,实现了从零开始学习。
  对于棋类问题来说,在蒙特卡洛树搜索的框架下,实现从零开始学习,我一直认为是可行的,也多次与别人讨论这个问题,当今年初Master推出时,就曾预测这个新系统可能实现了从零开始学习,可惜根据DeepMind后来透露的消息,Master并没有完全抛弃人类棋谱,而是在以前系统的基础上,通过强化学习提高系统的水平,虽然人类棋谱的作用越来越弱,但是启动还是学习了人类棋谱,并没有实现“冷”启动。
  根据DeepMind透露的消息,AlphaGo Zero不但抛弃了人类棋谱,实现了从零开始学习,连以前使用的人类设计的特征也抛弃了,直接用棋盘上的黑白棋作为输入,可以说是把人类抛弃的彻彻底底,除了围棋规则外,不使用人类的任何数据和知识了。仅通过3天训练,就可以战胜和李世石下棋时的AlphaGo,而经过40天的训练后,则可以打败与柯洁下棋时的AlphaGo了。
  真是佩服DeepMind的这种“把革命进行到底”的作风,可以说是把计算机围棋做到了极致。
  那么AlphaGo Zero与AlphaGo(用AlphaGo表示以前的版本)都有哪些主要的差别呢?
  1。在训练中不再依靠人类棋谱。AlphaGo在训练中,先用人类棋谱进行训练,然后再通过自我互博的方法自我提高。而AlphaGo Zero直接就采用自我互博的方式进行学习,在蒙特卡洛树搜索的框架下,一点点提高自己的水平。
  2。不再使用人工设计的特征作为输入。在AlphaGo中,输入的是经过人工设计的特征,每个落子位置,根据该点及其周围的棋的类型(黑棋、白棋、空白等)组成不同的输入模式。而AlphaGo Zero则直接把棋盘上的黑白棋作为输入。这一点得益于后边介绍的神经网络结构的变化,使得神经网络层数更深,提取特征的能力更强。
  3。将策略网络和价值网络合二为一。在AlphaGo中,使用的策略网络和价值网络是分开训练的,但是两个网络的大部分结构是一样的,只是输出不同。在AlphaGo Zero中将这两个网络合并为一个,从输入到中间几层是共用的,只是后边几层到输出层是分开的。并在损失函数中同时考虑了策略和价值两个部分。这样训练起来应该 会更快吧?
  4。网络结构采用残差网络,网络深度更深。AlphaGo Zero在特征提取层采用了多个残差模块,每个模块包含2个卷积层,比之前用了12个卷积层的AlphaGo深度明显增加,从而可以实现更好的特征提取。
  5。不再使用随机模拟。在AlphaGo中,在蒙特卡洛树搜索的过程中,要采用随机模拟的方法计算棋局的胜率,而在AlphaGo Zero中不再使用随机模拟的方法,完全依靠神经网络的结果代替随机模拟。这应该完全得益于价值网络估值的准确性,也有效加快了搜索速度。
  6。只用了4块TPU训练72小时就可以战胜与李世石交手的AlphaGo。训练40天后可以战胜与柯洁交手的AlphaGo。
  对于计算机围棋来说,以上改进无疑是个重要的突破,但也要正确认识这些突破。比如,之所以可以实现从零开始学习,是因为棋类问题的特点所决定的,是个水到渠成的结果。因为棋类问题一个重要的特性就是可以让机器自动判别最终结果的胜负,这样才可以不用人类数据,自己实现产生数据,自我训练,自我提高下棋水平。但是这种方式很难推广到其他领域,不能认为人工智能的数据问题就解决了。
  对于计算机围棋来说,以上改进无疑是个重要的突破,但也要正确认识这些突破。比如,之所以可以实现从零开始学习,是因为棋类问题的特点所决定的,是个水到渠成的结果。因为棋类问题一个重要的特性就是可以让机器自动判别最终结果的胜负,这样才可以不用人类数据,自己实现产生数据,自我训练,自我提高下棋水平。但是这种方式很难推广到其他领域,不能认为人工智能的数据问题就解决了。
  Rokid祝铭明:数据学习到评分方法学习的切换
  Alpha Zero的文章有多少人认真看过,就在传无监督学习,这次有意思的是方法其实有点回归传统规则指导的思考模式。如果这个算是无监督学习,那几十年前就有了。只是这次是超大空间下的基于规则的决策树裁决评分,文章最有价值的是把之前数据学习变成了评分方法学习,这个其实有点意思,对于规则清晰问题可以大大减少数据依赖。
  简单说这个就是如何通过学习,避免对超大规模搜索树的遍历,同时保证决策打分的合理性。其实有点白盒子的味道。这方法的确在很多规则简单清晰,但空间规模大的问题上有启发意义,而且从理论上来说肯定比之前的基于数据学习的要优秀很多,因为过去的方法仍然对经验数据依赖。不过和大家说的无监督学习是两码事。这么说大家都能理解了吧。
  即将加入加州伯克利的马毅教授
  熬夜读完AlphaGo zero的Nature论文,深有感触:我们一生与多少简单而又有效的想法失之交臂,是因为我们或者过早认为这些想法不值得去做或者没有能力或毅力正确而彻底地实现它们?这篇论文可以说没有提出任何新的方法和模型——方法可以说比以前的更简单“粗暴”。但是认真正确彻底的验证了这个看似简单的想法到底work不work。在做研究上,这往往才是拉开人与人之间差距的关键。
  柯洁九段
  一个纯净、纯粹自我学习的AlphaGo是最强的…对于AlphaGo的自我进步来讲…人类太多余了。
  还有一些零散讨论:
  微软全球资深副总裁、美国计算机协会(ACM)院士Peter Lee认为这是一个激动人心的成果,如果应用到其他领域会有很多前景。其中的理论与康奈尔大学计算机系教授、1986年图灵奖获得者John Hopcroft之前下国际象棋的工作相似,而且Deepmind之前做的德州扑克比围棋搜索空间更大、更难。不过受限规则下的围棋跟现实世界的应用场景有天壤之别,现在的自动驾驶、商业决策比游戏复杂很多。
  John Hopcroft提到了他常说的监督学习和非监督学习,因为给大量数据标标签是一件非常难的事情。他还说,现在AI还在工程阶段,我们先是把飞机飞向天,此后才理解了空气动力学。AI现在能告诉你是谁,未来能告诉你在想什么,再之后会有理论解释为什么这能工作。
  美国人工智能学会(AAAI)院士Lise Getoor认为,在监督学习和非监督学习之上还有结构化学习,如何让机器发现可能是递归的ontological commitment。我们现在的深度学习模型可能存在structure bias。
  杨强教授没有说话,不过AlphaGo Zero论文刚一发布,他担任理事会主席的国际人工智能大会(IJCAI)就为这支团队颁发了第一枚马文·明斯基奖章,可谓最高赞许。
  AlphaGo从零开始自学围棋为什么能成功
  不要片面强调说人类知识没用,还不如零知识。Master与AlphaGo Zero从算法层面看,差距很小。
  陈经
  2017年10月19日
  (本文原发于观察者网:AlphaGo从零开始自学围棋为什么能成功)
  一。AlphaGo从零开始自学习新版本算法框架与等级分表现
  2017年10月18日,业界非常期待的AlphagGo新论文终于在《自然》上发表了。Deepmind开发了一个名为AlphaGo Zero的新版本,它只用一个策略与价值合体的神经网络下棋,从随机走子开始自我对弈学习,完全不需要人类棋谱。新的强化学习策略极为高效,只用3天,AlphaGo Zero就以100:0完全击败了2016年3月轰动世界的AlphaGo Lee。经过21天的学习,它达到了Master的实力(而Master在2017年5月3:0胜人类第一柯洁)。
  40天后,它能以90%的胜率战胜Master,成为目前最强的围棋程序。而且AlphaGo Zero的计算过程中直接由神经网络给出叶子节点胜率,不需要快速走子至终局,计算资源大大节省,只需要4个TPU就行(AlphaGo Lee要48个)。
  从Goratings棋力等级分上看,AlphaGo Zero其实和Master还能比较,只多个300多分。这相当于论文发表当天,人类第一柯洁九段的3667分与第38名的人气主播孟泰龄六段3425分的分差,两人肯定实力有差距,但也还有得下。论文公布了AlphaGo Zero的83局棋谱,其中与Master下的有20局,Master在第11局还胜了一局。
  AlphaGo新版本从零开始训练成功,这个结果大大出乎了我的预料,相信也让业界不少人感到震惊。我本来是预期看到Master的算法解密,为什么它能碾压人类高手。AlphaGo退役让人以为Deepmind不研究围棋了,剩下任务是把Master版本的算法细节在《自然》公布出来,腾讯的绝艺等AI就可以找到开发方向突破目前的实力瓶颈了。
  本来5月的乌镇围棋大会上说,6月新论文就能出来了,开发者们可以参考了。至于从零知识开始学习,是个有趣的想法,2016年3月人机大战胜李世石后就有这样的风声,人们期待这个“山洞中左右互搏”的版本出来,与人类的下法是不是很不相同,如开局是不是会占天元?但是后来一直好像没进展,乌镇也没有提。
  好几个月了,新论文一直没出来。绝艺明显进入发展瓶颈,总是偶而会输给人,还输给了DeepZenGo与CGI。各个借鉴AlphaGo的AI都迫切需要Deepmind介绍新的思路与细节。到8月跑出来一篇AlphaGo打星际争霸的论文,从零知识开始学,学人类录像打,两种办法都不太行。
  这时我认为让AlphaGo从零知识开始学可能不太成功,会陷入局部陷阱,人类棋谱能提供一个“高起点”,高水平AI还是需要人类的“第一推动”。
  实际是Deepmind团队认为,仅仅写Master对于《自然》级别的文章不够震憾。新的论文标题是 “Mastering the Game of Go without Human Knowledge”,这个主题升华就足够了。而Master用人类棋谱训练了初始的策略网络,人类知识还是有影响,虽然后来自学习提升后人类影响很小了。对于不懂围棋或者对算法细节不关心的人,Master相比AlphaGo Lee无非是棋力更强一些,战胜的柯洁与李世石都是顶级高手没本质区别,Master的创新性也需要懂围棋才能明白。
  AlphaGo Zero是真正的从零开始训练,整个学习过程与人类完全没有关系,全是自己学,这个哲学意义还是很大的。过程中与人或者其它版本下,只是验证棋力不是学招。
  二。真正的算法突破是Master版本实现的
  可以认为,在技术上从AlphaGo Lee进步到Master是比较难的,需要真正的变革,神经网络架构需要大变,强化学习过程也要取得突破。绝艺、DeepZenGo等AI开发就一直卡在这个阶段,突破不了AlphaGo Lee的水平,总是出bug偶尔输给人,离Master差距很大。
  但如果Master的开发成功了,再去试AlphaGo Zero就是顺理成章的事。如果它能训练成功,应该是比较快的事,实际不到半年顶级论文就出来了,回头看是个自然的进展。Deepmind团队在五月后应该是看到了成功的希望,于是继续开发出了AlphaGo Zero,新论文虽然推迟了,但再次震惊了业界。
  也可以看出,2016年Deepmind《自然》论文描述的强化学习过程,整个训练流水线比较复杂,要训练好几种神经网络的系数,进化出一个新版本需要几个星期。用这个训练流水线,从零开始强化学习,应该是意义不大,所以一直没有进展。
  但是Master的自学习过程取得了重大突破,之前从人类棋谱开始训练2个月的水平,改进后只要一星期就行了,学习效率,以及能够达到的实力上限都有了很大进展。以此为基础,再把从零开始引进来,就能取得重大突破。所以Deepmind真正的技术突破,应该是开发Master时取得的。AlphaGo Zero是Master技术成果的延续,但看上去哲学与社会意义更重大。
  Master与AlphaGo Zero的成功,是机器强化学习算法取得巨大发展的成果与证明。训练需要的局数少了,490万局就实现了AlphaGo Lee的水平。而绝艺到2017年3月就已经自我对弈了30亿局,实力一直卡着没有重大进步,主要应该是强化学习技术上有差距。
  我在2017年1月9日写的《AlphaGo升级成Master后的算法框架分析》文中进行了猜测:
  从实战表现反推,Master的价值网络质量肯定已经突破了临界点,带来了极大的好处,思考时间大幅减少,搜索深度广度增加,战斗力上升。AlphaGo团队新的prototype,架构上可能更简单了,需要的CPU数目也减少了,更接近国际象棋的搜索框架,而不是以MCTS为基础的复杂框架。比起国际象棋AI复杂的人工精心编写的局面评估函数,AlphaGo的价值网络完全由机器学习生成,编码任务更为简单。
  理论上来说,如果价值网络的估值足够精确,可以将叶子节点价值网络的权重上升为1.0,就等于在搜索框架中完全去除了MCTS模块,和传统搜索算法完全一样了。这时的围棋AI将从理论上完全战胜人,因为人能做的机器都能做,而且还做得更好更快。而围棋AI的发展过程可以简略为两个阶段。第一阶段局面估值函数能力极弱,被逼引入MCTS以及它的天生弱点。第二阶段价值网络取得突破,再次将MCTS从搜索框架逐渐去除返朴归真,回归传统搜索算法。
  从新论文的介绍来看, 这个猜测完全得到了证实。Master和AlphaGo Zero的架构确实更简单了,只需要4个TPU。AlphaGo Zero到叶子节点就完全不用rollout下完数子了,直接用价值网络(已经与策略网络合并)给出胜率,就等于是“价值网络的权重上升为1.0”。Master有没有rollout没有明确说,从实战表现看应该是取消了。
  当然新论文中还是将搜索框架称为“MCTS”,因为有随机试各分支,但这不是新东西,和传统搜索差异不算大。对围棋来说,2006年引入MCTS算法真正的独特之处是从叶子节点走完数子,代替难以实现的评估函数。
  这种疯狂的海量终局模拟更像是绝望之下的权宜之计,也把机器弄得很疲惫。但是Master与AlphaGo Zero都成功训练出了极为犀利的价值网络,从而又再次将rollout取消。价值网络的高效剪枝,让Master与AlphaGo Zero的判断极为精确,从而算得更为深远战斗力极为强大。这个价值网络怎么训练出来,就是现在Deepmind的独门绝技。可以说,新论文最有价值的就是这个部分。
  从Master开始,AlphaGo的网络结构应该就有大变了。到AlphaGo Zero,将价值与策略网络合为一个,这并不奇怪。因为第一篇论文中,就明确说价值与策略网络的架构是完全一样的,只是系数不同。那么二者共用一个网络也不奇怪,前面盘面特征表述应该是一样的,等需要不同的输出时再分出不同的系数。Master网络结构大变之后,也许Deepmind发现,许多盘面特征都可以训练出来,所以就简单将盘面输入简化成黑白。
  AlphaGo Zero的强化学习过程,应该与Master差不多,都是成功地跳出了陷阱,不断提升到超乎人类想象的程度。Master从研发上来说,像一个探路先锋,证明了这条路是可以跑通的,能把等级分增加1000分。而AlphaGo Zero,像是一个更为精减的过程,本质是与Master类似的。
  新论文中的AlphaGo Zero确实显得架构优美。只需要一个网络,既告诉机器可以下哪,也能给出局面的胜率。盘面输入就是黑白,也不需要任何人类知识。强化学习就是两招,搜索的结果好于神经网络直觉想下的点,可以用于策略选点的训练,一盘下完的结果回头用于修正胜率,都很自然。但是为了实现这个优美结果,需要勇敢的探索。一开始的AlphaGo并没有这么优美,路跑通了,才想到原来可以做得更简单。
  本文再提出一个猜测:现在的绝艺、DeepZenGo等AI实力接近AlphaGo Lee了,但都经常出现死活bug,会怎么出和人类对手的实力关系不大,并不是对手等级分高的它就容易出bug,基本是自己莫明其妙送死。这个bug的原因是rollout模块带来的,因为rollout策略是人类棋谱训练出来的,也可能有人工加代码打补丁。
  它的目的是快速下完终局,但如果牵涉到死活,这种快速下完就不太可靠了,活的下死,死的杀活。但是,怎么实现不出错的rollout,这非常困难,应该是不可能完成的任务。Master和AlphaGo Zero的办法,是取消这个不可靠的rollout,直接让神经网络给出结果。如果神经网络给出的胜率结果有问题,那就靠训练来解决。这样纠错,强过程序员去排查rollout代码里出了什么错。
  三。机器与人类对围棋的适应能力差异很大
  Master和AlphaGo Zero的突破说明,在极高的水平上,需要考虑出现瓶颈的原因。人类棋谱能够提供一个“高起点”,但是机器从零开始训练一两天也就追上了,带来的“先发优势”没多少。而人类棋谱中显然有一些“有害成分”,这可能将AI的学习过程带歪。如果AI不能找到消除这些“人类病毒”的办法,那训练就会陷入瓶颈。如下图,零知识强化学习的版本实力迅速追上有人类棋谱帮忙的。
  从围棋本身看,它的规则几乎是所有游戏中最优美最简单的。规则就是两句话可以了,气尽提子,禁全同(打劫的由来)。甚至贴目这样的胜负规则都是人类强加的,围棋游戏不需要胜负规则就可以成为一个定义明确的游戏。打砖块这样的Atari游戏就是这样,目标就是打到更高的分。围棋游戏的目标可以是占更多的地,结果可能是黑183、184、185子这样,不需要明确说出黑胜黑负。黑白博弈,会有一个上帝知道的“均衡”结果,猜测可能是黑184子白177子,或者黑184.5白176.5(有眼双活)。
  这是一个优美的博弈问题,是掌握了强化学习方法的AI最喜欢的游戏,规则这么简单,太容易了。最终强大的围棋AI,应该是自然的,开发只依靠原始规则,不需要其它的信息了。AlphaGo Zero应该已经接近了这个目标,除了中国规则强加的7.5目的贴目。也许以后可以让AlphaGo不考虑贴目了,黑白都直接优化占地的多少,不再以胜率为目标,说不定能训练出一个更优秀的AI。如优势时不会退让了,劣势时也不自杀。这次Master与AlphaGo Zero一些局终局输定时就表现得很搞笑,有时摇头劫死棋打个没完。
  AlphaGo Zero的棋力提升过程非常流畅,说明围棋精致的规则形成的数学空间很优美,神经网络很快就能抓住围棋空间的特征,表现得非常适应。而这种神经网络与围棋空间的适应性,是之前人们没有想到的,因为人自己感觉很困难,没料到神经网络学习起来美滋滋。
  AlphaGo Zero能从零开始训练成功,也是因为围棋的绝对客观性。围棋规则如此自洽,不需要人类干预,就能很容易地自我对弈出结果,直接解决了“学习样本”这个大问题。人工智能机器学习碰上的很大问题就是需要海量样本,而实际生活中有时只有少量样本,有时需要人工标注很麻烦。
  围棋的对局天然在那了,AlphaGo Zero的任务就是找到合适的学习方法,没有样本的问题。而人类既无法自我产生海量对局,也无法像AI那样目标明确地快速改进自己的脑神经,单位时间学习效率被AI完全碾压。所以围棋是更适合AI去学习的游戏。人类的学习方法也许还是适合人的,但AI学习方法更强。
  对于围棋这么自然而且绝对客观的游戏,消除人类的影响应该从哲学上来说是有深度的想法。从围棋规则来看,日韩规则对AI简直是不可理解,甚至无法定义,未来肯定会消亡。而人类的棋谱是客观的,但对棋谱的解读是主观的。主观的东西就可能出错,这要非常小心。
  对于人类的知识体系也是如此。客观世界的运行是与人无关的,人对客观世界的解读就是主观的,很可能带入了错误的东西。所以,有时需要返回到客观世界进行本原观察,而不是在错误的知识体系上进入所谓的“推理与搜索”。客观上不成立,什么都完了。经济学道理写得再雄辩,实践中失败了就不行。
  另一方面,也不要片面强调说人类知识没用,还不如零知识。实际上Master与AlphaGo Zero的差距从算法层面看,并不太大。二者300分的等级差距,也许不是Master开始学了人类棋谱带来的,也许是更精细的网络架构、训练过程的小细节之类的影响。Master其实找到办法跳出了人类知识的陷阱。
  因此,可以说人类知识可能存在问题,但不要说学了人类知识就没法到高境界。意识到旧知识体系的问题,作出突破就可以了。而且人类没法和机器比,不可能真从零知识开始疯狂自己下,没那个体力。现实的选择只有学习前辈的经验。也许AlphaGo的意义是说,要有一个知识体系,这个知识体系可以是自己学出来并检验的,也可以是Master那样借鉴了别人的,但要接受实践检验,也要敢于怀疑突破成见。
  四。AlphaGo Zero的实战表现
  虽然AlphaGo Zero完全与人类棋谱无关了,但是也许会让棋手们欣慰的是,它下得其实很像人。训练没几个小时就下得非常像人了,也是从角上开始,这方面的判断和人是一致的。
  而且它甚至比Master还要像人类棋手,显得比较正义。Master不知道为什么喜欢出怪异的手段,棋谱极为难懂,对人类而言更为痛苦,打又打不过,看也看不懂。AlphaGo Zero对Master的棋谱结果是19:1,感觉上AlphaGo Zero战胜Master的招数不是以怪制怪,而是用正招去应付,然后Master的强招碰上正义的力量就失败了。而人类对Master应错了,就输了。也许是因为,Master训练到后来,为了提高胜率走上了剑走偏锋的路线,出怪招打败之前的版本,而同一版本的黑白是同等实力,以怪对怪正好实力相当,维持了半目胜负。碰上AlphaGo Zero就失去了这种平衡,被正义的招数镇压。
  图为AlphaGo Zero执黑对Master。Master气势汹汹54位飞,要吃掉黑三子。在Master与人类棋手的计算中,以及解说的这盘棋的绝艺看来(腾讯围棋经常有绝艺配合人类棋手解说棋局的节目),黑这三子应该是被吃了,要考虑弃子。但是AlphaGo Zero不这么认为。
  黑棋AlphaGo Zero在左下角将白棋做成了打劫杀。遭此打击,Master就此陷入被动。这说明Master的计算也不一定毫无破绽,只是碰上算得更深的才被抓住。这个计算手数很长,出现错误也可以理解。这也说明Master以及AlphaGo Zero从算法原理看,都可能会被抓住计算错误,仍然有进步空间。一度我被Master的极限对局吓住了,以为围棋的终极奥义可能就是这种看不懂的死掐。
  AlphaGo Zero执白对Master。这是双方对局的常见局面,白AlphaGo Zero捞足了实地,Master的中央模样像纸糊的一样被打破,败下阵来。
  AlphaGo Zero自战。胜率落后的黑用129的手筋撑住了局势,但最后还是胜率越来越低失败了。

  应该说AlphaGo Zero的棋谱还是较为自然的,虽然中盘显然很复杂,但不像Master那样完全看不懂心生恐惧。对于人类棋手来说,AlphaGo Zero会更为亲切,它就像一个最高水平的人类棋手,下得是意图可以说清楚的棋,只是永远正确,不像人类低手这错那错。而Master的自战谱就显得不可理解,蛮不讲理,动不动就搞事,撑得很满步步惊心搞极限对局,人类看得很晕。
  围棋AI应该还是在发展过程中,自我对弈容易显得较死劲,实力有差距就会显得一方潇洒自然。围棋的状态空间还很大,应该还能有更厉害的版本一级级发展出来,就像国际象棋AI仍然在不断进步。
  当然对Master以及AlphaGo Zero的棋谱,需要人类高手们配合AI的后台数据来解读。AlphaGo Zero这个不需要人类知识的AI棋手,再次给人类提供了不同风格的棋谱,让棋坛越来越精彩。而且Deepmind的这篇论文提供了优美简洁的开发方法,更容易模仿成功,会有越来越多高水平的AI取得突破。
  [本文来自微信公众号“棋道经纬”]

回复 支持 反对

使用道具 举报

23#
 楼主| 发表于 2017-12-13 17:57 | 只看该作者

LeCun:不要夸大AlphaGo


http://www.sohu.com/a/200607819_610300
LeCun:不要夸大AlphaGo
2017-10-27 15:28 安妮 编译整理
近日,深度学习领军人物、卷积神经网络的创作者之一Yann LeCun接受了外媒采访。作为Facebook人工智能研究院(FAIR)的院长,LeCun表示距离AI的智力水平超过一名人类婴儿还有很长一段时间。
“如果媒体在报道AI时不用终结者的配图,我会很高兴。”LeCun表示。
如果一个学术大牛表示目前离超级人工智能还远得很,我们是不是应该听听他的想法。对此,The Verge专访了LeCun,量子位将对话实录编译整理如下:
问:最近Facebook机器人“创造了自己语言”的新闻报道火热,其中有很多与实际研究不符的错误理解。对比过去几年,你觉得这类报道变多了还是变少了?
LeCun:少了,媒体人对要讲的故事更了解了。过去你会看到无终结者不AI的情况出现,媒体100%会在报道中插入终结者的配图……现在这种状况只会偶尔发生,是好事。
问:当这种错误报道出现时,你想对公众说什么?
LeCun:我在公开演讲时反复提到,我们离创造真正的智能机器还很远。现在你能看到所有AI的本领——自动驾驶汽车也好,医学影像中的落地也罢,即使是AlphaGo在围棋比赛中拿到世界第一——这些都是非常窄层面上的智能,是在某些可以大量收集数据情况中为了特定功能专门训练的。
我不是想将DeepMind在AlphaGo上的研究影响往小了说,而认为是人们将AlphaGo的发展解读为机器智力发展的重要过程是不妥的。这两者完全不是一回事。
不是有一台在围棋上能打败人类的机器,就会有智能机器人满街跑,这是两个完全独立的问题,前者对后者可能几乎没有影响。
在这里我想再次重申,距离机器像人和动物一样了解世界还有很长时间。是的,在某些方面机器确实表现超人,但在一般智力因素上,机器的“智商”甚至赶不上一只老鼠。所以很多人过早考虑了某些问题……
当然,也并不是说我们不应该考虑,但至少从当前到发展中期水平时人类是安全的。我承认AI确实存在危险,但他们不是终结者啊!╮(╯▽╰)╭
问:DeepMind在AlphaGo中创造的算法也可以应用到其他科学研究中,比如蛋白质折叠和药物研究。你认为在其他地方应用这种研究容易吗?
LeCun: AlphaGo中用的是增强学习。在游戏中,这适用于有少量离散动作的情况。因为它需要很多,很多,很多的试验来运行复杂的东西,所以比较有效。
AlphaGo Zero在几天内下了数百万盘围棋,可能比人类在发明围棋以来的大师下得还要多。因为围棋是个非常简单的环境,可以在多台计算机上以每秒数千帧的速度模拟它,所以行得通……但在现实世界中,你无法以比实时更快的速度运行真实的世界,所以行不通。
要想摆脱这种局面,唯一的方法就是让机器通过学习建立内部的世界模型,这样就能超过现实提前预测世界。目前我们缺乏的就在于如何教机器构建世界模型。
比如说学开车,人类有足够好的系统模型,就算是初次开车,也知道我们需要在路上驾驶汽车,不要让车坠入悬崖或者撞树。
如果我们在模拟器中只用增强学习训练汽车,那么在撞树4万次之后它才知道这是错误行为。所以,声称只用强化学习就能提升机器智力是错误的。
△Facebook在美国普林维尔的数据中心
问:你是否认为,AI缺少超越它目前局限的基本工具?AI先驱Hinton最近提到这段话,表示当前领域内太过依赖“把它全部扔掉,然后重新开始”的方法。
LeCun: 我认为Hinton有些过度解读了,不过我完全认可“我们需要更多基础的AI研究”。例如,Hinton喜欢的模型之一是他在1985年提出的玻尔兹曼机(Boltzmann machine)。他认为这个算法很好,但实际应用中并不是很有效。
我们想找到兼具有玻尔兹曼机的简单和反向传播的效率的机器。这就是Bengio、Geoff、我和很多人在21世纪初重新开始深度学习研究以来做的事。
让我们有点小惊讶的是,最后在实践中反向传播和深度网络配合得很好。
问:所以,考虑到AI研究中的大变革,你认为在短期内什么对消费者来说是最重要的?
LeCun: 我认为虚拟助手是件大事。现在的虚拟助手完全是照本宣科,尽管在客服等场景下有用,但这让创造机器人这事乏味、昂贵且易夭折。
△Facebook在虚拟助手的研究上投入了大量精力,但还远远落后于Alexa等竞争对手
下一步的重点是让系统有更多的学习能力,也是我们在Facebook的研究方向。想象一下你有一台可以读取长文本的机器,读完后能回答任何相关问题,是不是个很实用的功能呢?
到此程度的重点是机器和人有同样的背景知识,也就是常识。但除非我们能找到让机器通过观察了解世界是如何运作的方法,否则无法实现这个想法。这里指的观察是仅仅通过看书或者看视频了解整个世界。
这是未来几年的关键性挑战,我称之为预测学习,有人称为无监督学习。
接下来的几年,随着虚拟助手越来越实用,越来越不让人失望,这些任务将有持续进展。机器将有更多常识去做设计师编写的程序之外的事情,这也是Facebook非常感兴趣的内容。

回复 支持 反对

使用道具 举报

24#
 楼主| 发表于 2018-6-22 19:10 | 只看该作者

田渊栋:AI还不是围棋之神 但终将造福全人类

http://sports.sina.com.cn/go/2018-06-22/doc-ihefphqm6601442.shtml
田渊栋:AI还不是围棋之神 但终将造福全人类
                                2018年06月22日 15:44                                新浪体育                       
                       
                                                                                                                                                                                               
               
AI科学家田渊栋                                  2018腾讯世界人工智能围棋大赛的举办,为全世界的开发者提供了面对面交流探讨的平台。借此机会,我们亦有幸请到了全世界最顶级人工智能科学家,作为访谈对象。
  从谷歌的无人车组到Facebook的人工智能实验室(FAIR),一度是FAIR唯一能打中文的全职研究员的田渊栋博士,带领一个团队重复了AlphaGoZero的算法,在一个月前发布了ELF OpenGo,并宣布开源。围棋AI的格局也因此发生了天翻地覆的变化。
  然而取得如此成就的田先生,却在访谈的一开始就表示“原则上本次参赛我们倒数第一”。看完本期访谈后,相信您的收获将不仅限于围棋,更会对人工智能拥有更深刻的认识。
  ——野狐小编:田博士您好,很荣幸能够借这次腾讯世界人工智能围棋大赛的机会,聆听世界级人工智能大牛的传道解惑。早在2015年您便从事过围棋AI的开发,并且比谷歌早三个月发表文章,证明了用深度学习破解围棋的可行性。
  一个多月前您的ELF OpenGo再次震惊围棋界。经广泛评测,目前公认ELF OpenGo是普通人能接触到的最强AI。可能会有人下意识认为这是“三年不鸣,一鸣惊人”,事实上ELF OpenGo达到如此水平仅用了不到4个月时间。可否向棋迷们分享开发过程和感想?
  ——田渊栋:其实并没有“三年不鸣,一鸣惊人”,作为研究员肯定还是要每隔一段时间鸣一次的。在DarkForest这个项目在2016年4月停止之后,这两年还是做了很多事情,包括设计Doom AI,做深度学习梯度下降算法的理论分析,ELF框架的提出及在NIPS大会上的演讲,House3D环境的发布及算法设计,还有这次ELF的改进和OpenGo,等等。两年可以做很多事的,只是大部分都没有涉及到围棋,所以棋迷们可能不知道我们的工作。
  其实在去年10月AlphaGoZero文章出来之后我就想动手,不过那时正是赶会议论文及开会的时间,忙的不可开交,只能看不能动手的感觉是很不爽的。ELF OpenGo大约在今年1月才开始做,这个项目的目的并不是只为了围棋,而是作为ELF这个框架的一个测试和推广。去年ELF出来之后,尽管我在各种地方做了大量的演讲,推广仍不是很顺利(毕竟是C++代码,写得人比较少,而且第一版的代码组织也不太行),自然地我就想到需要一个具体应用,正好AlphaGoZero出来,配上以前的围棋代码,再合适不过了。于是我就花一周重写了一遍ELF的核心,增加了分布式系统的部分,然后按照论文把系统做了一遍。基本上二月中就可以跑了,接下来就是比较痛苦的调参和找bug的过程,一直到三月下旬我们才看到希望,然后才有了CGOS上的王朝系列和美国总统系列,和最后五月份的发布版。
田渊栋与李喆
  ——野狐小编:可否进一步透露一下达到这样一个水平,背后调动的硬件资源,是一个怎样的概念?
  ——田渊栋:我们用了两千块V100的显卡训练两到三周。两千块卡其实还好,没有特别多。对比谷歌,我们的资源还是比较有限的。当然这个对于大部分人来说还不能接触到,不过我相信随着算法的改进和硬件的进步,说不定过几年每位棋迷都可以亲手训练了。
  ——野狐小编:您认为借助CNN(卷积神经网络),通过堆砌资源,或者资源+时间的方式,能否帮助我们触摸到想象中的“围棋之神”境界?
  ——田渊栋:不觉得如此。首先围棋状态还是太多,现在探索到的只是很小一部分。大家可以做个算数,四百九十万局乘上每局平均250步,能够覆盖多少围棋的局面,而所有可能的围棋局面又有多少,就知道拿“沧海一粟”这个成语来形容,实在是太无力了。另外人类在学围棋的时候会形成很多概念,但目前CNN还做不到,而且通过堆砌资源可能永远做不到。这个是人类智能优于CNN的地方,也是算法可以继续改进的地方。
  ——野狐小编:那么除了围棋,其他一切领域是否都有可能通过这种方式取得突破。
  ——田渊栋:AlphaGoZero系列算法虽然通用,但远不是能解决一切问题的灵丹妙药。概念上来说它需要一个完美及快速的模拟环境,还需要神经网络与具体问题相容。去年我写博客的时候,能看到它的问题;在复现完这个算法之后,我们知道得要多得多,也对它的局限性有更深刻的认识。总的来说,对AI不能过于乐观,想要让它在一切领域都有突破,还早,需要大家共同努力。

  ——野狐小编:ELF OpenGo宣布开源,对正在做AI、做围棋AI以及从事围棋相关行业的人群,带来了强烈而迥异的震动。耗费如此昂贵的资源让ELF OpenGo达到这样一个水平,又免费提供给所以人借鉴使用,能否向我们科普这种“极客”范儿十足的做法的出发点?
  ——田渊栋:这些资源确实不便宜,但“昂贵”实在谈不上,应该没有北京一套房贵,所需的人力和耗时也并不多。一开始一两个月基本上都是我一个人在推动,等到看到了希望,就自然会有更多的同事加入。
  做这个项目的目的,一是去了解DeepMind提出的AlphaGoZero及AlphaZero算法为什么能工作,有什么优缺点,如何去改进;二是借此机会完善和推广我们的ELF平台,以后可以用于其它目的;最后是借此磨练项目组,这次参与的组员有些新人,一起做成一个项目,对大家都是有好处的。
  至于开源是我们一向的方针,科研要服务全人类,这是科研的最终目的。我相信就算没有我们,像LeelaZero也会逐渐达到目前OpenGo的水平,甚至更高(他们现在应该很厉害了)。
  ——野狐小编:宣布开源后,ELF在围棋上的研究是继续进行,还是再度终止?未来打算探索哪些领域?
  ——田渊栋:ELF框架会继续改进,下一步计划还在讨论中,目前暂不透露。两年前DarkForest终止主要是因为当时科研上再做一个单独的围棋AI价值不大了。这次是用通用算法训练出来的,所以会继续思考其它各种想法,围棋模型作为一个明确客观的测试方案,当然会尝试,但是不一定只用在围棋上,也不一定以性能为导向。

  ——野狐小编:如果将来,人们发现一种深度学习以外的算法,也能适用于围棋,甚至比深度学习的效果更佳(效率或者高度),围棋会再次吸引人工智能领域的科学家们开发新一代AI么?
  ——田渊栋:那是必然的。职业棋手们一辈子没有下过几百万局棋,却达到了很高的水准,并且能解释每一步的下法,对围棋有自己的世界观和方法论。这些都是人工智能目前完全达不到的,也是作为科学家的我们一直努力研究的目标。如果能只用几万局自对弈棋谱训练出强AI,或者让一个挂在网上的小白AI通过和对手对下来成长,或者设计出能够抽象出围棋各种基本概念的AI,将会是很有意思的事情。
  ——野狐小编:ELF这三个字母对于棋界即便不是人尽皆知,也即将在人尽皆知的路上。然而绝大多数棋迷对“ELF”的认知,还仅仅停留在一款单卡碾压人类高手的围棋AI上,并不知道ELF是一个开源游戏平台。身为开发者,您在命名时赋予了“ELF”非常浪漫的想象和希冀,可否为大家介绍一下作为开源游戏平台的“ELF”?(注:ELF原名为LigthELF,意为“光之精灵”)
  ——田渊栋:ELF是一个通用的强化学习训练平台,第一版在去年六月的时候发布,当时带了一个微缩版的即时战略游戏(MiniRTS),可以用强化学习训练AI打即时战略游戏,这里是一些演示视频(http://yuandong-tian.com/minirts_v1/minirts_video.html),后来我们在上面做了大量改进,这次随OpenGo发布的是第二版的ELF还有分布式训练代码,这些都是通用的,和围棋无关,之后ELF还会继续改进,名字很浪漫,不过脚印还是要一步一步走的。

  ——野狐小编:我想棋迷和参赛者,都是以看待绝顶高手的眼光,来评价本次ELF团队的参赛的,您对于本次参赛抱有怎样的预期?
  ——田渊栋:首先这次我们还是以团队身份,作为基线算法(baseline)参赛的,以推广我们的OpenGo。我们已经开源,所以原则上我们是倒数第一。
  ——野狐小编:倒数第一……对我们围棋迷来说,您和您的ELF OpenGo是宛如世外高人一般的存在。“倒数第一”这个说法会不会让其他参赛者们亚历山大
  ——田渊栋:我们开源后一直鼓励大家使用,这一个半月以来我相信很多团队已经找到改进的方案,比如说加一些额外的条件防止出现征子bug,这些都会让OpenGo变得更强。这次参赛,能让大家用我们的平台,那就是达到目的了。团队还有很多任务要完成,我们不会为这次比赛的胜负花太多力气在上面,所以我们并不期望OpenGo可以获得很高的名次。当然啦,我们还是希望它能赢。

  ——野狐小编:围棋进入AI时代以来,棋迷与棋手们诞生过许多有趣的、神化AI的说法。比方说公众目前普遍将AI看作“围棋之神”,还有人认为其实两年前第一次人机战时,AI已经拥有让人类三子的实力。有些人连CNN(卷积神经网络)和RNN(循环神经网络)都分不清,却深信AI可以解决一切问题,对此您怎么看待?AI对围棋、乃至对当前人类社会意味着什么?
  ——田渊栋:对于棋手们来说,围棋AI已经可以让他们大幅度提高平时训练的效率,对于棋迷们来说,有一个顶尖高手时刻陪着自己下棋,并且能不停指出落子的问题所在,这种感觉可能是之前从未体验过的。《棋魂》里面小光和佐为的梦幻组合,现在已经实现了。虽然我个人认为AI离围棋之神还有距离的,但可以确定的是,将来AI会成为进一步提高大家效率的必要工具,甚至成为水和空气那样的必需品,谁能用得好,谁就可以变得更强。至于AI将来能不能解决一切问题,现在回答这个问题还为时过早,还需要大家的努力。
  ——野狐小编:在您的心目中,围棋的未来是怎样的?它的意义、价值该如何体现?
  ——田渊栋:我自己围棋大概是18k的水平,所以这个问题不好回答。围棋的未来大概可以参照现在的国象,大家用软件训练及评测,会有更多的人成为爱好者参与进来,会有更多的人自学成材,会有更多人发现新的着法。我想作为一个有着三千年历史、浓厚中国文化底蕴和无穷变化的游戏,围棋可能会变得更加繁荣吧。
(责编:樊璐璐)



回复 支持 反对

使用道具 举报

25#
 楼主| 发表于 2018-8-5 07:28 | 只看该作者
本帖最后由 cateyes 于 2018-8-5 07:29 编辑

http://sports.sina.com.cn/go/2018-07-31/doc-ihhacrce3966950.shtml
星阵围棋:不退让棋风坚持不变 绝艺达到Master                                                                                                                                2018年07月31日 18:17                                新浪体育

星阵团队

       7月31日下午,2018腾讯世界人工智能围棋大赛颁奖仪式在中国棋院举行,星阵围棋获得亚军。赛后,新浪棋牌对星阵围棋董事长金涬进行了采访。
  新浪棋牌:决赛结果0:7失利,这和您预想到的结果有差异吗?
  金涬:总体发挥稳定,半决赛期间和ELF我们发挥的稍好一些吧,跟绝艺决赛,考虑到绝艺的超强实力,绝艺对决赛很重视,上了最新版本,资源也是最高配置,我们在模型上和配置上和绝艺应该说都有差异。最终的结果虽然比较遗憾,但是我们也尽力了,毕竟各方面都有差距,我们以后继续努力吧。
  新浪棋牌:本次AI大赛中,在复赛阶段星阵经常会出现“秒下”的情况,这是什么情况呢?
  金涬:在对方思考的时候它也在思考。我们会假设某个分枝我们已经思考的比较充分了,就不用再想了。
  新浪棋牌:就像人类利用对手时间思考?
  金涬:对,就像人类利用对手时间思考一样。
  新浪棋牌:星阵还会坚持“不退让围棋”的棋风吗?
  金涬:这个是我们和论文架构不一样的东西,我们还会用这个架构去发展,所以这个风格还会保持。我们的架构可能相对灵活一些,我们去训练让先、或者无贴目、乃至小棋盘……这些都可能去发展。
  新浪棋牌:您能否评估下,现在的星阵和AlphaGo各版本相比,实力在哪个阶段?
  金涬:我们实力是在……这个确实很难讲,因为它不出来,我们也很难去评估。你们是不是也问绝艺这个问题了?很多人对这个问题也很关注,是很难讲,绝艺也很强。因为Master和AlphaGo Zero有300多分的差距,感觉达到Master,和Zero不远了。
  新浪棋牌:星阵围棋的发展方向能再介绍下吗?
  金涬:我们就先把围棋这块做好,另外我们算是做人工智能的团队,希望这个算法在其他领域其他行业有结合点,做一些人工智能方面的AI项目。
  (胡波)
回复 支持 反对

使用道具 举报

26#
 楼主| 发表于 2018-8-5 07:33 | 只看该作者
http://sports.sina.com.cn/go/2018-07-31/doc-ihhacrce3813546.shtml
绝艺:站在巨人肩膀上 未来还会坚持围棋AI研发                                                                                                                                2018年07月31日 17:53                                新浪体育

绝艺团队



  7月31日下午,2018腾讯世界人工智能围棋大赛颁奖仪式在中国棋院举行,绝艺获得冠军。赛后,新浪棋牌对绝艺团队人员进行了采访。
  新浪棋牌:恭喜夺冠!绝艺再本次世界人工智能围棋大赛可以说是一骑绝尘,毫无悬念夺冠,身为绝艺团队的一团,您现在的心情如何?
  绝艺团队:心里一块石头落了地。特别是很多对手复赛时候比预赛时强很多,当时很有压力。
  新浪棋牌:现在AI经常会出现征子问题,绝艺复赛有一盘棋输给星阵,是出现了征子BUG了吗?有没有解决这个问题。
  绝艺团队:这是绝艺从预赛到复赛下了很多盘棋,我们也在尝试不同的版本,那一盘刚好是那个版本有问题,触发了问题。在复赛初期出现了这个问题,是坏事也可能是好事。在决赛才有更完满的发挥。
  新浪棋牌:那你觉得现在的绝艺和AlphaGo谁强呢?
  比如和Master以及AlphaGo Zero相比?
  绝艺团队:我个人是觉得,绝艺和AlphaGo通过现有资料是无法对比的,只有通过真正下过棋才能对比。(在问到下一个问题时又进行了补充)我再补充一下,它们谁强只有下过才知道,即使以后有人工智能超过AlphaGo,那也不能改变它的地位。对人工智能围棋的开创作用,AlphaGo还是最大的,它的影响力是无法企及的,我们可以说是“站在巨人的肩膀上”。
  新浪棋牌:听说现在野狐围棋开通了复盘功能,绝艺也能给普通棋迷复盘了吗?
  绝艺团队:腾讯围棋的用户很多,围棋复盘功能主要是针对业余爱好者的,我们只能降低用算量,来满足更多的用户使用绝艺复盘功能。
  新浪棋牌:能否给我们介绍一下具体情况。
  绝艺团队:绝艺复盘主要有两个功能,一个是胜率曲线,还有一个是针对每一步给出变化图。胜率曲线的每一步其实只做了神经网络的预测,就是价值网络的胜率,并没有做树搜索;而变化图只做了1600次的树搜索,这个计算量水平大概相当于业余顶尖到职业初级,就是水平不是非常高,所以目标用户是针对水平较低的爱好者,而不是职业棋手;职业棋手的话就用国家队的那个专用训练AI。
  新浪棋牌:能否给我们介绍下未来绝艺的发展之路。
  绝艺团队:未来绝艺还会坚持围棋AI的研发,进一步会做优化,除了实力的不断提升,我们还会尝试一些新的东西,比如开发让子棋。AlphaGo Zero的算法,是到目前为止分先规则下最强的下法,但是它很不适合下让子棋,我们看到的情况是分先越厉害让子越差,我们要在这个算法的基础上做一些修改,使之适合于让子棋。另外一方面,腾讯野狐去做更多的运算工作,这个可能需要和他们一起去做,我们提供技术支持。
  (胡波)
回复 支持 反对

使用道具 举报

27#
发表于 2018-8-10 21:34 | 只看该作者
以胜负结果论英雄吧,AlphaZero就是强,说他bug,只是猜测了
回复 支持 反对

使用道具 举报

28#
 楼主| 发表于 2019-2-14 18:08 | 只看该作者
本帖最后由 cateyes 于 2019-2-14 18:09 编辑

围棋AI ELF OpenGo全面开源 田渊栋揭秘训练过程                                                                                                                                2019年02月14日 16:25                                新浪体育                        

来源:量子位  现在,随时、随地、随心情,你都能和国际顶级围棋AI对战交流一局了。
  最近,Facebook的围棋AI ELF OpenGo全面开源,下载ELF OpenGo最终版本模型,人人都能与ELF OpenGo下棋。
  对了,不要被ELF OpenGo“超能力”般的棋艺惊叹到,不仅是你,连韩国棋院的专业围棋选手也被打败了。在与金志锡,申真谞,朴永训及崔哲瀚四位专业棋手对战时,ELF OpenGo以20:0的成绩大赢特赢。
  甚至围棋AI界小有名气的前辈Leela Zero,也以18:980的成绩被ELF OpenGo远远甩在身后。
  今天,Facebook公布了ELF OpenGo的研究论文,复现了AlphaGo Zero和AlphaZero,还详细揭秘了ELF OpenGo的训练细节,附带了一系列开源地址
  在今天刚发布的论文ELF OpenGo: An Analysis and Open Reimplementation of AlphaZero中,Facebook研究人员全面披露了ELF OpenGo的训练过程。


  ELF OpenGo是去年诞生的。当时,Facebook改进了自己面向游戏的机器学习框架ELF,在上面重新实现了DeepMind的AlphaGoZero及AlphaZero的算法,得到了这个围棋AI ELF OpenGo。
  论文显示,训练过程大部分遵循了AlphaZero的训练过程。
  和AlphaZero用5000个自我对弈的TPU和64个训练TPU不同,整个训练过程共用了2000块英伟达GPU,型号均为英伟达Tesla V100 GPU,内存为16GB,总共训练了15天。


  研究人员还应用了ELF OpenGo,完成了另外三方面突破
  一方面,为ELF OpenGo训练处一个棋艺超越人类的模型。
  研究人员开发了一个类似AlphaZero的软件,在上面用2000块GPU连续训练了9天后,这个20个区块的模型的表现已经超过了人类水平。
  随后,研究人员提供了一些预训练模型、代码和2000万局自我对弈的训练轨迹数据集进行训练。
  第二方面,研究人员提供了模型在训练过程中的行为分析:
  • 在训练过程中,研究人员观察到,ELF OpenGo与其他模型相比,水平变化比较大,即使学习率稳定,棋力也会上下浮动。
  • 另外,模型需要依靠前瞻性来决定下一步棋怎么下时,模型学习速度较慢,学习难度很大。
  • 除此之外,研究人员还在探索了在游戏的不同阶段AI学会高质量的棋法的速度。

  第三方面,研究人员进行了Mextensive ablation实验,学习AlphaZero风格算法的属性,对比了ELF OpenGo与AlphaGo Zero与AlphaZero的训练过程。
  研究人员发现,对于最终模型而言,对局中加倍rollout水平大约提升200 ELO,AI的发挥会受到模型容量的限制。
  目前,ELF OpenGo的论文、模型、实现代码、自我对弈数据集和与人类对弈记录等已经全部开放,地址可到文末寻找。
  明星团队
  这篇论文来自Facebook人工智能研究所(FAIR),一作国内机器学习圈里一个熟悉的名字,田渊栋。
  田渊栋从卡内基梅隆大学(CMU)毕业后,田渊栋奔赴谷歌无人车项目组,随后跳槽转向Facebook人工智能研究所。Facebook围棋AI Darkforest的相关研究,负责人和论文一作也是田渊栋。


   田渊栋本人
  田渊栋也一直活跃在知乎,是人工智能、深度学习话题的优秀回答者,是知乎er心中的大神。
  去年,田渊栋回顾自己近几年的工作感悟和学习生涯的文章《博士五年之后五年的总结》,曾成为圈内的爆款文章,不少网友再次被圈粉,大呼醍醐灌顶。


  论文二作Jerry Ma也同样为华裔,其Facebook介绍显示,2018年,Jerry Ma刚刚本课毕业,获得哈佛大学经济学和古典文学学士双学位。目前担任Facebook研究工程负责人。


Jerry Ma
  年纪不大,责任不小。
  传送门
  GitHub地址:
https://github.com/pytorch/ELF
  论文地址 :
https://arxiv.org/abs/1902.04522v1
  Facebook博客介绍:
https://ai.facebook.com/blog/open-sourcing-new-elf-opengo-bot-and-go-research/
  ELF OpenGo官网:
https://facebook.ai/developers/tools/elf-opengo
  另外,如果你自带Windows系统的电脑,还可以下载这个软件,在线下棋。下载地址:
  https://dl.fbaipublicfiles.com/elfopengo/play/play_opengo_v2.zip




回复 支持 反对

使用道具 举报

29#
发表于 2019-2-14 20:07 来自手机 | 只看该作者
谢谢分享!
回复 支持 反对

使用道具 举报

30#
 楼主| 发表于 2019-5-2 16:35 | 只看该作者

http://sports.sina.com.cn/go/2019-05-01/doc-ihvhiewr9342802.shtml
星阵让2子4-0女子顶尖 金涬博士访谈(附实录)2019年05月01日 17:02 新浪体育综合





比赛现场
  中国智力运动网讯 4月30日,“博思杯”2019世界人工智能围棋大赛收官,在最后一天进行的人机对抗赛中,本次人工智能大赛冠军星阵围棋让2子迎战芮乃伟、王晨星、李赫、曹成亚取得全胜。赛后星阵团队金涬博士接受了采访。
  以下是金涬博士采访实录:
  问:赛前棋迷朋友们对星阵的期望很高,认为星阵的水平远超过其他参赛AI,但是在预赛第一轮,星阵却爆冷输给了leelaZero,星阵此次比赛首战失利的原因是什么?
  答:本次预赛采用30分钟包干赛制,需要很好的时间分配策略。星阵在预赛第一盘有一定失误。这盘棋用时策略设置的太快了,导致我们下到第113手问题手时用时不足3分钟,思考还不够充分,没有考虑到对手的一些妙手。走出问题手时发现不对已经来不及了。不合理的时间分配策略使星阵相当于只用了几分之一的算力进行比赛。调整了用时策略之后,星阵的棋力有了明显的提高,在后面的比赛中发挥稳定。  
  问:这次世界大赛的整体水平与过去的几届有何不同?与一年前相比,星阵进步了多少?围棋AI水平的上升空间还有多大?
  答:这次世界大赛是星阵参加过的最高水平的AI比赛。参赛的选手的实力都比之前大大提升。其中棋力提升最明显的就是LeelaZero和小爱围棋。比赛前不少其他参赛选手都提出自己的目标是夺冠,说明他们自评超过了前一次围棋AI比赛的冠军水平。
  星阵在这一年中棋力有了非常大的提升,星阵能连续夺冠的原因是比对手的提升更快。围棋AI已经远超过人类水平,但是AI对围棋的理解也只是围棋知识的一小部分,围棋还远远没有被破解,进步提升的空间仍然是巨大的。但是,仅靠学习已有的技术或复制AlphaGo论文工作,仍然会遇到瓶颈。星阵团队努力从算法和模型层面取得突破性进展,以进一步提高围棋AI的水平。  
  问:这次比赛留下了很多精彩的棋谱,过程中星阵下出了开源软件未预料到的惊艳手段,如半决赛第2局183、187,决赛第3局145、147等,这种带有个性化棋风特点的招法很符合人类的审美观,请问是如何形成的?
  答:这种妙手是星阵在自我进化的过程中自然形成的,星阵在深度学习模型和算法上有一定的创新性工作,这使得星阵具有准确的价值和目数评估网络和较强的策略网络。在星阵眼中,这种妙手是通向更高胜率和更多目数的一条好路径,这使得星阵更容易挖掘出这样的妙手。  
  问:星阵这次让两子的人机赛表现不错,您认为目前顶级人机之间的差距有多大?  
  答:人机对战一直以来都是大家关心和关注的话题,首先非常感谢主办方提供这次机会,举办这次成功的比赛。 最近几年,在AlphaGo的带动下,围棋AI的水平提高很大。与此同时,顶尖人类职业棋手也使用AI进行训练,学习提高了棋力,不断缩小和AI之间的差距。可以说人类和AI都在不断的快速进步。人类棋手和AI之间的差距未必会像想象中那样越拉越大,具体有多大的差距,只能靠比赛结果来验证。  
  问:据说星阵下的是不退让围棋,但比赛中似乎也偶有退让,是怎么回事?
  答:星阵可以下完全不退让的围棋,在去年的对人类顶尖高手的让先表演赛中使用过这种下法。但完全不退让的下法有时会因为奋力拼搏承担很大风险,例如去年星阵让先对谢科的棋,星阵在领先的情况下希望扩大战果,但由于误算被翻盘。这是一个度的把握。不退让围棋可以更快的扩大优势,也可以在落后的时候咬住局面努力缩小差距,因而可以增大获胜的机会。但完全不退让反而会降低胜率。因此,参加高水平AI比赛时使用带有不退让下法的星阵,但不是100%完全不退让。  
  问:有网友说星阵使用超算参加比赛,使用开源围棋AI的棋谱进行训练,这个说法符合事实吗?
  答:很多网友看到星阵经常秒拍,以为星阵算力非常强,使用了超算。事实上,这是一种智能的用时策略,简单的地方秒拍,困难的地方可以长考。星阵没有使用过超算,星阵棋力提升的主要还是靠深度学习模型和算法上的优化提升。事实上,当算力资源达到一定程度的情况下,单纯提高对弈时使用的算力对棋力提升并不明显,很多棋局方向的选择,都要靠模型的准确判断,而不是靠计算。另一方面超算的架构也并不适合围棋AI。
  星阵没有使用过任何开源围棋AI的棋谱进行训练,因为不退让围棋的训练方法与AlphaGo架构有所不同,AlphaGo架构的开源软件的棋谱不能直接使用。星阵早期主要使用人类棋谱,目前主要使用星阵自对弈棋谱进行训练。  
  问:星阵可以提供独特的目数评估,这对参加比赛有帮助吗?

  答:目数评估使得星阵可以从胜率和目数两个不同方面评价围棋进程。这种综合的评估方式相比于纯用胜率进行评估具有更高的棋力。此外,目数评估可以让星阵在极大的胜率优势下追求最大目数,下出更精彩的棋局。我们在比赛中使用了这种方式取得了不错的效果。  
  问:星阵团队在围棋上取得了很不错的成绩,请问星阵的人工智能技术是否能在其他应用领域发挥作用?
  答:我们深客科技团队研发星阵围棋,主要是为了验证和研究深度学习和强化学习算法,并将人工智能算法应用到其他领域。
  目前,我们正在与合作伙伴一起,积极探索和推进人工智能在围棋以外的应用。包括使用人工智能技术进行风力电场的发电量预测,以及通过精确控制数据中心的空调制冷系统,来做数据中心的智能节电。这些方向都有很好的应用前景。我相信人工智能技术还会在其他更多与人们生活息息相关的领域发挥更大的作用。

回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

小黑屋|Archiver|手机版|飞扬围棋网 ( 苏ICP备11029047号-1 )

GMT+8, 2024-11-26 11:29 , Processed in 0.126674 second(s), 17 queries .

since 2003飞扬围棋论坛 Licensed

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表