菇 | 大赛AI分析（9）：AI世界大赛小组赛-弈客鹰眼报告，北极光数据高度可疑

lu01 · 发表于 2018-6-27 08:15

http://www.yikeweiqi.com/news/topline/46716/
本系列将在每次大赛后，提供一个AI对本次比赛的综合数据分析。全部数据全部来源于弈客鹰眼的分析。采用LeelaZero，ELF权重，GTX 1080Ti单卡，固定每步分析30s。

上期链接：大赛AI分析（8）：围乙4-8轮

一、胜率分析

按照惯例，先上胜率趋势图合集。

以上35张图，均由弈客鹰眼自动生成。每行为一轮，胜率默认为黑棋胜率。

从胜率的走势，我们可以很清晰的看到，在AI的世界几乎都是完胜与完败。逆转的比赛，只有三局。分别是第二轮小爱胜Aya，第三轮的星阵胜AQ以及最后一轮的AQ胜ELF。除了被淘汰的Aya是被小爱逐渐消耗致死，AQ与ELF的失利更像是一两手的败招，被对手敏锐抓住。这说明，虽然AI的世界里完胜很多，但是顶尖AI的绝对的实力差距并没有想象中的大，可以说就是一两手棋的事情。

为了进一步分析，做最恶一手分析：选取一局棋中，黑白双方各自胜率下降最大的一手，统计手数与胜率下降值。

上方为散点图，横坐标为手数，纵坐标为胜率下降值。点的颜色与胜率下降值有关，偏黄绿色代表较小，偏蓝紫色代表较大。下方分别作了手数（左）和胜率下降值（右）的直方图，统计给定区间内的样本量，并做了对数正态分布拟合。

从散点图可以看到，大量的AI全局最恶的一手都没有超过15%，甚至有相当的比例在10%以下，这点与人类的对局截然不同。人类的对局中，10%以上的恶手比比皆是，但是在AI的世界中，一个10%的恶手可能足以致命。

手数和胜率下降值，基本都符合对数正态分布。从曲线的形态可以看出，手数的分布比较宽广，说明一局棋AI犯下严重问题的机会相对比较接近。前半盘有一个不明显的峰值，可能与AI比赛分出胜负的时机较早有关系。胜率下降值的直方图更明确的反映了，AI一局棋最大的失误，损失胜率5%-15%之间概率极大，几乎不太可能超过30%。这点上可以说明，现在的AI实力都已经非常强大了，招法上几乎不存在明显的漏洞。

将AI的最恶一手，与上一期的围乙的人类棋手进行了对比。无论人类还是AI，手数的分布相对都比较宽。峰值上，AI大概出现在25手，明显小于人类。这说明在AI的对局中，决定胜负的瞬间到来的比人类更早一些。胜率下降值的峰值，AI也明显低于人类，大概是9%与26%的对比。甚至AI的峰值，在人类这里是一个概率极小的位置。这说明了AI的比赛中，对恶手更为敏感，一个在人类对剧中无关痛痒的失误，就可以决定AI对局的成败。

考虑一局棋的第一步恶手，由于AI对胜率比较敏感，所以这个标准与人类略微不同。选取一局棋中，黑白双方各自胜率首次超过5%的一手，统计手数与胜率下降值；如果全局都没有超过5%的招法，选取最恶一手。
对于人类，这个标准是10%。

上方为散点图，横坐标为手数，纵坐标为胜率下降值。点的颜色与胜率下降值有关，偏黄绿色代表较小，偏蓝紫色代表较大。下方分别作了手数（左）和胜率下降值（右）的直方图，统计给定区间内的样本量，并做了对数正态分布拟合。

散点图表明，AI的首步恶手基本集中在60手之前，胜率损失低于7/5%概率很大。从直方图中可以看到，AI第一步问题手在10-20手，以及50-60手有两个相对明显的峰值，但是总体来说各个区间差别有限。而胜率下降值，基本集中在4%-8%之间。

考虑到本项人和AI选取的标准不同，人与AI的对比仅有一定的参考意义。和最恶一手基本反映了同一件事，AI的失误出现的比人类更早，但是出现的时机更平均。而AI的第一个失误，也明显比人类第一个失误要轻微许多，不过这和选取的标准有关系，不能说明太多问题。

二、统计学数据

考虑对局双方每手棋与AI推荐点胜率的差异平均值，并且计算方差，这两项数据可以很好的反应对局者与AI的相似程度、发挥稳定性以及对局的激烈程度。平均胜率差异越大，提示棋手与AI选择差异越大，对局也越激烈；方差，则是与发挥稳定性呈正相关。

散点图中为了方便展示，纵横坐标均作了对数处理。蓝色的点为人类棋手，红色的点为AI。从点的分布可以看到，除了极个别的情况，人类和AI在图上几乎不存在交集。这说明两点：① 现在的AI已经足够强大，互相之间选点的胜率差距很小；② AI的发挥的稳定性，和人类根本不在一个维度，高出太多了。

做了一个简单的对比。人类棋手方差的峰值，对于AI来说已经是一个概率不大的位置了。而AI棋手的方差峰值，在人类这里出现的概率几乎可以认为是0了。平均胜率差异，AI的分布也比人类更为尖锐，说明AI之间差距并不是很大。而峰值，0.5%对2.6%，已经不知道该怎么描述了。互相之间的峰值，都出现在对方基本概率为0的区域。要知道，之前统计了K级棋手的这项数值，峰值在3.9%……只能说，人狗道不同啊，物种差异的鸿沟无法弥补。

做了一个平均胜率差异的箱型图。绝艺的平均胜率差异最低，这与绝艺盘盘完胜有关，一局下来基本没有明显胜率损失。ELF、LZ、AQ和章鱼平均胜率差异也较低，说明实力可能比较接近。北极光最有意思，被两个特别低的值给拉低了，前后两天的表现判若两机。

Aya、小爱和RN平均胜率差异最大，这可能说明这三款AI可能是最弱的。倒数第四的石子旋风，看表现是优于最后三名的，但是却惨遭淘汰，只能说林在范先生实在是差了一些签运。

三、吻合度

弈客鹰眼也给出了吻合度的数值。通过吻合度，可以看到AI之间风格的差异与水平的差异。

总体来看，本次比赛的AI吻合度符合正态分布。全局、序盘（5-60手）以及中盘（61-180手）峰值差不多，峰宽（σ）也比较接近。官子（181手-终局）阶段样本相对较少，手数也参差不齐，造成了分布更为平均化。

这是本次比赛全局吻合度的箱型图，粗线代表中位数，细线/方块代表平均数，箱体宽度为正负一个标准差。粗略来看，全局吻合度LeelaZero、AQ、北极光与ELF是一个层级，章鱼和绝艺差不多是第二个层级，小爱、石子旋风与星阵是第三个层级，RN和Aya是第四个层级。

由于AI软件有一定的随机性，并且ELF原生程序和LeelaZero的ELF权重落子策略有所不同，比赛的ELF与使用LeelaZero ELF权重的鹰眼吻合度不可能到100%，接近75%的成绩属于预料之中。而LeelaZero是完全从0训练的项目，和ELF、AlphaGo-Zero是基本一致的技术，又采用了一部分ELF棋谱讯训练，与鹰眼使用的Leela-Zero ELF权重相似度高也是预料之中的事情。

AQ与北极光技术不详。AQ相比之前参赛的版本，吻合度有了极大幅度的提高，可以猜想这个AQ版本应该也使用了大量ELF棋谱训练。北极光之前从未有过露面，这番吻合度高原因未知。

而章鱼围棋，则是掺杂了30%的人类棋谱，同时使用了大量ELF和LeelaZero棋谱，因此相似度低于ELF是几乎必然的事情。绝艺版本众多，具体技术不详。但是绝艺这次比赛的表现是极具统治力的，可以预想与ELF理应存在一些明显的技术差异。

星阵完全采用了监督学习，纯人类的棋谱自然吻合度不会很高，但是依然展示了强大的竞争力，不得不说是一件非常有意思的事情。剩余四个AI的技术细节不详，但是看RN和Aya的吻合度，推测是AlphaGo-Lee式的老一代AI架构概率较大。

序盘吻合度，前四甲还是老四样——北极光、ELF、LZ与AQ，Aya再次惨遭垫底。可以看出，在序盘阶段，不同AI的偏好还是有一些不同的。

到了中盘阶的吻合度，ELF掉队了，但是也没落下太多，还是处于第二梯队。以星阵为首的剩下5款AI，吻合度倒是差不多。中盘阶段AI互相之间的吻合度差距有所缩小，说明中盘战中AI之间的选点差异要比布局偏好的差异更小。

这张图更直观的展示了排序和互相之间的差异。

四、可疑的北极光

北极光之前从未露面，第一天2胜2败表现抢眼，击败了石子旋风和小爱，惜败给了LeelaZero与蒸鱼。但是第二天的表现极度浮夸，不敌绝艺的棋和不敌Aya的棋，都下出了一些无法理喻的招法。

比如这一手，不F2扳直接脱先。

再比如对Aya的这一手，AI也会滑标吗？

再比如这一手，右上点一下三三脱先。

诸如此类的招法比比皆是，很难想象这是一个会出自吻合度接近75%的AI的招法。用了这么久AI，从没有见过任何AI会有如此的棋感。因此，对北极光两天的表现分开处理，重新做了一个统计。

这是几款吻合度靠前的AI，吻合度的柱状图对比。北极光根据两天，进行了拆分。第一日的北极光，序盘、中盘以及全局都是几乎80%的吻合度，这是其他AI都无可匹敌的。而第二日的北极光，在图上快要看不到了，吻合度出现了极大的跳水。前后两日的北极光，绝对不可能是同一款软件。

ELF原生程序，与弈客鹰眼使用的LeelaZero ELF权重，吻合度不过堪堪70%出头。这说明即便是同样的权重之下，不同的落子策略与AI的随机性，吻合度也不会特别的高。反观LeelaZero，在软件层面相同，权重不同的情况下，吻合度还稍高一些。

而这个未知的软件，吻合度竟然比ELF和LeelaZero都高。这让人不得不怀疑，第一天的北极光就是LeelaZero-ELF权重本身。

五、总结

AI的围棋和人类的围棋可以说是两种不同的游戏了，彼此之间几乎没有数据上的交集。参赛的AI风格也多种多样，总体来说像AlphaGo-Zero的AI战绩都更好一些。星阵是一条完全不同的路线，以较低的吻合度达成了非常不错的效果，未来十分值得期待。北极光来源高度可疑，可惜样本太少，很难支撑更进一步的统计分析。如需更进一步的验证，可能需要检验软件的源代码了。

hred9D · 发表于 2018-6-27 08:43

为什么官子的吻合度那么平均？
对AI来说，半目胜负不可以改变？

hidear · 发表于 2018-6-27 18:33

包子100号 · 发表于 2018-6-29 11:21

同意二楼说的

lu01 · 发表于 2018-6-29 22:59

【声明】北极光围棋AI有原创工作，赛后开源-北极光团队接质疑后发布声明
2018年6月29日弈客头条 42 Views
【声明】北极光围棋AI有原创工作，赛后开源
2018世界人工智能围棋大赛组委会接到外界质疑北极光围棋AI的问题，北极光与外部质疑者、组委会进行了技术细节的充分交流。

结论如下：北极光的底层程序采用Leela Zero，权重采用ELF，所做的工作主要在于结合快速走子策略，并与价值网络进行动态加权或采用固定值0.5，有原创工作。若上述不实，北极光负全责。北极光在赛后将程序开源。

http://www.yikeweiqi.com/news/topline/46864/

taishuan · 发表于 2018-6-30 05:06

lu01 发表于 2018-6-29 22:59
【声明】北极光围棋AI有原创工作，赛后开源-北极光团队接质疑后发布声明
2018年6月29日弈客头条 42 V ...

底層程序Leela Zero，權重ELF......大哥，請別開源了，完全沒有意義啊。

lu01 · 发表于 2018-6-30 14:16

本帖最后由 lu01 于 2018-6-30 14:18 编辑

北极光测试

昨天 23:11-昨天 23:19

感谢野狐的声明。北极光声明如下：本人是北极光开发者，围棋业余5段，曾获得全国计算机博弈锦标赛九路围棋、十三路围棋、围棋项目的冠亚军。自2017来到自动化所工作，课题组鼓励我自由探索围棋AI，并给予了软硬件资源的支持。初期开发工作是使用监督学习训练网络，并在此基础上进行强化学习训练，然后在Leela Zero的底层架构上结合了快速走子策略，在5月份已达到职业一段水平。之后，ELFOpenGo开源，在测试ELF程序时发现，其棋力水平很高，经仔细研究发现，在复杂作战（如杀气、打劫）和官子阶段有时未能走出最佳走法，因此考虑使用ELF权重结合快速走子策略，测试结
果显示结合快速走子策略，测试结果显示结合快速走子策略确实能起到改善作用。个人对网上的讨论回答如下：
1、第一天的比赛中为什么北极光与Leela ELF的相似度非常高？答：北极光在Leela ELF权重基础上结合快速走子策略，ELF权重导致相似性较高。个人认为计算的随机性会给吻合度结果带来影响。赛后北极光也做出了相似性分析，并没有那么高，全局吻合度不到65%，中盘吻合度不到70%。第二天的吻合度和第一天相比也没有很大的变化。复盘报告和复盘详细记录表已提交给组委会。
2、为什么第二天程序的风格和水平不一致？答：第二天第一场比赛，北极光加载了之前一个出bug版本的可执行程序，走棋出现失误。中途北极光与对手（Aya）和裁判进行了沟通，他们同意更换程序。重新加载了第一天比赛的版本，不过由于前期劣势太大，最终输掉了比赛。第二场与绝艺比赛，开局采用纯快速走子，使得开局的棋力与风格与第一天不同。
参赛以来，本人承受了很大的舆论压力，这对我及家人都造成了很大的困扰，对工作和生活造成了极大的影响。本人已无心参加复赛，决定退赛。致敬Google DeepMind公司的AlphaGo和AlphaGo Zero，Facebook公司的ELF OpenGo，和Leela Zero等围棋AI！致敬围棋前辈！
http://weiqi.qq.com/news/9467.html

lu01 · 发表于 2018-6-30 14:20

http://computergames.caai.cn/info/news170307.html
2. 全国计算机博弈锦标赛
   竞赛项目包括：中国象棋、围棋、13 路围棋、9 路围棋、国际跳棋(100 格)、国际跳棋(64 格)、二打一扑克牌(斗地主)、桥牌8种棋牌类，该比赛面向社会所有人员。
   五、竞赛规则


   6. 要求各参赛程序要独立开发，并提供程序设计文档。文档将作为参赛和被质疑时答辩的依据，文档的模板详见大赛网站，签字页需扫描，在竞赛前通过报名系统提交PDF电子文档。
   7．关于禁止山寨程序参赛的规定将在计算机博弈大赛网站上公布。

lu01 · 发表于 2018-6-30 14:58

本帖最后由 lu01 于 2018-7-1 08:28 编辑

https://blog.csdn.net/cf2SudS8x8F0v/article/details/79223808 感谢张启超、张旗、
http://computergames.caai.cn/info/news16082302.html 申昌，张旗，张兆晨，冀俊忠
深石_13 (Deep Stone_13)
https://www.zhihu.com/question/68036407
https://www.zhihu.com/question/51898498

http://bjut.edu.cn/xww/article/preview?ID=20941 DeepStone 通过类比人类棋手对弈时的思考方式，将对弈问题转化为模式识别问题，继而利用深度学习中的卷积神经网络来评估可能走棋的位置。为确保评估的准确性，DeepStone通过静态结合蒙特卡洛树搜索来验证卷积神经网络的评估结果，从而挑选评分最高的作为下一步走棋。

http://news.bjut.edu.cn/mtgd/20968.shtml

“我们现在有专门的体验区，像围棋互动，人可以直接和机器下棋，老师和同学们可以亲自体验科技的魅力。”据北京工业大学研工部部长兼研究生院副院长高学金介绍，今年科技节最出彩的地方，就在于科技与人之间的互动。

高学金所说的围棋互动就是“DeepStone”，这是一款多功能围棋人机对弈软件，能够进行9路、13路和19路对弈，具有完善的交互界面。采访中，软件制作团队的负责人张旗说起这个项目，颇为自豪。

taishuan · 发表于 2018-6-30 15:11

真是精采，比棋的內容還吸引人。

cateyes · 发表于 2018-7-1 11:39

lu01 · 发表于 2018-7-2 08:26

http://www.doc88.com/p-5028405342779.html
基于卷积神经网络的围棋棋步预测方法研究

lu01 · 发表于 2018-7-2 14:07

https://www.zhihu.com/question/282304986/answer/425718232

原力猫 · 发表于 2018-7-2 18:14

都是你们闹的，把北极光同学吓得退赛了

lu01 · 发表于 2018-7-2 18:21

有谁懂得AI的看这篇硕士论文怎么样

帐号		自动登录	找回密码
密码			注册