飞扬围棋论坛

 找回密码
 注册
搜索
查看: 23107|回复: 17

菇 | 大赛AI分析(9):AI世界大赛小组赛-弈客鹰眼报告,北极光数据高度可疑

[复制链接]
发表于 2018-6-27 08:15 | 显示全部楼层 |阅读模式
http://www.yikeweiqi.com/news/topline/46716/
本系列将在每次大赛后,提供一个AI对本次比赛的综合数据分析。全部数据全部来源于弈客鹰眼的分析。采用LeelaZero,ELF权重,GTX 1080Ti单卡,固定每步分析30s。


上期链接:大赛AI分析(8):围乙4-8轮



一、胜率分析


按照惯例,先上胜率趋势图合集。



以上35张图,均由弈客鹰眼自动生成。每行为一轮,胜率默认为黑棋胜率。


从胜率的走势,我们可以很清晰的看到,在AI的世界几乎都是完胜与完败。逆转的比赛,只有三局。分别是第二轮小爱胜Aya,第三轮的星阵胜AQ以及最后一轮的AQ胜ELF。除了被淘汰的Aya是被小爱逐渐消耗致死,AQ与ELF的失利更像是一两手的败招,被对手敏锐抓住。这说明,虽然AI的世界里完胜很多,但是顶尖AI的绝对的实力差距并没有想象中的大,可以说就是一两手棋的事情。


为了进一步分析,做最恶一手分析:选取一局棋中,黑白双方各自胜率下降最大的一手,统计手数与胜率下降值。

上方为散点图,横坐标为手数,纵坐标为胜率下降值。点的颜色与胜率下降值有关,偏黄绿色代表较小,偏蓝紫色代表较大。下方分别作了手数(左)和胜率下降值(右)的直方图,统计给定区间内的样本量,并做了对数正态分布拟合。


从散点图可以看到,大量的AI全局最恶的一手都没有超过15%,甚至有相当的比例在10%以下,这点与人类的对局截然不同。人类的对局中,10%以上的恶手比比皆是,但是在AI的世界中,一个10%的恶手可能足以致命。


手数和胜率下降值,基本都符合对数正态分布。从曲线的形态可以看出,手数的分布比较宽广,说明一局棋AI犯下严重问题的机会相对比较接近。前半盘有一个不明显的峰值,可能与AI比赛分出胜负的时机较早有关系。胜率下降值的直方图更明确的反映了,AI一局棋最大的失误,损失胜率5%-15%之间概率极大,几乎不太可能超过30%。这点上可以说明,现在的AI实力都已经非常强大了,招法上几乎不存在明显的漏洞。

将AI的最恶一手,与上一期的围乙的人类棋手进行了对比。无论人类还是AI,手数的分布相对都比较宽。峰值上,AI大概出现在25手,明显小于人类。这说明在AI的对局中,决定胜负的瞬间到来的比人类更早一些。胜率下降值的峰值,AI也明显低于人类,大概是9%与26%的对比。甚至AI的峰值,在人类这里是一个概率极小的位置。这说明了AI的比赛中,对恶手更为敏感,一个在人类对剧中无关痛痒的失误,就可以决定AI对局的成败。


考虑一局棋的第一步恶手,由于AI对胜率比较敏感,所以这个标准与人类略微不同。选取一局棋中,黑白双方各自胜率首次超过5%的一手,统计手数与胜率下降值;如果全局都没有超过5%的招法,选取最恶一手。
对于人类,这个标准是10%。

上方为散点图,横坐标为手数,纵坐标为胜率下降值。点的颜色与胜率下降值有关,偏黄绿色代表较小,偏蓝紫色代表较大。下方分别作了手数(左)和胜率下降值(右)的直方图,统计给定区间内的样本量,并做了对数正态分布拟合。


散点图表明,AI的首步恶手基本集中在60手之前,胜率损失低于7/5%概率很大。从直方图中可以看到,AI第一步问题手在10-20手,以及50-60手有两个相对明显的峰值,但是总体来说各个区间差别有限。而胜率下降值,基本集中在4%-8%之间。

考虑到本项人和AI选取的标准不同,人与AI的对比仅有一定的参考意义。和最恶一手基本反映了同一件事,AI的失误出现的比人类更早,但是出现的时机更平均。而AI的第一个失误,也明显比人类第一个失误要轻微许多,不过这和选取的标准有关系,不能说明太多问题。


二、统计学数据



考虑对局双方每手棋与AI推荐点胜率的差异平均值,并且计算方差,这两项数据可以很好的反应对局者与AI的相似程度、发挥稳定性以及对局的激烈程度。平均胜率差异越大,提示棋手与AI选择差异越大,对局也越激烈;方差,则是与发挥稳定性呈正相关。





散点图中为了方便展示,纵横坐标均作了对数处理。蓝色的点为人类棋手,红色的点为AI。从点的分布可以看到,除了极个别的情况,人类和AI在图上几乎不存在交集。这说明两点:① 现在的AI已经足够强大,互相之间选点的胜率差距很小;② AI的发挥的稳定性,和人类根本不在一个维度,高出太多了。

做了一个简单的对比。人类棋手方差的峰值,对于AI来说已经是一个概率不大的位置了。而AI棋手的方差峰值,在人类这里出现的概率几乎可以认为是0了。平均胜率差异,AI的分布也比人类更为尖锐,说明AI之间差距并不是很大。而峰值,0.5%对2.6%,已经不知道该怎么描述了。互相之间的峰值,都出现在对方基本概率为0的区域。要知道,之前统计了K级棋手的这项数值,峰值在3.9%……只能说,人狗道不同啊,物种差异的鸿沟无法弥补。



做了一个平均胜率差异的箱型图。绝艺的平均胜率差异最低,这与绝艺盘盘完胜有关,一局下来基本没有明显胜率损失。ELF、LZ、AQ和章鱼平均胜率差异也较低,说明实力可能比较接近。北极光最有意思,被两个特别低的值给拉低了,前后两天的表现判若两机。


Aya、小爱和RN平均胜率差异最大,这可能说明这三款AI可能是最弱的。倒数第四的石子旋风,看表现是优于最后三名的,但是却惨遭淘汰,只能说林在范先生实在是差了一些签运。


三、吻合度


弈客鹰眼也给出了吻合度的数值。通过吻合度,可以看到AI之间风格的差异与水平的差异。

总体来看,本次比赛的AI吻合度符合正态分布。全局、序盘(5-60手)以及中盘(61-180手)峰值差不多,峰宽(σ)也比较接近。官子(181手-终局)阶段样本相对较少,手数也参差不齐,造成了分布更为平均化。

这是本次比赛全局吻合度的箱型图,粗线代表中位数,细线/方块代表平均数,箱体宽度为正负一个标准差。粗略来看,全局吻合度LeelaZero、AQ、北极光与ELF是一个层级,章鱼和绝艺差不多是第二个层级,小爱、石子旋风与星阵是第三个层级,RN和Aya是第四个层级。


由于AI软件有一定的随机性,并且ELF原生程序和LeelaZero的ELF权重落子策略有所不同,比赛的ELF与使用LeelaZero ELF权重的鹰眼吻合度不可能到100%,接近75%的成绩属于预料之中。而LeelaZero是完全从0训练的项目,和ELF、AlphaGo-Zero是基本一致的技术,又采用了一部分ELF棋谱讯训练,与鹰眼使用的Leela-Zero ELF权重相似度高也是预料之中的事情。


AQ与北极光技术不详。AQ相比之前参赛的版本,吻合度有了极大幅度的提高,可以猜想这个AQ版本应该也使用了大量ELF棋谱训练。北极光之前从未有过露面,这番吻合度高原因未知。


而章鱼围棋,则是掺杂了30%的人类棋谱,同时使用了大量ELF和LeelaZero棋谱,因此相似度低于ELF是几乎必然的事情。绝艺版本众多,具体技术不详。但是绝艺这次比赛的表现是极具统治力的,可以预想与ELF理应存在一些明显的技术差异。


星阵完全采用了监督学习,纯人类的棋谱自然吻合度不会很高,但是依然展示了强大的竞争力,不得不说是一件非常有意思的事情。剩余四个AI的技术细节不详,但是看RN和Aya的吻合度,推测是AlphaGo-Lee式的老一代AI架构概率较大。



序盘吻合度,前四甲还是老四样——北极光、ELF、LZ与AQ,Aya再次惨遭垫底。可以看出,在序盘阶段,不同AI的偏好还是有一些不同的。

到了中盘阶的吻合度,ELF掉队了,但是也没落下太多,还是处于第二梯队。以星阵为首的剩下5款AI,吻合度倒是差不多。中盘阶段AI互相之间的吻合度差距有所缩小,说明中盘战中AI之间的选点差异要比布局偏好的差异更小。

这张图更直观的展示了排序和互相之间的差异。


四、可疑的北极光


北极光之前从未露面,第一天2胜2败表现抢眼,击败了石子旋风和小爱,惜败给了LeelaZero与蒸鱼。但是第二天的表现极度浮夸,不敌绝艺的棋和不敌Aya的棋,都下出了一些无法理喻的招法。





比如这一手,不F2扳直接脱先。





再比如对Aya的这一手,AI也会滑标吗?





再比如这一手,右上点一下三三脱先。


诸如此类的招法比比皆是,很难想象这是一个会出自吻合度接近75%的AI的招法。用了这么久AI,从没有见过任何AI会有如此的棋感。因此,对北极光两天的表现分开处理,重新做了一个统计。



这是几款吻合度靠前的AI,吻合度的柱状图对比。北极光根据两天,进行了拆分。第一日的北极光,序盘、中盘以及全局都是几乎80%的吻合度,这是其他AI都无可匹敌的。而第二日的北极光,在图上快要看不到了,吻合度出现了极大的跳水。前后两日的北极光,绝对不可能是同一款软件。


ELF原生程序,与弈客鹰眼使用的LeelaZero ELF权重,吻合度不过堪堪70%出头。这说明即便是同样的权重之下,不同的落子策略与AI的随机性,吻合度也不会特别的高。反观LeelaZero,在软件层面相同,权重不同的情况下,吻合度还稍高一些。


而这个未知的软件,吻合度竟然比ELF和LeelaZero都高。这让人不得不怀疑,第一天的北极光就是LeelaZero-ELF权重本身。


五、总结


AI的围棋和人类的围棋可以说是两种不同的游戏了,彼此之间几乎没有数据上的交集。参赛的AI风格也多种多样,总体来说像AlphaGo-Zero的AI战绩都更好一些。星阵是一条完全不同的路线,以较低的吻合度达成了非常不错的效果,未来十分值得期待。北极光来源高度可疑,可惜样本太少,很难支撑更进一步的统计分析。如需更进一步的验证,可能需要检验软件的源代码了。
回复

使用道具 举报

发表于 2018-6-27 08:43 | 显示全部楼层
为什么官子的吻合度那么平均?
对AI来说,半目胜负不可以改变?
回复 支持 反对

使用道具 举报

发表于 2018-6-27 18:33 | 显示全部楼层
回复 支持 反对

使用道具 举报

发表于 2018-6-29 11:21 | 显示全部楼层
同意二楼说的
回复 支持 反对

使用道具 举报

 楼主| 发表于 2018-6-29 22:59 来自手机 | 显示全部楼层
【声明】北极光围棋AI有原创工作,赛后开源-北极光团队接质疑后发布声明
2018年6月29日   弈客头条   42 Views
【声明】北极光围棋AI有原创工作,赛后开源
2018世界人工智能围棋大赛组委会接到外界质疑北极光围棋AI的问题,北极光与外部质疑者、组委会进行了技术细节的充分交流。



结论如下:北极光的底层程序采用Leela Zero,权重采用ELF,所做的工作主要在于结合快速走子策略,并与价值网络进行动态加权或采用固定值0.5,有原创工作。若上述不实,北极光负全责。北极光在赛后将程序开源。

http://www.yikeweiqi.com/news/topline/46864/
回复 支持 反对

使用道具 举报

发表于 2018-6-30 05:06 | 显示全部楼层
lu01 发表于 2018-6-29 22:59
【声明】北极光围棋AI有原创工作,赛后开源-北极光团队接质疑后发布声明
2018年6月29日   弈客头条   42 V ...

底層程序Leela Zero,權重ELF......大哥,請別開源了,完全沒有意義啊。
回复 支持 反对

使用道具 举报

 楼主| 发表于 2018-6-30 14:16 | 显示全部楼层
本帖最后由 lu01 于 2018-6-30 14:18 编辑

北极光测试

昨天 23:11-昨天 23:19

感谢野狐的声明。 北极光声明如下: 本人是北极光开发者,围棋业余5段,曾获得全国计算机博弈锦标赛九路围棋、十三路围棋、围棋项目的冠亚军。自2017来到自动化所工作,课题组鼓励我自由探索围棋AI,并给予了软硬件资源的支持。 初期开发工作是使用监督学习训练网络,并在此基础上进行强化学习训练,然后在Leela Zero的底层架构上结合了快速走子策略,在5月份已达到职业一段水平。之后,ELFOpenGo开源,在测试ELF程序时发现,其棋力水平很高,经仔细研究发现,在复杂作战(如杀气、打劫)和官子阶段有时未能走出最佳走法,因此考虑使用ELF权重结合快速走子策略,测试结
果显示结合快速走子策略,测试结果显示结合快速走子策略确实能起到改善作用。 个人对网上的讨论回答如下:
1、第一天的比赛中为什么北极光与Leela ELF的相似度非常高? 答:北极光在Leela ELF权重基础上结合快速走子策略,ELF权重导致相似性较高。个人认为计算的随机性会给吻合度结果带来影响。赛后北极光也做出了相似性分析,并没有那么高,全局吻合度不到65%,中盘吻合度不到70%。第二天的吻合度和第一天相比也没有很大的变化。复盘报告和复盘详细记录表已提交给组委会。
2、为什么第二天程序的风格和水平不一致? 答:第二天第一场比赛,北极光加载了之前一个出bug版本的可执行程序,走棋出现失误。中途北极光与对手(Aya)和裁判进行了沟通,他们同意更换程序。重新加载了第一天比赛的版本,不过由于前期劣势太大,最终输掉了比赛。第二场与绝艺比赛,开局采用纯快速走子,使得开局的棋力与风格与第一天不同。
参赛以来,本人承受了很大的舆论压力,这对我及家人都造成了很大的困扰,对工作和生活造成了极大的影响。本人已无心参加复赛,决定退赛。 致敬Google DeepMind公司的AlphaGo和AlphaGo Zero,Facebook公司的ELF OpenGo,和Leela Zero等围棋AI! 致敬围棋前辈!
http://weiqi.qq.com/news/9467.html
回复 支持 反对

使用道具 举报

 楼主| 发表于 2018-6-30 14:20 | 显示全部楼层
http://computergames.caai.cn/info/news170307.html
2. 全国计算机博弈锦标赛
       竞赛项目包括:中国象棋、围棋、13 路围棋、9 路围棋、国际跳棋(100 格)、国际跳棋(64 格)、 二打一扑克牌(斗地主)、桥牌8种棋牌类,该比赛面向社会所有人员。
       五、竞赛规则

        
       6. 要求各参赛程序要独立开发,并提供程序设计文档。文档将作为参赛和被质疑时答辩的依据,文档的模板详见大赛网站,签字页需扫描,在竞赛前通过报名系统提交PDF电子文档。
       7.关于禁止山寨程序参赛的规定将在计算机博弈大赛网站上公布。
回复 支持 反对

使用道具 举报

 楼主| 发表于 2018-6-30 14:58 | 显示全部楼层
本帖最后由 lu01 于 2018-7-1 08:28 编辑

https://blog.csdn.net/cf2SudS8x8F0v/article/details/79223808 感谢张启超、张旗、
http://computergames.caai.cn/info/news16082302.html 申昌,张旗,张兆晨,冀俊忠
深石_13 (Deep Stone_13)
https://www.zhihu.com/question/68036407
https://www.zhihu.com/question/51898498


http://bjut.edu.cn/xww/article/preview?ID=20941 DeepStone 通过类比人类棋手对弈时的思考方式,将对弈问题转化为模式识别问题,继而利用深度学习中的卷积神经网络来评估可能走棋的位置。为确保评估的准确性,DeepStone通过静态结合蒙特卡洛树搜索来验证卷积神经网络的评估结果,从而挑选评分最高的作为下一步走棋。

http://news.bjut.edu.cn/mtgd/20968.shtml

“我们现在有专门的体验区,像围棋互动,人可以直接和机器下棋,老师和同学们可以亲自体验科技的魅力。”据北京工业大学研工部部长兼研究生院副院长高学金介绍,今年科技节最出彩的地方,就在于科技与人之间的互动。


高学金所说的围棋互动就是“DeepStone”,这是一款多功能围棋人机对弈软件,能够进行9路、13路和19路对弈,具有完善的交互界面。采访中,软件制作团队的负责人张旗说起这个项目,颇为自豪。


回复 支持 反对

使用道具 举报

发表于 2018-6-30 15:11 | 显示全部楼层
真是精采,比棋的內容還吸引人。
回复 支持 反对

使用道具 举报

发表于 2018-7-1 11:39 | 显示全部楼层
回复 支持 反对

使用道具 举报

 楼主| 发表于 2018-7-2 08:26 | 显示全部楼层
http://www.doc88.com/p-5028405342779.html
基于卷积神经网络的围棋棋步预测方法研究
回复 支持 反对

使用道具 举报

 楼主| 发表于 2018-7-2 14:07 | 显示全部楼层
回复 支持 反对

使用道具 举报

发表于 2018-7-2 18:14 | 显示全部楼层
都是你们闹的,把北极光同学吓得退赛了
回复 支持 反对

使用道具 举报

 楼主| 发表于 2018-7-2 18:21 来自手机 | 显示全部楼层
有谁懂得AI的看这篇硕士论文怎么样
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

小黑屋|Archiver|手机版|飞扬围棋网 ( 苏ICP备11029047号-1 )

GMT+8, 2024-4-18 22:15 , Processed in 0.142962 second(s), 19 queries .

since 2003飞扬围棋论坛 Licensed

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表