飞扬围棋
标题: 菇 | 大赛AI分析(9):AI世界大赛小组赛-弈客鹰眼报告,北极光数据高度可疑 [打印本页]
作者: lu01 时间: 2018-6-27 08:15
标题: 菇 | 大赛AI分析(9):AI世界大赛小组赛-弈客鹰眼报告,北极光数据高度可疑
http://www.yikeweiqi.com/news/topline/46716/
本系列将在每次大赛后,提供一个AI对本次比赛的综合数据分析。全部数据全部来源于弈客鹰眼的分析。采用LeelaZero,ELF权重,GTX 1080Ti单卡,固定每步分析30s。
上期链接:大赛AI分析(8):围乙4-8轮
一、胜率分析
按照惯例,先上胜率趋势图合集。
以上35张图,均由弈客鹰眼自动生成。每行为一轮,胜率默认为黑棋胜率。
从胜率的走势,我们可以很清晰的看到,在AI的世界几乎都是完胜与完败。逆转的比赛,只有三局。分别是第二轮小爱胜Aya,第三轮的星阵胜AQ以及最后一轮的AQ胜ELF。除了被淘汰的Aya是被小爱逐渐消耗致死,AQ与ELF的失利更像是一两手的败招,被对手敏锐抓住。这说明,虽然AI的世界里完胜很多,但是顶尖AI的绝对的实力差距并没有想象中的大,可以说就是一两手棋的事情。
为了进一步分析,做最恶一手分析:选取一局棋中,黑白双方各自胜率下降最大的一手,统计手数与胜率下降值。
上方为散点图,横坐标为手数,纵坐标为胜率下降值。点的颜色与胜率下降值有关,偏黄绿色代表较小,偏蓝紫色代表较大。下方分别作了手数(左)和胜率下降值(右)的直方图,统计给定区间内的样本量,并做了对数正态分布拟合。
从散点图可以看到,大量的AI全局最恶的一手都没有超过15%,甚至有相当的比例在10%以下,这点与人类的对局截然不同。人类的对局中,10%以上的恶手比比皆是,但是在AI的世界中,一个10%的恶手可能足以致命。
手数和胜率下降值,基本都符合对数正态分布。从曲线的形态可以看出,手数的分布比较宽广,说明一局棋AI犯下严重问题的机会相对比较接近。前半盘有一个不明显的峰值,可能与AI比赛分出胜负的时机较早有关系。胜率下降值的直方图更明确的反映了,AI一局棋最大的失误,损失胜率5%-15%之间概率极大,几乎不太可能超过30%。这点上可以说明,现在的AI实力都已经非常强大了,招法上几乎不存在明显的漏洞。
将AI的最恶一手,与上一期的围乙的人类棋手进行了对比。无论人类还是AI,手数的分布相对都比较宽。峰值上,AI大概出现在25手,明显小于人类。这说明在AI的对局中,决定胜负的瞬间到来的比人类更早一些。胜率下降值的峰值,AI也明显低于人类,大概是9%与26%的对比。甚至AI的峰值,在人类这里是一个概率极小的位置。这说明了AI的比赛中,对恶手更为敏感,一个在人类对剧中无关痛痒的失误,就可以决定AI对局的成败。
考虑一局棋的第一步恶手,由于AI对胜率比较敏感,所以这个标准与人类略微不同。选取一局棋中,黑白双方各自胜率首次超过5%的一手,统计手数与胜率下降值;如果全局都没有超过5%的招法,选取最恶一手。
对于人类,这个标准是10%。
上方为散点图,横坐标为手数,纵坐标为胜率下降值。点的颜色与胜率下降值有关,偏黄绿色代表较小,偏蓝紫色代表较大。下方分别作了手数(左)和胜率下降值(右)的直方图,统计给定区间内的样本量,并做了对数正态分布拟合。
散点图表明,AI的首步恶手基本集中在60手之前,胜率损失低于7/5%概率很大。从直方图中可以看到,AI第一步问题手在10-20手,以及50-60手有两个相对明显的峰值,但是总体来说各个区间差别有限。而胜率下降值,基本集中在4%-8%之间。
考虑到本项人和AI选取的标准不同,人与AI的对比仅有一定的参考意义。和最恶一手基本反映了同一件事,AI的失误出现的比人类更早,但是出现的时机更平均。而AI的第一个失误,也明显比人类第一个失误要轻微许多,不过这和选取的标准有关系,不能说明太多问题。
二、统计学数据
考虑对局双方每手棋与AI推荐点胜率的差异平均值,并且计算方差,这两项数据可以很好的反应对局者与AI的相似程度、发挥稳定性以及对局的激烈程度。平均胜率差异越大,提示棋手与AI选择差异越大,对局也越激烈;方差,则是与发挥稳定性呈正相关。
散点图中为了方便展示,纵横坐标均作了对数处理。蓝色的点为人类棋手,红色的点为AI。从点的分布可以看到,除了极个别的情况,人类和AI在图上几乎不存在交集。这说明两点:① 现在的AI已经足够强大,互相之间选点的胜率差距很小;② AI的发挥的稳定性,和人类根本不在一个维度,高出太多了。
做了一个简单的对比。人类棋手方差的峰值,对于AI来说已经是一个概率不大的位置了。而AI棋手的方差峰值,在人类这里出现的概率几乎可以认为是0了。平均胜率差异,AI的分布也比人类更为尖锐,说明AI之间差距并不是很大。而峰值,0.5%对2.6%,已经不知道该怎么描述了。互相之间的峰值,都出现在对方基本概率为0的区域。要知道,之前统计了K级棋手的这项数值,峰值在3.9%……只能说,人狗道不同啊,物种差异的鸿沟无法弥补。
做了一个平均胜率差异的箱型图。绝艺的平均胜率差异最低,这与绝艺盘盘完胜有关,一局下来基本没有明显胜率损失。ELF、LZ、AQ和章鱼平均胜率差异也较低,说明实力可能比较接近。北极光最有意思,被两个特别低的值给拉低了,前后两天的表现判若两机。
Aya、小爱和RN平均胜率差异最大,这可能说明这三款AI可能是最弱的。倒数第四的石子旋风,看表现是优于最后三名的,但是却惨遭淘汰,只能说林在范先生实在是差了一些签运。
三、吻合度
弈客鹰眼也给出了吻合度的数值。通过吻合度,可以看到AI之间风格的差异与水平的差异。
总体来看,本次比赛的AI吻合度符合正态分布。全局、序盘(5-60手)以及中盘(61-180手)峰值差不多,峰宽(σ)也比较接近。官子(181手-终局)阶段样本相对较少,手数也参差不齐,造成了分布更为平均化。
这是本次比赛全局吻合度的箱型图,粗线代表中位数,细线/方块代表平均数,箱体宽度为正负一个标准差。粗略来看,全局吻合度LeelaZero、AQ、北极光与ELF是一个层级,章鱼和绝艺差不多是第二个层级,小爱、石子旋风与星阵是第三个层级,RN和Aya是第四个层级。
由于AI软件有一定的随机性,并且ELF原生程序和LeelaZero的ELF权重落子策略有所不同,比赛的ELF与使用LeelaZero ELF权重的鹰眼吻合度不可能到100%,接近75%的成绩属于预料之中。而LeelaZero是完全从0训练的项目,和ELF、AlphaGo-Zero是基本一致的技术,又采用了一部分ELF棋谱讯训练,与鹰眼使用的Leela-Zero ELF权重相似度高也是预料之中的事情。
AQ与北极光技术不详。AQ相比之前参赛的版本,吻合度有了极大幅度的提高,可以猜想这个AQ版本应该也使用了大量ELF棋谱训练。北极光之前从未有过露面,这番吻合度高原因未知。
而章鱼围棋,则是掺杂了30%的人类棋谱,同时使用了大量ELF和LeelaZero棋谱,因此相似度低于ELF是几乎必然的事情。绝艺版本众多,具体技术不详。但是绝艺这次比赛的表现是极具统治力的,可以预想与ELF理应存在一些明显的技术差异。
星阵完全采用了监督学习,纯人类的棋谱自然吻合度不会很高,但是依然展示了强大的竞争力,不得不说是一件非常有意思的事情。剩余四个AI的技术细节不详,但是看RN和Aya的吻合度,推测是AlphaGo-Lee式的老一代AI架构概率较大。
序盘吻合度,前四甲还是老四样——北极光、ELF、LZ与AQ,Aya再次惨遭垫底。可以看出,在序盘阶段,不同AI的偏好还是有一些不同的。
到了中盘阶的吻合度,ELF掉队了,但是也没落下太多,还是处于第二梯队。以星阵为首的剩下5款AI,吻合度倒是差不多。中盘阶段AI互相之间的吻合度差距有所缩小,说明中盘战中AI之间的选点差异要比布局偏好的差异更小。
这张图更直观的展示了排序和互相之间的差异。
四、可疑的北极光
北极光之前从未露面,第一天2胜2败表现抢眼,击败了石子旋风和小爱,惜败给了LeelaZero与蒸鱼。但是第二天的表现极度浮夸,不敌绝艺的棋和不敌Aya的棋,都下出了一些无法理喻的招法。
比如这一手,不F2扳直接脱先。
再比如对Aya的这一手,AI也会滑标吗?
再比如这一手,右上点一下三三脱先。
诸如此类的招法比比皆是,很难想象这是一个会出自吻合度接近75%的AI的招法。用了这么久AI,从没有见过任何AI会有如此的棋感。因此,对北极光两天的表现分开处理,重新做了一个统计。
这是几款吻合度靠前的AI,吻合度的柱状图对比。北极光根据两天,进行了拆分。第一日的北极光,序盘、中盘以及全局都是几乎80%的吻合度,这是其他AI都无可匹敌的。而第二日的北极光,在图上快要看不到了,吻合度出现了极大的跳水。前后两日的北极光,绝对不可能是同一款软件。
ELF原生程序,与弈客鹰眼使用的LeelaZero ELF权重,吻合度不过堪堪70%出头。这说明即便是同样的权重之下,不同的落子策略与AI的随机性,吻合度也不会特别的高。反观LeelaZero,在软件层面相同,权重不同的情况下,吻合度还稍高一些。
而这个未知的软件,吻合度竟然比ELF和LeelaZero都高。这让人不得不怀疑,第一天的北极光就是LeelaZero-ELF权重本身。
五、总结
AI的围棋和人类的围棋可以说是两种不同的游戏了,彼此之间几乎没有数据上的交集。参赛的AI风格也多种多样,总体来说像AlphaGo-Zero的AI战绩都更好一些。星阵是一条完全不同的路线,以较低的吻合度达成了非常不错的效果,未来十分值得期待。北极光来源高度可疑,可惜样本太少,很难支撑更进一步的统计分析。如需更进一步的验证,可能需要检验软件的源代码了。
作者: hred9D 时间: 2018-6-27 08:43
为什么官子的吻合度那么平均?
对AI来说,半目胜负不可以改变?
作者: hidear 时间: 2018-6-27 18:33
作者: 包子100号 时间: 2018-6-29 11:21
同意二楼说的
作者: lu01 时间: 2018-6-29 22:59
【声明】北极光围棋AI有原创工作,赛后开源-北极光团队接质疑后发布声明
2018年6月29日 弈客头条 42 Views
【声明】北极光围棋AI有原创工作,赛后开源
2018世界人工智能围棋大赛组委会接到外界质疑北极光围棋AI的问题,北极光与外部质疑者、组委会进行了技术细节的充分交流。
结论如下:北极光的底层程序采用Leela Zero,权重采用ELF,所做的工作主要在于结合快速走子策略,并与价值网络进行动态加权或采用固定值0.5,有原创工作。若上述不实,北极光负全责。北极光在赛后将程序开源。
http://www.yikeweiqi.com/news/topline/46864/
作者: taishuan 时间: 2018-6-30 05:06
底層程序Leela Zero,權重ELF......大哥,請別開源了,完全沒有意義啊。
作者: lu01 时间: 2018-6-30 14:16
本帖最后由 lu01 于 2018-6-30 14:18 编辑
北极光测试
昨天 23:11-昨天 23:19
感谢野狐的声明。 北极光声明如下: 本人是北极光开发者,围棋业余5段,曾获得全国计算机博弈锦标赛九路围棋、十三路围棋、围棋项目的冠亚军。自2017来到自动化所工作,课题组鼓励我自由探索围棋AI,并给予了软硬件资源的支持。 初期开发工作是使用监督学习训练网络,并在此基础上进行强化学习训练,然后在Leela Zero的底层架构上结合了快速走子策略,在5月份已达到职业一段水平。之后,ELFOpenGo开源,在测试ELF程序时发现,其棋力水平很高,经仔细研究发现,在复杂作战(如杀气、打劫)和官子阶段有时未能走出最佳走法,因此考虑使用ELF权重结合快速走子策略,测试结
果显示结合快速走子策略,测试结果显示结合快速走子策略确实能起到改善作用。 个人对网上的讨论回答如下:
1、第一天的比赛中为什么北极光与Leela ELF的相似度非常高? 答:北极光在Leela ELF权重基础上结合快速走子策略,ELF权重导致相似性较高。个人认为计算的随机性会给吻合度结果带来影响。赛后北极光也做出了相似性分析,并没有那么高,全局吻合度不到65%,中盘吻合度不到70%。第二天的吻合度和第一天相比也没有很大的变化。复盘报告和复盘详细记录表已提交给组委会。
2、为什么第二天程序的风格和水平不一致? 答:第二天第一场比赛,北极光加载了之前一个出bug版本的可执行程序,走棋出现失误。中途北极光与对手(Aya)和裁判进行了沟通,他们同意更换程序。重新加载了第一天比赛的版本,不过由于前期劣势太大,最终输掉了比赛。第二场与绝艺比赛,开局采用纯快速走子,使得开局的棋力与风格与第一天不同。
参赛以来,本人承受了很大的舆论压力,这对我及家人都造成了很大的困扰,对工作和生活造成了极大的影响。本人已无心参加复赛,决定退赛。 致敬Google DeepMind公司的AlphaGo和AlphaGo Zero,Facebook公司的ELF OpenGo,和Leela Zero等围棋AI! 致敬围棋前辈!
http://weiqi.qq.com/news/9467.html
作者: lu01 时间: 2018-6-30 14:20
http://computergames.caai.cn/info/news170307.html
2. 全国计算机博弈锦标赛
竞赛项目包括:中国象棋、围棋、13 路围棋、9 路围棋、国际跳棋(100 格)、国际跳棋(64 格)、 二打一扑克牌(斗地主)、桥牌8种棋牌类,该比赛面向社会所有人员。
五、竞赛规则
6. 要求各参赛程序要独立开发,并提供程序设计文档。文档将作为参赛和被质疑时答辩的依据,文档的模板详见大赛网站,签字页需扫描,在竞赛前通过报名系统提交PDF电子文档。
7.关于禁止山寨程序参赛的规定将在计算机博弈大赛网站上公布。
作者: lu01 时间: 2018-6-30 14:58
本帖最后由 lu01 于 2018-7-1 08:28 编辑
https://blog.csdn.net/cf2SudS8x8F0v/article/details/79223808 感谢张启超、张旗、
http://computergames.caai.cn/info/news16082302.html 申昌,张旗,张兆晨,冀俊忠
深石_13 (Deep Stone_13)
https://www.zhihu.com/question/68036407
https://www.zhihu.com/question/51898498
http://bjut.edu.cn/xww/article/preview?ID=20941 DeepStone 通过类比人类棋手对弈时的思考方式,将对弈问题转化为模式识别问题,继而利用深度学习中的卷积神经网络来评估可能走棋的位置。为确保评估的准确性,DeepStone通过静态结合蒙特卡洛树搜索来验证卷积神经网络的评估结果,从而挑选评分最高的作为下一步走棋。
http://news.bjut.edu.cn/mtgd/20968.shtml
“我们现在有专门的体验区,像围棋互动,人可以直接和机器下棋,老师和同学们可以亲自体验科技的魅力。”据北京工业大学研工部部长兼研究生院副院长高学金介绍,今年科技节最出彩的地方,就在于科技与人之间的互动。
高学金所说的围棋互动就是“DeepStone”,这是一款多功能围棋人机对弈软件,能够进行9路、13路和19路对弈,具有完善的交互界面。采访中,软件制作团队的负责人张旗说起这个项目,颇为自豪。
作者: taishuan 时间: 2018-6-30 15:11
真是精采,比棋的內容還吸引人。
作者: cateyes 时间: 2018-7-1 11:39
妙
作者: lu01 时间: 2018-7-2 08:26
http://www.doc88.com/p-5028405342779.html
基于卷积神经网络的围棋棋步预测方法研究
作者: lu01 时间: 2018-7-2 14:07
https://www.zhihu.com/question/282304986/answer/425718232
作者: 原力猫 时间: 2018-7-2 18:14
都是你们闹的,把北极光同学吓得退赛了
作者: lu01 时间: 2018-7-2 18:21
有谁懂得AI的看这篇硕士论文怎么样
作者: 飞扬围棋 时间: 2018-7-3 08:46
无敌的北极光
作者: lu01 时间: 2018-7-3 09:44
微软欲训练AI识别游戏玩家作弊行为2018-07-03 09:293DMgame
微软已经向美国专利商标局提交了一项专利,将人工智能应用于Xbox Live平台的反作弊检测。该方法将使用机器学习来训练AI以识别游戏和游戏平台之间的“外围”交互。
据报道,该申请于2017年提交,但在上周才由专利局对外公布,其中提到,第三方开发商部署的游戏反作弊检测可能只会检测到在游戏内发生的作弊行为。这意味着,如果玩家想在游戏平台上作弊,而不是在游戏内部作弊来获得成就,那么玩家就有可能在不被游戏内部反作弊检测到的情况下,获得相关成就及其奖励。
为了解决这个问题,微软正在为应用机器学习的AI申请专利,以识别玩家的成就通知,游戏得分报告,或游戏与Xbox Live之类的各种交互中的不同活动模式。
“分类函数可以将玩家的交互分类为正常或异常,并且可以进一步分析那些标记为异常的交互行为,哪些是可能的作弊行为,”该专利这样描述。“以这种方式,可以根据难以通过手动技术识别的模式,去方便地筛选非常大量的玩家数据,以寻找可能的作弊行为。”
该专利目前尚未获得批准或拒绝。
责任编辑:远洋
作者: 罗浩宇 时间: 2018-7-3 12:56
我有了辆法拉利 。在加油滴时候 倒了杯酒进油箱,这辆开起来的法拉利就变成了我滴原创 ,我真是天才!!
欢迎光临 飞扬围棋 (http://flygo.net/Bbs/) |
Powered by Discuz! X3.2 |