飞扬围棋

标题: 用几个权重分析AZ的对战谱 [打印本页]

作者: nan 时间: 2019-11-1 17:48
标题: 用几个权重分析AZ的对战谱
本帖最后由 nan 于 2019-11-1 17:51 编辑

感谢飞扬围棋和坚守的老棋迷们提供一个讨论环境。

【阿尔法元的Elo评分体系】

AlphaZero的2小时自战谱，在截至目前最高30M训练量下，提供了独立的权重棋力评分系统。
除去第一局-3000，Elo从2500、3900、4150到5185，高Elo评分的谱比较丰富。

在一些围棋QQ群中，早已有棋友尝试用公开的权重复盘分析这系列棋谱，只是权重选择不多。
限于权重棋力、个人计算资源都有限，很多阿尔法元的选点分析不出来。
去年(2018年)的高po复盘得出一个结论，目前可公开获取的权重有盲点，棋力不及阿尔法狗。
当时棋友手头最强的就是ElfV2和MiniGo系列权重，较当时的最新的LZ更强大。

【LeelaZero系列权重强度几何】

LeelaZero从0到最新的权重，"曲折的"给了公众们一个棋力递增的权重。2018年真是很"曲折"的一年。
在处理好曲折的问题后，我们就可以让LeelaZero的节点权重找到在AZ评分中的位置，
以及回答"LZ是否达到5000分？""LZ是否超过AZ？"这种问题。如果LZ没有达到5000分的话，那么是多少分呢？
我们至少应该在某个计算量下找到一个大概位置。

【MiniGo网站的评分】
最开始很多LeelaZero的强度估计是从MiniGo网站上的两组强度测试来的。
leela-zero-v3-eval和leela-zero-v4-time，但是这两项测试的数据没有很好的处理。
比如 https://cloudygo.com/leela-zero- ... id_03.sgf?type=eval
在v4同时间Elo测试中，v156对战v206的一半sgf数据是v3的，用时差距很大，这个Elo评分显失公平。
这让我对MiniGo提供的Elo数据的可靠性存疑。对战谱列表 https://cloudygo.com/leela-zero- ... el/156?sorted=False
通过较低的po数，比较出权重的策略网络质量的优劣，是MiniGo的贡献。

【GoAIRatings项目评分】
由互联网知名人士BreakWa11女士在Github上维护的一份围棋权重棋力排名列表
https://github.com/breakwa11/GoAIRatings
在多权重、低次数的对战过程中，组成某个权重较高对战次数下的Elo排名。
一方面避免单个AI固定刷弱手导致Elo畸高，另一方面经典权重如Elfv2、LZ157的对战次数持续增长，Elo评分将稳定成为标志，如同守关。
目前的问题是，维护者BW没有放出对战测试的SGF文件。测试仅涉及LZ部分权重。

【楼主测试v1版】
按理应每步2分钟进行分析，棋力充分发挥，但楼主这次仅当玩票，写下此文抛砖引玉。
批量分析AlphaZero2小时自战谱Game001-Game010，硬件是2060GTX。
每步2秒，每步计算量均值2k左右，吻合点5k-8k，盲点后续800-1k之间（一局）；
每步5秒，每步计算量均值8k左右，吻合点20k-30k，盲点后续2k-6k之间（局部分析使用）

使用MiniGo评分80%胜率的梯次：v91，v116，v136，v156，v166，v176，v226，v245(60%左右)
事后发现权重能力梯次性表现太差，于是详细扒了MiniGo站上这几个权重的Elo评分对战谱，只能大呼上当。

【v1测试结果中有用的结论】
1. 目前使用yzy的lizzie客户端，吻合率可以看出一个权重的表现。吻合率是指棋手的选点与AI判断的一致性。

在有盲点的情况下，AI对盲点后手的胜率判断的准确度，对AI强度的估计有价值。
如果AI不能理解盲点，造成一直看为两分或错看劣势为优势，形成跳水局面。

举例：Game006中，分析210-260手。第214-228手，左上角与右边路黑白转换，
其中白222是MiniGoV15-V17、LZ24x、KataGo、ElfV2的盲点。
白棋迫使黑棋接受交换，取得了优势并保持到终局。后续229至260的第一选点吻合率如下：
LZ176：黑37.5%/60.20/3.28%，白64.7%/72.52/3.10%
LZ206：黑62.5%/68.00/3.53%，白52.9%/61.50/3.00%
LZ226：黑56.3%/75.95/1.59%，白82.4%/84.10/2.02%
MiniGoV17_961：黑62.5%/72.29/2.04%，白56.3%/62.51/1.07%

可以说，AZ评分4550的白棋行棋与LZ226吻合度达到84.1，黑棋虽然吻合率差些，但是吻合值是最高的75.95。

这是LZ226在2000n的算力情况下达到的（5s*400n/s）。

2. 关于收官：目前KataGo的收官胜率曲线最平滑，虽有选点不同，但是胜率判断非常稳定准确。
MiniGo和Elf的收官胜率波动有时较小，有时有波动，比LZ最新官权强。
LZ权重胜率曲线的尾部波动大而频繁，甚至能从10%反弹到40%然后又降到10%。最差的是LZ15B系列，完全胡搞。

举例：Game007最后一手后黑方的胜率：
KataGo_20B：9%       （第231手黑胜率22.7%）
MiniGoV17_961：5% （第231手黑胜率25.7%）
LZ245：12.3%          （第231手黑胜率16.0%）
LZ245_15b：38.3%    （第231手黑胜率36.3%，稳中有升）
LZ238_15b：30.3%    （第231手黑胜率32.8%，稳中有降）

看LZ226和LZ206对Game007的复盘分析，都在230手之后陷入迟钝。
我认为是因为官子谱太少，自对弈谱的平均长度在230手左右导致的。
KataGo由于有附加的策略/价值判断，在官子方面独挑大梁，在棋力不济之时仍能超过MiniGo等强手。
未来SAI项目也会达到同样的官子水准，期待。。。

3. MiniGo的胜率梯次参考性差，GoAIRating的Elo评分的"相对"靠谱。

LZ176在分析Game005时，局面一直两分至终局，可以说对Elo4350的对局棋手毫无了解。
LZ226则展示了强大的解读能力。武断的说LZ226在2000n算力时，Elo在4500附近。
棋力更高的MiniGoV17_961的解读与LZ226类似。

更高的算力带来的Elo增长是指数递减状态，https://github.com/guitanj/AutoPK 项目实验说明了这一点。

GoAIRating中给予LZ226 1600po时的Elo评分是
0.17引擎下：4682
0.16引擎下：4658

考虑到GoAIRating在双方低对局数中形成Elo，低Elo分的权重的可能存在Elo膨胀的情况，导致传导至高Elo选手。
后续一些想法收集好了就继续更新这个帖子。

有机器的兄弟请帮忙跑SAI项目！看成长速度和官子方面，SAI非常有前途，成熟后可以与KataGo独立比较，谢谢！

作者: forjoke21cn 时间: 2019-11-1 18:04
AZ是多少分? 目前的LZ 和AZ相比是怎样的水平？

作者: nan 时间: 2019-11-1 19:14

forjoke21cn 发表于 2019-11-1 18:04
AZ是多少分? 目前的LZ 和AZ相比是怎样的水平？

AZ的Game006就是4550分了，Game018：5025，Game019：5125，Game020：5185

单独分析每一步，反推执行分析权重的能力，这个事儿有些困难。但是有几个很明确的特征：

如果LZ一直看作两分，则LZ没有这个谱的水平。比如LZ176之于Game005，完全搞不懂谁优谁劣。
LZ176肯定没有AZ4350Elo的水准。

如果LZ大部分看懂了，出现盲点没有较大的改变对局胜率，那么LZ应该有这个谱以上的水平。
目前我用LZ248官权，5秒复盘分析了Game009，大概可以满足这个水平。Game009的Elo是4650

[attach]160540[/attach]

Game020中，158手之后很多次序和盲点，或者100k以上高po才能分析出是最优选点，
类似就是一个良好的棋手，连连称赞，时而思索，胜率一直两分。
虽然看的懂1步或者几步，但是有的看不懂，更没方向和把握，不清楚对局者强弱。

个人保守认为LZ226达到AZ评分系统4500-4600的水平，LZ248达到4700+的水平。
与GoAIRating取得的数字近似，但是感觉她的榜单仍然有点虚高。

附加的发现就是az方法练出来的权重，官子都差。15b系列没法看。

作者: nan 时间: 2019-11-1 19:27
部分谱能看出AZ的黑棋弱于白棋。这个是AZ的程序设计失误导致的。
Game007所有强权重表现出白棋吻合率高，因为强力权重更均衡，看得懂7号谱。
Game009所有强权重都表现出黑棋吻合率高，因为强力权重看不懂白棋，对9号谱的白棋不了解。

作者: nan 时间: 2019-11-1 19:49
简单跑了下2秒的Game012，MiniGoV17_961权重，全局/前200手都是黑行棋吻合率高。

作者: nan 时间: 2019-11-1 19:57
本身用时少于1分钟的复盘，权威性可能受些影响。
后面我整理一下，把谱传上来，给大家带个头。后续让大佬们拿出真货练练。
希望借此大家对当前LZ的能力、短板有个清楚的认识。

作者: nan 时间: 2019-11-4 15:49
今天在批量分析AZ谱中Game010-Game015，看了下MiniGo_V17_961和LZ250_candidates
(Hash值e724f89d，与249官权50%胜率的候选权重)。初步的结论：

1. 400n/s的硬件，至少每手5秒以上的全盘分析，获得的结论较稳定。也就是说每步算力2000n。

2. 每步算力4000n（GTX2060运算10秒），前6选点定型，前10选点出现盲点需要高算力或未来权重。

3. MiniGoV17的顶尖权重1003、990、961、820在Game014中的胜率曲线有了较大区别。
从胜率曲线看：
LZ250-c对优劣认识清楚，黑棋除个别反弹外，胜率持续下滑至最后一手的13%；
990胜率表现接近LZ，看得到黑棋胜率下滑，但较LZ差距明显；
820判定黑劣到黑能反杀，128手后黑胜率下降，无脑至终；
961稍稍优秀，判定黑劣，140手后很迷糊；
1003最差，从黑优到两分，最后黑劣，一路混混沌沌；
[attach]160704[/attach]
MiniGo三个权重对120手后的黑白行棋无清楚认识，990-pallas较优秀，与最新LZ相比差距明显。

Game014对局Elo评分是4875，MiniGoV17的Elo在AZ Elo评分系统的4900以下。
LZ最新官权已经超越V17系列，很多细微的判定不能用990或961与LZ的结论对照了。

作者: nan 时间: 2019-11-4 17:30
本帖最后由 nan 于 2019-11-4 21:52 编辑

forjoke21cn 发表于 2019-11-1 18:04
AZ是多少分? 目前的LZ 和AZ相比是怎样的水平？

你好，之前我使用Game001-010做的几个AI的复盘能力的分析，没有完全发挥LZ的能力。
今天分析Game011-015的对局，有更新的内容。
LZ的分析能力超越了MiniGo V17，之前我有些假设是没有验证过的，低估了LZ的强度。

目前的LZ（v249~v250,date:20191104）强度，用2000n算力，可以对Game014做出完全的解读。
Game015（4900Elo）前3个选点的白棋吻合率高于黑棋。但是Game016中200手后的右上打劫，对劫财的处理，
LZ的官炼官权胜率完全没有概念，暴涨暴跌，某些选点胜于轰烈官权。
LZ的轰烈官权249对打劫的胜率估计较准确，不会暴涨暴跌，曲线形态清晰，个别1-2个选点不如官炼官权。
胜率曲线如图：左249，右e724f89d

[attach]160720[/attach]
Game016（4925Elo）的后半盘，表现最好的是KataGo，其次是MiniGo的990和961，ElfV2和LZ完全不知道黑白输赢。

LZ249官权至少在4900+，对Game016-020的复盘解读问题在于LZ的后半盘弱于其他4900-权重。
LZ249、LZ250在民用显卡上高PO应该可以达到5000ELO（200手前）。但是通盘考虑，4900Elo是个合适的评价。
轰烈官权在后半盘的能力更优胜。

作者: SmileFox 时间: 2019-11-4 21:09
好文章！

作者: nan 时间: 2019-11-4 22:12

SmileFox 发表于 2019-11-4 21:09
好文章！

谢谢夸奖，本来只想随便测测，没想到遇到的问题挺多。
有些观念是随着LZ的进步变成错误的，比如V17比最新LZ强；还有的是模糊的，比如ElfV2很强。
LZ的官炼官权和轰烈官权我一直以为没差别，现在发现后半盘实力差距有点大，轰烈丹胜率稳。

今天晚上用的LZ next引擎重跑，发现MiniGo系列还能进步一点点。

作者: R141 时间: 2019-11-4 22:16
本帖最后由 R141 于 2019-11-11 21:15 编辑

做了些测试，先分析了AGZ20B的最后一谱（4350elo),分别使用15B（245权重转化）6000n，20B（249权重转化）3000n ，两者胜率曲线基本相同.
然后分析了AGZ 4550elo的谱，用15b（245权重转化) 6000n,和249 3000n,分别分析,15B(245权重转化）相较于249权重，许多地方明显解读不出，胜率没有多少波动，同时15B在最后几十手胜率波动很大。
单从这个测试看，个人认为15B权重（245权重转化）的棋力大约为4400elo+

用15b,20b,40b分别分析4650elo的棋谱时，胜率曲线并无太大区别。
分析4750elo的棋谱时，15b和20b的结果仍然很相似，但与40B已有较明显的区别。
分析4850elo的棋谱时，40B的结果明显不同，显然，20B（249权重转化）离4850elo有很大差距。
另外做了两盘慢棋测试，在LZ引擎快一倍多的情况下，20b(249)执黑执白都输给了PhoenixGo(原版引擎，参数改为384childrens)
20B(249权重转化）的棋力估计在4600elo+。PhoenixGo在引擎速度只有LZ引擎一半不到的情况下，在修改参数，解除限制后，也能达到ELFV0和ELFV1的中间水准，同模拟量下和ELFV2应该差不多。
感觉PhoenixGo,KataGo,ELF OpenGo V2,MiniGo V15基本都在一个水准，都在4700~4800elo这个水准。
MiniGo V17用了SENet，大概4900左右的样子。
AGZ经历过5000elo的瓶颈，Leela Zero现在应该在这个阶段。

作者: sxy 时间: 2019-11-4 22:18
长见识

作者: nan 时间: 2019-11-5 09:28

R141 发表于 2019-11-4 22:16
做了些测试，先分析了AGZ20B的最后一谱（4350elo),分别使用15B（245权重转化）6000n，20B（249权重转化）30 ...

感谢分享！

作者: R141 时间: 2019-11-5 11:11
本帖最后由 R141 于 2019-11-5 11:13 编辑

今天针对157权重做了一些测试，发表一下看法。
首先用157分析了AGZ 20B 4350elo的谱，理解程度和之前15B（245权重转化)和20B（249权重转化）有一些差距。
随后用157，20B（249权重转化），249分析AGZ 20B 4200elo的谱。
分析结果中，157认为黑棋在中盘有一定的劣势，20B则判定为黑棋有一点优势，40B认为黑棋中盘优势很大。
在棋局后期，三个权重的分析结果中黑棋胜率都出现了回升，157回升到了50%左右，20B和40B（尤其是40B）都认为黑棋优势很大。
先以棋力最强的40B为标准，以黑棋确实有翻盘的机会为条件。
AGZ 20B在4200elo的时候，没有看出翻盘的机会，或者认为黑棋的胜率虽然有提升，但仍然没有明显超过50%。而157的胜率回升到了50%。
故认为AGZ 20B(4200elo时）<157<20B(249权重转化)<249
估计157棋力大约为4200~4300elo.
另外做了157和40b对4100elo的谱的分析。

作者: nan 时间: 2019-11-5 11:30
本帖最后由 nan 于 2019-11-5 12:15 编辑

批量分析获得的sgf中会保存选点信息，yzy的lizzie的鹰眼统计很直观，比如首选点的吻合率和吻合值，前3选点吻合率，都是很有价值。

Game016（Elo4925）中，LZ和MiniGo首选点和前三选点中，160手后白棋吻合度低、吻合值低，但是白胜。
虽然160手或者200手前，黑白双方吻合度/值可以达到80，但是最后的打劫打出了新高度，打出了AI的棋力问题。

Game015（Elo4900）这一盘，LZ的官炼官权选点能力比轰烈丹强，胜率估计比轰烈丹差。
全局前2选点白棋达到80，各种吻合率/值在各个阶段白棋均高于黑棋，与Game016（Elo4925）相反。
黑棋后半盘吻合率下降，可以看出黑棋输棋在于棋力不济。

目前看AZ自战谱中，Game014（Elo4875）和Game016（Elo4925）对复盘AI能力的区分度蛮高的，也是4900一线的两侧。
通过对Game015和016白棋行棋的把握程度的复盘，可以较大把握地说LZ目前摸到了Elo4900。

[attach]160829[/attach]

作者: hred9D 时间: 2019-11-5 20:31
LZ为什么后半盘跟不上AZ?胜率还跳水？难道官子的算法不一样？

作者: SmileFox 时间: 2019-11-6 10:38
其实我觉得官子不怎么说明水平
尤其是大优局，怎么收都是赢，看法不同很正常

作者: 文武 时间: 2019-11-6 19:17
软件版为啥如此萧条

作者: 思无邪恒大 时间: 2019-11-7 14:55
强大！

作者: nan 时间: 2019-11-8 09:54

hred9D 发表于 2019-11-5 20:31
LZ为什么后半盘跟不上AZ?胜率还跳水？难道官子的算法不一样？

训练量以及分析用时都有差距导致的，毕竟AGZ是2小时的对局。

而且运算硬件4TPU起步，至少相当于两个16*2080ti的夜壶9D狗互咬。你想想

作者: hred9D 时间: 2019-11-8 15:58
本帖最后由 hred9D 于 2019-11-8 16:01 编辑

科学量化分析，看出了与AZ的差距。
最笨的单盘分析。拿最新的LZ分析AZ棋谱，中盘战中的选点，AZ的有的关键落点，在LZ中的前10个候选选点都没有出现过！
这是盲区了？
差距大，还是算法的问题？

作者: nan 时间: 2020-3-10 20:57
本帖最后由 nan 于 2020-3-10 23:35 编辑

[attach]164614[/attach]
分别使用
KataGo1.3.3 g170 40 block s1.35G
KataGo1.3.1 g170 20 block s1.91G
KataGo1.1 g104 20 block s0.44G
分析az自对弈第16谱（ELO 4925）

其中40B分析报告：
黑AI评分(吻合率): 77.2
黑差异手(前10): 233(14.7%), 245(12.2%), 227(9.0%), 225(8.8%), 137(-8.3%), 143(8.0%), 95(7.7%), 85(7.4%), 243(7.0%), 135(6.9%)
白AI评分(吻合率): 76.5
白差异手(前10): 242(20.5%), 164(19.4%), 248(13.2%), 144(12.0%), 142(-9.1%), 224(8.4%), 210(7.8%), 156(7.2%), 158(-6.8%), 134(6.5%)

结论：

最强的新权重已经完全解读对局：硬件设置2060gtx，20秒一步（400n/s*20=8000n，中低算力）
从40B分析获得的胜率波动看，不再如弱权重会大起大落或无脑抖动，不存在没有看到的盲点
官子部分十分精确，不再如弱权重会判断最后局面存在30%以上的胜率（leelaz257与minigoV17:14%）

因此KataGo40B目前在中低算力时超过AZ的4925elo水平是相当确定的。
如果考虑到大算力提升200elo的话，KataGo棋力达到5000-5100是合理推测。

PS：
考虑到KataGo在超高算力情况下屡屡中芈氏飞刀败北于LeelaZ，
以及神经网络测试KataGo40B处于LeelaZ245的水平（与LeelaZ相差20代权重）
KataGo的40B未来的成长值得期待！

作者: nan 时间: 2020-3-10 21:37

hred9D 发表于 2019-11-8 15:58
科学量化分析，看出了与AZ的差距。
最笨的单盘分析。拿最新的LZ分析AZ棋谱，中盘战中的选点，AZ的有的关键 ...

Game016目前KataGo无盲点。LeelaZ267也没问题。
但是Game020的很多点需要高算力，有些点是盲点。
原因在于训练量。现在LeelaZ刚到19M，KataGo谱量更少，大概10M以下。
AZ训练量接近30M

作者: hred9D 时间: 2020-3-13 13:17
本帖最后由 hred9D 于 2020-3-13 13:22 编辑

公布的最强的AZ训练棋谱是哪一局呢？谷歌是挑选后公布的。
是Extended Data Figure 6 - AlphaGo Zero 40 block vs AlphaGo Master中的
第Game_020.sgf局
AZ执黑胜阿尔法大师？
[attach]164672[/attach]

作者: nan 时间: 2020-4-1 15:10

hred9D 发表于 2020-3-13 13:17
公布的最强的AZ训练棋谱是哪一局呢？谷歌是挑选后公布的。
是Extended Data Figure 6 - AlphaGo Zero 40 b ...

你是说比赛谱吧，局时2小时。

我认为应该是AGZ两小时自我对战的第20局[链接：Game020] 论文"Extended Data Figure 4"部分。
毕竟AGZ对战自己的胜率（执白）才60%左右，而对战AG-master胜率到了89%。

AGZ对战AG-master的棋型有个基本布局，2、8、10、14、16、18、20的前50手一致性非常高。
可以说master对那个二间高夹认识不够，总是吃亏。之所以认识不够是因为往前回溯，布局认识落后于zero，点三三玩的不够深。
zero玩到腻，征子认识清楚，角部定式已经改飞挂或者护角了。真正能让zero放招的只有zero（个人观点）。

作者: nan 时间: 2020-4-1 15:11
下面说说我对这一谱(AGZ-Game020)的看点：

第150手，二路妙手简直吴清源附体！这一谱我最喜欢这一招。
这个盲点目前只有katago(40B-s238)有机会下出。
katago（40B-s238）的神经网络权重和katago（40B-s192）和LZ270一样，L18只有0.5的policy。
但是只有katago（40B-s238）把L18放入了前8的计算选点，超高计算量可以下出。

第159手，20b权重（minigo、elfV2、轰烈20b-lz）在50万以上的计算量可以下出。
但是直到LZ249之后，40B权重才能用类似计算量算出，否则需要成倍的计算量，非常难。
接下来的第160手LZ270还搞不清楚提掉还是切断，Katago已经非常明确的切断了，单看这一招，是katago强。

但是单从几个、或者数十个盲点看权重能力，不能得出确定可靠的结论，权当自娱自乐了。
首位计算量50万每步，katago40b-s192和LZ270已经能够解释Game019，只存在148/154/161/184/185这5个盲点（katago40B-s238有改善）。
目前katago已经有了自己的评分系统，在阿尔法狗的迷雾里面，也就是这些2小时对战谱比较有价值，数量太少，只能做局面评估测试用。

我感觉katago高计算量已经到了ELO5125 - 5185之间，LZ270在ELO4900 - 5000之间，低于katago200分。
如果低估一档，katago到ELO5025-5125之间，完全没有问题，至少在解读Game019上KataGo40B-s192给出了高吻合率高评分（黑90%:84分，白85%:77分），Game018上给出了高吻合率和低评分（黑79.5%:70.7分，白81.1%:71.9分），选点条件：前3选点且计算量5%以上。

现在看，katago已经建立了棋力评估体系，以前未知阿尔法狗的棋力，现在已经接近完全了解了，我会用最新40B-s238权重再次复盘Game016-Game020，做最后一个更新。

作者: lxjtt09 时间: 2020-4-1 15:34
本帖最后由 lxjtt09 于 2020-4-1 15:48 编辑

楼主分析非常好，已收藏。感觉katago中后盘比leela精准。不过里拉270也很强了，对卡塔狗30b布局经常占优，中盘初期不落下风，偶尔能完胜一盘。当然更多的是中盘中后期无法抵挡katago的精准计算被击溃。

作者: 天行者 时间: 2020-4-1 17:13

nan 发表于 2020-4-1 15:11
下面说说我对这一谱(AGZ-Game020)的看点：

第150手，二路妙手简直吴清源附体！这一谱我最喜欢这一招。

想法不错，有些意义！只可惜楼主的配置不太高，如果能用高配置的机器跑跑估计效果会更好！
你说的150像吴清源附体，太过了，这个大概业余棋手也能算出来。
后面好像黑棋在退让，261断是成立的，居然没看到。。。
能挑出双方的错误，说明katago现在的实力应该不弱于阿尔法Zero！本来阿尔法Zero研究方向就是正确的，如果不能超越就说明老师指引的方向有错误。超越只是时间的问题。。。
[attach]165319[/attach]
吻合率很高啊。。。
[attach]165320[/attach]

作者: 天行者 时间: 2020-4-1 17:20

nan 发表于 2020-3-10 20:57
分别使用
KataGo1.3.3 g170 40 block s1.35G
KataGo1.3.1 g170 20 block s1.91G

现在的katago已经升级到1.35版本，针对芈式飞刀也做了策略性针对，不存在中刀的问题了！赶快升级吧！

作者: hred9D 时间: 2020-4-5 09:55

nan 发表于 2020-4-1 15:10
你是说比赛谱吧，局时2小时。

我认为应该是AGZ两小时自我对战的第20局[链接：Game020] 论文"Extended ...

你是对的，应该是这一局。仔细看了谷歌的说明书

【Extended Data Figure 5 - AlphaGo Zero 40 block self-play games】
这是40 block在40天内的自学历程
精选AlphaGo Zero少年期不需要人类知识，40b从18K开始自我强化学习，互搏的20局供人类参考。AlphaGo Zero经过大约40天2900万场自玩游戏的训练后，以 89 ：11 的比分击败了AlphaGo Master（AlphaGo2.0版本），AlphaGo Master在2017年5月乌镇AI峰会上击败了围棋世界冠军柯洁。

【Extended Data Figure 6 - AlphaGo Zero 40 block vs AlphaGo Master】
40b的AlphaGo Zero已经没有人类对手，因为AlphaGo Master在2017年5月乌镇AI围棋峰会上击败了围棋世界冠军柯洁。东方不败AlphaGo Master，惨败于40b的AlphaGo Zero。
这是40 block训练40天的AlphaGo Zero对AlphaGo Master版本的对弈。
精选AlphaGo Zero青年期对AlphaGo Master，AlphaGo Zero优胜20局（胜率 89 ：11比分）供人类参考。

作者: hred9D 时间: 2020-4-5 17:34
本帖最后由 hred9D 于 2020-4-5 17:35 编辑

katago1.34,40B-s238,最初首位计算是Q11，与LZ270的154k的计算量选点相同，胜率46%左右。高计算量后，算出了AGZ的150二路飞，胜率达到51%以上，但是，随着计算量的增加，katago首选点的胜率下降到48-49%之间，虽然仍然是首选点。当然随着katago计算量变化和胜率波动，L18点的变化图也是不一样的。
159手，katago40B-s238可以初始计算选出，LZ270选点不同，但在前三个选点之中
160手，katago先左边交换后再白3切断，吻合度是存在的。LZ270首选点不同，但选点也排在第二位。

个人感觉，龟兔赛跑，民间的AI随着训练局数的增加和引擎的改进，还是在追赶上AGZ的过程中。。。

[attach]165367[/attach]

[attach]165368[/attach]

[attach]165369[/attach]

作者: R141 时间: 2020-4-5 18:45
本帖最后由 R141 于 2020-4-5 19:51 编辑

hred9D 发表于 2020-4-5 17:34
katago1.34,40B-s238,最初首位计算是Q11，与LZ270的154k的计算量选点相同，胜率46%左右。高计算量后，算出 ...

个人觉得KataGo可能已经达到了AGZ，哪怕是棋力相近的AI，对战时也可能出现被对方发现盲点而被击败的情况，甚至是相对弱很多AI，也可能击中强AI的盲点，如果能够大致理解AGZ的棋谱，在棋局并非自己所下的情况下，如果只有少数几手可能有问题，棋力可能就差不多了，
AGZ的计算量相当高，与之相比，开源AI如果能分析出AGZ的招数，哪怕是用了比较高的计算量(可能也只是AGZ的零头），也是可以接受的。
个人觉得少数盲点的存在是可以接受的，同时也不能否认在某些局面下，KataGo等AI相较于AGZ有更高见解的可能性。
根据楼主之前的分析，LeelaZero大概有5000分了，从LeelaZero的训练量上看，这个分数很合理，从另一个角度看，MiniGo V17有足够的训练量和一些新的技术，个人觉得MiniGo V17在打上征子补丁后，应该达到或者超过了Master的水准，也就是达到了4850分，LeelaZero相对于MiniGoV17,是要强上一些的，由此看，认为LeelaZero差不多有5000分也是说得通的，根据KataGo对LeelaZero的胜率，认为KataGo达到甚至超过5200分，应该也是比较合理的。

作者: hred9D 时间: 2020-4-5 20:13
本帖最后由 hred9D 于 2020-4-5 20:14 编辑

elo评分不太好估算。katago有后来居上的感觉，LZ有点上不去的情况，应该说，对AGZ的棋谱，关键手数的分析和理解还是重要的。
吻合度分析中，民间AI还是可以达到70%以上了，但是胜率波动很大的手数（哪怕只有几手棋不能理解）是不是重点和盲点呢？为什么民间引擎和权重都不能理解这几手棋？是不是与AGZ的关键差距？也是拉开elo的关键？比如148,204，截图是204手

[attach]165371[/attach][attach]165372[/attach]
[attach]165373[/attach]

作者: hred9D 时间: 2020-4-5 20:35
AlphaGo Zero通过与自己不断挑战来进行提升，不依赖人类数据。此前版本则是通过分析海量棋谱数据进行学习。AlphaGo打败李世石用了3000万盘比赛作为训练数据，而AlphaGo Zero仅用了490万盘比赛数据。经过3天的训练，AlphaGo Zero以100：0的战绩完胜AlphaGo。并且只用了1台机器和4个TPU，而李世石版AlphaGo则用了48个TPU。
谷歌论文是公布了，应该有最关键的部分有所隐瞒吧？不然硬件需求下降不来的。

作者: R141 时间: 2020-4-5 20:44
本帖最后由 R141 于 2020-4-5 21:49 编辑

个人认为，如果某一手下下去之后胜率暴涨，通常就是确实的盲点，也就是差距，当然也有少数情况是下到这一手深入计算后才发现了妙手，所以胜率上升。这是一种情况。
你说的这两个点都是胜率下降的情况，个人认为这种情况下不能排除KataGo对这些招法不认同的可能性，这两手棋，KataGo对于148有自认为胜率较高的选点，同时也对AGZ的选点有一定的计算，对于204手，虽然没有立即下出，但在变化图中也下到了，不能认为KataGo完全没有理解，当然，不能否认的是，这些地方也可能确实存在一些差距。

首先我个人认为AGZ也难免存在盲点，假如让AGZ分析KataGo的棋谱，也可能出现类似的情况，在自身作为对局一方的同时，也难免出现盲点，更何况是直接分析其他AI的棋局，一个局面有盲点可以说是这个局面有差距，但不能代表AGZ因此就在其他局面下也更优秀，因为只是分析AGZ的棋谱，所以我们只能看到一方面，当然我这种说法也可能是错误的，我个人觉得这样想是合情合理的。

一个AI，如果原来分析不出盲点，后来能分析出来了，可以说是变强了，但我个人觉得，一个AI，并不需要完全分析出AGZ的棋谱，才能说是达到，如果对于AGZ下出来的局面能完全理解，尤其是在相对较低的算力下，棋力应该已经高出一些了。

elo等级分虽然不能特别精确的估算，但还是可以大概指出一个高度。毕竟AI的强弱，本质上还是要由胜率而定。盲点虽然可以用于判断，但是AI的强弱并不是一个绝对的数值，存在风格上的相互克制，而如果只是通过能不能看出一个盲点判断，个人觉得显得过于绝对了。

哪怕认为LeelaZero是4900分，KataGo 20B有84%的胜率（288elo),也超过了AGZ的5185分，更何况还有30B和40B，这种估算我认为比较保守了。

另外，KataGo不退让的风格可能也是选点不同的原因之一。AGZ有明显的退让，如果让AGZ分析KataGo的棋谱，也会出现退让和不退让的分歧，有些选点也会分析不出来，但是这些点显然不能作为判断水平的依据。

作者: R141 时间: 2020-4-5 20:56

hred9D 发表于 2020-4-5 20:35
AlphaGo Zero通过与自己不断挑战来进行提升，不依赖人类数据。此前版本则是通过分析海量棋谱数据进行学习。 ...

谷歌关键参数肯定是有所隐瞒的，LeelaZero早期训练效率也不高，不过KataGo在效率上有了极大的进步，这点是肯定的，另外像是MiniGo也拥有谷歌的TPU资源，训练是很充足的.

作者: hred9D 时间: 2020-4-5 22:37
本帖最后由 hred9D 于 2020-4-5 22:40 编辑

R141 发表于 2020-4-5 20:44
个人认为，如果某一手下下去之后胜率暴涨，通常就是确实的盲点，也就是差距，当然也有少数情况是下到这一手 ...

如果对于AGZ下出来的局面能完全理解，尤其是在相对较低的算力下，棋力应该已经高出一些了。

--------------------
对，民间AI的确进步很大了，AGZ两个小时的棋，4个TPU训练的权重，爱好者配置相对而言，低到渣的电脑，使用民间的引擎和权重，很短的分析时间，能够理解到前3手棋，较高的吻合度，的确相当不容易了！也可以说不管多么强大的TPU，你也得按棋理下棋吧！

作者: nan 时间: 2020-4-7 11:33
[attach]165390[/attach]

[attach]165389[/attach]

[attach]165388[/attach]

[attach]165387[/attach]

[attach]165386[/attach]

[attach]165385[/attach]

[attach]165384[/attach]

看了两位讨论，我获益匪浅。我的配置是单卡GTX2060，纯人是K级水平。现在KataGo已经有一个强度序列，足够让其他AI对号入座。

这个系列管中窥豹，按现在的AI水平来说，展现出的解读差异，只有个别盲点。我把用KataGo-40b-s238，首位计算量100k的分析谱上传，有需要的棋友可以下载看看。感谢KataGo无私的贡献，让普通棋迷们有了这么强大的AI。谢谢楼上几位棋友捧场、指点！

作者: 阳光清爽海滩 时间: 2020-4-9 17:16

hred9D 发表于 2020-4-5 20:35
AlphaGo Zero通过与自己不断挑战来进行提升，不依赖人类数据。此前版本则是通过分析海量棋谱数据进行学习。 ...

核心技术不可能告诉你，民间这些捣鼓AI算法的高手，他们能想到的问题人家早就碰到而且还更多，只是人家费脑力解决了当然不会告诉你。我们只能在正确的路上慢慢摸索。

作者: epls9 时间: 2020-4-10 10:41

阳光清爽海滩发表于 2020-4-9 17:16
核心技术不可能告诉你，民间这些捣鼓AI算法的高手，他们能想到的问题人家早就碰到而且还更多，只是人家费 ...

你想多了。绝艺星阵都有针对围棋的优化，但AZ没有。AZ的一切都是建立在通用的指导基础上，不可能针对围棋搞那么多优化。KataGo的设计在效率上比AlphaZero高得多，即在围棋层面比AlphaZero优秀得多（多很多，几十甚至几千倍）。KataGo作者所属以及提供计算资源的企业Jane Street也不是什么野鸡公司。AZ作为DeepMind的实验和KataGo作为Jane Street的实验本质上没太大区别，无非是DM团队更大，实际上DM是不可能花大量的时间去做针对性优化的。有时候别把所谓“核心技术”看得那么神秘比较好，计算机科学方面所谓秘密的“核心技术”本世纪初以后就已经基本不存在了。AI方面现在大概没有什么核心技术是堆算力拼不出来的，如果有，不发表论文被别人抢先发现，或者技术牛人跳槽，亏的远比捂着亏得多。（我就是做人工神经网络研究的）

作者: 秦秦 时间: 2020-4-11 09:36
问一下大家：民用AI什么时候可以赶上甚至超过AlphaGo Zero？

作者: 天行者 时间: 2020-4-11 10:18

秦秦发表于 2020-4-11 09:36
问一下大家：民用AI什么时候可以赶上甚至超过AlphaGo Zero？

就是现在，就在当今。katago 40B基本上已经追赶或者已经超越。关键是作者的出发点就是要做一款民用的AI。
但超越不超越其实没有任何意义，这也不是所有做AI的追求的目的！
谁也替代不了AlphaGo带给人类智慧的启迪，谁也代替不了Alpha围棋在这个领域的绝对领袖的地位！

作者: hred9D 时间: 2020-4-13 23:01
本帖最后由 hred9D 于 2020-4-13 23:10 编辑

一个趣味测试，LZ6B,最初级的棋力，rtx2060s以首位计算量100k，来分析Game_020的吻合度，结果，黑棋怎么输的都不知道，最后居然以为黑棋胜率70%以上，与katago s238完全相反。当然除了布局黑棋勉强吻合度63%，中盘和官子，吻合度都没有超过60分！其中。白棋第150手，大方向居然与AGZ的一致，第150手排在第2位？！

[attach]165541[/attach]
[attach]165542[/attach]
[attach]165543[/attach]

100k首位计算量
[attach]165544[/attach]

作者: nan 时间: 2021-2-10 20:29

天行者发表于 2020-4-1 17:20
现在的katago已经升级到1.35版本，针对芈式飞刀也做了策略性针对，不存在中刀的问题了！赶快升级吧！

很久没来论坛了，感谢指点！

作者: nan 时间: 2021-2-10 20:31

hred9D 发表于 2020-4-13 23:01
一个趣味测试，LZ6B,最初级的棋力，rtx2060s以首位计算量100k，来分析Game_020的吻合度，结果，黑棋怎么输 ...

是的，对胜率曲线的描绘，不精确但是很可靠的反映了权重强度。感谢老朋友捧场！

欢迎光临飞扬围棋 (http://flygo.net/BBS/)