飞扬围棋论坛

 找回密码
 注册
搜索
查看: 34825|回复: 17

截至2020年12月主流AI强度对战结果

[复制链接]
发表于 2020-12-4 22:54 | 显示全部楼层 |阅读模式
本帖最后由 陈佳康 于 2020-12-4 23:09 编辑

两种AI之间三轮之间3轮对战:

1  1600po 总计算量10场
2  1600po 首位计算量10场
3  rtx3090 限时1s 10场

我知道10场有点少,不过大体趋势能看出来了,主要电费花不起
1600po是常规下棋比较合适的,适合中端显卡,gtx 1060/rx580水平的甜品卡差不多5s走子(40B规模权重),不遇狗套的话都是超越顶级职业水平,缺点是这个计算量下leelaz elf minigo基本都算不清征子,容易被套,katago则没问题
如果是首位计算量1600po意味着必须首选点算满1600po(总计算量则是所有点合计1600po),碰上不同选点胜率相差不大的时候其实下的很慢了,因此在低端显卡上建议同时增加限时
rtx3090显卡的1s别看时间短,其实远强于1600po,由于权重规模越小就越快,大家会发现这种定时赛会对小权重更有利(15B、20B)
对支持多显卡的引擎做了双卡和单卡的自战,rtx3090双卡定时1s的(同po的话没意义,双卡就是快点),能看出来双卡胜率明显优势,权重规模越大优势越大,过小的权重规模在一定po后棋力就不涨了
zen7、zen6、pachi这种非深度学习框架的AI,和katago、leelaz完全不是一个档次,就不与强AI对战了,只做内部对战

下面列数据,格式为
引擎1_VS_引擎2_对战规则_胜vs负

ElfV2-dualcard_VS_ElfV2_1s_rtx3090_9vs1
ElfV2_VS_MiniGo17-961_1600po_first_7vs3
ElfV2_VS_MiniGo17-961_1600po_total_3vs7
ElfV2_VS_MiniGo17-961_1s_rtx3090_5vs5
KataGo-20B_VS_ElfV2_1600po_first_10vs0
KataGo-20B_VS_ElfV2_1600po_total_10vs0
KataGo-20B_VS_ElfV2_1s_rtx3090_10vs0
KataGo-20B_VS_LeelaZero-15B270_1600po_first_8vs2
KataGo-20B_VS_LeelaZero-15B270_1600po_total_10vs0
KataGo-20B_VS_LeelaZero-15B270_1s_rtx3090_10vs0
KataGo-20B_VS_LeelaZero-20B266_1600po_first_10vs0
KataGo-20B_VS_LeelaZero-20B266_1600po_total_10vs0
KataGo-20B_VS_LeelaZero-20B266_1s_rtx3090_10vs0
KataGo-20B_VS_LeelaZero-40B280_1600po_first_9vs1
KataGo-20B_VS_LeelaZero-40B280_1600po_total_10vs0
KataGo-20B_VS_LeelaZero-40B280_1s_rtx3090_10vs0
KataGo-20B_VS_MiniGo17-961_1600po_first_9vs1
KataGo-20B_VS_MiniGo17-961_1600po_total_10vs0
KataGo-20B_VS_MiniGo17-961_1s_rtx3090_10vs0
KataGo-30B_VS_ElfV2_1600po_first_10vs0
KataGo-30B_VS_ElfV2_1600po_total_10vs0
KataGo-30B_VS_ElfV2_1s_rtx3090_9vs1
KataGo-30B_VS_KataGo-20B_1600po_first_8vs2
KataGo-30B_VS_KataGo-20B_1600po_total_10vs0
KataGo-30B_VS_KataGo-20B_1s_rtx3090_5vs5
KataGo-30B_VS_LeelaZero-15B270_1600po_first_10vs0
KataGo-30B_VS_LeelaZero-15B270_1600po_total_10vs0
KataGo-30B_VS_LeelaZero-15B270_1s_rtx3090_10vs0
KataGo-30B_VS_LeelaZero-20B266_1600po_first_10vs0
KataGo-30B_VS_LeelaZero-20B266_1600po_total_10vs0
KataGo-30B_VS_LeelaZero-20B266_1s_rtx3090_9vs1
KataGo-30B_VS_LeelaZero-40B280_1600po_first_8vs2
KataGo-30B_VS_LeelaZero-40B280_1600po_total_10vs0
KataGo-30B_VS_LeelaZero-40B280_1s_rtx3090_10vs0
KataGo-30B_VS_MiniGo17-961_1600po_first_10vs0
KataGo-30B_VS_MiniGo17-961_1600po_total_10vs0
KataGo-30B_VS_MiniGo17-961_1s_rtx3090_10vs0
KataGo-40B_VS_ElfV2_1600po_first_10vs0
KataGo-40B_VS_ElfV2_1600po_total_10vs0
KataGo-40B_VS_ElfV2_1s_rtx3090_10vs0
KataGo-40B_VS_KataGo-20B_1600po_first_10vs0
KataGo-40B_VS_KataGo-20B_1600po_total_8vs2
KataGo-40B_VS_KataGo-20B_1s_rtx3090_8vs2
KataGo-40B_VS_KataGo-30B_1600po_first_7vs3
KataGo-40B_VS_KataGo-30B_1600po_total_5vs5
KataGo-40B_VS_KataGo-30B_1s_rtx3090_5vs5
KataGo-40B_VS_LeelaZero-15B270_1600po_first_10vs0
KataGo-40B_VS_LeelaZero-15B270_1600po_total_10vs0
KataGo-40B_VS_LeelaZero-15B270_1s_rtx3090_10vs0
KataGo-40B_VS_LeelaZero-20B266_1600po_first_10vs0
KataGo-40B_VS_LeelaZero-20B266_1600po_total_10vs0
KataGo-40B_VS_LeelaZero-20B266_1s_rtx3090_10vs0
KataGo-40B_VS_LeelaZero-40B280_1600po_first_10vs0
KataGo-40B_VS_LeelaZero-40B280_1600po_total_10vs0
KataGo-40B_VS_LeelaZero-40B280_1s_rtx3090_10vs0
KataGo-40B_VS_MiniGo17-961_1600po_first_10vs0
KataGo-40B_VS_MiniGo17-961_1600po_total_10vs0
KataGo-40B_VS_MiniGo17-961_1s_rtx3090_10vs0
KataGo-dualcard-20B_VS_KataGo-20B_1s_rtx3090_6vs4
KataGo-dualcard-30B_VS_KataGo-30B_1s_rtx3090_9vs1
KataGo-dualcard-40B_VS_KataGo-40B_1s_rtx3090_9vs1
LeelaZero-15B270_VS_ElfV2_1600po_first_4vs6
LeelaZero-15B270_VS_ElfV2_1600po_total_4vs6
LeelaZero-15B270_VS_ElfV2_1s_rtx3090_3vs7
LeelaZero-15B270_VS_MiniGo17-961_1600po_first_3vs7
LeelaZero-15B270_VS_MiniGo17-961_1600po_total_6vs4
LeelaZero-15B270_VS_MiniGo17-961_1s_rtx3090_5vs5
LeelaZero-20B266_VS_ElfV2_1600po_first_4vs6
LeelaZero-20B266_VS_ElfV2_1600po_total_6vs4
LeelaZero-20B266_VS_ElfV2_1s_rtx3090_6vs4
LeelaZero-20B266_VS_LeelaZero-15B270_1600po_first_8vs2
LeelaZero-20B266_VS_LeelaZero-15B270_1600po_total_7vs3
LeelaZero-20B266_VS_LeelaZero-15B270_1s_rtx3090_6vs4
LeelaZero-20B266_VS_MiniGo17-961_1600po_first_5vs5
LeelaZero-20B266_VS_MiniGo17-961_1600po_total_7vs3
LeelaZero-20B266_VS_MiniGo17-961_1s_rtx3090_5vs5
LeelaZero-40B280_VS_ElfV2_1600po_first_9vs1
LeelaZero-40B280_VS_ElfV2_1600po_total_8vs2
LeelaZero-40B280_VS_ElfV2_1s_rtx3090_7vs3
LeelaZero-40B280_VS_LeelaZero-15B270_1600po_first_10vs0
LeelaZero-40B280_VS_LeelaZero-15B270_1600po_total_8vs2
LeelaZero-40B280_VS_LeelaZero-15B270_1s_rtx3090_7vs3
LeelaZero-40B280_VS_LeelaZero-20B266_1600po_first_9vs1
LeelaZero-40B280_VS_LeelaZero-20B266_1600po_total_8vs2
LeelaZero-40B280_VS_LeelaZero-20B266_1s_rtx3090_7vs3
LeelaZero-40B280_VS_MiniGo17-961_1600po_first_9vs1
LeelaZero-40B280_VS_MiniGo17-961_1600po_total_9vs1
LeelaZero-40B280_VS_MiniGo17-961_1s_rtx3090_7vs3
LeelaZero-dualcard-15B270_VS_LeelaZero-15B270_1s_rtx3090_7vs3
LeelaZero-dualcard-20B266_VS_LeelaZero-20B266_1s_rtx3090_7vs3
LeelaZero-dualcard-40B280_VS_LeelaZero-40B280_1s_trx3090_7vs3
MiniGo17-dualcard-961_VS_MiniGo17-961_1s_rtx3090_9vs1
Zen6_VS_Pachi_1600po_first_10vs0
Zen6_VS_Pachi_1600po_total_9vs1
Zen6_VS_Pachi_1s_rtx3090_10vs0
Zen7_VS_Pachi_1600po_first_10vs0
Zen7_VS_Pachi_1600po_total_10vs0
Zen7_VS_Pachi_1s_rtx3090_10vs0
Zen7_VS_Zen6_1600po_first_10vs0
Zen7_VS_Zen6_1600po_total_10vs0
Zen7_VS_Zen6_1s_rtx3090_6vs4

AI强度排名

Katago 40B > Katago 30B > Katago 20B >> Leelaz 40B > Leelaz 20B <> ELFv2 <> Minigo > Leelaz 15B >>>> Zen7 > Zen6 > pachi

leelaz20B ELFv2 Minigo之间的强度得用100盘以上的对战才能分清楚了,10盘精度不足
不过即便是强AI里吊车尾的leelaz 15B,也是顶级职业水平,而且很适合弱显卡,速度是40B的四倍左右,适合750ti这种档次的显卡

http://www.flygo.net/bbs/forum.p ... d&tid=110194&extra=



回复

使用道具 举报

 楼主| 发表于 2020-12-8 22:48 | 显示全部楼层
本帖最后由 陈佳康 于 2020-12-8 23:16 编辑
hred9D 发表于 2020-12-7 16:25
1、双卡的计算力的确非常强,非常快,但是1S测试貌似浪费资源,因为实际上,99.99%的1S测试,再强再快的 ...

1.其实和1s没有关系,和总po有关系,即便1s的时间,换选点也很正常的,闪现快不容易观察,低算力显卡visit慢更容易看到而已。实际上1600po下rtx3090算力绝大多数权重根本用不了1s,30-40B的也就是0.2-0.6s不等。leelazero跑selfgame和match的话,3090单卡平均每步时间大都在0.5s以下。我想你想表达的是低po下换点概率要低点,这是没错的,因为没分析出那么多局面。我想表达的就是不存在算力2000visit/s的3090跑1s和算力200visit/s的rx580跑10s有选点上的差异,同样局面同样权重同样总po下分析,强度是一样的,选点变化也是一样的,但前者换点可能就超出肉眼反应速度了
4.引擎+权重+po,棋力就取决于这三个,其中还权重+po最核心,算力影响po/s。你说的情况本质上还是po的原因,得通过延长总po(等价于延长分析时间),让AI认识到更优选点(胜率变高),强制分析选点的本质也是如此,除非用落子改变局面,否则人是无法直接干涉AI的分析过程的,AI只会通过lz-analyze N命令分析出概率最高的N个选点,显卡算力*时间=这个过程的po。当然如果引擎换了,比如原来跑对战用leelaz,跑分析用katago,那就更单纯了,就是katago棋力更强分析更准确而已,
回复 支持 1 反对 0

使用道具 举报

发表于 2020-12-4 23:31 | 显示全部楼层
楼主有心了,谢谢楼主!
回复 支持 反对

使用道具 举报

发表于 2020-12-5 07:25 来自手机 | 显示全部楼层
谢谢提供
回复 支持 反对

使用道具 举报

发表于 2020-12-5 14:22 | 显示全部楼层
KataGo-40B_VS_KataGo-30B_1s_rtx3090_5vs5

KataGo-dualcard-40B_VS_KataGo-40B_1s_rtx3090_9vs1
那么
KataGo-dualcard-30B_VS_KataGo-40B_1s_rtx3090_结果会怎么样呢?会不会9vs1?

回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-12-5 16:52 | 显示全部楼层
本帖最后由 陈佳康 于 2020-12-5 16:54 编辑
hred9D 发表于 2020-12-5 14:22
KataGo-40B_VS_KataGo-30B_1s_rtx3090_5vs5

KataGo-dualcard-40B_VS_KataGo-40B_1s_rtx3090_9vs1

katago 40B略强于30B,5vs5的结果其实是场数太少的原因
所以估计不至于9vs1,有空再补
回复 支持 反对

使用道具 举报

发表于 2020-12-6 13:55 来自手机 | 显示全部楼层
有ai大赛的权重的测试吗
回复 支持 反对

使用道具 举报

发表于 2020-12-6 21:54 | 显示全部楼层
请问楼主,pachi软件哪里下载?可否在飞扬上传?谢谢!
回复 支持 反对

使用道具 举报

发表于 2020-12-6 22:22 来自手机 | 显示全部楼层
你要pachi干嘛?大概业余1-2段水平
回复 支持 反对

使用道具 举报

发表于 2020-12-7 16:25 | 显示全部楼层
陈佳康 发表于 2020-12-5 16:52
katago 40B略强于30B,5vs5的结果其实是场数太少的原因
所以估计不至于9vs1,有空再补

1、双卡的计算力的确非常强,非常快,但是1S测试貌似浪费资源,因为实际上,99.99%的1S测试,再强再快的显卡,都是第一选点!
2、低权重20B、30B,高算力显卡吃亏。

3、双卡30B对单卡40B,1S的结果,难说了。
打个比方:
1S:八段思维敏捷(双卡3090)的年轻人30B是可以靠倒九段思维稍微慢一点(单卡3090)的40B?

4、研究两个AI的对局,胜负波动最大的着手,算力低的显卡,不是没有算到,都有选点,因为胜率低、没有作为第一位而已。
你改用KATAGO的强制分析该选点,胜率就上去了。相同的权重,为什么会这样?引擎的因素?
当然,不完全是引擎的因素,你算力强大,同一个引擎和权重,自然会把胜率最高的选点,排在第一位持续计算。
5、AI 围棋比赛,算法是否优秀,应该在相同硬件上比赛,不过目前不是这样的,硬件资源也占了很大的比重。
训练权重,硬件越强大越好。比赛是训练结果和引擎算法的比拼。。。

6、如果不是做AI研究,普通权重20B/30B+普通显卡2060,都足够围棋爱好者学习了,小孩子练习了,老师教学了,大家欣赏职业比赛了!








回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-12-8 22:53 | 显示全部楼层
本帖最后由 陈佳康 于 2020-12-8 23:02 编辑
txh6062 发表于 2020-12-6 22:22
你要pachi干嘛?大概业余1-2段水平

我使用了尽可能多的支持lizzie分析模式(支持gtp lz-analyze命令)的AI,包括pachi/zen6/zen7这三个弱AI,更强的当然有,比如还没有实现深度学习的老版本leela 0.11(比zen6/7都强),不过不支持lz-analyze,没法方便跑对战。用genmove模式或者sabaki能用

aqz其实也支持gtp lz-analyze,下次试试,据说是leelaz水平

弱AI里的zen6/7我倒发现一个挺有趣的事情就是zen7在算法效率上并没有什么优化,在基本每po耗时得是zen6两倍以上,会导致比较短的定时对战中,最终体现zen7并不比zen6强(zen7 po数少),有时候还略弱,zen7必须得有一定的总po量才能保证对zen6有优势
回复 支持 反对

使用道具 举报

发表于 2020-12-13 05:47 | 显示全部楼层
陈佳康 发表于 2020-12-8 22:48
1.其实和1s没有关系,和总po有关系,即便1s的时间,换选点也很正常的,闪现快不容易观察,低算力显卡visi ...

请教:我的是3090,但我的卡塔狗上只有opencl版本。如何能最大发挥3090棋力?有没有专门发挥30系显卡优势的引擎?谢谢
回复 支持 反对

使用道具 举报

发表于 2020-12-13 08:26 来自手机 | 显示全部楼层
opencl版本和cuda版本差不多
回复 支持 反对

使用道具 举报

发表于 2020-12-13 11:18 | 显示全部楼层
lu01 发表于 2020-12-13 08:26
opencl版本和cuda版本差不多

我的是卡塔狗1.6.1---opencl上有:b30-s482.bin.gz,b40-s509.bin.gz, 胖权-b40-s234.bin.gz,以及b20-s530四个引擎。哪个引擎更适合30系显卡呢或者同时间里哪个更强?
回复 支持 反对

使用道具 举报

发表于 2020-12-14 10:42 | 显示全部楼层
我赞同楼上一位棋友的观点:1S测试的意义并不是很大。哪怕是5秒的结果就要有意义的多。
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

小黑屋|Archiver|手机版|飞扬围棋网 ( 苏ICP备11029047号-1 )

GMT+8, 2024-4-18 19:22 , Processed in 0.184131 second(s), 20 queries .

since 2003飞扬围棋论坛 Licensed

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表