飞扬围棋论坛

 找回密码
 注册
搜索
查看: 7381|回复: 18
打印 上一主题 下一主题

从“棋局掌控力”看,清代黄施范与当代业余高手不存在显著差别

[复制链接]
跳转到指定楼层
1#
发表于 2022-1-23 15:05 | 显示全部楼层 回帖奖励 |倒序浏览 |阅读模式
数据和“棋局掌控力”定义来自   https://zhuanlan.zhihu.com/p/401014051清代围棋顶尖国手“掌控力”分析

作为评价指标,围棋AI吻合度无法对“不吻合”着法的优劣程度进行区别,是其一大缺陷。“AI评分”在一定程度上弥补了这一点,但给出的评价仍然受到围棋AI计算量偏好的影响。上一章提到的反对使用围棋AI评价人类棋手水平,认为“棋手更应该选择自己能够理解、掌控的下法”这种观点,其潜台词是“围棋AI的标准太高,人类棋手熟悉的下法也亏不了多少”。因此,借鉴之前研究中的围棋AI指标提炼方法,在“胜率”方面设立一些不同的标准,以考察清代围棋国手的“棋局掌控力”——在一局棋中保持稳定发挥,尽量减少“恶手”的数量与严重程度

(1)不同胜率损失标准下的“吻合度”

设立一系列的“掉胜率”标准,考察棋手着法与围棋AI推荐的选点相比,能将胜率损失控制在多大的范围内。具体标准设置为胜率损失2%、5%、10%和20%以下,结果见下表。


【原文论文结论:】仅仅将胜率标准放宽两个百分点,各组别棋手的AI评价均大幅提升。“江户后期”组的两位棋手又一次体现了“稳定性”,各标准下的数值均与当代职业高手相似。清代顶尖国手在这方面表现稍有逊色,但也与另外两组数据接近。
【真正的结论:清代顶尖国手在这方面的表现,除第一栏外,与“当代业余高手”(以及“道策”)没有显著差别,与“丈和&秀策”和当代职业高手差距明显。】


(2)“大恶手”的损失程度

统计一局棋中,掉胜率最多的着法“TOP10”,并按照不同标准,计算其“最恶N手”所降胜率的平均值。结果见下表。


【原论文结论:】“江户后期”组的恶手胜率亏损值,甚至低于当代顶尖棋手平均水平,不得不再次感叹秀策的稳定性。当然,胜率类指标参考更受棋手风格影响,考虑到“当湖十局”的激烈程度,清代顶尖国手能有这样的表现也算不错了。
【真正的结论:清代顶尖国手在这方面的表现,除了第一栏外,其他均与“当代业余高手”没有显著差别;与“丈和&秀策”和当代职业高手差距明显,各项指标都比道策还差一些。】


评分

1

查看全部评分

回复

使用道具 举报

2#
 楼主| 发表于 2022-1-30 14:49 | 显示全部楼层
挑出来一些被AI肯定的个别招法有什么普遍性意义?

还是得看统计数据,看其表现出来的一般规律。
回复 支持 反对

使用道具 举报

3#
 楼主| 发表于 2022-6-6 00:54 来自手机 | 显示全部楼层
重要的结论 顶上来
回复 支持 反对

使用道具 举报

4#
 楼主| 发表于 2022-6-10 19:09 | 显示全部楼层
这个结论至今没有被驳倒

有些无知无畏的妄人视而不见
回复 支持 反对

使用道具 举报

5#
 楼主| 发表于 2022-6-12 23:34 | 显示全部楼层
本帖最后由 flyingsee 于 2022-6-12 23:42 编辑
forjoke21cn 发表于 2022-6-12 19:14
不考虑复杂度单纯比较吻合度,如同只比较待在马背上的时间,而不考虑温顺母马和顽劣野马的差别。复杂度到50 ...

(七)“复杂度/不确定度”
在一手棋的“目差”之外,KataGo还统计了计算过程中所有变化[23]的目差,并根据计算量进行加权求和,得到当前局面的“目差标准差(scoreStdDev)”。Yzy在Lizzie中提取了这一指标,起初将其命名为“复杂度”,后因感觉表述不够准确,可能引起误解,遂更改为“不确定度”。

不过,一些棋友认为该指标可以结合“吻合度”,成为评价棋手水平的试金石。理由是倘若一个局面的“目差标准差”数值高,意味着围棋AI计算的变化出现了较大分歧,即“AI算不准”,这说明此时局面十分复杂。在局面复杂时吻合度高,要比局势平稳时的“吻合”更体现水平。

上述说法在“效度”方面的逻辑似乎没问题,但未提及该指标“信度”方面的表现。对这一指标的考察测试,主要得出以下几点结论

1.根据该指标计算原理,在不同的计算量下,其数值会存在明显差异。围棋AI权重不同也会影响该指标数值。因此,“复杂度/不确定度”怎样才算“高”,缺乏明确的标准。

2.该指标会受到局面优势大小的影响,与当前局面“目差”的数值成正相关。

3.该指标数值“高”时,会放大围棋AI“随机性”的影响,导致取样方面的困难。

除了以上缺点之外,以“复杂度/不确定度”结合吻合度判定棋手水平,在逻辑方面存在硬伤——既然围棋AI都算不准了,那么此时的“吻合度”显然失去了优劣评价的意义。综上所述,“目差标准差”可以看作是围棋AI眼中棋盘上的变数,在一定程度上展现了棋局的风格,但“棋风”无法直接与水平挂钩。KataGo的作者David J. Wu在被问及这一指标的意义时,也表达了同样的观点





除此以外,棋局的“不确定度”高,不代表棋手驾驭复杂局面的能力就高。
“不确定度”是AI算出来,不是棋手驾驭出来的。最后牛逼的是AI,不是棋手本身。
把局面搅乱,搞的很复杂,不代表棋手下这个局面的棋力就高、能力就强。
如果连这个简单的逻辑关系都不懂,就最好不要妄谈什么复杂度。

回复 支持 反对

使用道具 举报

6#
 楼主| 发表于 2023-8-22 16:56 | 显示全部楼层
golch 发表于 2023-8-22 15:01
都不是一个规则,怎么比?推倒胡和血战到底一起比赛?

前边的那些评测是按照古棋规则评测的。已经考虑了规则上的细微不同。
所谓规则不同不能比较,纯粹是一种借口。


点评

退一万步,就算规则不同不能比,那就比规则好了。哪个规则更好:1,看支持者;2,看逻辑,看证据;3,看发展结果。不看这三条,就是耍流氓。  发表于 2023-8-23 08:52

评分

1

查看全部评分

回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

小黑屋|Archiver|手机版|飞扬围棋网 ( 苏ICP备11029047号-1 )

GMT+8, 2024-5-9 02:24 , Processed in 0.141909 second(s), 19 queries .

since 2003飞扬围棋论坛 Licensed

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表