飞扬围棋

 找回密码
 注册
搜索
查看: 12110|回复: 3
打印 上一主题 下一主题

katago中 maxvisits , playouts 的疑问。。。

[复制链接]
跳转到指定楼层
1#
发表于 2021-5-26 12:58 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
问:
katago中,maxvisits=1      playouts=1 ,      哪个棋力高?
               maxvisits=3600  playouts=3600  哪个棋力高?
         maxvisits=10000 时 ,大约相当于 playouts=?
回复

使用道具 举报

推荐
发表于 2021-5-26 15:19 来自手机 | 只看该作者
本帖最后由 512song 于 2021-5-26 15:43 编辑

最后那段是反了。设定maxvisits后,才会秒下。而设定playouts,则会重新计算。
katago的配置文件中,关于maxvisit与maxplayout就有说明。
# If provided, limit maximum number of root visits per search to this much. (With tree reuse, visits do count earlier search)
maxVisits = 6000
# If provided, limit maximum number of new playouts per search to this much. (With tree reuse, playouts do not count earlier search)
# maxPlayouts = 300
回复 支持 1 反对 0

使用道具 举报

2#
 楼主| 发表于 2021-5-26 14:13 | 只看该作者
playouts简称po
一般可以简单翻译为计算量(次数),或模拟量(次数)。
1po即软件不经过推演验证的第一选点,或者说第一感觉。1po是计算量的最小单位。如果你给软件的计算时间小于计算1po的时间,软件就不能完成对局
1v=1po,visits=playout+搜索树剩余次数




在引入深度学习之前的mcts方法中,如早期的Zen,一个playout指从当前盘面开始,经过一次快速模拟走子直到终局,获得一个胜负结果的过程。
在引入深度学习方法后的早期阶段,如AlphaGo Fan和AlphaGo Lee架构,一个playout指从当前盘面开始,经过一次对神经网络中的价值网络访问获得一个局面评估值,及从该盘面进行1000次快速模拟走子(称为rollout)获取统计结果,并将上两项加权相加,得出该盘面最终评估的过程。
在后续的深度学习方法,如AlphaGo Zero和Alpha Zero架构,一个playout指从当前盘面,获得一个神经网络的value端(价值网络)评估输出值的过程。
一般可以简单翻译为计算量(次数),或模拟量(次数)。

1v等同于1po,但10v不一定等同于10po.关键是要理解软件计算存在这样一个特点,如果对手下出软件预计之内的棋,软件就会把上一步的计算数据继承到下一步,如果对手下出意料之外的棋,软件就会重新从零开始计算

假设固定10po下棋,当对手下出意料之内的棋的时候,软件下一步就可能不进行计算而秒拍。但如果固定10v下棋,软件就会每一步都思考10v,也就是无论对手的应法是否在意料之内,软件都会匀速的走下一步棋。
回复 支持 反对

使用道具 举报

4#
发表于 2021-6-10 22:07 | 只看该作者
听说这东西,对显卡要求很高!
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

小黑屋|Archiver|手机版|飞扬围棋网 ( 苏ICP备11029047号-1 )

GMT+8, 2024-11-23 06:10 , Processed in 0.118185 second(s), 19 queries .

since 2003飞扬围棋论坛 Licensed

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表