飞扬围棋论坛

 找回密码
 注册
搜索
查看: 55035|回复: 54
打印 上一主题 下一主题

sai开始训练19路了

[复制链接]
跳转到指定楼层
1#
发表于 2019-10-28 14:18 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
http://sai.unich.it/
参加训练需要先注册

回复

使用道具 举报

推荐
 楼主| 发表于 2019-11-16 05:58 来自手机 | 只看该作者
作者修改了学习率,sai棋力突然提高了
回复 支持 1 反对 0

使用道具 举报

推荐
发表于 2019-10-30 13:16 | 只看该作者
lu01 发表于 2019-10-28 20:33
23w盘训练出leelaz 110w盘的强度

楼主有个笔误,sai的训练量在13w盘时击败了110w盘强度的lz。
我注册的名字是GeorgeShangHai,参加了最近4个权重v33-v36四个权重的跑谱。

sai的棋力成长非常快,观察sai在分析模式下的表现,去掉nrsymm参数
1. sai036在棋力超过lz024的情况下,开局变化更多,棋局中死活棋更强。
2. 100k计算量下,lz024只有星位开局一种;sai032有点22、54、边星5路飞等。
3. 100k计算量下,sai032的热图比lz024更均匀,lz024热图的中腹和边有明显空缺。
4. 1k计算量下的热图,sai032是侧箭头形态,lz024是四宽边形态,而lz030则是以角星位为主的点状热图了。


我在2060上跑了一次1秒1步的对战,每步计算量sai大概是2k左右,lz大概是5k左右。
在做活各自几个棋块中,lz的一块假眼棋在争斗中死掉了,sai很早就知道抓lz这块棋。

个人感觉sai目前重视中腹模样,凭借死活能力,不怕对方角块出棋。不知道这种状态持续多久。


回复 支持 1 反对 0

使用道具 举报

2#
 楼主| 发表于 2019-10-28 14:18 | 只看该作者
9路非常强了
回复 支持 反对

使用道具 举报

3#
 楼主| 发表于 2019-10-28 14:21 | 只看该作者
进展

Vandertic于2019年10月18日编辑本页,共2次修订


草案


SAI学习管道不同于Leela Zero。


LeelaZero是基于AlphaGoZero的论文,而SAI遵循AlphaZero论文中描述的修改。


主要的区别在于,在alphago zero文件和leela zero项目中,存在门控,这意味着一个新训练的网络被提升为最佳网络,从而进行自我游戏,前提是有一些统计证据表明它比前一个网络有所改进。更准确地说,比赛进行了400场,如果获胜率至少为55%(与投币公平的2σ偏差),那么网立即被提升。


在alphazero文件中没有门控:训练是连续的,在250000个游戏的移动缓冲区上,每1000个训练步骤产生一个新的网络,立即升级,并投入25000个游戏。


在我们使用7x7和9x9sai的实验运行中,我们看到第二种方法确实非常健壮,即使没有门控,也可以观察到一些强度振荡。最后,我们达成了一个介于两者之间的协议:我们遵循alphazero方法,但在每一步,我们都会训练少量的网络,并推广一个在之前的网络中表现最好的网络,即使胜率低于50%。这些晋级比赛由少量的比赛组成,远远少于400场;事实上,比赛的目的并不是为了选出最佳的候选人,而是为了避免非常糟糕的比赛,以确保比赛的稳健性。


sai管道周期比alphazero快,因为我们没有巨大的资源,我们希望在检查进度的同时,通过执行较小的中间步骤,尽可能地提高效率。


循环如下。


gen=0,current_net=random,n=1;

current_u net玩2560个完整的自玩游戏,带有变量komi,根据current_u net的评价进行分配;

当前网络从以前游戏的随机位置开始玩自玩游戏的分支;

当游戏数达到3072个自玩游戏时,在前n代自玩游戏的基础上开始训练;

在训练过程中,产生了数量不等的候选网络(目前,在2000个训练步骤中,一个接一个地产生了10个网络);

一旦有候选人,新的候选人网络和当前的候选人网络之间就会添加晋升匹配。这些比赛可以被识别,因为它们有50场比赛长;

当促销匹配结束时,确定最佳候选网络;用所选网络表示;

本网通过玩自玩游戏分支,直至计数达到3840;

在几个最近的网络(在gen-k世代提升的网络,k在{1,2,5,8,11})和select_net之间添加参考匹配,以获得对select_net elo更精确的评估。这些比赛可以被识别,因为它们有40场比赛长;

如果gen是4的倍数,则在面板中的16个网络和selected_net之间添加面板匹配,再次获得selected_net elo的更精确评估。这些比赛有30场比赛长,所以可以确定;

gen++,current_net=选择的_net,如果合理,则n++;

进入步骤2;
回复 支持 反对

使用道具 举报

4#
发表于 2019-10-28 15:33 | 只看该作者
虽然机器翻译得乱七八糟,但基本上能看得懂,好像和katago区别不大
回复 支持 反对

使用道具 举报

5#
 楼主| 发表于 2019-10-28 20:33 | 只看该作者
23w盘训练出leelaz 110w盘的强度
回复 支持 反对

使用道具 举报

6#
发表于 2019-10-28 20:39 | 只看该作者
lu01 发表于 2019-10-28 20:33
23w盘训练出leelaz 110w盘的强度

训练提升的速度非常快
回复 支持 反对

使用道具 举报

7#
发表于 2019-10-29 09:27 | 只看该作者
怎么训练和注册
回复 支持 反对

使用道具 举报

8#
 楼主| 发表于 2019-10-29 11:23 | 只看该作者
http://sai.unich.it/user-request
注册会收到1个电子邮件,选择邮件中的url激活
训练
https://github.com/sai-dev/sai/releases/ 下载最新版,运行解压缩到一个文件夹
然后运行里面的sa.hta文件,填写刚才注册的用户名密码
回复 支持 反对

使用道具 举报

9#
 楼主| 发表于 2019-10-29 11:24 | 只看该作者
hred9D 发表于 2019-10-28 20:39
训练提升的速度非常快

他跳过了5x64
直接6x128
回复 支持 反对

使用道具 举报

10#
发表于 2019-10-29 20:06 | 只看该作者
SAI 0.17.4用sabaki加载里拉权重也是可以运行的
回复 支持 反对

使用道具 举报

11#
 楼主| 发表于 2019-10-30 07:13 来自手机 | 只看该作者
参加训练的人多起来了
回复 支持 反对

使用道具 举报

12#
 楼主| 发表于 2019-10-30 08:11 | 只看该作者
sai36比lz24强 ,还不如lz30
回复 支持 反对

使用道具 举报

14#
发表于 2019-10-30 13:22 | 只看该作者
补充一下
lz030走星位,但不知道点三三,不会托退定式
lz057走星位,点三三接扳托长,少走连扳定式,会走托退定式
回复 支持 反对

使用道具 举报

15#
 楼主| 发表于 2019-10-31 18:12 来自手机 | 只看该作者
平均7小时一个新权重
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

小黑屋|Archiver|手机版|飞扬围棋网 ( 苏ICP备11029047号-1 )

GMT+8, 2024-4-21 00:02 , Processed in 0.142270 second(s), 19 queries .

since 2003飞扬围棋论坛 Licensed

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表