飞扬围棋论坛

 找回密码
 注册
搜索
楼主: lu01

minigo 权重的对战

[复制链接]
发表于 2019-1-24 22:13 | 显示全部楼层
谢谢,可用
回复 支持 反对

使用道具 举报

 楼主| 发表于 2019-1-24 22:18 来自手机 | 显示全部楼层
gcp说Networks don't have perfect play, nothing new here.
回复 支持 反对

使用道具 举报

发表于 2019-1-24 23:11 | 显示全部楼层
https://cloudygo.com/v15-19x19/eval-graphs
Best model        000990-cormorant
回复 支持 反对

使用道具 举报

发表于 2019-1-25 00:41 | 显示全部楼层
这三个迷你go的权重 三盘均败给lm系列的gx5b 中盘的死活计算 有很大问题
回复 支持 反对

使用道具 举报

 楼主| 发表于 2019-1-25 07:49 | 显示全部楼层
gcp把评价改成
Networks don't have perfect play or score estimation, nothing new and nothing to fix here.
https://github.com/gcp/leela-zer ... uecomment-457196564
回复 支持 反对

使用道具 举报

 楼主| 发表于 2019-1-26 08:44 来自手机 | 显示全部楼层
v16也开始了
回复 支持 反对

使用道具 举报

发表于 2019-1-26 10:34 | 显示全部楼层
就目前迷你do的水平 比lz差很多 计算力偏弱
回复 支持 反对

使用道具 举报

发表于 2019-1-26 14:39 | 显示全部楼层
minigo低po下算路貌似不稳,高po就相当厉害了,特别是后半盘算路精湛
目前估计在同时间每步的条件下,应该是最强的
回复 支持 反对

使用道具 举报

发表于 2019-1-26 15:04 | 显示全部楼层
10秒一手 还是不行 估计可能要高配 ?
回复 支持 反对

使用道具 举报

发表于 2019-1-27 01:23 | 显示全部楼层
990比1005强吗?
回复 支持 反对

使用道具 举报

发表于 2019-1-27 02:08 | 显示全部楼层
可能939最强 只是 10秒一手 还是很弱
回复 支持 反对

使用道具 举报

发表于 2019-1-27 10:43 | 显示全部楼层
gfchy 发表于 2019-1-27 02:08
可能939最强 只是 10秒一手 还是很弱

慢棋的这些权重的棋力还是不错的,今天我试了一下,慢棋,990以150手屠龙ELF
回复 支持 反对

使用道具 举报

发表于 2019-1-27 10:54 | 显示全部楼层
嗯 你设置多长时间一手?
回复 支持 反对

使用道具 举报

发表于 2019-1-27 11:41 | 显示全部楼层
gfchy 发表于 2019-1-27 10:54
嗯 你设置多长时间一手?

我机器配置不高,设置是2分钟必须下棋或一个选点思考到6000po就自动下,实际上绝大部分都是第二种情况,整盘棋大体上下了不到三个小时
回复 支持 反对

使用道具 举报

 楼主| 发表于 2019-1-27 14:55 | 显示全部楼层
minigo的历史说明
https://cloudygo.com/RESULTS
Andrew很长一段时间没有更新MiniGo RESULTS.md,所以这里......





跑 |board_size|块|过滤器|上演了|型号数量|游戏数量


v16 19 40 256 X00 TPU
正在运行:将块大小增加到40。
v15 19 20 256 X00 TPU 1008 25.6M
巨大的成功:使用我们的运行大型管道,这是我们最快的开始。改为初始Q到损失使v14变得更强,所以我们开始v15,初始Q丢失。这次运行比我们之前的运行更强大。在比赛结束时,我们用LZ(50-50 vs LZ201)和ELF(40-60%winrate取决于型号)进行了一系列比赛,这真是太棒了。
v14 19 20 256 X00 TPU
开始使用Cloud Bigtable测试我们的新数据管道,周围模型475安德鲁从使用init Q更改为父级到初始化Q到丢失。这似乎对政策和价值敏锐度产生了负面影响,类似于ELF中所见。
v13 19 21 256 X00 TPU 704 23.0M
成功案例:从类似于AlphaGo Master的监督模型开始。
v12 19 20 256 X00 TPU 1000(确切地说)24.6M
成功:v11的再现性:证明RL是稳定的。
v11 19 20 256 X00 TPU 171 6.6M
成功:测试了一个实验。
失败:Init到Q非常不稳定,我们提前停止了运行。
v10 19 20 256 X00 TPU 865 22.3M
成功:跑到TPU(非常快),我们“完成”了跑步。
v9 19 20 128 TPU 737 14.0M
成功:跑到TPU(非常快),我们“完成”了跑步。了解随机旋转的重要性。
v8 19 20 256 TPU 5 100K
成功案例:证明我们的TPU kubernetes集群有效。
v7 19 20 128 GPU 529 7.8M
成功:Golden Chunks用于训练,随机轮换训练
失败:忘记写sgfs开始运行
v5 19 20 128 GPU 581 4.8M
成功案例:GPU集群,强大的Amatuer
v3 9x9 10 32 CPU 496 3.3M
成功:代码全部运行和模型训练
最初是v3,9x9跑。 v2和v1(如果存在的话)会丢失到历史记录中。
在v3之后有v5。注意:我们似乎无法连续开始两次运行,因此基本上缺少了一半的数字

关于v5知之甚少,档案馆建议它是一个10块,128个过滤器架构,5M游戏。
口头历史传递给站点管理员站点管理员告诉操作员在接近结束时测试了几个学习率变化。

我们都喜欢Python它是一种很棒的语言,但有时你会渴望速度。 v7使用C ++二进制文件直接引用“HyperSpeed”。
v7取得了成功:更好的数据编组,图3的介绍,糟糕的辞职率图表,......
它的问题:我们忘了写sgfs,我们提前降低学习率,......

最好不要说v8也不要*颤抖*提到它的名字Gradients

v9是20层模型。它也是第一个使用八种对称性训练的模型(?)。或者是吗?
“我身体感到恶心” -  AMJ发现use_random_rotation默认为False三天。

从来没有满足,MiniGo团队用v10直接推过“HyperSpeed”到“PetaFlops Speed”。
这是真正的交易20层,256过滤器全尺寸模型,燃烧640云TPU。
我认为这是重现AlphaZero最重要的尝试:
我们使用公布的学习费率表,批量大小......(TODO ANDREW)。
安德鲁勇敢地监督了不良的辞职率,并将其保持在5%以下。
我们的评估显示,这是一个强大的模型,超越了我们之前的顶级模特,达到了专业实力(v7可能也有?)。

我告诉安德鲁“初到0是愚蠢的”。
Init为0表示将新节点的值(Q)初始化为0(偶数位置)。
我当时说了,我现在就说,这是一个坏主意,它导致一种奇怪的行为:
在顶级策略节点上使用第二个读数之前,MCTS会探索所有361个移动。
这仍然是纸张所说的,我们预计它会很快失败,所以我们测试了它。
TL; DR:v11失败。胜利率不稳定,不可能控制不好的辞职。

对于v12,我们测试了我们模型的可重复性。
我们还原了v11更改并再次运行v10(我们更改了virtual_loss = 2)。
virtual_loss是我们用来通过批处理8个(或现在2个)位置并同时评估它们来加速模型的参数。
TL; DR:v11类似于v10,这是对稳定性和引导条件的测试。
我们没有看到任何可测量的差异,所以我们感觉良好,我们的RL设置是稳定的。
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

小黑屋|Archiver|手机版|飞扬围棋网 ( 苏ICP备11029047号-1 )

GMT+8, 2024-3-28 16:14 , Processed in 0.123150 second(s), 16 queries .

since 2003飞扬围棋论坛 Licensed

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表