gcp准备把leelazero 项目明年在1.31结束

lu01 · 发表于 2019-12-17 06:53

大家好，

现在有50万个游戏没有网络推广。这意味着训练窗口是“完整的”。我将其增加到75万个游戏，并降低了最后一次学习率（0.00001 @ bs = 96）。如果这没有取得晋升的效果，那么经过2年多的时间，我们几乎已经完成了第一次培训。

如我之前所述，我没有足够的时间或精力去做出更多的贡献（Leela Zero非常成功，取得了比我设定的要多的成就，但这也占用了我很多时间，尤其是第一年... ），这样我就不会自己进行第二次训练。从这里开始，有很多选择，从在这里和其他地方挑选并选择最有希望的改进来实施Leela Zero 2.0的人，到根据我们开始的其他举措之一加入社区（显然是SAI），但我听说KataGo也正在考虑建立分布式工作）。

我计划使训练服务器一直运行到1月31日（如有必要，可以增加播出计数，以便向池中添加更多高质量的数据）。如果上一次学习率的下降奇迹般地使我们再次得到改善，我可以扩大这一范围，但是现在我要说的是，社区应该考虑到这个日期来计划下一步的工作。

lu01 · 发表于 2019-12-17 08:09

第一次培训运行结束 - 下一步#2560
打开 gcp在10 小时前打开此问题 |10 条评论
打开
第一次培训运行结束 - 后续步骤
#2560
gcp在10 小时前打开此问题 |10 条评论
评论
@gcp

成员
Gcp commented 10 hours ago
大家好

现在有50万游戏没有网络推广。这意味着培训窗口是"已满"的。我增加到75万游戏，并做了最后学习率下降（0.00001 = bs=96）。如果这不能导致升职，我们差不多已经到达了第一次训练运行的结束，仅仅过了两年多。

正如我之前所说，我没有足够的时间和精力去贡献更多（Leela Zero非常成功，取得了比我设定的更多的成就，但它也吃了很多我的时间，尤其是第一年......），所以我不会自己安排第二次训练。从这里有很多选择，从有人挑选最有前途的改进，已经在这里和其他地方提出做一个Leela Zero 2.0，加入社区背后的其他倡议之一，建立我们开始（显然SAI，但我听说KataGo也在考虑建立一个分布式的努力）。

我计划让培训服务器保持运行到 1 月 31 日（如有必要，将播放计数颠簸以向池中添加更多高质量的数据）。如果上次学习率下降奇迹般地让我们再次进步，我可以延长，但现在我要说，社区应该计划下一步，并考虑到这个日期。

@stephenmartindale

斯蒂芬马尔廷代尔 commented 10 hours ago
好吧，让我先说"恭喜"。

无论接下来的步骤是什么，现在都是承认这个"第一次训练"所代表的令人难以置信的成就的好时机。

@l1t1

l1t1 commented 10 hours ago
真可惜！当我读这篇文章时，我觉得leelaz会离开我们的。

@Naphthalin

纳普赫哈林 commented 10 hours ago
我也想借此机会感谢你的努力，基本上把AlphaGo零带到我们的家，并进入世界。我希望旅程继续，最有可能与SAI专注于一个零机器人19x19与非常好的赢率sigmoid的想法，和KataGo专注于发挥力量在不同的网大小，规则集，即使不是一切都是完全为零。

如果LZ 2.0运行，我会很高兴，并很高兴加入讨论什么东西测试等 - 讨论发生在这里在GitHub或Discord？

关于最后一段

（如有必要，将冲击播放计数以向池中添加更多高质量数据）

我想补充一点，Lc0尝试只是增加他们的运行结束时的出场次数，这肯定导致了一个回归，因为增加了出场次数，移动的访问统计发生了很大的变化，这显然导致网络的焦点"学习"新的政策分配，尽管让它运行了一段时间，它并没有恢复。因此，我不建议在如此低的 LR 下更改出场次数。

@Glrr

格尔尔 commented 10 hours ago
由于赛和卡塔戈已经免费提供，模仿它们是毫无意义的。我认为，在某个时候，我们应该切换到另一个项目。卡塔戈的合作培训将是伟大的！

@Friday9i

星期五9i commented 10 hours ago •
是的，恭喜和@gcp
一些可以测试的想法，但编码要求有限：

50% 或 52% 浇注
更多噪音的前几个动作在自我播放
比赛中的一些噪音（限制长相同的开口和相关的可能偏差）
包括短（如2个移动）零开口面板，在自玩中随机使用，以添加更多多样性
再次测试 -m 999 （或 -m 100 可能）
玩如 10% 的自我游戏与 800 访问和 10% 与 3200 访问
选择一些长，很少打零开局，并玩一个百分比的自我游戏后，这些开放
将耗时的"无辞职"比赛时间限制为 1%
等
这些想法大多需要有限的编码，甚至不需要编码（例如 -m 999，50% 门控，1% 无辞职）

@john45678

约翰45678 commented 8 hours ago
祝贺在过去两年里与李拉取得的辉煌成就，他们本以为这个项目会上升到这样的高度。
多亏了GCP，罗伊7和所有。

@Vandertic

范德蒂奇 commented 8 hours ago
谢谢@gcp我可以肯定地说，你的项目改变了我的研究兴趣和我的科学生活！莉拉零是伟大的！

@hwj-111

hwj-111 commented 7 hours ago
型号 255 将是李拉零（第一次培训运行）的最后一个网络？哇，2+8 - 1，干得好！

@Hersmunch

成员
赫斯蒙奇评论5 小时前
首先，谢谢。几乎从字面上看，一切都

我在这个项目上与大家一起度过了一个美好的时光，在这个项目上，我学到了一些东西

关于想法：

创建基于 MuZero 算法的分叉
添加使用不同参数（甚至可能使用不同的网络架构）运行并发定型运行的能力
嗯，我想这些是我的主要东西。保持聚集的社区的活力会很棒，无论是这个代码库还是另一个代码库。我喜欢这样的想法，即有开源资源供每个人提供想法，并帮助他们

我很乐意在我能帮助的地方提供帮助。

@lightvector

光矢量评论3 小时前 •
Leela Zero 是惊人的工作，它取得了它到目前为止，尽管是第一次严重的开源尝试，并大多在黑暗中摸索早期错误和模棱两可的超参数和实现细节没有在论文中提及。

即使退休了，我预计Leela Zero也可能站在相当长一段时间作为顶部（考虑到强度和用户易用性）开源基本上-"零"机器人。SAI 和 KataGo 都不是完全零的，它们都有自由/链相关的功能，并且基于棋盘分数的学习提供了额外的正则化和学习信号，而不仅仅是二进制赢/输（尽管在两个机器人中有不同的方式） - SAI 还考虑添加一些专门针对改进梯形阅读的更改（或者我从不和谐聊天中听到）。

如果有任何后续项目，我会很兴奋，如果它愿意尝试在KataGo的任何改进，以获得独立验证其有用性。正是有机会在这方面作出贡献，KataGo一直非常接近"零"的精神，也许我没有做广告，以及我可以有，但发现的大多数大的改进是一般（不是Go特定！）方法（或至少，他们应该，假设他们工作在KataGo之外）：

与"零"兼容的大方法：

访问/播放上限随机化 - 改善价值/策略数据平衡。
政策目标修剪 - 支持对勘探和 PUCT 替代方案进行更大的试验，同时降低破坏政策目标分布的风险，例如@Naphthalin对 LC0 上述警告的方式。
预测接下来的几个动作，而不是只预测当前的动作 - 更丰富的训练信号，更好的正规化。和/或预测接下来的几个板状态。
挤压-激发 / 全球池
使用批处理规范（与LC0一样）或完全删除批处理规范。LC0明确发现，批处理规范导致的问题，无法纠正任何数量的培训，ELF OpenGo文件实际上也提到了与批次规范的繁琐问题，我尝试的一些初步实验表明，使用Fixup初始化，足以训练一个没有批次规范的网，没有明显的强度损失（没有任何额外的正则化！
第二次"真正的零"运行，但利用其中一些（和/或其他"零兼容"方法从SAI和MiniGo关于温度，游戏分支，和其他超参数）将是绝对迷人的。

无论如何，荣誉再次@gcp，以试点后阿尔法零计算机Go的前几年的定义运行。

思无邪恒大 · 发表于 2019-12-17 08:54

红烧小行星 · 发表于 2019-12-17 10:06

机翻的看不懂呀

lu01 · 发表于 2019-12-17 13:00

原帖
https://github.com/leela-zero/leela-zero/issues/2560

lu01 · 发表于 2019-12-18 12:02

新跟贴
---------------------
基扬赫姆 yesterday •
我认为Globis-AQZ将来将是开源的。
https://twitter.com/ymg_aq/status/1206119379777179649

在第11届UEC杯中，她比之前的版本（2019年中国杯）有90%的胜率。
如果她比LZ强壮，我们可以像ELF之前那样使用她玩的自玩游戏吗？

@wpstmxhs

贡献
wpstmxhs commented 23 hours ago •
感谢您@gcp为这个项目贡献的时间。
我们非常乐意自由体验强大的围棋游戏。
我毫不怀疑，你会作出一个不同的巨大成功，而不是利拉零，因为你做了这个项目。

现在，我想知道李拉零项目的结局是什么。
实际上，这是第一次运行的结束，但不是整个 Leela Zero 项目的结束。
换句话说，它有很多可能在未来以某种方式前进。
我不能等待利拉零2.0！

无论如何，谢谢你再次@gcp。我会记得你作为第一个公共价值网络基于围棋程序（Leela 0.9）的作者和第一个成功的开源重新实现阿尔法Go零（利拉零）。

@wpstmxhs

贡献
wpstmxhs commented 22 hours ago
@kityanhem我认为他们将打开一个重量在日本规则，这是成功的UEC杯。
如果是这样，我们不能使用它的自我发挥作为训练数据，因为游戏规则是不同的。

@nemja

内米亚 commented 22 hours ago •
访问统计的移动相当大的变化，这显然导致网络专注于"学习"新政策分配

请注意，尽管 LZ 长期以来一直在交换 Elf 数据（在正态网和气泡网之间），但每周都会更改分布...

@bixbyr

比克斯比尔 commented 21 hours ago
我们可能探讨的另一件事是后续的 Leela 工作或跟进社区项目是时间管理。对于国际象棋项目，我知道这是一个非常有成效的研究领域。这可以通过"最终"LZ 网络使用不同的时间管理策略来探索。

一个简单的方法是，每 5 秒拍摄一次给定位置的访问分布快照，并预测访问分布量将在未来 5 秒内发生变化。

这实际上听起来像一个非常可行的侧项目。是否有人意识到，每获得 N 个出场次数，对顶级职位访问进行转储是多么困难？

@yssaya

伊萨亚 commented 21 hours ago
我们有阿尔法零肖吉项目（奥巴零）。
没有利拉泽，我们就无法开始。我真的感谢这个项目。

在奥巴泽，游戏从2600k到3200k没有改善。
但在此之后，我们得到了约60埃洛没有任何变化。
http://www.yss-aya.com/aobazero/index_e.html

因此，我认为，即使从最新的50万游戏没有进展，
自我游戏可能会发现"东西"需要改进与一定的可能性。
AobaZero 还使用相同的窗口（重播缓冲区）大小，500k 游戏。

@nemja

内米亚 commented 18 hours ago
也不可忘记的是，在自我游戏停止后，15b的巨大改进，但更高质量的40b游戏得到了喂养。因此，目前的40b可能仍有很大的进一步进展空间。

@gcp

成员
作者
Gcp commented 18 hours ago •
访问/播放上限随机化 - 改善价值/策略数据平衡。

我用它来ataxx（丹克斯）。我发现它很有用，如果仅仅是因为它是一个简单的方法来获得更多的随机性和探索。我没有尝试过根据计数进行加权。

预测接下来的几个动作，而不是只预测当前的动作 - 更丰富的训练信号，更好的正规化。和/或预测接下来的几个板状态。

这在国际象棋（斯托夫列夫斯）中一点也没有帮助。

挤压-激发 / 全球池

SE网对国际象棋来说更差（我知道lc0的结论是相反的！不知道该怎么考虑。因为lc0，我尝试了多次，但都失败了。

我对所有新程序使用全局池而不是 1x1 向下卷积网络。我甚至没有尝试其他选择，全球联合似乎以更清洁的方式实现了相同的结果。

使用批处理规范（与 LC0 一样）或完全删除批处理规范。修复

我没试过这些BatchNorm肯定有一些副作用。原来的 Leela 使用 ELU 单位代替 BatchNorm，但这是在剩余网络之前。

雷米透露，而不是使用温度，他的疯狂零机器人建立一个打开的书，怀疑平等的位置，以获得随机化。斯托夫列夫斯也不使用温度。

另一件事我发现帮助了很多...就是完全摆脱正规化。一旦你有足够的游戏，过度安装就不再有什么问题了！

@Naphthalin

纳普赫哈林评论17 hours ago
雷米透露，而不是使用温度，他的疯狂零机器人建立一个打开的书，怀疑平等的位置，以获得随机化。斯托夫列夫斯也不使用温度。

对于这种"通过建立自己的书而实现多样性"的问题，有一个真正美丽的解决方案，它与#2230直接相关，#2230使用略高于 1.0 的策略，用于训练游戏（我发现在理论上工作的范围 [1.15， 1.4]，建议使用 1.2）。其效果基本上是顶部移动策略的正化，因此所有对顶部移动具有足够小 Q 差异的移动都收敛到非零策略，而不会影响具有显著较差的 eval 的移动。如果您有兴趣，我很乐意与您分享更多细节。

@Friday9i

星期五9i 评论17 hours ago •
"Remi 透露，而不是使用温度，他的疯狂零机器人建立一个打开书的疑似相等的位置得到随机化"：我尝试手动创建一个零开卷在这里（#2104）与 LZ
但可以自动完成每隔几个网络（或每个新网络）创建一个 2 或 3 移动的打开书。2移动书有+200个位置，而3移动深书必须有3000个左右的位置，这可能足以提供良好的多样性和探索。
高效创建宽幅零开帐簿的方法：

从根位置，为每个合法移动花费 +10 个出场，并记录从最佳移动的 ±10% 赢率内的移动列表（例如，如果最佳移动的赢率为 45%，则选择高于 35% 赢率的所有移动）
通过每个动作的 #100 播放来探索这些移动，并记录从最佳移动中赢得 +4% 范围内的移动列表
通过每个动作的 1000 个出场点进一步探索这些移动，从最佳移动中选择 ±2% 内的移动：此移动列表是"1 移动打开手册"
由于每个新网络只完成一次，因此，为每个移动添加一个步骤并花费 10000 个出场费是合理的，以确保它们仍位于最佳移动的 ±2% 的赢率内
然后，创建 2 移动书：对于"1 移动打开书"中的每个动作，迭代相同的方法（测试所有法律动作，每个 10 个出场，选择最佳动作，花费 100 个出场，选择最佳，花费 1000 个出场，在 2% 的赢率内列出移动）：这构成了"两步开书"
如果需要，在 2 移动打开书之后从所有位置迭代第三次，以创建"3 移动打开书"
这个2或3移动深开书可用于自我游戏，但也用于比赛游戏。不清楚通常的噪音是否仍然对自我播放有用（我想这会有所帮助）BTW，
可以创建 2 本书：如上建议的那样，有广泛的一本书，移动范围在 ±2% 的 winrate 内，而通过在每层最佳移动中选择 ±0.5% 的移动，将移动更深、更窄。结合这两本书可以帮助探索不同的职位，同时也花更多的时间在最有趣的位置。

PS：@Naphthalin的方法正上方是另一个有趣的选择，工作一直游戏，而不仅仅是为开幕阶段。不清楚它是否能完全取代开书方法，或者它是在前几个开盘动作之后提供更多多样性的附加工具。

@Naphthalin

纳普赫哈林评论16 小时前
PS：@Naphthalin的方法正上方是另一个有趣的选择，工作一直游戏，而不仅仅是为开幕阶段。不清楚它是否能完全取代开书方法，或者它是在前几个开盘动作之后提供更多多样性的附加工具。

@Friday9i它应该完全取代开篇的书，因为即使温度值在0.8左右（远低于1.0，显著减少实际失误的数量），你仍然获得足够的多样性。

@ihavnoid

成员
伊哈夫诺伊德评论16 小时前
首先，我要感谢所有（特别是@gcp）作出如此宝贵贡献的人。对我来说，Leela-0是一个学习如何编写代码和观察事物如何演变的机会。看到同样的代码从随机移动开始，然后在不到一年内击败最优秀的人类玩家，这令人兴奋。同时，我开始与一个单一的GTX1080...现在我有四个GPU运行各种不同的东西。

话虽如此，我想我不会再花太多时间在利拉零上工作了。我确实希望，
可能会有更好的想法，最终将改善事情在这里和那里，但它只是觉得，我将无法开始一个全新的东西，最终仍然是有用的。有一次，我开发了一个带有Web界面的Leela-0实例（它甚至在合理水平上玩残疾人游戏）https://cbaduk.net/-我计划让它保持运行，直到我的电脑死。

与此同时，我开始了一些我自己的项目-我写我自己的'零'实现Janggi-一个韩国'象棋'棋盘游戏-从零开始。这更多的是磨练我的编程技能，而不是学习如何创建世界上最好的AI。

再次，谢谢大家，一路顺风！

@arondes

阿龙德斯 commented 15 hours ago
Leela 零是第一个开源的"零型"去引擎，它是一个伟大的记忆对我来说，我观察了它的整个进化历史，因为随机发挥。没有笔记本电脑，我可以击败任何亲围棋球员。如此惊人的体验！

@lightvector

光矢量 commented 15 hours ago
@gcp - 感谢您对一些方法的有用性，我列出的其他游戏的有用性！

@SHKD13

SHKD13 commented 6 hours ago
我认为Globis-AQZ将来将是开源的。
https://twitter.com/ymg_aq/status/1206119379777179649

在第11届UEC杯中，她比之前的版本（2019年中国杯）有90%的胜率。
如果她比LZ强壮，我们可以像ELF之前那样使用她玩的自玩游戏吗？

Globis-AQZ 自演是否公开？也许你有链接吗？

@lcwd2

lcwd2 commented 2 hours ago
Alpha 零使用最后 500K 游戏的滑动窗口。每个训练周期使用 2048 x 1000 状态。训练周期中使用的一些状态应该是好数据，有些状态应该是不好的。这取决于运气取决于一个周期是否命中足够的好数据来创建促销。当前状态是游戏窗口纯粹来自当前的最佳模型。也许值得坚持500K窗口，让它运行几个月，看看它是否能达到一组良好的游戏状态。阿尔法零停止在2100万自我游戏。我们现在有1700万自我游戏。

天行者 · 发表于 2020-2-1 14:33

帐号		自动登录	找回密码
密码			注册

gcp准备把leelazero 项目明年在1.31结束

本帖子中包含更多资源