飞扬围棋论坛

 找回密码
 注册

扫一扫,访问微社区

搜索
查看: 1476|回复: 3

DeepMind重磅开源强化学习框架!覆盖28款游戏,24个算法

[复制链接]
发表于 2019-8-28 15:10 | 显示全部楼层 |阅读模式


https://baijiahao.baidu.com/s?id=1643083229980086254&wfr=spider&for=pc

目前,在OpenSpiel中实现的算法一共有24种,分别是:

极小化极大(Alpha-beta剪枝)搜索、蒙特卡洛树搜索、序列形式线性规划、虚拟遗憾最小化(CFR)、Exploitability外部抽样蒙特卡洛CFR、结果抽样蒙特卡洛CFR、Q-learning、价值迭代、优势动作评论算法(Advantage Actor Critic,A2C)、Deep Q-networks (DQN)短期价值调整(EVA)、Deep CFR、Exploitability 下降(ED) 、(扩展形式)虚拟博弈(XFP)、神经虚拟自博弈(NFSP)、Neural Replicator Dynamics(NeuRD)遗憾策略梯度(RPG, RMPG)、策略空间回应oracle(PSRO)、基于Q的所有行动策略梯度(QPG)、回归CFR (RCFR)、PSROrN、α-Rank、复制/演化动力学。

其中,只有短期价值调整(EVA)、Deep CFR和PSROrN等算法只是进行了初步测试,其他算法都经过了全面的测试。


Spiel意指桌面游戏。因此,OpenSpiel中的环境就是相关棋牌类游戏。一共有28款:

双陆棋、突围棋、定约桥牌、Coin Game、屏风式四子棋、协作推箱子、国际象棋、第一价格密封拍卖、围棋、Goofspiel(一种多玩家纸牌游戏)三宝棋、六贯棋、Kuhn扑克、Leduc扑克、大话骰、Markov Soccer、配对硬币(3人游戏)、矩阵游戏、Oshi-Zumo、西非播棋、转盘五子棋、Phantom三连棋Pig游戏、三连棋、Tiny Bridge、Y(一种棋类游戏)、Catch(仅支持Python)、Cliff-Walking在悬崖边走的醉汉(仅支持Python)。

在上述游戏中,只有Coin Game、协作推箱子、六贯棋、Markov Soccer和Phantom三连棋只是进行了初步测试,其余的游戏都经过了全面的测试。

基于上述的游戏和算法,可用OpenSpiel研究通用强化学习和游戏中的搜索 / 规划。


回复

使用道具 举报

发表于 2019-8-28 15:34 来自手机 | 显示全部楼层
太牛了
回复 支持 反对

使用道具 举报

发表于 2019-8-29 12:46 | 显示全部楼层
他要干什么,把alpha go权重放出来的了
回复 支持 反对

使用道具 举报

发表于 2020-5-29 20:10 | 显示全部楼层
嗯,开源了啊
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

小黑屋|Archiver|手机版|飞扬围棋网 ( 苏ICP备11029047号-1 )

GMT+8, 2020-7-6 07:29 , Processed in 0.134510 second(s), 18 queries .

since 2003飞扬围棋论坛 Licensed

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表