飞扬围棋

标题: Katago CUDA 11.1 配置方法 (适合新手) [打印本页]

作者: 刀点心    时间: 2020-11-25 14:25
标题: Katago CUDA 11.1 配置方法 (适合新手)
本帖最后由 刀点心 于 2020-11-25 14:42 编辑

Katogo下载地址:
https://github.com/lightvector/KataGo/releases/tag/v1.7.0

Sabaki下载地址:
https://sabaki.yichuanshen.de/

使用方法:
1、下载Katago(cuda 11.1版),然后解压至任意位置;
2、把本文件夹内的五个文件( cublas64_11.dll 、cublasLt64_11.dll 、cudnn_cnn_infer64_8.dll 、cudnn_ops_infer64_8.dll 、cudnn64_8.dll )复制到上述解压后的文件夹内。
3、用Sabaki等软件加载Katago即可。 Sabiki的配置方法可参考下图——


[attach]170626[/attach]



注:Katago的权重文件需另外下载,下载地址:
https://github.com/lightvector/KataGo/releases/tag/v1.4.5


-----------------------------------------------------------------------------------

上述所有文件可到网盘下载:
链接:https://pan.baidu.com/s/1pvpWn2jHV9yrholriP3oLw
提取码:lz2r


作者: 爱情隔夜茶    时间: 2020-11-25 17:00
关于cuda版本 有些事情请教一下?
1、 1070之类有cuda的使用opencl版本还是cuda版本?
2、 20系有了张量中心后cuda执行效率是不是翻倍?
3、 amd 6000系对标30系的没有张量中心是不是效率也是差一半或者差很多?
4、使用katago是不是只能买30系?同样价格买6000系一定是差很多?
作者: 弋舟    时间: 2020-11-25 17:45
非常好的教程,感谢楼主!
作者: zlyn    时间: 2020-11-25 18:02
cuda版和opencl版步时在5秒以下基本棋力相当,甚至步时越短cuda版比opencl版棋力还弱一点。设置为步时10秒cuda比opencl版胜率大约为65%。时间再长没测试,估计设置更长时间cuda版棋力会再强一点,即使再强应该胜率不会超过70%。测试显卡为单卡2080ti。

作者: zhiming    时间: 2020-11-25 18:12
感谢楼主!
作者: keexisun    时间: 2020-11-25 23:28
爱情隔夜茶 发表于 2020-11-25 17:00
关于cuda版本 有些事情请教一下?
1、 1070之类有cuda的使用opencl版本还是cuda版本?
2、 20系有了张量 ...


1、10系显卡建议用opencl版本,速度要比cuda版高10-20%左右
2、20系主要因为TensorCore张量单元是半精度计算,速度是cuda单精度计算的3-4倍左右
3、AMD6000系列虽然没有TensorCore张量单元,但是也支持半精度计算,而且还是opencl2.0版本,所以计算效率也不错
     目前从官方数据来看,以rx6800XT为例,AI性能大致相当于2080ti水平
     30系显卡目前的AI性能相对于20系大致如下:(katago1.7-cuda)
    3070=2080=1.5*2060  

    3080=2080ti=2*2060
    3090=1.2*3080

4、由于30系主要支持的是cuda11版本,其强项在于混合精度及稀疏阵列的计算,katago引擎目前对30系的优化还不太好
     再加上30系显卡价格虚高,目前还是20系显卡比较有性价比,AMD由于opencl驱动有些问题,所以暂时不建议用A卡



作者: 发扬论学qi    时间: 2020-11-26 17:38
楼主第二条的五个文件 从何来?不明来源。4楼提供的数据为准备安装cuda版的提供了参考价值。

作者: 刀点心    时间: 2020-11-26 18:19
发扬论学qi 发表于 2020-11-26 17:38
楼主第二条的五个文件 从何来?不明来源。4楼提供的数据为准备安装cuda版的提供了参考价值。

这些文件都是从官网安装包里提取的,下载地址:https://developer.nvidia.com/cuda-downloads

作者: 爱情隔夜茶    时间: 2020-11-27 09:05
keexisun 发表于 2020-11-25 23:28
1、10系显卡建议用opencl版本,速度要比cuda版高10-20%左右
2、20系主要因为TensorCore张量单元是半精 ...

最近几个版本据说更新了opencl 和cuda比怎样?

作者: chaojinaiba    时间: 2020-11-27 12:23
在一些案例中,我们可以体验到 Tensor Core 的强大,它是如此之快,以至于总是在等内存传来的数据——在 BERT Large 的训练中,Tensor Core 的 TFLOPS 利用率约为 30%,也就是说,70%的时间里 Tensor Core 处于空闲状态。这意味着在比较两个具有 Tensor Core 的 GPU 时,最重要的单一指标就是它们的内存带宽。A100 的内存带宽为 1555 GB/s,而 V100 的内存带宽为 900 GB/s,因此 A100 与 V100 的加速比粗略估算为 1555/900 = 1.73x。
作者: chaojinaiba    时间: 2020-11-27 12:23
本帖最后由 chaojinaiba 于 2020-11-27 23:11 编辑

显存带宽 2060         336GB/s
2060s-2080s, Quadro RTX 5000, 3070      448GB/s
6800,6800xt,6900xt     512GB/s
2080ti       616GB/s
Titan V     653GB/s
RTX Titan, Quadro RTX 8000 672GB/s
3080        760GB/s
V100        900GB/s
3090        936GB/s
A100        1555GB/s

作者: chaojinaiba    时间: 2020-11-27 12:28
6800xt实测相当于0.8个2080ti,符合显存带宽比例
作者: keexisun    时间: 2020-11-27 12:51
爱情隔夜茶 发表于 2020-11-27 09:05
最近几个版本据说更新了opencl 和cuda比怎样?

目前都统一用 opencl版本了,速度和cuda版差不多,省去许多程序链接库的麻烦
最新的subtreevb-opencl版棋力还有提升,中后盘算路更精准

cuda11版本是30系专用,其它显卡用的话可能会降速


作者: 512song    时间: 2020-11-27 13:07
在linux下,使用Tesla v100,katago的1.6.1版本cuda与opencl差距还是很大的、[attach]170655[/attach]

[attach]170656[/attach]

作者: 弋舟    时间: 2020-11-27 17:15
Tesla v100买不起啊!
作者: 发扬论学qi    时间: 2020-11-27 17:45
本帖最后由 发扬论学qi 于 2020-11-27 21:56 编辑
刀点心 发表于 2020-11-26 18:19
这些文件都是从官网安装包里提取的,下载地址:https://developer.nvidia.com/cuda-downloads

我根据这个网址去下载了个“cuda-11.1.0-win10-network",下来之后双击点开是安装应用程序,安装完发现就是我原来桌面上有的GeForce Experience应用程序,打开它是个界面,然后去找它所在硬盘位置,有文件但也没有那几个文件。如果像4楼说的,cuda版比opencl版棋力提升不大(速度没说),那也不是很必要折腾了。当然,如果不难搞的话还是想搞一个看看。

作者: hred9D    时间: 2020-11-28 23:08
注册开发者账号,去学习下载,不过20系显卡。11.1不适用
作者: zjh889    时间: 2020-11-28 23:45
好东西,可惜需要的显卡,都是烧钱的东西!
作者: Morpheu_o43n3    时间: 2020-12-2 14:16

感谢分享
作者: 爱情隔夜茶    时间: 2020-12-2 16:29
终于等出来几位真正的大神 非常感谢
作者: xwang71785    时间: 2021-3-2 09:47
感谢楼主教程
作者: 杏林葳蕤    时间: 2021-3-3 22:26
感谢楼主教程
作者: jcjcw3    时间: 2021-3-13 23:19
谢谢分享!
作者: gujgujguj    时间: 2021-3-15 12:13
学习的好工具
作者: zjh889    时间: 2021-3-17 00:19
好东西,可惜价格米不起呀!
作者: 妖勺    时间: 2021-5-31 15:55
弄了个6900xt,速度很慢怎么回事(运行mylizzie里的katago整合包)。比2080ti慢10倍。求助楼主!
作者: 刀点心    时间: 2021-5-31 19:33
妖勺 发表于 2021-5-31 15:55
弄了个6900xt,速度很慢怎么回事(运行mylizzie里的katago整合包)。比2080ti慢10倍。求助楼主!

6900xt不能用CUDA版的Katago,要用Opencl版的。建议下载YZY 集成的Lizzie...
作者: 妖勺    时间: 2021-6-2 17:57
刀点心 发表于 2021-5-31 19:33
6900xt不能用CUDA版的Katago,要用Opencl版的。建议下载YZY 集成的Lizzie...

对,我用的就是这个。lizzie_yzy整合包。速度特别慢,真的只有2080Ti的十分之一,不知道啥情况。


作者: cwdong8309    时间: 2021-9-23 12:47
谢谢大神!!
作者: UIUIEPEP    时间: 2021-10-7 14:08
这个好文章呀,就是还是搞不来~~
作者: jjyy88    时间: 2023-1-19 16:05
终于等出来几位真正的大神




欢迎光临 飞扬围棋 (http://flygo.net/Bbs/) Powered by Discuz! X3.2