飞扬围棋论坛

 找回密码
 注册
搜索
查看: 2975|回复: 21

Katago CUDA 11.1 配置方法 (适合新手)

[复制链接]
发表于 2020-11-25 14:25 | 显示全部楼层 |阅读模式
本帖最后由 刀点心 于 2020-11-25 14:42 编辑

Katogo下载地址:
https://github.com/lightvector/KataGo/releases/tag/v1.7.0

Sabaki下载地址:
https://sabaki.yichuanshen.de/

使用方法:
1、下载Katago(cuda 11.1版),然后解压至任意位置;
2、把本文件夹内的五个文件( cublas64_11.dll 、cublasLt64_11.dll 、cudnn_cnn_infer64_8.dll 、cudnn_ops_infer64_8.dll 、cudnn64_8.dll )复制到上述解压后的文件夹内。
3、用Sabaki等软件加载Katago即可。 Sabiki的配置方法可参考下图——






注:Katago的权重文件需另外下载,下载地址:
https://github.com/lightvector/KataGo/releases/tag/v1.4.5


-----------------------------------------------------------------------------------

上述所有文件可到网盘下载:
链接:https://pan.baidu.com/s/1pvpWn2jHV9yrholriP3oLw
提取码:lz2r

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
回复

使用道具 举报

发表于 2020-11-25 23:28 | 显示全部楼层
爱情隔夜茶 发表于 2020-11-25 17:00
关于cuda版本 有些事情请教一下?
1、 1070之类有cuda的使用opencl版本还是cuda版本?
2、 20系有了张量 ...


1、10系显卡建议用opencl版本,速度要比cuda版高10-20%左右
2、20系主要因为TensorCore张量单元是半精度计算,速度是cuda单精度计算的3-4倍左右
3、AMD6000系列虽然没有TensorCore张量单元,但是也支持半精度计算,而且还是opencl2.0版本,所以计算效率也不错
     目前从官方数据来看,以rx6800XT为例,AI性能大致相当于2080ti水平
     30系显卡目前的AI性能相对于20系大致如下:(katago1.7-cuda)
    3070=2080=1.5*2060  

    3080=2080ti=2*2060
    3090=1.2*3080

4、由于30系主要支持的是cuda11版本,其强项在于混合精度及稀疏阵列的计算,katago引擎目前对30系的优化还不太好
     再加上30系显卡价格虚高,目前还是20系显卡比较有性价比,AMD由于opencl驱动有些问题,所以暂时不建议用A卡


回复 支持 1 反对 0

使用道具 举报

发表于 2020-11-25 17:00 | 显示全部楼层
关于cuda版本 有些事情请教一下?
1、 1070之类有cuda的使用opencl版本还是cuda版本?
2、 20系有了张量中心后cuda执行效率是不是翻倍?
3、 amd 6000系对标30系的没有张量中心是不是效率也是差一半或者差很多?
4、使用katago是不是只能买30系?同样价格买6000系一定是差很多?

点评

这几个问题我都无法回答,坐等高人……  发表于 2020-11-25 17:18
回复 支持 反对

使用道具 举报

发表于 2020-11-25 17:45 | 显示全部楼层
非常好的教程,感谢楼主!
回复 支持 反对

使用道具 举报

发表于 2020-11-25 18:02 | 显示全部楼层
cuda版和opencl版步时在5秒以下基本棋力相当,甚至步时越短cuda版比opencl版棋力还弱一点。设置为步时10秒cuda比opencl版胜率大约为65%。时间再长没测试,估计设置更长时间cuda版棋力会再强一点,即使再强应该胜率不会超过70%。测试显卡为单卡2080ti。
回复 支持 反对

使用道具 举报

发表于 2020-11-25 18:12 | 显示全部楼层
感谢楼主!
回复 支持 反对

使用道具 举报

发表于 2020-11-26 17:38 | 显示全部楼层
楼主第二条的五个文件 从何来?不明来源。4楼提供的数据为准备安装cuda版的提供了参考价值。

点评

此方法是方便新手的,如果是熟悉电脑开发环境的网友配置好CUDA、CUDNN了,当然就不需要这些文件了  发表于 2020-11-26 18:24
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-11-26 18:19 | 显示全部楼层
发扬论学qi 发表于 2020-11-26 17:38
楼主第二条的五个文件 从何来?不明来源。4楼提供的数据为准备安装cuda版的提供了参考价值。

这些文件都是从官网安装包里提取的,下载地址:https://developer.nvidia.com/cuda-downloads
回复 支持 反对

使用道具 举报

发表于 2020-11-27 09:05 | 显示全部楼层
keexisun 发表于 2020-11-25 23:28
1、10系显卡建议用opencl版本,速度要比cuda版高10-20%左右
2、20系主要因为TensorCore张量单元是半精 ...

最近几个版本据说更新了opencl 和cuda比怎样?
回复 支持 反对

使用道具 举报

发表于 2020-11-27 12:23 来自手机 | 显示全部楼层
在一些案例中,我们可以体验到 Tensor Core 的强大,它是如此之快,以至于总是在等内存传来的数据——在 BERT Large 的训练中,Tensor Core 的 TFLOPS 利用率约为 30%,也就是说,70%的时间里 Tensor Core 处于空闲状态。这意味着在比较两个具有 Tensor Core 的 GPU 时,最重要的单一指标就是它们的内存带宽。A100 的内存带宽为 1555 GB/s,而 V100 的内存带宽为 900 GB/s,因此 A100 与 V100 的加速比粗略估算为 1555/900 = 1.73x。
回复 支持 反对

使用道具 举报

发表于 2020-11-27 12:23 来自手机 | 显示全部楼层
本帖最后由 chaojinaiba 于 2020-11-27 23:11 编辑

显存带宽 2060         336GB/s
2060s-2080s, Quadro RTX 5000, 3070      448GB/s
6800,6800xt,6900xt     512GB/s
2080ti       616GB/s
Titan V     653GB/s
RTX Titan, Quadro RTX 8000 672GB/s
3080        760GB/s
V100        900GB/s
3090        936GB/s
A100        1555GB/s
回复 支持 反对

使用道具 举报

发表于 2020-11-27 12:28 来自手机 | 显示全部楼层
6800xt实测相当于0.8个2080ti,符合显存带宽比例
回复 支持 反对

使用道具 举报

发表于 2020-11-27 12:51 | 显示全部楼层
爱情隔夜茶 发表于 2020-11-27 09:05
最近几个版本据说更新了opencl 和cuda比怎样?

目前都统一用 opencl版本了,速度和cuda版差不多,省去许多程序链接库的麻烦
最新的subtreevb-opencl版棋力还有提升,中后盘算路更精准

cuda11版本是30系专用,其它显卡用的话可能会降速

回复 支持 反对

使用道具 举报

发表于 2020-11-27 13:07 | 显示全部楼层
在linux下,使用Tesla v100,katago的1.6.1版本cuda与opencl差距还是很大的、


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
回复 支持 反对

使用道具 举报

发表于 2020-11-27 17:15 | 显示全部楼层
Tesla v100买不起啊!
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

小黑屋|Archiver|手机版|飞扬围棋网 ( 苏ICP备11029047号-1 )

GMT+8, 2021-1-22 20:50 , Processed in 0.084981 second(s), 21 queries .

since 2003飞扬围棋论坛 Licensed

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表