飞扬围棋

 找回密码
 注册
搜索
查看: 5220|回复: 2
打印 上一主题 下一主题

[轉貼][情報] 黃博士今日演講內容(深度學習與強化學習的勝利)

[复制链接]
跳转到指定楼层
1#
发表于 2017-11-10 16:29 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
作者  HeterCompute (異質運算)                                       看板  GO
標題  [情報] 黃博士今日演講內容
時間  Fri Nov 10 13:23:12 2017
───────────────────────────────────────


簡單提一下今天黃博士演講重點

演講標題是深度學習與強化學習的勝利

認為zero是最佳的deepmind電腦圍棋這部分最佳的收尾

黃博士對於一開始擊敗樊輝就發nature有些不解,我們要挑戰李世石結果把所有技術都透
漏給所有人,但deepmind的想法是我們需要分享技術讓世界一起進步

google對alphago團隊最大幫助是TPU

認為Master已經完美解決李世石第四盤的bug,解決方式與神經網路架構(dual res)和訓
練都有關,並且以他多年的電腦圍棋經驗與測試過後,認為不會再出現此類bug

Master是20block res-net,並改進了training pipeline和MCTS,也解決了模仿棋和循環
劫(沒說怎麼做),能讓lee版本3子並超過50%勝率

master年初60連勝每一步4-8秒,在台灣,吃泡麵配黑松沙士下的,是黃博士積極鼓吹要
出來測試,Hassabis說要低調並使用韓國國籍,一開始不得透漏身分

Hassabis說要挑強的下,但是第一天職業沒人願意跟0勝0負的下,都被拒絕,等到第一天
10連勝之後第二天開始拒絕別人邀請

master下的時候可以看勝率隨步數的圖,基本上50手之前斜率很高並且確立極大優勢,唯
一例外是柯潔烏鎮第二盤

4月的時候已經有zero,但由於要發nature所以不能拿來下

當初開發zero沒預料到會超過master

master年初開發完畢之後,zero由其他人負責開發,黃博士繼續想方法增強master

zero不是放在那邊增強學習就會變強,中間需要做很多優化,否則有bug不會進步,其中
一個重大bug發生在第三天(紀錄人表示:所以看來絕藝有得忙了

AntiAlphaGo,不是像大家想的那樣有新的技術,就是左右互搏,也不是gan(生成式對抗
網路)

master是否被人類棋譜拖累?答案是不確定,因為master訓練時間較短,deepmimd也沒有
針對同等條件去比較。

以上,有其他疏漏請其他人補充,並歡迎轉載,但請說明作者是Hetercompute

-----
Sent from JPTT on my Samsung SM-A710Y.                       

回复

使用道具 举报

2#
发表于 2017-11-10 18:46 | 只看该作者
回复 支持 反对

使用道具 举报

3#
发表于 2017-11-10 22:34 | 只看该作者
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

小黑屋|Archiver|手机版|飞扬围棋网 ( 苏ICP备11029047号-1 )

GMT+8, 2024-11-18 08:22 , Processed in 0.131649 second(s), 19 queries .

since 2003飞扬围棋论坛 Licensed

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表