2017年11月2日 星期四

加藤英樹談圍棋AI的過去.現在與未來(2)


價值網路就是是阿發夠強大的秘密

星合:
參加世界電腦圍棋公開賽時的版本是把參加夢百合杯時的版本再升級過的嗎?

加藤:
首先就是從15.0版升級到了15.3版。現在的圍棋AI就是在價值網路(以下簡稱VN)....

星合:
甚麼叫VN啊?

加藤:
不好意思。VN就是利用深度學習方法做出來一種能夠推算出某個局面下黑棋看到的勝率是多少的神經網路(模仿人類神經細胞的一種資訊處理系統)。就是阿發夠把這種革命性的手法帶入電腦圍棋界的。

星合:
所以可以說這就是阿發夠或近來的圍棋AI可以這麼強大的秘密對嗎?

加藤:
在使用VN之前,電腦圍棋大約與職業棋士相差二、三子程度,但這二、三子之差其實是很巨大的障礙。

大橋:
的確如此。我幫忙補充一下,大家可能都覺得圍棋AI是光靠深度學習就變強的,但其實在阿發夠之前的Zen11.4版也用過深度學習法。所以正確來說,電腦圍棋是使用深度學習法來建立出VN,才一口氣增強二子以上的棋力的。

星合:
常常聽到人說深度學習法,但它到底是甚麼樣的東西?

加藤:
且讓我稍微來說明一下VN吧。在某個局面下,電腦會去模擬哪一方會獲勝,換句話說,就是預測誰會贏。為了進行預測,就要使用所謂的策略網路(以下簡稱PN)。要是沒有PN,也不會有VN。

星合:
...是喔。

大橋:
這聽起來是很難沒錯,不過也是想了解電腦圍棋中很重要的地方。

加藤:
然後,我就要來說明PN了。首先,深度學習是一種機械學習的手法。太過詳細的東西我就不在這裡解釋了,簡單來說,就是這種方法可以「模仿人類」,而且可以學得非常好。舉例來說,最有名的就是利用深度學習而能讓AI辨認、認識人類或動物的面貌。比如說,給電腦看過幾萬甚至是幾十萬畫面上是貓熊或是猩猩這種有加上標籤的圖片,而讓它去進行深度學習,電腦就會學習到這些圖片的特徵,AI就能模仿人類去辨別出貓熊與大猩猩的面貌差異。

星合:
換句話說,深度學習就是由人類給予資料來教電腦學習是嗎?

加藤:
現在雖然也有使用不同的學習手法,但根據使用給予標籤的學習資料來看,的確就是這樣沒錯。重要的是,隨著學習的時間增加,這種方法可以達到做出超越人類正確性的判斷之水準。

星合:
就是精度很高對嗎?

加藤:
對,這點很關鍵。然後將這種手法應用到圍棋上,就是要讓電腦把各種局面與這種局面下高手所下的棋組成一組資料學習起來。然後再讓它學習幾千萬的局面。順便一提,這個時候讓它學習的棋譜就是棋力高強的人的棋譜。因為學習過這些棋譜,它就能用高精度的方式預測出人類所下的棋。這就是PN的原理。這個部分,其實在阿發夠的論文問世前的一年以上就有人發表過了。

大橋:
光是使用PN就能有相當強大的棋力了。

加藤:
如果使用PN來讓電腦從某個局面開始下到最後,就會像人類對弈一樣,會出現互有輸贏的狀況。所以電腦就用亂數來決定怎麼挑選次一手,所以結論就不只一個;但反覆去執行這樣的流程幾萬伺候,就能算出那個局面下的勝率。但這樣每次在對局中去計算勝率的時間實在太長,而讓寫程式的人放棄這樣反覆計算幾萬次的手法。然而,大衛.席爾瓦先生卻想到了可以將電腦下到最後的模擬結果另外讓別的神經網路學習起來,並且在阿發夠上實踐成功。

星合:
這就是您一開始說明過、用來找出勝率的VN對吧。這樣的想法非常嶄新嗎?

加藤:
老實說,其實這個想法應該是誰都想得到,但一般卻不會這樣做。這是因為這實在太消耗時間了。至少得花上一年。但是DeepMind公司的母公司可是股溝公司,因此他們在硬體上可以豪華地使用GPU這種東西。而且他們使用了GPU來進行通常50倍以上的計算,所以一週左右就完成了這個學習了。真不知道這叫數量暴力還是金錢暴力啊(笑)。

星合:
就是股溝是世界級的大企業,才能這樣玩吧。

加藤:
沒錯。股溝在自然雜誌上所刊登的論文,其實並不是一般的大學或是學術研究機構的規模能夠模仿出來的。由於Zen是我和尾島先生私人開發出來的,所以尾島先生在看完股溝的論文後,就判斷我們無法再這樣靠私人的方式進行開發,只好透過KADOKAWA的關係向多玩國(你摳你摳的母公司)公司請求協助。於是多玩國的川上量生會長就把這個開發案當作全日本性的專案,並把日本棋院也一起拉了進來,才開始了DZG專案。

===



相關系列文章:

沒有留言:

張貼留言