2016年11月12日 星期六

店長大戰魔鬼追趕AlphaGo的DWANGO/東大合作之圍棋AI「DeepZenGo」將與職業棋士對戰

~靠著導入深度學習技術而使棋力飛躍性進步

文:中村真司

多玩國公司(DWANGO)在11月9日在東京日本棋院的市谷本院召開了關於使用深層學習的圍棋軟體「DeepZenGo計畫」的記者會。

DeepZenGo計畫是在今年(2016年)3月由多玩國公司在日本棋院的合作下,以圍棋軟體Zen(天頂的圍棋)的開發者尾島陽兒先生與加藤英樹先生為中心所開啟的專案。起因是來自於谷歌子公司DeepMind所開發出來的人工智慧圍棋軟體AlphaGo打敗了世界級職業棋士李世石,引起了全世界的注目;在這樣的狀況下,依照其發展結果,希望能完成一套新生圍棋軟體出來,就是這個計劃的目標。

這個計畫的成員除了前述Zen的開發者外,還有研究人工智能著名的東京大學研究所特任副教授的松尾豐先生與所屬研究所的研究員、與將棋軟體Ponanza的開發者山本一成先生一起加入,而由多玩國公司提供開發環境與開發協助。

這次的記者會,主要就在報告DeepZenGo的進展狀況與成果,並且一併發表將要舉辦新的職業棋士對戰比賽---第二屆圍棋電王戰。

記者會一開始,就先宣布了Ponanza的山本一成先生離開這個專案的消息,這是因為山本先生也同時忙於製作將棋軟體等工作實在難以兼顧,但他也留言說今後如果有機會的話,會繼續用各種形式的方法來協助這個專案。

記者會現場,共有日本棋院理事長團宏明先生、副理事長山城宏先生、Zen的開發代表加藤英樹先生、東京大學研究所松尾研究室研究員的關根正之先生,與多玩國董事長的川上量生先生參加。這個計劃從開始到現在已經過了八個月,所以就是為了報告DeepZenGo做出相當的成果,才有這次的發表記者會。

在加入AlphaGo的手法下也維持獨特性的Zen

DeepZenGo是以分工合作的方式進行活動,其中多玩國是提供開發環境,並且和日本棋院斡旋相關棋譜資料的提供與商談對戰的職業棋士的問題。而東京大學的松尾研究室,則是提供理論上的協助與研讀圍棋軟體的相關論文、並且思考如何能讓圍棋軟體變得更強的方法、如果這些方法有希望的話就製作出理論模型。

另一方面,Zen的開發團隊則是由尾島先生來寫作程式本體,只要是負責神經網路的學習與程式的修改與調整;加藤先生自己是負責神經網路的計算、邏輯運算、與GPU加速方面的程式。

由於加入了能夠判斷出目前局面下有利著手的「策略網路」,所以目前程式的棋力是逐步變強、運算速度也提升很多。而且使用了策略網路之後,也可以驅動評價局面的價值網路來學習。根據加藤先生所說,DeepZenGo除了使用了AlphaGo開發出來的價值網路與策略網路、以及蒙地卡羅樹搜尋外,也充分反映出尾島先生的想法;不是單純模仿AlphaGo,僅是以Zen變得更強為考量方針來加入新的方法。因此,細部設計上有很多是和AlphaGo不一樣的地方。

半年之間達到去年十月AlphaGo同等棋力的深度學習效果

加藤先生報告DeepZenGo的棋力程度時,指出在今年九月時這個程式在圍棋對弈網站的棋力分數已經一口氣由7d(段)升上了10d(段)。至於Elo評分系統上,在半年前的V11.4版本時尚為2400左右,到了9月的V12.4版時已經升上了3000分。順便一提,去年(2015年)十月AlphaGo擊敗中國職業棋士樊麾時,Elo評分就是3000分左右。

關於這一點東京大學的關跟先生也說,從計劃開始到現在明顯在短期間能進步這麼多,就是展現出深度學習的效果。不過,他覺得還有很多想調整的地方,所以DeepZenGo還有繼續進步的空間。

這個計畫的成員,由於DeepZenGo的排名評分已經到達職業棋士水準附近,判斷已經是做出相當的成果,所以才進行這次的發表記者會。順便一提,現在AlphaGo的Elo排名分數大約是3600左右,可說是和日本棋士井山裕太先生等頂尖棋士同等的狀態。而多玩國董事長川上先生認為,DeepZenGo到達今年三月和李世石先生對戰的AlphaGo的棋力水準只是時間的問題了。

決定和趙治勳名譽名人進行三局賽對戰

如前所述,因為判斷加入深度學習的DeepZenGo已經到了可以和職業棋士一戰的水準,所以一起發表了即將和隸屬日本棋院的趙治勳名譽名人對戰的計劃。因此趙治勳先生也在記者會的中途登場和記者們會面。

趙先生是日本職業圍棋界獲得最多74個頭銜的紀錄保持人、而且曾經獨自囊括棋聖、名人、本因坊三大頭銜而廣為人知,除此之外,七大頭銜全部都拿過冠軍、還有本因坊十連霸等輝煌戰績,可以說是日本圍棋界自豪的代表性棋士之一。

對局是在11月19、20、23日分別舉行的三局賽,並且會以NicoNico直播來轉播這場「第二屆圍棋電王戰」。

關於這次的三局賽,Zen的開發者加藤先生說:「我是希望能讓三局賽當作一道關卡。變成一面倒的三連敗的可能性還是存在,所以在僅剩的十天之中,我們還會盡力改良。最讓我們高興的還是能和趙先生對戰。去年的電王戰中很遺憾我們沒能和趙先生對局。而且由於趙先生曾經說過Zen還要再十年才趕得上職業棋士的程度,所以這次算是我們對趙先生的刺激一點報恩的機會」。

不過,趙先生笑說這種報恩是大可不必了。但對於Zen的下法,他的評論是:「下法非常像人類,佈局的感覺非常好。我們職業棋士是靠感覺,但Zen比較像是靠力學。在佈局階段有很多值得學習之處,其中可以感受到人工智慧的威力。而且我和人類下膩了,特別期待這次和電腦對局。如果我贏的話,歡迎Zen繼續再來挑戰。要是我輸的話,馬上就會回家(用功)」,雖然這話之中包含了許多讓現場大笑的笑點,但也充分表達出職業棋士的觀點。

DeepZenGo這次使用的硬體規格如下所示,並未另外連線分散式計算的電腦。

  • CPU: Xeon E5-2699v4×2(44核、2.2GHz)
  • GPU: TITAN X(Pascal世代)×4
  • 硬碟: SSD 128GB(系統用)、SSD 480GB×2
  • 記憶體: 128GB