2017年11月13日 星期一

王銘琬九段的後阿發夠報告(7)


第三回 人類的興趣並不只是比誰強而已

第一屆世界電腦圍棋公開賽在今年8月於中國內蒙古鄂爾多斯市舉行,總共聚集了各國12個程式,進行彼此間的激烈競爭。雖然阿發夠已經發表了退休宣言,但還是有新的圍棋AI比賽創立,所以大家對於世界各地的圍棋AI的興趣一點也未消退。

這個比賽的冠軍大熱門是中國騰訊集團所開發的「絕藝」。這是一套開發開始到現在才不過一年半的新軟體,但卻在今年3月的UEC杯擊敗了日本的DeepZenGo(以下簡稱DZG),拿到了冠軍。

而且絕藝在圍棋網站上也和很多職業棋士對局過,獲得了九成以上的勝率。這個13人所構成的團隊,由於有個超級大企業作為開發後盾,所以相對於其他AI而言可說是得天獨厚,一般也將其視為是次於阿發夠、無可動搖的圍棋AI第二把交椅。

然而答案揭曉,卻讓人非常吃驚,贏得冠軍的是DZG,絕藝最後竟然只獲得了第三名。

而從8月開始,在日本棋院的對局網站「幽玄之間」上也開始和職業棋士對局的DZG,我想也讓很多觀戰的朋友看得很開心。關於DZG獲得冠軍的部分,在本期的碁世界雜誌上有製作特輯討論,所以詳細的內容就不在這裡多做討論,這裡就單純講講我的想法。

[DZG是特別的圍棋AI]

DZG在現代的圍棋AI中算是非常特別的程式。在其他的軟體幾乎都是依照阿發夠的論文實作出來之中,DZG卻仍是維持著一部份以往的技術來奮戰。也是這樣,DZG的下法與其他軟體相比就是多了一點「攻擊心旺盛」的味道。

這些過去DZG使用的技術,一般是懷疑和深度學習的配合度很差,但DZG仍然持續使用下去。要將深度學習的程式和人類手工創作的程式高水準地共存在一起本來就是一件非常困難的事情,但是對於迎向人類與AI共存的時代而言,光這一點就有很大的價值。而且它還能和其他的圍棋AI打成平分秋色,讓人覺得很厲害之間,它竟然又奪下了冠軍,讓我只能向其脫帽致敬了。

[相信自己的決斷]

DZG在比賽的第一天輸給了絕藝與CGI,但卻根據失敗的經驗改變設定,反而導致了最後成功獲得冠軍,簡直就可以說是神乎其技的調度。而DZG所改變的設定,就是圍棋AI中最重要的局面評價,簡單來說就是形勢判斷的部分。

圍棋AI雖然因為深度學習的關係而大大往前邁進,但其中有很大半的因素是利用「價值網路」而做出正確的形勢判斷。然而對於形勢和細算兩方面緊密牽連在一起的局面下,價值網路就會變弱,而是必須靠以往所使用的蒙地卡羅法模擬的「全局盤算(Roll Out)」來判斷。

阿發夠一開始是將「價值網路」與「全局盤算」兩者各採取50%的方式來進行綜合判斷,然而後來很多的圍棋AI都調整了價值網路的判斷比重。這是因為價值網路非常優秀,所以作為判斷主體,全局盤算的評價就變得比較像是留個保險而已。

DZG原本也是以調大價值網路比重的方式來參加這項比賽,卻在決賽前回頭將全局盤算的比重調高回去。這個想法恐怕也是只有DZG才有,因為全局盤算中也加入了DZG長年培育出來的技術於其中。這真可說是相信自己、非常有魄力的決斷。

DZG團隊在組成之時,就認為如果自深的技術和深度學習的長處結合在一起,就有可能打敗阿發夠;從這次的比賽中也讓我們清楚的看到他們並未放棄這樣的志向。DZG照這樣的路線繼續發展下去是否可行的結論雖然尚未出現,但我想絕對是足堪名留圍棋AI開發史上的一個絕佳範例。

===



相關系列文章: