2016年5月24日 星期二

店長開發者專訪




Zen開發者尾島陽兒先生專訪

前言:

近年來電腦圍棋程式界發生了劇烈的變化,因而聚集了許多的話題。在這樣的狀況下,我們想請圍棋程式「Zen」、「天頂的圍棋6 Zen」的開發者尾島陽兒先生來談談他的看法。

[近來的電腦圍棋大事]

2016年3月,李世石九段對AlphaGo的五局挑戰賽,最後是以AlphaGo以四勝一敗收場。圍棋人工智能可以如此急速的棋力上升,主要是導入了「深度學習」的技術來模擬的關係。

在這樣的狀況中,長年以日本本土製作圍棋程式身分來角逐電腦圍棋世界第一的Zen也在第九屆UEC杯電腦圍棋世界大賽中,創下了第三度奪冠的紀錄。接著,它又在隨後進行的電聖戰中,以讓三子的局差擊敗了小林光一名譽棋聖。

當然,Zen也使用了「深度學習」的技術。

===

採訪:
恭喜獲得了UEC盃的冠軍。想先請您回顧一下這次的參賽過程好嗎?

尾島:
不管哪個出賽的程式都很強,特別是狂石(CrazyStone)和Zen是棋力相當,因此能夠奪冠完全是運氣好。臉書(Facebook)開發的「Darkforest」雖然在佈局階段能下出棋感非常好的著手,但給我有在開始戰鬥時就會變奇怪的印象。

採訪:
您是在哪裡欣賞李世石九段對AlphaGo的比賽?此外,看過對局內容後,您有怎樣的感想?

尾島:
我是在自己家中即時收看的。雖然並沒有對哪一手棋留下特別的印象,但看到它不會刻意去挑起華麗戰鬥的樣子,讓我有圍棋是一種就算不把局面弄複雜也是可以獲勝的遊戲之印象。

採訪:
賽前您對AlphaGo的棋力與勝敗結果有怎樣的預測?

尾島:
本來我是覺得它應該只到比去年十月和樊麾先生對局時稍微強一點的程度而已,結果被他那預期之外的高強棋力給嚇到。

不過,在賽前的勝敗預測上倒是覺得既然Google公司都已經發下那麼大的豪語了,所以我是猜AlphaGo應該是可以下到至少三勝才對。

採訪:
結果掀開底牌一看,AlphaGo竟然是以四勝一敗的成績收場。

尾島:
我原本還覺得第一局是李世石九段有點輕敵,結果看到第二局時就覺得:啊,這樣下去可能會五連敗呀...(笑)。他扳回一城的那局勝利雖然可說是奇蹟,但還是有其意義存在。

採訪:
李世石扳回一城的第四局中,您認為AlphaGo到底發生了甚麼問題?

尾島:
我覺得應該是發生了所謂的水平線效應(在電腦程式細算程度有限時,當電腦出現在其計算範圍內只算的到壞結果的狀況下,電腦會下出看似好像沒有意義、其實只是為了拖延壞結果出現之著手,就稱為水平線效應)。但看到即便是AlphaGo也沒辦法解決這種問題,反而感到了一種奇妙的親近感。

採訪:
接下來,想請您談談今後人工智能的開發技術與Zen的開發計畫。首先,可否請您先簡單地解釋一下蒙地卡羅演算法?

尾島:
就是以隨機的方式模擬到終局的結果,藉此作為判定局面評價的一種方法。在蒙地卡羅演算法導入圍棋程式之前,電腦圍棋並沒有判定局面優劣的方法。

採訪:
那麼最近出現的突破性技術「深度學習」,又是怎樣的技術呢?

尾島:
本來這是一種常常用在影像辨識的技術,一言以蔽之,就是一種讓機器自我學習的技術。但這裡所謂的學習,和人類印象中的學習不太一樣。比較像是機器自己反覆啟動輸入輸出的操縱桿,然後根據某種目的調整到最佳的操縱桿力度。

採訪:
將蒙地卡羅演算法與深度學習結合起來,對於電腦人工智能來說會發生怎樣的效果?

尾島:
把深度學習應用到圍棋人工智能上有兩種用途:著手的評價與局面的評價。對於前者來說,雖然深度學習和蒙地卡羅的運算邏輯並不相同,但這個部分是至今為止大家都實作過的東西,所以只不過是單純的置換而已。問題反而是在後者上。該如何與蒙地卡羅法組合起來,達成最佳的效果,其實直到現在都還不太明朗。也許最後的發展會是完全不再使用蒙地卡羅演算法,而變成了完全是深度學習的核心來運算。

採訪:
為什麼您會這麼認為?此外,為何現狀是還把蒙地卡羅演算法與深度學習結合在一起呢?

尾島:
這是因為在AlphaGo的論文中寫他們是把蒙地卡羅演算法做出來的評價與深度學習做出來的評價以一比一的方式綜合在一起,其棋力才變強的。我想這恐怕是對於人工智能來說,在攻殺或死活判斷這種要實際下了才知道結果的東西,還是蒙地卡羅演算法比較強的關係。

不過,在論文之中也提到了AlphaGo變強的另外一個因素是加入了「強化學習」的方法。但是強化學習和深度學習的配合度明顯會比蒙地卡羅演算法要好。所以我在猜,AlphaGo已經有開始完全不使用蒙地卡羅演算法的可能性。(註:Zen尚未導入強化學習的技術)

採訪:
Zen在導入了深度學習技術之後,有甚麼地方獲得了改善?

尾島:
現在的Zen就像前面所提到的兩種評價中,只採用深度學習來做著手的評價,因此佈局變強,而減少了在序盤落後的情形。此外,收官階段也會從目數比較大的地方開始確實應對。

採訪:
接下來想請教您關於Zen的未來開發目標。

尾島:
最終的目標,就是找出圍棋人工智能的「奇異點(Singularity)」。畢竟AlphaGo就是突破了一個奇異點,才能急遽變強的。

Zen現在是靠著我動手來改良進步的,但我希望將來它能像AlphaGo一樣,走到不是從外部動手改良,而是靠自己學習變強的狀態。

採訪:
現在的圍棋程式至少是到了業餘頂尖水準,但將來是否可能做出到達職業水準的市售版本呢?我想這是所有的圍棋迷都引頸期盼之事....

尾島:
AlphaGo的確是在開發上花了很多成本,但大部分的錢都是用在「學習」上。換句話說,只要能使用其「學習資料」成果,就不需多花心力與成本開發出市售版的軟體。雖然我不覺得Google公司會把AlphaGo拿出來賣,但我覺得應該是可以做到只需要使用一般市售PC規格就能再現職業棋士水準的軟體才對。我想不久的將來,這樣的軟體程式應該就會開發出來了。

採訪:
最後請您針對「天頂的圍棋6 Zen」的上市發表一下感想。

尾島:
當然,這一版雖然還不像AlphaGo那麼強,但對於想看到人腦電腦對決、並且對最新的圍棋人工智能感興趣的人來說,我想其內容已經是能滿足一窺電腦高強棋力的程度了。