中國企業的代理戰爭?!
採訪:沒想到現在的圍棋AI既不是Google、也不是日本,而是中國企業開發出來的程式跑在最前面啊...。
大橋:沒錯。現在中國非常強。多玩國公司(DWANGO)在開發「天頂之圍棋(DeepZenGo)」時,也經常和絕藝對決大戰呢。
採訪:「天頂之圍棋」是在2018年下完圍棋電王戰FINAL之後退休的圍棋AI對嗎?這個能夠打敗和將棋的羽生老師(羽生善治)一起榮獲日本國民榮譽獎的井山裕太老師之強大軟體,沒想到它的對手竟然就是絕藝啊。
大橋:其實絕藝和AlphaGo一樣,光是開發規模就不得了。果然自家有做雲端服務的公司開發出來的軟體就是很強大。
採訪:我也沒想到企業的規模會直接反映在軟體的威力上。
大橋:圍棋界甚至有個「絕藝是在晚上變強起來」這種讓人笑不出來的笑話呢。
採訪:甚麼?難道它是在晚上開發的嗎?
大橋:中國有很多人都是在夜深人靜的時候,等能夠處理十億人次資料的騰訊網路伺服器有空了,才開始下圍棋的...(笑)
採訪:這簡直是都市傳說了(笑)。
大橋:話雖如此,騰訊並未公開絕藝的詳細學習規模就是了。
接下來就是另外一套圍棋軟體的星陣(Golaxy)。其實這個字就是從銀河(Galaxy)來的(笑)。
採訪:還真是獨特呢(笑)。
大橋:但現在這個星陣的進步幅度非常大。至於絕藝的話,現在只有偶而出來參加比賽而已。大概是一年出來比一次,然後華麗地贏得冠軍。
採訪:感覺就是不打算對一般大眾公開啊。
大橋:騰訊和中國棋院有合作關係,所以現在絕藝變成了中國頂尖棋士專用的AI了。
採訪:也就是說,它變成了中國棋院、甚至還是只有裡面少數的頂尖棋士才能碰的AI了嗎?
大橋:沒錯。光聽就覺得很猛。
採訪:這簡直是賭上企業威信開發的軟體了...!
大橋:另一方面,星陣這套軟體,其伺服器的規模雖沒像絕藝那麼大,卻投入了很多新技術,所以只要是星陣出來參加比賽,幾乎全部都能拿到冠軍。
採訪:哇!
大橋:不過,遇上絕藝偶而出來比賽時,就會變成這兩種軟體單挑對決的場面。程度上其他AI來說,只少相差一兩個等級吧。星陣雖然是贏過絕藝沒錯,但如果是對下很多盤棋的多局賽制的話,還是絕藝占優勢...大致上是這樣的關係。
採訪:那日本的職業棋士有機會使用到這兩種軟體嗎?
大橋:你真是問到重點了!如剛才所言,雖然絕藝只有中國的頂尖棋士才能使用...但騰訊自己也有圍棋網站,在他們的網站就有簡易版的絕藝公開給全世界使用。
採訪:那可以下載簡易版的絕藝嗎?
大橋:不行。只有在騰訊的對局網站上所下的棋,能用絕藝進行檢討而已。
採訪:哎呀...!
大橋:一般使用的話還算便利。只不過感覺是思考時間是只有一秒左右就從中國的伺服器回傳結果了。
採訪:也就是沒有深入細算嘛...這樣說起來,這種版本應該無法滿足職業棋士們的需求吧?
大橋:沒錯。感覺上職業棋士只能從中獲得提示,然後回到自己的高規格電腦上進行驗證。當然,在家裡就只能用不是絕藝的AI了...。
採訪:絕藝下出來的棋,是不是非常獨特啊?
大橋:不不不。其實人類和AI在佈局階段下的棋非常相近了。多少有一點人類往AI方向靠攏就是了。只不過到了中盤階段之後,AI太過強大,才會出現很多人類無法理解的棋。
採訪:這在將棋界也是類似的狀況。還有,深度學習法做成的將棋AI,據說在終盤階段會稍微出現難點...。
大橋:就是這樣!深度學習法可以鍛鍊人類的直觀感覺,所以佈局階段非常強,但在圍棋中也需要仔細探索的後半盤卻比較不擅長。不過剛才提到的星陣則是在程式中組合了各式各樣的領域知識,所以在局面進入中盤之後的階段會比其他的AI強很多。
採訪:明明是深度學習型AI,結果中後盤卻也很厲害...那不就無敵了嗎?
大橋:同樣說是深度學習,也是有很多種種類的,而星陣能克服深度學習的難點,才能獲得其他AI難以追上的強勁棋力。
其實比起AlphaGo Zero型這種只靠自我對戰學習起來的AI,還是組合起人類的領域知識進行學習的圍棋專門AI會比較強---我的感覺是如此啦。
採訪:對不起,您剛才提到的領域知識是甚麼意思?
大橋:該怎麼說比較好啊?...就是並非下棋的規則,而是人類在下棋時會去思考的東西。好比說,再下多少步棋就能把某塊棋子吃掉,說的更具體一點,就像是征子這種東西。
採訪:就是慢慢把對方逼向盤邊,然後全部吃地掉的東西對嗎?
大橋:對。其實「零」類型的AI非常不擅長征子。還有像是兩眼可以做活這種常識在AlphaGo Zero這種類型的AI無法靠自我對戰學習中學到的。
採訪:所以所謂的領域知識就是指類似在對方陣地中只要做出兩眼,就絕對不會被吃掉這種圍棋最基礎的知識對嗎?
大橋:對。這種甚麼知識都是完全都靠自我對戰來從中學習的AI,就是「零」類型的AI。只不過,這種AI的學習成本也非常之高。也是這樣,這些基礎知識需要事先加入程式之中。(減少自我學習的成本)
採訪:就開發的方向性來看,先給予基礎知識就有種走回頭路的感覺啊。明明之前告訴我們這些AI就是不用人類的知識才特別強的啊...。
大橋:其實並非如此。一開始當AlphaGo Zero登場時,人們都認為「難道人類以往建築起來的知識背景都變成無用的東西了嗎?!」而感到絕望。不過AlphaGo Zero真正厲害之處,還是在AlphaStar或AlphaFold(*)這種可以泛用到其他功能的應用上。但如果說到要給圍棋專門使用的AI提高實力的話,還是借助人類的幫助,讓深度學習更有效率的AI,更能從現在的棋力狀況中進步。
*這兩種軟體都是用AlphaGo Zero的手法發展出來的AI。AlphaStar是用來打StarCraft的AI、而AlphaFold則是用來預測蛋白質構造的AI。
採訪:原來如此...。
大橋:雖說是很細微的部分,我在想,所謂的「深度學習法的AI中後盤比較弱」這件事,其實可能是「給AI學習的訓練資料都是中後盤比較弱,所以才會變得比較弱」吧。
採訪:啊!的確是這樣!中後盤比較弱的深度學習法自我對戰生出來的棋譜,其中後盤很弱是理所當然的啊。所以如果用這樣的棋譜來學習的話,中後盤就永遠是維持同樣水準的弱啊...。
大橋:所以我想星陣或Katago這些AI是一開始就加入了領域知識,再讓AI自我對戰學習,才可能生出比較強的中後盤訓練資料吧。哎,不過我想它們強大的秘密也不僅只於此就是了...。
至於Alpha Go Zero是靠著暴力來突破這個問題的。就是使用了40Block的計算與大量的TPU。
採訪:(大橋老師又說出了以前沒聽過的名詞了....)請問,所謂的Block這種東西,也是越多越厲害嗎?
大橋:對。所謂的Block數,是用來表示模仿人腦學習用的神經網路的規模大小。Block數越多,印象上就是相當於腦容量越大。所以印象上大家都說Block數越多越強...但星陣的開發者又說其實也未必如此(笑)。
採訪:好難啊(笑)。雖說這是在將棋界還聽不太到的話,但如果深度學習法在將棋界也普及之後,也是很有用的觀念吧?
大橋:總之Block數就是很重要。Block數比較少時,搜尋著手會比較快,所以才需要去比較單位時間下學習的強度才有意義。相對地,雖然搜尋著手速度比較慢,但利用40Block去做強化訓練的結果,幾乎都比20Block的結果強。
採訪:稍微轉一下話題...深度學習這種手法,是不是也有瓶頸呢?
大橋:如果AI進步到神的領域的話,我想就完全不需要人來幫助學習了。不過,現在就還是要有人類相助學習的AI版本比較強...。
採訪:我覺得也可以反過來說,這是在證明現在還不存在完美的電腦程式吧。
沒有留言:
張貼留言