2017年8月14日 星期一

從AlphaGo談圍棋的未來(7) 完


過度學習反而會變弱?

大橋:
再來,在擺完自我對戰的五十局棋譜後,會有一種是很強沒錯,但是不是有點學習過度的感覺。

孔:
過度學習?

大橋:
自我對戰最需要注意的,就是學習過度而陷入只有自己的世界之中了。

孔:
就很像大橋君啊(笑)。

大橋:
(苦笑),說的再詳細一點,就是光靠自我對戰中變強了後,繼續過度學習的話,諷刺的是可能會不適用於人類之上。身為開發主任的大衛.席爾維先生在研討會上發表說去年的阿發夠和今年版本的阿發夠棋力相差有三子,雖然是帶給大家很大的衝擊沒錯,但現場他也補充「所謂的三子,只是在排名評分系統上的差距」,我想就有包含這樣的意義在內吧。換句話說,新的阿發夠和舊阿發夠下個一千局,可能會一千局都獲勝沒錯,但這樣的局差,是否對人類也適用,其實是誰也不知道的。必須和各種形式的棋風下過才驗證的出來。

孔:
說的極端一點,就算排名評分系統上差了四到五子,和人類的頂尖棋士來下也讓不到四到五子。

大橋:
只看排名評分系統持續上升的結果,搞不好反而會出現輸給我們的可能性喔(笑)。

王/孔:
哈哈哈。

大橋:
我覺得去年輸給李世石先生的那個時候,搞不好就是出現了過度學習的負面效果。原本股溝方面在下第四局的時候,應該有五連勝的自信吧?所以輸掉第四盤,應該是帶給他們不小的打擊。就在那時股溝開發團隊就判斷出還是應該要和各種棋風的棋士來下才行。

孔:
不過自我學習的圍棋AI還是能夠累積非常多的資訊情報。

大橋:
為了讓搜尋著手夠有效率,就需要靠價值網路來砍掉不要的變化,然後被砍掉的變化之中,還是隱藏著好棋的可能性。

王:
最佳手段與根據勝率來選擇著手的AI下法,有必要確實區別出來。

大橋:
果然還是不得不把和完全解析不一樣的研究念頭放在心上。

孔:
我覺得有可能會出現棋力停止成長的狀況沒錯,但應該不至於會搞到變弱吧?

大橋:
也許是我的說法讓您誤解了,當然是不會變弱的。我只是想說,進入只有阿發夠的世界時,反而會出現無法對應人類著手的狀況。

王:
雖然是有可能不會再變強,但要說成是人類都可以下贏的話,還是會嚇人一跳。

孔:
我倒是覺得比起出現這種狀況,完全解析恐怕還比較快達成。就像剛才也提到過的一樣,不知道會不會再出現跟深度學習、強化學習不一樣方法的AI?這次股溝公司也發表了他們開發的半導體「TPU」對吧。有了這樣的東西後,只要用一台個人電腦就能跑得動阿發夠了。這個東西甚至可以用超級電腦「京」(日本最快的超級電腦)的18倍速度來計算。這簡直就是難以想像的速度了。就這樣的發展速度來考慮的話,恐怕還是去想完全解析甚麼時候會達成比較好。

大橋:
當然也有這樣的可能性。再來我也想稍微談一下貼目的東西。根據阿發夠自我對戰的結果來看,貼目七目半(中國規則)下,白棋勝率55%、黑棋勝率45%。聽到這樣的結果,不會覺得這個七目半貼目有點太大嗎?就這樣的意義來看,阿發夠這次也針對了貼目提出了一些問題。

孔:
結果就是要改成六目半是吧。

王:
要開始吐槽規則問題了嗎(笑)?總之,他們的確是提示了貼六目半是有意義的。

孔:
在中國,也有媒體對中國圍棋協會提出質問喔。好比說「貼目有可能改變嗎?」之類的。不管怎麼說,連柯潔也在下第三局時,因為白棋勝率較高,而希望第三局能持白(結果也真的依照他的願望,讓他持白)。

大橋:
如果黑棋只貼六目半的話,黑棋的勝率又可能會變成55%了。我個人是希望乾脆恢復不貼目棋好了。為了將來的完全解析好,我覺得人為的貼目設定反而會成阻礙。

王:
如果自我對戰,也改成不貼目的規則,恐怕又會變成完全不一樣的棋了吧。

大橋:
說到這裡,在這次的活動之前,也有謠傳說會出現完全不學習人類棋譜的阿發夠版本,實際上看起來應該是就是過去版本的加強版才對。

王:
我也覺得是這樣。要不要試著推敲看看?股溝開發團隊在舉辦活動前所說的要旨就是「加深自我學習的程度,讓跟人學習這件事的重要性下降」。這可以解釋成「漸漸不再使用人類的棋譜」,但這是不是說他們要做一個從頭開始就不學習人類棋譜的版本?這就沒人知道了。

大橋:
換句話說,剛開始時雖然是學習人類的棋譜,但到了現在則是以阿發夠自我對戰來強化學習,而不再使用人類的棋譜了。或者是說,從阿發夠出現的經歷來看,最近這個階段就是只有利用自我對戰來進行強化學習了。就職業棋士的角度而言,當然還是希望主張阿發夠現在會變得這麼強,就是使用我們的棋譜的關係啊(笑)。

孔:
哈哈哈。

大橋:
雖然還有很多聊不完的話題,不過已經到了預定要結束的時間了。今天真是謝謝大家。

===



相關系列文章:

沒有留言:

張貼留言