2018年1月1日 星期一

王銘琬九段的後阿發夠報告(14)



第五回 最後一擊:阿發夠「零」

[超越預期的阿發夠零]

2017年10月「阿發夠零」的論文再度動造成世界轟動。迄今為止的阿發夠各個版本,還是先學習
人類的棋譜,利用其成果再加以強化,而到達超越人類的程度。然而,阿發夠零卻沒有利用人類的棋譜
。根據發表它是歷經三天490萬局的自我對戰之後,對上贏過李世石的阿發夠版本一百戰一百勝;然
後再花上四十天,對上擊破柯潔九段的「Master」版本,獲得了一百戰89勝的成績。

於是柯潔馬上在微博上發表了「對於AlphaGo Zero而言,人類真是太多餘了」感言。過去
的阿發夠版本的著手還可以看成是「歷代圍棋名人之集大成」,但阿發夠零出現後,我們就不能這麼說
了,實在不得不讓人覺得很難過。

我這個「後阿發夠報告」連載是在2017年5月聽到阿發夠發表退休宣言之後,讓我有了想要替它過
去的豐功偉業做個總結的動機,於是完全無法想像在那之後阿發夠團隊還會有這樣的發表出來。自從2
015年末開始,阿發夠讓我們驚艷以來,這似乎是他們最後一個想要完成的目標了。

「沒有教學的學習」也是AI機械學習中的一個方法。通常會使用在很難獲得範本的領域之中。對於圍
棋而言,因為人類的棋譜非常多,大家反而會覺得這種不需要教學的自我學習可能會很困難。現在阿發
夠這個沒有教學的新版本,對上其舊版本獲得了大幅領先的成績,而大大拓展了這種沒有教學的學習之
可能性。

在圍棋上,這種「沒有教學的學習」原本是被期待為可以發現以往人類想不到的手法。雖說奇怪的手法
誰都會下,但這些怪手法如果不強就沒有意義了。現在世界各地還有很多圍棋AI在持續開發著,但這
些程式都還沒做出更強的版本,所以原本圍棋是被認為不適合做這種「沒有教學的學習」的東西。

然而阿發夠零卻顛覆了這種預期,而贏得了全世界的讚賞。但是不知道是不是該說「這是不幸中的大幸
」?因為阿發夠零的著手和Master或是人類所下的棋並沒有甚麼太大的不同。換句話說,我們以
往的圍棋研究並沒有走偏,而讓人鬆了一口氣,甚至還有讓人隱約感到自豪的一面哩。

[非常清爽的內容]

阿發夠零雖然架構上是「沒有教學的學習」,但卻很容易理解。以往的阿發夠是利用學習棋譜而先建立
起策略網路(PN),然後再以PN為基礎開始自我學習而建立起價值網路(VN)。然後使PN與V
N巧妙地整合在一起,而下出每一步棋。

但阿發夠零因為沒有學習棋譜,所以也就沒有最初的PN。它是藉由自我對戰中,學習到將該下在甚麼
地方的PN與局面判斷的VN合而為一的方法。這讓系統本身變得很清爽,效率也會變好。以往要將P
N加入自我對戰的成果是很困難的,但現在是一開始就和VN整合在一起,這讓程式的更新變得很有效
果,這一點非常重要。不過這種做法在Master版本上就已經達成了,所以不能說是阿發夠零的突
破就是了。

阿發夠零在其他的地方也變得很精簡,甚至可以說是一種「單純而美麗」。另一方面,這其中使用的技
術都是現有的東西,也有人評論為這不過是藉由大企業的力量將這些技術整合在一起罷了。就連我參加
的「GoTrend」團隊的工程師們也說,他們也曾想過跟阿發夠零同樣的東西,但太過耗費金錢與
時間,所以馬上就放棄了。

在阿發夠零的論文中提到,對戰的版本是使用了4個TPU。然而,論文中卻未強調他們似乎在自我對
戰學習中使用了2000個TPU!而且阿發夠零也不是乖乖放在那邊跑個三天就可以了,途中也必須
加入DeepMind公司優秀團隊很多技術性的調整。

即便如此,這個「沒有教學的學習」還是做出了很高水準的成果,這點非常棒。總之這樣的手法似乎也
可以活用在新材料的探索或是蛋白質摺疊構造的解析。此外,也許可以做出和以往「有教學學習」的手
法混在一起的「混種(Hybrid)程式」。所以圍棋AI阿發夠零的應用範圍與可能發展性可說是非常之
大。

===



相關系列文章:

沒有留言:

張貼留言