網頁

2018年2月5日 星期一

王銘琬九段的後阿發夠報告(11)



第六回 阿發夠零的戰法

「只用自我對戰,就能變成比誰都強」。雖說阿發夠零的論文實在有很多難以理解之處,但它還是達成
了以往未有的新成就。能夠超越Master,到達排名系統的最高分,這點還是有非常大的意義。

而且因為公開了阿發夠零與Master對戰的棋譜二十局,對我們職業棋士而言,能看到「如果這樣
下就可以贏Master」的局面是非常有趣的。雖說阿發夠零完全沒有進行棋譜學習的程序,其下出
來的棋卻和人類或Master並沒有非常大的差別,而且在某些局面下,它所下出來的棋會比
Master更接近人類的感覺。而阿發夠零和Master的對決也跟人類彼此之間的棋局一樣,最
後還是在比細算的高下,但我覺得還是能夠看出一些兩者在戰法上的不同。

[做活的方式非常巧妙]

我覺得阿發夠零的特徵,就在於「做活的方式非常巧妙」。從蒙地卡羅法時代開始,到阿發夠李世石版
本為止,要說電腦圍棋的強項,其實是比較擅長攻擊。圍棋程式在判斷局面好壞時,會進行非常多次的
「掃完全局(Roll Out)」的模擬。而這些模擬的計算量非常龐大,所以就沒有時間去細細計算每一手
的過程。模擬的著手只不過是依照依些簡單的原則,來確保算出足夠掃完全局的模擬數量。

圍棋在攻擊時,大多是阻擋或封鎖對方出頭的手法、所以「普通的下法」會比較多;相對地,治孤時,
就需要懂得好好縮在內側、或者需要在自己的陣地中加補以作出眼形,這時候就需要平常看起來像是壞
棋的「特殊著手」。在打入對方勢力的局面中,即便是棋力伯仲下看起來可以作活的地方,如果是用平
常的掃完全局的原則來模擬計算,就會造成下出作活需要的特殊著手的機率降低很多,常常就會使得電
腦的棋被吃掉。

另外,電腦也會判斷大模樣有比較高的機率能圍出實地,所以電腦也很容易變成厚勢派。就連阿發夠李
世石版本也是喜歡擴大模樣來攻擊對手,所以幾乎看不到它會打入狹小局面來治孤的局面。

至於Master是將PN(策略網路)與VN(價值網路)整合起來,再利用棋譜學習中獲得的感覺
來自我對戰,做到更有效果的更新向上。而且因為這樣,它的細算也變得確實起來,就能巧妙地找到做
活的手法。在此影響下,它的判斷也變得比較酷愛實利,導致它會開始選擇「馬上進三三」的下法。到
了阿發夠零的版本時,連「掃完全局」的程序都沒有了,所以就不再偏向前述的喜好攻擊,所以其處理
手法、特別是需要作活的場面下,就讓人覺得它變得更加厲害,

在阿發夠零與Master的對戰中往往能看出這方面的差異。既然不管哪一局都能看到這一點,我們
就直接來看這二十局的第一局。此局是阿發夠零持白。

1圖中阿發夠零也是馬上就白6進三三。由於它自己也下了白2、4的星位,所以顯然不是覺得進三三
就是好棋的關係,而是真的覺得這樣下是平分秋色吧。也是因為它並沒有先下了星位而不該怎麼下的先
入為主觀,所以這個判斷應該就更加值得相信。

1圖

Master雖然也很喜歡進三三,但當對方搶先向下發展時,它就會有想往上發展的傾向。像黑15
肩衝擴大就是Master愛下的一著,這一招在它對人類60局的出道戰中就下的虎虎生風。面對世
界一流棋士們時,它用了這招後就不知不覺搶到了上風,還記得一年前大家都把這個過程看成是像表演
魔術一樣的手法。這手黑15用我的「空壓法」思考方式是能想到,但在Master老師下出此招前
,我實在也沒有這樣下的勇氣。

但阿發夠零的白16卻脫先他投,也是非常有趣的下法。即便白棋先在A或B推一手,黑棋應該也會理
會才對,所以人類會覺得白棋先下A或B很不錯。像白16這樣脫先,就給了黑棋A或B的選擇權利,
萬一黑棋選了A擋,看起來就對下邊白棋非常嚴厲。但阿發夠零卻覺得接下來白棋有C碰等處理手段,
所以下邊白棋不怕受攻。用以前的想法來看,既然白棋要不理黑15的肩衝,不如一開始就不要下白
14,而是直接下白16比較好;但在「後阿發夠時代」中大家就會覺得這是白棋防止黑進三三、而有
原來如此的感覺。

最近職業棋士的對局中,關於進三三的攻防拉扯是逐漸激烈起來。而且因為討厭被對手進三三的關係,
佔角時選擇三三或小目的人也越來越多。這應該也是阿發夠帶給大家最簡單易懂的變化。

===


相關系列文章:

沒有留言:

張貼留言