2021年3月5日 星期五

人類與AI的關係(04)


圍棋AI帶給人類的影響


採訪:將棋AI在今年五月也要辦世界大賽了。可以預期比賽中深度學習法的軟體可以把評分值(Rating)提升到5000左右的水準然後席捲比賽的前幾名吧。


大橋:哇。


採訪:不過,就算將棋AI強到這種程度,相關的程式開發者還是說其實像佈局戰術之類的東西還是沒有甚麼改變。但圍棋在佈局上不是因為AI而有了驚天動地的大變化了嗎?


大橋:是沒錯...要說到不一樣的話,首先就是看到星位就馬上進三三...。


採訪:就是所謂的「直接進三三」嗎?


大橋:對。雖說這是大家會說到最大的差異。


採訪:雖說?


大橋:其實還是可以看到到很像的東西。


採訪:那是跟甚麼很像?


大橋:人類和AI很像...換句話說現在的圍棋AI,不管哪一種程式在佈局階段都只下星位和小目。就好像將棋裡面大家都只下「居飛車」一樣。至於下在天元的AI,除非是人類刻意指定程式這樣下,否則也是不存在的。通通都是下在角上的星位或小目。


採訪:所謂的星位就是棋盤角落上的黑色點。而小目就在星位的旁邊一路(左右各一個)。天元是棋盤正中央的黑點位置,在棋靈王中,如果第一著下在天元上,每個對手都會生氣喔(笑)。


大橋:AI讓人耳目一新的,還是只有星位直接進三三的這種下法。除此以外,好比說被稱為「掛角」的手法,其實AI和人類是一樣的。再之後的下法雖然多少和人類不一樣...但把AI的下法看成和人類不一樣或是看成很像人類的下法,就要看每位棋士對於棋的感受程度不同了。


採訪:剛才出現了很多圍棋專門術語可能會讓讀者看得有點辛苦...簡單來說,都是在講下棋時怎麼和敵人近身搏鬥的意思。


大橋:幾年前,看到AI使用對星位直接進三三的手法時,當時五十六十歲這個階層的某位棋士就說:「哎呀...這種下法太難看了,我絕對不會下!!」;然而同一天才剛拿下新人王頭銜的廣瀨優一老弟(五段)卻說:「哇...這種直接進三三的下法真是令人感動啊!」(笑)。


到了最近,我聽說了某位前輩棋士喝酒喝到開心時、說了「我可不想輸給星位直接進三三的騎士」言詞的傳說。另一方面,18歲時贏得阿含桐山杯冠軍的六浦雄太老弟(七段)則說:「AI也都是在下星位和小目,而經過漫長歷史研究也走到同樣下法的人類,不也是很厲害嗎?」。


採訪:所以資深棋士和新秀棋士對於AI的看法相差到這麼大喔?!


大橋:我看過羽生老師(將棋棋士羽生善治)的專訪,裏面也提到了很多關於美學意識的東西。令我感興趣的是,現在的新秀棋士對於AI的著手感覺到美妙。同樣的眼光去看五十年前職業棋士下的棋的話,就會覺得非常不對勁。不過相反地,還是有人會對那時候的棋感動到不行的...。


所以我覺得美學意識這種東西,會根據學習的環境而有所變化...。話又說回來,人類的美學意識本來就沒有個基準吧?


採訪:大橋老師以前在專訪中提過新秀棋士們使用AI檢討時,常常會出現「這樣是藍色喔」或「這是蕁麻疹」的講法?


大橋:對對!


採訪:AI會把最佳落點用藍色閃光表示,所以大家就把最佳落點稱為「藍色」。相反的如果無法把最佳落點聚焦在某個點上而進入了全盤探索的狀態時,棋盤到處都會閃光,這樣的情形就被稱為「蕁麻疹」。像這樣,等於就是因為AI的影響而改變了圍棋用語吧。


大橋:對。大家都會說「這是藍色」。就連海外的棋士也會說「藍點」的樣子。好比說:「This is Blue Point」(發音滿好的)!


採訪:我常常覺得圍棋用語是不是殺伐感很重啊?好比說斷啊、殺啊的。不過在AI導入之後,這種「藍色」或「蕁麻疹」這種用詞就完全改變了聽起來的感覺。這對於我這種專門寫文章的人來說,是非常有意思的地方呢。


勝率與目數


採訪:順便請教一下,圍棋AI是用勝率多少百分比來表示形勢的嗎?將棋AI是用多少分就是了...。


大橋:圍棋是用像「黑棋勝率55%」的方式來表示的。不過,這在最近也有一部分改變了。就是星陣除了勝率以外,也會加上目數的參數來表示了。我覺得他們這方面整合的非常好而變得非常強。


採訪:把兩種參數(勝率與目數)整合起來嗎?


大橋:是的。圍棋本來就圍的地多者勝的遊戲啊。在這之前的AI就算說黑棋勝率為90%了,你也不知道黑棋到底是領先50目還是只有1目勝。


在勝率90%但只領先一目的狀況下,只要稍微有個小錯就會簡單被對方逆轉。因為AI幾乎不會犯錯,所以才能說勝率有90%;但人類可是經常會失誤,就完全不能說是勝率90%了。現在星陣會告訴你是90%領先一目的狀態,就是提供出更接近人類思考的評價方式。


順帶一提,現在還有一種稱為Katago的AI出現了。這是免費開放的程式,所以很多開發者會把這個程式拿來改造。用將棋軟體來比喻的話,就有點像是屋根裏王(やねうら王,暫譯)的感覺。


說到自由開放軟體,到去年為止,原本是「里拉零(Leela Zero)」最受歡迎,現在反而是Katago超越里拉零而非常熱門。這個Katago也是會表示目數的AI喔。


採訪:所以它是會告訴你「贏了多少目」對嗎?


大橋:對對對。最近的趨勢就是像星陣或Katago的AI,所以在免費開放軟體中,Katago的聲勢有水漲船高的感覺。


採訪:可以計算出目數的意思,也就是能夠補強被認為是深度學習法弱點的終盤能力嗎?


大橋:是的。原本深度學習法擅長的是影像辨認的方面。就是把圍棋當作是點狀影像來辨認,而用直覺的方式辨認出某個局面是輸是贏。為了算的出目數差距,也需要進行深度搜尋,所以在學習訓練時要讓AI去做到這件事,就技術上而言是非常困難的。不過,要是能做的好,就可以明白這樣的方式是比較強的。


不知道這是不是說還是要追尋人類的思考方式比較好,但顯然目標就是要做出人類型的AI,就是現在的開發方向。


採訪:那麼...在AlphaGo出現後,使用勝率評價值來思考的新秀棋士們,現在又要回去用目數來思考了嗎?


大橋:這種就是困難之處了....像Katago或星陣都是把勝率與目數這兩種參數整合再一起來進行形勢判斷的。


不過用目數表示有點太細了,常常會看到第一候補落點與第二候補落點僅僅只差0.1目左右的狀況。


採訪:不是一目,而是小數點以下的差距啊!


大橋:其實繼續看下去,會發現從第一候補落點到第十候補落點的目數差距只有一目左右的情形,其實也很常見。


採訪:哇...那,不就會搞不懂該怎麼選哪一點比較好了嗎?


大橋:具體來說...以我自己為例,我在佈局階段會用勝率來看,越靠近後半盤才越會使用目數來判斷。


在佈局階段要從相差不過只有一目左右的第一候補到第七候補落點中挑出一個下法,對人類來說還是太難了。


不過用勝率來看的話,就可能有7%左右的差距。好比說49%和56%的差距是不是就很明顯?


採訪:那麼像這樣由電腦提供我們勝率或目數這種明確的數字出來,是不是會讓人類的學習效率提升呢?


大橋:我想還是要有目數的顯示,才會對於學習效率有很明顯的提升。因為AI顯示勝率70%時,到底是領先10目的70%、或者是相差一目的70%?不用自己的頭腦去思考是完全無法搞清楚的。


不過,也會有「這裡相差一目,勝率就有70%了?」或「明明已經吃了很多對方的棋,怎麼勝率還是只有70%啊」之類的疑問就是了。


採訪:那...哪一種勝率70%會比較好選擇?


大橋:根據狀況判斷。畢竟也有被吃掉很多棋子的情況、接下來一步也沒走錯而繼續下下去的話,反而有可能吃掉對方的大龍獲勝的例子。但也會有可能只下錯一手棋,評價值就突然掉落很多的情形。


採訪:原來如此。就算同樣是形勢只差一目的狀況,也是有明顯勝定,或者是相當安全的情形對吧。其實這和將棋的形勢判斷也是沒有甚麼不一樣...。


大橋:這就是所謂的「評價值反烏托邦(dystopia)」現象(笑)。其實在將棋軟體中,如果也能把數字與勝率整合起來,應該也會變得更強吧...感覺是這樣才對。


如果把圍棋的目數帶入將棋來思考的話...好比說弄出以短手數獲勝為目標、像光速一樣就把對方的王將逼死的特別AI是不是也不錯?


採訪:原來如此...。


大橋:其實要做「零類型」的深度學習AI的成本是非常高的!所以希望將棋AI的各位開發者也能幫忙思考一些更有效率的方法,然後我們圍棋AI也可以跟著應用上去(笑)。


採訪:說到成本....開發這種AI大概要花多少錢呢?


大橋:開發出AlphaGo的DeepMind公司,為了開發AI而向Google公司租借伺服器,其金額高達3500萬美元!當初我看到這個報導時,可是嚇了一大跳啊。


採訪:咦?如果用美金對日圓是1:110的匯率來計算的話....不就要40億日圓以上?!哇哇哇!做深度學習開發,原來要花這麼多錢啊...?


大橋:總之需要的資源非常龐大。以AlphaGo Zero來說,就用到了2000顆TPU。當初臉書在開發「ELF Open Go」這個圍棋AI時,也用到了2000顆GPU。而我們日本在開發Globis-AQZ時,也用到了1000顆左右的GPU。


採訪:1000!!需、需要到這麼多啊...?


大橋:說是1000顆,其實在日本也幾乎找不到能做到這種程度的地方...。


採訪:所以是利用海外的雲端服務來做開發嗎?


大橋:不,是產總研(產業技術總合研究所。這是隸屬日本經濟產業省的公立研究機關,也是擁有1000億日圓預算的日本最大規模的國立研究開發法人)。他們讓我們使用了名為「ABCI」的大規模AI雲端計算系統。


採訪:產總研的ABCI嗎?....嗯,原來是在2018年時是具有世界第五名性能的大規模雲端計算系統啊?據說裝載有高性能的GPU4352顆...原來在日本也有這樣的東西啊!


大橋:當時我們使用的是一個叫V100、具有當時最好的GPU4000顆以上的系統環境,大約借用了一年。我們最多的時候是用到約1000顆的程度,真是太感激他們了。


只不過,現在這個Globis-AQZ的開發也中止了。在日本則是變成了不再進行以企業為主體的大規模開發,而是像將棋一樣,要靠各位個人開發者努力的狀態。


和每位開發者聊過之後,雖然談到技術性話題都能談到很熱絡,但到最後,結論都會變成「日本,沒問題吧?!」,則已經是一種慣例了...(苦笑)。


採訪:而且這樣開發出來的軟體,竟然還是比不上絕藝對嗎?那它們到底是投入了多少資源啊?難道這等於是象徵科技業界裏中國佔有超越群雄的強大地位啊....。


大橋:不過,在圍棋中,大致可以分為日本規則與中國規則等兩種規則。Globis-AQZ可是一種可以對應日本貼六目半規則的圍棋AI。


而且由於在歐美,已經有了禁用像抖音(TikTok)這種中國開發的應用程式(App)

的例子,所以就算現在我們能使用類似像星陣這種海外的圍棋AI,但哪一天會突然被禁用,則是誰也無法預料的。


採訪:所以就算是為了防止出現這種情形,我們也應該把能在自己國家開發這件事看得非常重要才對!....話又說回來,AI的開發成本實在太高了,這也是個難解的問題啊。


===


相關系列文章:

沒有留言:

張貼留言