在成功擊敗歐洲圍棋冠軍職業圍棋二段樊麾之后,Google能繼續贏下去嗎?
近日,谷歌旗下的DeepMind公司官網公布了更多關于“阿爾法圍棋”(AlphaGo)與世界頂級圍棋選手之一李世石人機大戰的細節。比賽將于3月9日、10日、12日、13日、15日在韓國首爾進行,并在YouTube上全程直播。
此外,這場比賽的新聞發布會將在2月22日下午的韓國棋院舉行,屆時李世石和谷歌旗下DeepMind的CEO Demis Hassabis將公布比賽的詳細規則。其中Demis Hassabis將通過視頻連接現場,李世石則在現場接受問答。
AlphaGo將在3月與世界頂級圍棋選手之一李世石對弈(網絡資料圖)
此前,AlphaGo在沒有任何讓子的情況下以5∶0擊敗了歐洲圍棋冠軍職業圍棋二段樊麾,同時也擊敗了目前最好的圍棋程序中99.8%的對手。現在,這場即將在今年3月進行的人工智能與圍棋高手李世石的對陣:究竟各方勝算幾何?人類智慧能否守住“圍棋”這座堡壘?
勝算幾何?
對于這場對決,李世石信心滿滿。他在一份聲明中表示:“我很榮幸能夠對戰谷歌發明的人工智能系統。我認為,這將是圍棋史上最重要的一場比賽。因此我接受了挑戰。我很有信心贏得比賽。”
此前,職業二段棋手、圍棋資深教練劉軼一對《第一財經日報》稱,不用擔心,不會那么容易。不過他所在的朋友圈里,圍棋職業棋手們眾說紛紜,有些認為不可能,有些認為指日可待,還有聲音是“人類快被自己滅絕了”。
而在網絡上,人們認為AlphaGod的贏面似乎更大。例如,在BitBet網站上,AlphaGo被認為略占優勢;Good Judgment的預測認為,AlphaGo和李世石取勝的可能性為五五開。
而谷歌DeepMind工程總裁德米斯·哈薩比斯(Demis Hassabis)則表示:大部分圍棋棋手都認為,李世石的贏面占優。“他們認為,我們取勝的可能性不到5%,但他們不知道的是,我們的系統有著多大的進步。就在我和你們交談時,這一系統也在進步。”
事實上,AlphaGo在沒有任何讓子的情況下以5∶0擊敗了歐洲圍棋冠軍職業圍棋二段樊麾的事情,并非發生在今年1月,而是在去年10月,這意味著AlphaGo在與李世石比賽前,有近5個月的時間進行學習。
而搜狗CEO王小川的判斷則更為大膽。他提出了自己的兩個斷言,斷言一:AlphaGo將會完勝李世石;斷言二:除了圍棋,人工智能在其他博弈類的封閉游戲里也會橫掃一切,完勝人類。
Google憑什么?
在此前,Google人工智能程序AlphaGo是如何擊敗圍棋高手的?
Google AlphaGo的研究者David Silver說,AlphaGo系統的關鍵是,將圍棋巨大無比的搜索空間壓縮到可控的范圍之內。
而為了達到這一目的,AlphaGo系統將最先進的蒙特卡洛樹狀搜索技術與兩個深層神經網絡相結合,每個深層神經網絡均包含許多層,每層又包含數以百萬計的神經元一樣的連接。
在AlphaGo兩種不同的神經網絡中,“策略網絡(policy network)”的作用是預測下一步,并用來將搜索范圍縮小至最有可能硬起的那些步驟。另一個神經網絡“價值網絡(value network)”則是用來減少搜索樹的深度,每走一步估算一次獲勝方,而不是搜索所有結束棋局的途徑。
上述方法使得AlphaGo的搜索方式相比之前的方法更人性化。例如,深藍采用強力方法搜索的棋子位置要比AlphaGo多數千倍。而AlphaGo則相反,它通過想象下完剩余棋局來對下一步進行預判,如此多次反復。在上述模擬游戲中,策略網絡提出下一步的智能建議,而價值網絡則對走過的每個位置進行評估。
具體而言,Google首先采用圍棋專業棋手的3000萬步下法對價值網絡進行訓練,直到該網絡對人類下法預測準確率達到57%(AlphaGo之前的紀錄是44%)。
但AlphaGo的目標是擊敗水平最高的人類棋手,而不僅僅是模仿他們。為了做到這一點,AlphaGo學會自己發現新策略,通過自身兩個神經網絡之間成千上萬的對弈,采用被稱為強化學習的試錯法逐步進行改善。這種方法提高了策略網絡的效率,以至于最原始的神經網絡(即其中不包含任何樹狀搜索)可以擊敗最尖端、構建有巨大無比的搜索樹的圍棋軟件。
這些策略網絡又反過來對價值網絡進行訓練,采用的還是從自我對弈強化學習的方法。這些價值網絡可以對圍棋的任何位置進行評估并預測獲勝方,而人們過去曾認為這個問題太過困難,根本無法實現。
如果在今年3月的對戰中,AlphaGo戰勝李世石,是否意味著人工智能已經超過人類?
或許還不能如此斷言。但在棋類游戲之外的領域,這場對決也將引發更多的思考——那些人們曾經以為人工智能不可能完成的腦力挑戰,是否都將被一一打破?未來人類是否會被人工智能所取代?相比這些問題,100萬的獎金顯得并不是那么重要了。
名稱 | 最新價 | 漲跌幅 |
---|