第121頁 (第1/2页)
蒙特卡洛樹搜索,是圍棋ai的基本解決框架。圍棋ai每一步都選擇若干種落子,然後在電腦中模擬到終局,進行數子,最終選擇勝率最高的那一步棋。因為計算量太大,ai只能給出一個近似最優解,並非全枚舉,在alphago之前ai因此也只能達到業餘五級的水準。
這依舊是一個計算的範疇,而職業棋士很多時候並不是單靠計算做出判斷,像之前所說的全局觀念,就是蒙特卡洛樹搜索無法解決的問題。要讓ai發揮出人腦的效果,到底靠的什麼?
當天晚上,謝榆從美國的某個計算機大牛那裡,獲知了他想要的答案。
alphago團隊在蒙特卡洛樹搜索上加裝了策略網絡和價值網絡兩個模塊。
這兩個模塊讓alphago不是單純地計算,而是深度學習、模仿人類!
策略網絡,顧名思義是決策下一步走子。alphago會檢索kcs圍棋伺服器上所有真人在線對弈,進而判斷:如果是人類棋手處於它當前的位置,他最有可能走哪一步?它只對那些解進行計算!然後,它就自我對弈上千萬局,看看這一步是否真的是最優解!
遵循策略網絡,蒙特卡洛樹搜索的樹寬將大量減少,但深度依舊存在。上千萬局博弈,每一局都走到最後,依舊是可怕的計算量。
計算深度的減少用上了價值網絡。它以alphago產生的大量自我博弈作為樣本,檢索這種棋形在歷史上的勝率,把好壞、優劣變成了一個概率問題!那麼每一回,alphago計算到一定深度就可以停下來,直接估算當前勝率!
經驗的本質是概率,從本質上來說,以概率判斷局面的alphago,就是以&ldo;經驗判斷現狀&rdo;的人類大腦運行模式!alphago的走子,也完全遵循了人類棋手的思維歷程‐‐大量背譜,吸取經驗,自我思考,判斷局勢……然後估算其後若干步的棋局導向!
只是這個棋手,等於千百年來千千萬萬個棋手的經驗總和,並且,完全不會出錯罷了。
第二天,烏鎮再傳出消息:魏柯第二局,依舊慘敗!
魏柯意識到細棋是沒有機會的,一開始就主動展開攻勢,趁著布局階段想要對alphago進行壓制。他意識到alphago非常有經驗,嘗試用怪著、偏著對付他,導致子效低下,輸得比昨天更慘!王夢雨甚至在解說時失聲痛哭,即使他根本不是魏柯,也無法承受這種絕望的差距,可想而知魏柯所肩負的壓力。
然而公眾是難以理解的。消息一出,全網譁然。因為此前對魏柯寄望太高,現在輿論開始轉了風向,對人類失敗的恐慌很容易就演變成了對魏柯的憤怒:&ldo;魏柯他根本不能代表全人類&rdo;、&ldo;他之前是靠作弊獲勝的,谷歌怎麼會選中這種人&rdo;、&ldo;他腦子不太好使的吧&rdo;、&ldo;一年沒下棋,已經不是從前那個他了&rdo;……唱衰之聲頻頻出現。甚至又有黑子藉機挑事,想要將他徹底踩在腳下。
與此相對的,是alphago遭受到了所有人的追捧。開發人員為其植入了虛擬人格,專門註冊了一個網站,使得人類可以在alphago不比賽的時候與他進行交流溝通。因為電腦天生具有多線程任務的能力,它迅速地成為了網友的手機寵物。人類在頻頻的調戲中驚訝地發現:這位ai朋友還挺可愛的!alphago的新浪微博在幾日之內吸粉無數,還成天模仿著棋士魏柯的語言風格編纂微博,取而代之之心昭然若揭。
中國棋院對於谷歌開發組歡天喜地過大年的舉動一片低氣壓。大眾只看輸贏,他們卻看得出門道,alphag
本章未完,点击下一页继续阅读。