「每周一起讀」是由 PaperWeekly 發(fā)起的協(xié)同閱讀小組。麗水電話機(jī)器人都有哪些我們每周精選一篇優(yōu)質(zhì)好文,利用在線協(xié)同工具進(jìn)行精讀并發(fā)起討論,在碎片化時(shí)代堅(jiān)持深度閱讀。目前已成立的專題小組有:Chatbot、機(jī)器翻譯、知識(shí)圖譜、GAN、推薦系統(tǒng)、QA和多模態(tài)。
今天,備受各界關(guān)注的 AlphaGO 與柯潔三番棋對(duì)戰(zhàn)第一局比賽剛剛結(jié)束,AlphaGO 執(zhí)白以 1/4 子優(yōu)勢(shì)戰(zhàn)勝了世界圍棋第一人柯潔。
PaperWeekly 將于今天正式成立增強(qiáng)學(xué)習(xí)專題閱讀小組,在組內(nèi)發(fā)起「每周一起讀」活動(dòng), 帶大家進(jìn)一步感受增強(qiáng)學(xué)習(xí)的魅力。我們將每周選定一篇優(yōu)質(zhì)文章,并為大家提供可撰寫讀書筆記和在線協(xié)同討論的閱讀工具。
想和我們一起研讀優(yōu)質(zhì)paper麗水電話機(jī)器人都有哪些?
點(diǎn)擊「閱讀原文」提交內(nèi)測(cè)申請(qǐng),我們將在 48 小時(shí)內(nèi)完成審核并和您取得聯(lián)系。
閱讀小組往期筆記精選:
以下新聞內(nèi)容轉(zhuǎn)載自機(jī)器之心:
第一戰(zhàn),AlphaGo 贏了!幾乎不出人意料。
5 月 23 日,中國(guó)圍棋協(xié)會(huì)和浙江省體育局?jǐn)y手谷歌聯(lián)合主辦的「中國(guó)烏鎮(zhèn)·圍棋峰會(huì)」正式開(kāi)幕,直到 5 月 27 日,柯潔與 AlphaGo 的三番棋人機(jī)大戰(zhàn)以及人機(jī)團(tuán)隊(duì)賽、配對(duì)賽將陸續(xù)展開(kāi)。
大賽啟動(dòng)儀式
關(guān)于這次圍棋人機(jī)對(duì)話,有幾大懸念引人注目。現(xiàn)役最強(qiáng)棋手柯潔是否有機(jī)會(huì)獲勝還是將完全敗北——這無(wú)疑是本輪對(duì)戰(zhàn)的最大看點(diǎn)。此外,再次出戰(zhàn)的 AlphaGo 是否已經(jīng)是使用全新方式訓(xùn)練的新版本也是一大焦點(diǎn)。時(shí)隔 4 個(gè)多月,AlphaGo 的能力是否又有提升?它能否將人類對(duì)于圍棋的理解帶上一個(gè)更新的高度?這些問(wèn)題即將在短短五天的對(duì)決中揭曉。
除了現(xiàn)場(chǎng)報(bào)道之外,機(jī)器之心邀請(qǐng)阿爾伯塔大學(xué)教授、計(jì)算機(jī)圍棋頂級(jí)專家 Martin Müller 以及《深度強(qiáng)化學(xué)習(xí)綜述》論文作者李玉喜博士,共同觀看了比賽直播。Müller 教授所帶領(lǐng)的團(tuán)隊(duì)在博弈樹(shù)搜索和規(guī)劃的蒙特卡洛方法、大規(guī)模并行搜索和組合博弈論方面頗有建樹(shù)。實(shí)際上,參與了大師級(jí)圍棋程序 AlphaGo 的設(shè)計(jì)研發(fā)的 David Silver 和黃士杰(Aja Huang)(他們分別是 DeepMind 的 AlphaGo 相關(guān) Nature 論文的第一作者和第二作者)都曾師從于他。李玉喜博士是加拿大阿爾伯塔大學(xué)計(jì)算機(jī)系博士、博士后。致力于深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、機(jī)器學(xué)習(xí)、人工智能等前沿技術(shù)及其應(yīng)用。曾任電子科技大學(xué)副教授;在美國(guó)波士頓任資深數(shù)據(jù)科學(xué)家等。2017 年 1 月在 arXiv 上發(fā)表《Deep Reinforcement Learning: An Overview(深度強(qiáng)化學(xué)習(xí)綜述)》論文 。
Martin Müller 教授和機(jī)器之心一起觀看直播
AlphaGo 第一局意料之中的勝利
下午 14:47,在經(jīng)過(guò)了 4 小時(shí) 17 分鐘的激烈比賽之后,AlphaGo 以四分之一子的優(yōu)勢(shì)獲勝,這并不讓人感到意外。
比賽前一天,柯潔在微博上表達(dá)了自己對(duì)即將到來(lái)的比賽的看法和期待,字里行間并沒(méi)有透露出擊敗 AlphaGo 的信心,他在微博上寫道:「無(wú)論輸贏,這都將是我與人工智能最后的三盤對(duì)局……現(xiàn)在的 AI 進(jìn)步之快遠(yuǎn)超我們的想象。像國(guó)產(chǎn)的絕藝、日產(chǎn)的 ZEN 雖然和 Alphago 還有著較大差距,但已經(jīng)表現(xiàn)出超強(qiáng)的實(shí)力了... 我相信未來(lái)是屬于人工智能的。」
這場(chǎng)比賽不僅是 DeepMind 的盛事,也得到了 Alphabet 高層的重點(diǎn)關(guān)注。DeepMind CEO Demis Hassabis 和 Alphabet 總裁 Eric Schmidt 都來(lái)到了現(xiàn)場(chǎng)。
「祝柯潔好運(yùn)!」賽前,Hassabis 表示了對(duì)圍棋界深深的謝意,他說(shuō),中國(guó)是人類圍棋的誕生之地。此次比賽的宗旨在于探索新打法。圍棋世界就好像宇宙一般,再過(guò)一萬(wàn)年也不可能窮盡所有的打法。或許人工智能可能提供新的啟迪。去年和李世乭的比賽結(jié)束后回到倫敦,DeepMind 對(duì) AlphaGo 進(jìn)行了全新的架構(gòu)更新,推出了升級(jí)版本 Master,希望 AlphaGo 能走自己創(chuàng)新打法的路。
Hassabis 強(qiáng)調(diào):「這不是人機(jī)大賽,而是人類使用機(jī)器探索新的方法,AlphaGo 就像哈勃望遠(yuǎn)鏡,能幫助我們看到更遠(yuǎn)的未知。不管結(jié)果如何,最終勝利屬于人類。」
現(xiàn)年 19 歲的柯潔是中國(guó)圍棋九段選手,祖籍浙江麗水。他從 5 歲就師從周宗強(qiáng)五段正式開(kāi)始學(xué)棋,2008 年 10 歲升初段開(kāi)啟職業(yè)生涯。他曾獲得第 2 屆百靈杯世界圍棋公開(kāi)賽冠軍、第 20 和 21 屆三星杯世界圍棋公開(kāi)賽冠軍、第 2 屆夢(mèng)百合杯世界圍棋公開(kāi)賽冠軍,在世界大賽中曾創(chuàng)造過(guò) 14 連勝的戰(zhàn)績(jī)。在本次圍棋人機(jī)大戰(zhàn)開(kāi)打前夕,圍棋排名網(wǎng)站 Goratings 更新了截至 5 月 21 日的世界圍棋等級(jí)分排名。將在 23 日-27 日和 AlphaGo 展開(kāi)對(duì)決的柯潔九段繼續(xù)毫無(wú)懸念繼續(xù)領(lǐng)跑,他與第二名樸廷桓的分差已有 30 分之多。
這場(chǎng)圍棋人機(jī)大戰(zhàn)是從上午 10:30 開(kāi)始的;中國(guó)棋院院長(zhǎng)華以剛、世界圍棋女子冠軍徐瑩組合與常昊張璇夫婦輪番進(jìn)行了講解。
柯潔執(zhí)黑子,第一手棋,下在右上角,以示對(duì)對(duì)手的尊敬。黃博士代替 AlphaGo 執(zhí)白子。與 AlphaGo 交手后,柯潔研究了一年多 AlphaGo 喜歡的三三式,吸取了教訓(xùn),對(duì) AlphaGo 的落子 有所防范,并率先在右下角點(diǎn)三三,使出了 AlphaGo 的下法。「柯潔的這一步是 AlphaGo 的風(fēng)格」Müller 說(shuō)道。「在去年 AlphaGo 比賽之后,很多頂尖棋手都已分析了 AlphaGo 的棋風(fēng),并將其應(yīng)用于實(shí)戰(zhàn),柯潔最近已在正式比賽中使用了這種下法并獲勝。」柯潔棋風(fēng)依舊強(qiáng)硬,AlphaGo 還是不走尋常路。
比賽過(guò)程中柯潔完全沉浸在自己的思考中,幾乎未抬頭看對(duì)面的黃博士一眼。
比賽 4 個(gè)小時(shí)之后,這場(chǎng)人機(jī)對(duì)弈大戰(zhàn)結(jié)束,AlphaGo 以四分之一的子獲勝。最終柯潔用時(shí) 2 小時(shí) 47 分,AlphaGo 用時(shí) 1 小時(shí) 30 分。自此,當(dāng)前世界排名第一的棋手和人工智能 AlphaGo 的第一局比賽落下了帷幕,結(jié)果基本上沒(méi)有超出任何人(包括柯潔自己)的預(yù)料。
結(jié)局盤面
柯潔與 AlphaGo 的第二局比賽將在 5 月 25 日上午 10:30 開(kāi)賽,柯潔能否在下一場(chǎng)比賽上取得出人意料的成績(jī),讓我們拭目以待。
AlphaGo 升級(jí)版
過(guò)去一年多,只要你稍微關(guān)注過(guò)科技新聞,就一定看到過(guò) AlphaGo 的名字(有時(shí)也被人稱為「阿爾法狗」)。去年 3 月份,AlphaGo 成為了世界上第一個(gè)擊敗世界頂級(jí)職業(yè)選手的圍棋程序。在擊敗了李世乭后,AlphaGo 或許已經(jīng)成為了世界上最著名的人工智能程序。
但大勝李世乭的 AlphaGo 版本終究還是輸了一場(chǎng),所以還并不完美。據(jù)了解,當(dāng)時(shí) AlphaGo 開(kāi)始主要是依靠大量學(xué)習(xí)人類棋手的棋譜來(lái)提高棋藝。隨后 AlphaGo 進(jìn)入到完全的自我深度學(xué)習(xí)階段,也就是完全摒棄人類棋手的思維方式,按照自己(左右互搏)的方式研究圍棋。對(duì)于 AlphaGo 是否使用人類棋譜的問(wèn)題,李玉喜博士評(píng)論說(shuō):「計(jì)算機(jī)圍棋是一個(gè)優(yōu)化問(wèn)題,對(duì)于 AlphaGo,就是在優(yōu)化它所采用的深度神經(jīng)網(wǎng)絡(luò)的參數(shù)。從優(yōu)化的角度說(shuō),可以從任何初始值開(kāi)始,利用隨機(jī)梯度下降等算法進(jìn)行優(yōu)化。利用人類棋譜,可以幫助設(shè)置一組不錯(cuò)的初始值,很可能可以提高尋找最優(yōu)參數(shù)的效率;而如果不用人類棋譜,理論上可以,但一開(kāi)始對(duì)參數(shù)的搜索可能有些盲目,個(gè)人認(rèn)為不應(yīng)該采用這個(gè)方案。」
2016 年 1 月 28 日,Nature 雜志以封面論文的形式介紹了 DeepMind 團(tuán)隊(duì)開(kāi)發(fā)的人工智能程序 AlphaGo,這也就是后來(lái)?yè)魯№n國(guó)棋手李世乭的 AlphaGo 版本。
AlphaGo 結(jié)合了監(jiān)督學(xué)習(xí)與強(qiáng)化學(xué)習(xí)的優(yōu)勢(shì)。通過(guò)訓(xùn)練形成一個(gè)策略網(wǎng)絡(luò),將棋盤上的局勢(shì)作為輸入信息,并對(duì)有所可行的落子位置形成一個(gè)概率分布。然后,訓(xùn)練一個(gè)價(jià)值網(wǎng)絡(luò)對(duì)自我對(duì)弈進(jìn)行預(yù)測(cè),以-1(對(duì)手的絕對(duì)勝利)到 1(AlphaGo 的絕對(duì)勝利)的標(biāo)準(zhǔn),預(yù)測(cè)所有可行落子位置的結(jié)果。AlphaGo 將這兩種網(wǎng)絡(luò)整合進(jìn)基于概率的蒙特卡羅樹(shù)搜索(MCTS)中,實(shí)現(xiàn)了它真正的優(yōu)勢(shì)。
在獲取棋局信息后,AlphaGo 會(huì)根據(jù)策略網(wǎng)絡(luò)(policy network)探索哪個(gè)位置同時(shí)具備高潛在價(jià)值和高可能性,進(jìn)而決定最佳落子位置。在分配的搜索時(shí)間結(jié)束時(shí),模擬過(guò)程中被系統(tǒng)最繁瑣考察的位置將成為 AlphaGo 的最終選擇。在經(jīng)過(guò)先期的全盤探索和過(guò)程中對(duì)最佳落子的不斷揣摩后,AlphaGo 的探索算法就能在其計(jì)算能力之上加入近似人類的直覺(jué)判斷。
但是新版的 AlphaGo 產(chǎn)生大量自我對(duì)弈棋局,為下一代版本提供了訓(xùn)練數(shù)據(jù),此過(guò)程循環(huán)往復(fù)。
AlphaGo 的棋風(fēng)一直為人驚嘆,與其交戰(zhàn)過(guò)的大多數(shù)棋手都感嘆它的不可琢磨,可謂是違和感十足,卻極具殺傷力。金成龍?jiān)硎荆骸窤lphaGo 機(jī)器人下棋的方法是人類想不出來(lái)的。它有幾次小的失誤,之前我認(rèn)為這種失誤對(duì)李世石是有利的,現(xiàn)在看起來(lái) AlphaGo 是以小失誤換取更大的勝利。」
AlphaGo 的強(qiáng)大之處不在于一招一式,而在于對(duì)每一局比賽展現(xiàn)出的全新視角。雖然圍棋風(fēng)格略顯抽象,但 AlphaGo 的策略展示了靈活與開(kāi)放的精神:沒(méi)有先入為主的訓(xùn)練讓它找到了最有效的下棋方式。實(shí)用哲學(xué)讓 AlphaGo 經(jīng)常走出違反直覺(jué)——但卻最為合理的走子。
盡管圍棋是一個(gè)有關(guān)圈地的游戲,但勝負(fù)手卻在于對(duì)不同戰(zhàn)區(qū)之間的取舍平衡,而 AlphaGo 擅長(zhǎng)創(chuàng)造這種平衡。具體來(lái)說(shuō),AlphaGo 擅長(zhǎng)運(yùn)用「影響力」——已有棋子對(duì)自己周圍的影響為自己謀取優(yōu)勢(shì)。雖然 AlphaGo 的價(jià)值網(wǎng)絡(luò)不能準(zhǔn)確地計(jì)算出影響的數(shù)值,但它的價(jià)值網(wǎng)絡(luò)能夠一次性考慮棋盤上的所有棋子,以微妙和精確的方式做出判斷。正是這樣的能力讓 AlphaGo 把自己在局部的優(yōu)勢(shì)轉(zhuǎn)化為整個(gè)比賽的勝勢(shì)。
作為 David Silver 與黃士杰在阿爾伯塔大學(xué)的導(dǎo)師,Martin Müller 對(duì)他的學(xué)生們感到驕傲:「我對(duì)他們感到非常驕傲,他們都曾是我的博士/博士后學(xué)生,在阿爾伯塔也得到了強(qiáng)化學(xué)習(xí)的先驅(qū) Richard Sutton 的教導(dǎo)。在阿爾伯塔期間,深度學(xué)習(xí)技術(shù)還未發(fā)展起來(lái)。那時(shí)我們的圍棋程序還非常簡(jiǎn)單,沒(méi)有加入蒙特卡洛樹(shù)搜索機(jī)制,只應(yīng)用了強(qiáng)化學(xué)習(xí)。隨后他們?cè)?DeepMind 獲得了大量資源,這也為其后的成功打下了基礎(chǔ)。」
此前,在 4 月 10 日下午,谷歌在北京的中國(guó)棋院召開(kāi)新聞發(fā)布會(huì),正式宣布 AlphaGo 將于今年 5 月 23 日在浙江烏鎮(zhèn)對(duì)決以柯潔為代表的中國(guó)頂尖棋手。與此同時(shí),DeepMind 官方也發(fā)表了一篇博客對(duì)新版 AlphaGo 的下棋思路進(jìn)行了講解。作為 AlphaGo 的一員,樊麾在 DeepMind 的這篇博客中寫到:AlphaGo 在最近的比賽里展現(xiàn)出了開(kāi)創(chuàng)性的棋風(fēng),其中最引人矚目的是早期點(diǎn)三三和全新的「妖刀」變化——每個(gè)都違反了常規(guī)理論,但在更深入的研究中被證明是高明的下法。
實(shí)際上,DeepMind 可能之前已經(jīng)對(duì)新的算法進(jìn)行過(guò)了測(cè)試。2016 年年底,AlphaGo 化名 Master,在網(wǎng)絡(luò)上與人類頂尖棋手下了 60 盤測(cè)試棋,取得 60 局全勝的驕人戰(zhàn)績(jī)。通過(guò)那次測(cè)試,谷歌旗下的 DeepMind 又發(fā)現(xiàn)了 AlphaGo 不少需要完善的地方,2017 年 5 月中下旬即將與柯潔進(jìn)行正式人機(jī)大戰(zhàn)的將是「AlphaGo 2.0 版本」。
Müller 認(rèn)為目前 AlphaGo 的性能已經(jīng)提升到了新的高度。「將蒙特卡洛樹(shù)搜索和策略網(wǎng)絡(luò)結(jié)合來(lái)提高策略網(wǎng)絡(luò)的性能?」Müller 說(shuō)道。「盡管這樣需要花費(fèi)大量的時(shí)間用于訓(xùn)練策略網(wǎng)絡(luò),但鑒于 DeepMind 是谷歌旗下的公司,他們可以利用到谷歌的強(qiáng)大硬件,甚至新一代 TPU。在去年與李世乭的對(duì)決后,DeepMind 的團(tuán)隊(duì)可以嘗試在很多方面上進(jìn)行改進(jìn)。」
對(duì)于與 AlphaGo 相近的機(jī)器對(duì)手,Müller 還表示騰訊的「絕藝」已是目前世界第二強(qiáng)的計(jì)算機(jī)圍棋程序,在未來(lái)或許會(huì)有擊敗 AlphaGo 的實(shí)力。
關(guān)于PaperWeekly
PaperWeekly是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事AI領(lǐng)域,歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」,小助手將把你帶入PaperWeekly的交流群里。