1:2,李世石最後一戰被AI擊敗,唯一戰勝過AlphaGo的人退役了

機器之心發表於2019-12-21

退役賽的最後一局,李世石回到了自己的家鄉。對戰之地距離李世石的出生地飛禽島 40 多公里,他曾在飛禽島度過了他的童年時光,也是在這裡決定成為職業圍棋選手。

1:2,李世石最後一戰被AI擊敗,唯一戰勝過AlphaGo的人退役了

12 月 21 日,全羅道新安郡曾島 EI dorado 度假村,李世石在第 181 手投子認輸。這是與 Handol 退役賽對戰的最後一局,前兩局,李世石一勝一負。最後一盤棋,還是惜敗於 AI。

12 歲入段,36 歲正式退役,24 年攬獲 14 項國際項冠軍和 32 項國內冠軍,從此以後,「李世石九段」不會再以職業棋手的身份出現在眾人面前。

最後一戰,他還是選擇了 AI

11 月 19 日,李世石向韓國棋院正式遞交辭呈,宣告了自己 24 年職業圍棋生涯的結束。

在接受韓聯社採訪時,他表示自己之所以選擇退役,是因為「AI 不可戰勝」:「在圍棋 AI 出現以後,我發覺即使自己成為第一名,也永遠需要面對一個不可戰勝的實體。」

李世石曾經的對手,曾經「絕代雙驕」的另一人——中國圍棋職業選手古力九段在得知這一訊息之後,在社交平臺上公開表示:「此刻只想給他一個大大的擁抱。」

1:2,李世石最後一戰被AI擊敗,唯一戰勝過AlphaGo的人退役了

圖源:新浪微博 @ 古力

當很多人都以為李世石的最後一戰會選擇與古力對決時,李世石卻選了韓國圍棋 AI「Handol」,理由是擔心「最後和他下棋的人會有負擔」。

這是他自從 2016 年負於 AlphaGo 之後,再一次對戰圍棋 AI,也是人類棋手第一次與 AI 下升降三番棋。

一直以來,人們都認為頂尖人類棋手與 AI 之間的差距在二子到三子之間,但由於從來沒有進行過正式比賽的對局,所以真正差距無從得知。李世石提到,自己最終選擇下升降棋,也是想確認人類和人工智慧之間的差距到底有多少。在對戰 Handol 之前,李世石說自己已經有大概 5 個月的時間沒有參加過比賽,也幾乎沒有進行過圍棋訓練。

北京時間 12 月 18 日 12 時,李世石與 Handol 開始第一局對弈。李世石執黑被讓兩子,按 7 目半還子。前半盤黑棋先拿到右上角實地,勝率一直保持在 80% 以上。隨後白棋開始反擊,直到第 78 手之前,勝率一直處於上升階段。

轉折點出現在李世石的第 78 手(值得一提的是,李世石當年對戰 AlphaGo 獲勝的唯一一局,勝負手同樣是第 78 手)。黑棋吃掉白棋棋筋,加之 Handol 在第 84 手徵子失誤,只得在第 92 手時投子認輸。

1:2,李世石最後一戰被AI擊敗,唯一戰勝過AlphaGo的人退役了

第 78 手,李世石再現「神之一手」。

這場比賽僅用兩小時就分出了勝負, 在 100 手以內即告結束。儘管李世石表示賽前曾連續練習了十天的被讓兩子棋,「幾乎醒著的時候都在練棋」,但他也表示未能料到自己會在與 AI 的對決中獲勝。

1:2,李世石最後一戰被AI擊敗,唯一戰勝過AlphaGo的人退役了

第一局的最終棋局。

12 月 19 日,第二局。由於李世石在第一局比賽中獲勝,第二局 Handol 不再讓子,李世石仍然執黑先行。

這一局,李世石在第 31 手出現誤判,而後白棋的勝率預測一直保持在 90% 以上,到了第 40 手以後,勝負已經基本明朗。

1:2,李世石最後一戰被AI擊敗,唯一戰勝過AlphaGo的人退役了

第 31 手。

1:2,李世石最後一戰被AI擊敗,唯一戰勝過AlphaGo的人退役了

第二局的最終棋局。

最終李世石在第 122 步認輸。這一局時長 3 小時 20 分鐘,至此,李世石與 Handol1:1 戰平,而剩下的最後一局尤為關鍵。

人類再次在圍棋「人機大戰」中取得了一場勝利。谷歌 DeepMind 資深研究員、ALphaGo 主要程式開發者黃士傑曾在看完前兩盤對決之後表示,如果再有兩年的演算法更新和優化,AlphaGo Master 將會是最強的棋手。但 AI 要做到萬無一失,仍需要解決 bug 問題。

1:2,李世石最後一戰被AI擊敗,唯一戰勝過AlphaGo的人退役了

12 月 21 日,最後一局的賽場轉移到了李世石的家鄉全羅道新安郡。這一場李世石依然受兩子執黑挑戰 AI,黑棋貼目 7 目半。人類與 AI 在棋盤右下角展開激戰。

在最後一局中,Handol 解除了大部分限制,在每一步上花費了更多「思考」時間。AI 執白在右下角存活之後,逐漸將勝率從 20% 扳至五五開,李世石的思考時間則逐漸用盡。

1:2,李世石最後一戰被AI擊敗,唯一戰勝過AlphaGo的人退役了

弈至 111 手,李世石勝率降到 57.5%。圖源:新浪棋牌微博。

下午 2 時 50 分左右,李世石進入讀秒,此時白棋已在右側和左上成活,李世石試圖通過打劫尋找 AI 的破綻。

但李世石的努力並沒有扭轉頹勢,在弈至 159 手時,AI 判斷李世石的勝率降到 5%。

1:2,李世石最後一戰被AI擊敗,唯一戰勝過AlphaGo的人退役了

弈至 159 手,李世石勝率降到 5%。圖源:新浪棋牌微博。

最終,在行至 181 手時,李世石投子認負。

這是三局之中最漫長的一局,雙方對弈超過四小時。

1:2,李世石最後一戰被AI擊敗,唯一戰勝過AlphaGo的人退役了

第三局最終棋局。

賽後,李世石在接受採訪時表示:「這場比賽中,Handol 的表現與前幾場類似,如果自己能夠再謹慎一點,或許比賽的結果會有所不同。」對於退役後的工作,李世石還沒有做出選擇。

棋壇再無「李世石九段」

李世石的退役訊息來得突然,但也算早有苗頭。今年 3 月份,李世石在「三一運動一百週年紀念對局」中敗於柯潔之後,即透露過自身想要「在一年之內」退役的想法。

除了沒有信心戰勝 AI,李世石的退役似乎也和自己與韓國棋院之間的矛盾分不開。在韓國棋院的 24 年中,李世石曾提交過休職申請,也強行退出過棋士會,特立獨行的處事方式與其在棋盤上的風格如出一轍。

李世石 1983 年出生在距離全羅南道新安郡的飛禽島,愛好圍棋的父親是李世石的第一任導師。6 歲開始接觸圍棋的李世石是兄弟姐妹中年齡最小的一個,但也是天賦最高的一個。9 歲時,因大哥李相勳成功入段,父親終於也下定決心將李世石送到有「韓國圍棋山脈」之稱的首爾權甲龍圍棋道場學棋。

1:2,李世石最後一戰被AI擊敗,唯一戰勝過AlphaGo的人退役了

圖源:https://imgur.com/a/dHz3V

3 年零 6 個月後,年僅 12 歲的李世石成功入段,從此在韓國棋院開始了職業圍棋生涯。24 年來,李世石已經獲得了 14 個國際比賽冠軍,32 次國內比賽冠軍,皆僅次於李昌鎬,高居歷史第二。

2000 年,當時的「李世石三段」在巴斯卡杯天元戰和倍達王戰中擊敗柳才馨九段和劉昌赫九段,連獲兩個冠軍,成為圍棋史上成就最高的「三段」選手。但他卻拒絕參加升段賽,聲稱「段位並不能體現實力」。為此,韓國棋界不得不廢除了升段賽,改以成績定段位。2001 年,李世石在獲得第五屆 LG 杯世界棋王賽亞軍後升至七段,2003 年獲 LG 世界棋王戰冠軍,直升九段。

李世石的圍棋生涯中曾有一次「妥協」的退役風波,2009 年 6 月,李世石曾向韓國棋院提交過休職書,稱因「韓國棋院對棋手不合理的約束」而身心疲憊,計劃從當日起休職到 2010 年底。半年後,李世石復職,但桀驁不馴的性格並未改變。2016 年,李世石又與哥哥李相勳一起,因韓國棋院「剋扣獎金」的原因退出了棋士會。

唯一打敗過 AlphaGo 的人類

儘管在圍棋上已經登峰造極,真正讓李世石名聲大噪的還是與 AlphaGo 的「人機大戰」。

李世石在 2016 年 3 月與 AlphaGo 的一番激戰,被認為是人工智慧歷史上的一次里程碑事件——雖然李世石以 1:4 的比分落敗,但在比賽的第四局,李世石的驚天翻盤卻讓他成為了迄今為止唯一一個戰勝過 AlphaGo 的棋手。他在第 78 手出人預料的一擠,讓 AlphaGo 後續的反應出現失常,徹底改變了戰局——這與此次在第一局中戰勝 Handol 的場面何其相似。

李世石面對 AlphaGo 的那一次勝利,曾經為人類戰勝人工智慧帶來了一線希望,但後來李世石將勝利歸功於 AlphaGo 程式的缺陷。「我的第 78 手並不應該用直接的方式應對。」

當然,這樣的 bug 不止存在於 AlphaGo。李世石曾說:「在騰訊『絕藝』中,這樣的 bug 至今仍然會出現。即使現在的絕藝已經可以做到讓人類兩子勝利了,但它仍然會以奇怪的方式輸掉比賽,這是因為一個 bug 所致。」

在前三場比賽輸給 AlphaGo 之後,他曾感到相當沮喪。「我很少看網上對我的評論,但是輸給了阿爾法狗以後,我很好奇大家怎麼看我。意外的是,很少有人批評我。」

人類真的永遠不會再戰勝 AI?

這一次對戰 Handol,李世石賺了 2 億韓元(約合 121 萬元人民幣),包括 1 億 5000 萬韓元的基本出場費,每勝一局額外獲得 5000 萬韓元的獎金。

自從 2016 年 AlphaGo 大戰李世石之後,圍棋 AI 即被推上風口浪尖。基於近年以來深度學習強化學習的發展,AlphaGo 和各類圍棋 AI 的不斷升級,人們一度認為,人類再不可能戰勝 AI。

Handol 是韓國 NHN 娛樂公司推出的一款圍棋 AI,用以訓練的資料來自 1999 年以來 NHN 公司在遊戲業務方面的大量積累。與 AlphaGo 的進化路線相似,2017 年 12 月,Handol1.0 出世,當時已擁有人類職業棋手 9 段棋力,可以實現在人類棋譜及既定模式的基礎上對棋局進行預測,到了 Handol 2.0 已經能夠脫離棋譜,自己與自己下棋。在 NHN 看來,Handol2.1 的實力已經超越了當初對戰李世石的 AlphaGo。

2019 年 1 月,Handol 連續戰勝了申旻埈九段、李東勳九段、金智碩九段、樸正煥九段和申真瑞九段五位韓國頂級圍棋選手,8 月在山東舉行的「中信證券杯」世界智慧圍棋公開賽中,Handol 也捧回了季軍獎盃。

在「Handol」首局落敗之後,NHN 公司人工智慧專案的負責人李昌律推測稱,「輸掉這一局的原因 kennel 在於「Handol」總體學習量尚且不足,缺少對開局讓兩子和讓三子等棋局的學習」。

1:2,李世石最後一戰被AI擊敗,唯一戰勝過AlphaGo的人退役了

圖源:https://pulsenews.co.kr/view.php?sc=30800024&year=2019&no=1065937

據「Handol」研發團隊估算,「Handol」的棋力水平相當於世界圍棋中的 4500 積分,而目前李世石的積分為 3414 分,柯潔、樸廷桓等人類頂尖棋手的積分接近 3700 分。

圍棋 AI 領域,棋力最高的選手仍然是 DeepMind 公司的 AlphaGo,它也是第一個擊敗人類圍棋世界冠軍的人工智慧程式。在 2017 年柯潔與 AlphaGo 對戰之後,David Silver、谷歌大腦負責人 Jeff Dean 等人曾在烏鎮圍棋峰會現場對 AlphaGo 背後的技術進行過解讀。

 AlphaGo 最初主要是依靠大量學習人類棋手的棋譜來提高棋藝,之後 進入到完全的自我深度學習階段,也就是完全摒棄人類棋手的思維方式,按照自己(左右互搏)的方式研究圍棋。結合監督學習強化學習的優勢,AlphaGo 通過訓練形成一個策略網路將棋盤上的局勢作為輸入資訊,並對有所可行的落子位置形成一個概率分佈。然後訓練一個價值網路對自我對弈進行預測,以-1(對手的絕對勝利)到 1(AlphaGo 的絕對勝利)的標準,預測所有可行落子位置的結果。

1:2,李世石最後一戰被AI擊敗,唯一戰勝過AlphaGo的人退役了

AlphaGo 真正的優勢來源於將策略網路和價值網路整合進基於概率的蒙特卡羅樹搜尋(MCTS)中。在獲取棋局資訊後,AlphaGo 會根據策略網路探索哪個位置同時具備高潛在價值和高可能性,進而決定最佳落子位置。在分配的搜尋時間結束時,模擬過程中被系統最繁瑣考察的位置將成為 AlphaGo 的最終選擇。經過先期的全盤探索和過程中對最佳落子的不斷揣摩,AlphaGo 的探索演算法就能在其計算能力之上加入近似人類的直覺判斷。2016 年 1 月 28 日,擊敗李世石的 AlphaGo 版本登上《Nature》封面,隨後在 3 月即 4:1 擊敗李世石,名聲大振。

和人類不同,AlphaGo 沒有先入為主的概念,這恰恰也是所有圍棋 AI 的優勢所在:儘管有時 AI 的落子顯得違反直覺,但確實是最合理的。

烏鎮之後,DeepMind 宣佈 AlphaGo 從此不會再參與比賽,但在幾個月後推出了更強版本的圍棋 AI「AlphaGo Zero」。如果說 AlphaGo 版本最初還需要觀察數千場人類圍棋比賽來訓練如何學習圍棋,AlphaGo Zero 則直接跳過這一步,從自己完全隨機的下圍棋開始來學習圍棋,幾天之內即超越人類棋手的水平,並且以 100:0 的比分打敗了之前戰勝世界冠軍的 AlphaGo。

早期的 AlphaGo 使用「決策網路」選擇下一步棋的位置,使用「價值網路」預測每一個位置上決定的勝者。這兩個網路在 AlphaGo Zero 中被結合起來,從而使其更高效地訓練和評估賽況。並且,AlphaGo Zero 版本只需 4 塊 TPU 即可執行。

1:2,李世石最後一戰被AI擊敗,唯一戰勝過AlphaGo的人退役了

上個月,DeepMind 又推出了名為 MuZero 的「通用版」AlphaGo,在國際象棋、日本將棋圍棋的精確規劃任務中可以匹敵 Alpha Zero,在圍棋中甚至超過了 Alpha Zero。但與前輩不同的是,MuZero 不需要提前獲知規則。

圍棋 AI 領域,國內研究機構和企業也在發力,其中最有代表性的要數上文中李世石提到的騰訊圍棋 AI「絕藝」。「絕藝」誕生於 2016 年,實力或僅次於 AlphaGo。

「絕藝」的訓練主要包括人類棋譜資料庫和機器自對弈,它的演算法基於策略網路與價值網路兩大核心,並創新性地大幅提升了價值網路的精度,使其大局觀表現更好。在 2018 騰訊世界人工智慧圍棋大賽中,「絕藝」在決賽中 7:0 大勝另一款圍棋 AI「星陣」奪冠,半決賽五番棋和決賽七番棋不失一局,賽後「星陣」研發團隊亦稱讚「絕藝」已經「達到了 AlphaGo 的水準」。

雖然在圍棋的算力上,人類已經難以與機器相比,但棋手們可以通過與 AI 的對弈不斷提升自己的水平,甚至發展出更為先進的戰術。據古力此前透露,「絕藝」已經成為中國國家圍棋隊訓練專用 AI。

參考連結:

https://en.yna.co.kr/view/AEN20191218004052315?p=search

https://en.yna.co.kr/view/AEN20191219007151315?p=sports/index

http://www.hani.co.kr/arti/sports/baduk/921125.html

https://www.nhn.com/ko/pr/pressReleaseDetail.nhn

https://pulsenews.co.kr/view.php?year=2019&no=1014122

相關文章