AlphaGo Zero，一次成功的炒作而已？

AI科技大本營發表於2018-04-18

原文網址 : https://blog.csdn.net/dqcfkyqdxym3f8rb0/article/details/79990846

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

編譯 | 阿司匹林

出品 | AI科技大本營（公眾號ID：rgznai100）

【AI 科技大本營按】2016 年 3 月，AlphaGo 擊敗世界頂尖職業圍棋手李世石，在媒體上掀起巨大的波瀾。一年多以後，AlphaGo 的升級版 AlphaGo Zero，在不採用任何人類棋譜作為訓練資料的情況下，通過自我對弈，僅用 40 天就超越了所有舊版本。一時間，人們將所有最好的溢美之詞紛紛送給了 AlphaGo Zero. 然而，AlphaGo Zero 真有那麼偉大嗎？來自史丹佛大學的電腦科學研究生 Andrey Kurenkov 從辯證的角度發表了自己對 AlphaGo Zero 的評價。以下為全文編譯：

▌為什麼說 AlphaGo Zero 很偉大？

首先，我們一起回顧一下 AlphaGo Zero 的各種報導：

AlphaGo Zero：Google 的新 AlphaGo 取得的突破將演算法帶到了人類從未觸及的領地

雖然它聽起來像某種蘇打水，但 AlphaGo Zero 所取得的突破可能和它的前身（AlphaGo）一樣重要，因為它可能預示著演算法發展出人類所不具備的技能...... AlphaGo 通過研究人類圍棋專家的策略，並通過與自己對抗來實現其在圍棋遊戲中的主導地位，這種技術被稱為強化學習。與此同時，AlphaGo Zero 通過強化學習實現了完全自我訓練。而且，儘管除了遊戲規則之外沒有任何戰術指導或資訊，但新演算法仍然以 100:0 的成績擊敗了舊版的 AlphaGo。

DeepMind 的圍棋 AI 不再需要人類的幫助來戰勝人類

該公司最新的 AlphaGo AI 通過反覆的自我對弈學習到了超人的技能

“自己創造知識”：Google 推出能夠自我學習的 AI

在人工智慧的重大突破中，AlphaGo Zero 僅花了三天時間就掌握了古老的中國圍棋遊戲 ......沒有任何人工幫助

Google 的人工智慧“AlphaGo Zero”為學習方式按下了重置鍵

AlphaGo Zero 正在改變我們解決重大問題的方式。

劃下重點：AlphaGo Zero （以下簡稱 AG0）可以說是近期最令人印象深刻的，也最受稱讚的 AI 成就。簡單地說，AG0 只是一個深度神經網路，它以圍棋棋盤的當前狀態為輸入，並輸出圍棋棋步。這不僅比最初的 AlphaGo 簡單得多，而且它還純粹通過自我對弈（self-play）來進行訓練（讓不同的AlphaGo Zero 神經網路相互對抗；最初的 AlphaGo 是通過模仿人類圍棋專家來進行“熱身”訓練的）。

它在“沒有人類幫助”的情況下學習，這種說法並不完全正確，因為圍棋的規則是由人類手動編碼，而不是 AlphaGo 自己學習到的，但它通過自我對弈來學習而不是模仿人類圍棋玩家的基本思路是正確的。下面是 DeepMind 自己對為什麼 AG0 如此激動人心的解釋。

當然，DeepMind 的演示證明 AI 演算法可以通過純粹的自我對弈而實現超人的圍棋和國際象棋水平，但這證明了這些技術真的可以解決 AI 裡的各種難題嗎？

在一定程度上，是的。

圍棋的分支因素導致其難度太大，走到這一步已經花費了幾十年的時間。這也是科研人員第一次使用相同的深度學習演算法來破解國際象棋和圍棋遊戲，而且還不像當年的 Deep Blue（深藍）和最初的 AlphaGo 那樣是量身定製的（Deep Blue 是歷史上第一個擊敗人類國際象棋冠軍的機器）。因此，AG0 無疑是令人興奮的工作（同時也是一次偉大的公關）。

640?wx_fmt=png

圖注：從 AI 作為一個研究領域的誕生開始，AlphaGo 是遊戲 AI 歷史中的一個高潮。因此，這無疑是一項偉大的歷史成就。

▌為什麼說 AlphaGo Zero 並沒有那麼偉大？

上文已經說了 AG0 的一些積極影響，我來談下自己的一些觀點: AG0 並不能真正證明這些技術對於解決人工智慧的難題是有用的。你看，圍棋只是在最簡單的 AI 問題範疇內很難。也就是說，這個問題的各種屬性恰巧讓學習任務變得容易：它是確定性的、離散的、靜態的、完全可觀察的、完全已知的、單一代理的、情景式的、易於模擬的、易於評分的……實際上，圍棋遊戲唯一具有挑戰性的是其巨大的分支因素。

有些人只看到 AlphaGo 的成功，就預測 AGI（通用人工智慧）即將到來，這完全是扯淡，因為現實世界比圍棋這樣的簡單遊戲複雜的多。即使是在處理一些類似的問題上（比如視訊遊戲 Dota II，並不包含所有能讓學習任務變得輕鬆的屬性），也遠遠超出了我們目前的掌控範圍。

640?wx_fmt=png

圖注：AI 問題的複雜性。請注意，圍棋和（大多數）Atari 遊戲以及國際象棋屬於同一範疇，唯一的區別是分支因素。AG0 的技術適用於像圍棋這樣的遊戲，但正如我所說的那樣，大多數 AI 問題都截然不同，因此要困難的多。

除了某種範疇上的簡單性之外，我們還需要理解圍棋的狹隘性。AG0 是弱 AI 的一個明確例子，它也被稱為窄 AI。弱 AI 的特點是隻能執行一個“窄任務”，比如玩 19*19 的圍棋遊戲。儘管 AG0 能夠學習 3 種不同的棋盤遊戲，令人印象深刻，但每一種遊戲其實都是分開學習的。

而且，它只能學習非常窄的遊戲類別：基本上只有雙人玩家的格子棋盤遊戲，沒有任何記憶先前位置或移動的必要。

“通用 AI 值得思考，因為它延伸了我們的想象力，讓我們思考我們的核心價值觀、選擇、以及自由意志實際上對專用 AI 有著顯著的適用範疇。”
——奧巴馬

640?wx_fmt=png

圖注：在《連線》的採訪中，時任美國總統奧巴馬對 AI 細緻入微的理解令人印象深刻。

因此，雖然 AG0 所取得的成就令人印象深刻，但它與 Deep Blue 在本質上是相似的。不論是資金投入，還是耗費時間，兩者都算得上是昂貴的系統。然而這兩個系統設計的初衷完全是為了玩遊戲——除此之外別無它用。儘管 Deep Blue 對 IBM 來說是一次很好的公關，但通常人們並不認為它對更廣泛的 AI 研究的進展有很大貢獻，因為它針對的是非常具體的國際象棋問題。

就像使用為 AG0 提供支撐的演算法一樣，人類調整過的啟發式演算法和純粹的計算蠻力相結合，肯定可以解決一些具有挑戰性的問題——但它們最終沒有讓我們超越國際象棋的範疇，甚至都攻不下圍棋。我們應該捫心自問：AG0 背後的技術能讓我們超出圍棋的範疇嗎？

“遊戲（象棋，圍棋，DOTA）代表封閉系統，這意味著人類為機器設定目標和規則。沒有機器可以將封閉系統中積累的知識自動轉移到開放式系統中去。”
——Gary Kasparov

640?wx_fmt=png

圖注：Gary Kasparov，最終輸給 Deep Blue 的那個人，點評 Deep Blue 和 AlphaGo 的侷限性。

我只能說，或許吧。

AG0 背後的演算法（深度學習和自我對弈）本質上比人類定義的啟發式演算法和暴力計算更普遍。儘管如此，瞭解並記住 Deep Blue 與 AG0 之間的相似之處至關重要：歸根結底，Deep Blue 和AG0 都是狹窄的 AI 程式，這些專案（至少部分）是出於公關的目的。雖然它們可以處理對人類來說很困難的問題，但是這些問題對計算機來說相對簡單。

640?wx_fmt=png

圖注：在 Deep Blue 擊敗國際象棋冠軍 Garry Kasparov 的後一天，IBM 的股價飆升至 10 年來的高位，與歷史最高位只有一步之遙。

我寫這篇文章的目的既不是為了引起爭議，也不是為了否認 DeepMind 的傑出貢獻，而是為了對抗所有對 AG0 成功的無端炒作，並鼓勵更多人對深度學習和自我對弈的侷限性進行討論。我們需要更多的人站出來，告訴大眾，告訴 AI 社群這些真相，以免被炒作和公關帶入歧途。

640?wx_fmt=png

圖注：AGI 末日論者誇大了像 AG0 這樣的成果的意義，而像我這樣的人希望戳破這個虛幻的泡沫；與此同時，對於人工智慧的倫理問題和潛在的濫用，人們已經有了足夠多的擔憂。希望我們能很快達到生產力的高峰...

除此之外，我們還應該拷問自己：對於人工智慧來說，有沒有更好的方法來學習圍棋呢？

AlphaGo Zero 這個名字指的是這樣一種想法：模型“從零開始”學習圍棋，而無需任何進一步的人工輸入或解釋。但是“從零開始”學習真的是一件好事嗎？想象一下，你對圍棋一無所知，然後決定開始學習圍棋。首先，你肯定會讀一些圍棋規則，一些高水平的圍棋策略，回憶你過去是如何玩類似遊戲的，然後得到一些建議…對嗎？

事實上，與人類學習相比，AlphaGo Zero 的“從零開始”學習有其侷限性，因此算不上真正令人印象深刻。就像 Deep Blue 一樣，在任何給定的遊戲中，它仍然依賴於觀察更大量級的圍棋遊戲，規劃更大量級的場景，這比人類需要的多得多。

640?wx_fmt=gif

圖注：AG0 技術的進步。它“僅僅”需要 3 天的不間斷計算就能達到世界上最好的人類技能，這無疑令人印象深刻。但也許我們也應該注意到，即使要獲得 0 的 ELO 分數，它也需要一整天的時間，以及比人類一生經歷的還要多幾個數量級的遊戲，與此同時，即使是最弱的人也能輕鬆做到。

▌結語

因此，讓我們總結一下：儘管 AlphaGo 和 AG0 的成就是歷史性的，但它們在解決人工智慧真正的難題方面（更不用說 AGI ）幾乎沒有任何進展。然而，與任何領域一樣，所有的 AI 研究人員都站在他們的前輩的肩上。雖然這些技術可能並不預示著 AGI 的到來，但它們無疑是深度學習革命的一部分。這個領域仍在發展之中，它們所基於的理念無疑將推動未來的進步。同樣的，在欣賞這些 AI 領域裡了不起的成就的同時，我們也不能忽視它們的侷限性。

原文連結：
http://www.skynettoday.com/content/editorials/is-alphago-zero-overrated/

招聘

AI科技大本營現招聘AI記者和資深編譯，有意者請將簡歷投至：gulei@csdn.net，期待你的加入！

AI科技大本營讀者群（計算機視覺、機器學習、深度學習、NLP、Python、AI硬體、AI+金融、AI+PM方向）正在招募中，和你志同道合的小夥伴也在這裡！關注AI科技大本營微信公眾號，後臺回覆：讀者群，新增營長請務必備註姓名，研究方向。

640?wx_fmt=jpeg

640?wx_fmt=png

AI科技大本營公眾號ID：rgznai100 640?wx_fmt=jpeg

☟☟☟點選 | 閱讀原文 | 檢視更多精彩內容

詳解AlphaGo到AlphaGo Zero！
2019-01-31
Go
DeepMind新一代圍棋程式AlphaGo Zero再次登上Nature
2018-10-23
Go
微信團隊開源圍棋AI技術PhoenixGo，復現AlphaGo Zero論文
2018-05-14
AIGo
不需要羨慕別人的成功他只是做了你遇到不敢做的事情而已
2020-10-21
唯專而已
2024-03-24
程式設計師的“三十而已”
2020-08-05
程式設計師
【AlphaGo】AlphaGo背後的力量：蒙特卡洛樹搜尋入門指南
2018-03-28
Go
MJB，阿里又一次成功的營銷？
2018-03-30
阿里
保密不是說說而已
2022-04-27
MutationObserver、Worker 、MessageChannel也只是API的使用而已
2019-02-13
ServerAPI
【三十】而已夢想再升級
2023-04-26
AI智慧體的炒作與現實：GPT-4都撐不起，現實任務成功率不到15%
2024-05-28
AI智慧體GPT
我只是在炒作
2019-05-11
記一次docker安裝成功，啟動失敗的原因
2022-04-14
Docker
go zero
2024-03-12
Go
Make It Zero
2024-08-13
Elasticsearch 磁碟空間異常：一次成功的故障排除案例分享
2024-08-12
Elasticsearch
人工智慧——一場精妙的商業炒作
2020-09-10
人工智慧
【Python】從Jenkins下載最近一次成功構建的安裝包
2018-11-16
PythonJenkins
IT世界裡的《三十而已》：不比包包的男士們在比什麼？
2020-07-27
Spring Boot：從炒作到成熟的基礎技術？
2018-12-14
Spring Boot
炒作之後，NFT的實際價值在哪裡？
2023-11-21
Rust語言炒作過分了嗎？ - thenewwazoo
2021-12-21
Rust
ubuntu下X2Go連線（一次性成功）
2020-10-09
UbuntuGo
東莞代孕公司供卵生男孩一次成功多少錢?
2019-06-05
一次不成功的深度學習實踐 – 微信跳一跳
2019-01-16
深度學習
[ARKit]8-對裸眼3D效果一次不太成功的嘗試
2018-04-29
3D
EvolvingNetLib，嗯，一個網路請求庫而已
2018-11-12
啥是佩奇？Python 285 行程式碼而已！
2019-01-25
Python行程
TalkingData：“三十而已”女性洞察報告（附下載）
2020-09-29
最新進展！谷歌AutoML-Zero驗證自我演化：成功復現數十年AI演進歷程
2020-04-16
谷歌TOMLAI
GPT Zero 是什麼？
2023-12-27
GPT
[Javascript] Zero-width char
2024-11-28
JavaScript
Gartner：2019年CRM 技術炒作週期
2019-10-11
次留45% 這款手遊的成功再一次證明了爽文套路的魔力
2019-07-17
如何將人工智慧的“炒作熱”真正變成“落地熱”？
2018-03-13
人工智慧
【RPA之家方法論】（8）RPA只是一個炒作的新概念？
2020-11-12
谷歌炒作人工智慧的邏輯形式是什麼？
2022-06-13
谷歌人工智慧

AlphaGo Zero，一次成功的炒作而已？

相關文章