世界最強圍棋AI AlphaGo Zero帶給世人的震撼並沒有想象中那麼久——不是因為大家都去看誰(沒)跟誰吃飯了,而是DeepMind再次迅速超越了他們自己,超越了我們剩下所有人的想象。
其中,DeepMind團隊描述了一個通用棋類AI“AlphaZero”,在不同棋類遊戲中,戰勝了所有對手,而這些對手都是各自領域的頂級AI:
而AlphaGo Zero更是不必介紹,相信“阿法元”之名已經傳遍中國大江南北。而AlphaZero在訓練34小時後,也勝過了訓練72小時的AlphaGo Zero。
看著AlphaZero贏,簡直太不可思議了!這根本就不是計算機,這壓根兒就是人啊!
我的神啊!它竟然只玩d4/c4。總體上來看,它似乎比我們訓練的要少得多。
比AlphaGo Zero更強的AlphaZero來了!8小時解決一切棋類!
知乎使用者PENG Bo迅速就發表了感慨,我們取得了他的授權,轉載如下(知乎連結見文末):
這令人震驚,因為此前大家都認為Stockfish已趨於完美,它的程式碼中有無數人類精心構造的演算法技巧。
然而,現在Stockfish就像一位武術大師,碰上了用槍的AlphaZero,被一槍斃命。
訓練過程極其簡單粗暴。超引數,網路架構都不需要調整。無腦上算力,就能解決一切問題。
Stockfish和Elmo,每秒種需要搜尋高達幾千萬個局面。
AlphaZero每秒種僅需搜尋幾萬個局面,就將他們碾壓。深度網路真是狂拽炫酷。
當然,訓練AlphaZero所需的計算資源也是海量的。這次DeepMind直接說了,需要5000個TPU v1作為生成自對弈棋譜。
不過,隨著硬體的發展,這樣的計算資源會越來越普及。未來的AI會有多強大,確實值得思考。
個人一直認為,MCTS+深度網路是非常強的組合,因為MCTS可為深度網路補充邏輯性。我預測,這個組合未來會在更多場合顯示威力,例如有可能真正實現自動寫程式碼,自動數學證明。
為什麼說程式設計和數學,因為這兩個領域和下棋一樣,都有明確的規則和目標,有可模擬的環境。(在此之前,深度學習的調參黨和架構黨估計會先被幹掉...... 目前很多灌水論文,電腦以後自己都可以寫出來。)
AlphaZero演算法是AlphaGo Zero演算法更通用的版本。它用深度神經網路和白板(tabula rasa)強化學習演算法,替代傳統遊戲程式中所使用的手工編碼知識和領域特定增強。
其中,c是控制L2權重正則化水平的引數。更新的引數將被用於之後的自我對弈當中。
AlphaZero演算法與原始的AlphaGo Zero演算法有以下幾大不同:
1、AlphaGo Zero是在假設結果為贏/輸二元的情況下,對獲勝概率進行估計和優化。而AlphaZero會將平局或其他潛在結果也納入考慮,對結果進行估計和優化。
奢華的計算資源:5000個第一代TPU,64個第二代TPU,碾壓其他棋類AI
像AlphaGo Zero一樣,棋盤狀態僅由基於每個遊戲的基本規則的空間平面編碼。下棋的行動則是由空間平面或平面向量編碼,也是僅基於每種遊戲的基本規則。
分析10萬+人類開局,AlphaZero確實掌握了國際象棋,alpha-beta搜尋並非不可超越
表2:對12種最受歡迎的人類的開局(在一個線上資料庫的出現次數超過10萬次)的分析。每個開局都用ECO程式碼和通用名稱標記。這張圖顯示了自我對弈的比例,其中AlphaZero都是先手。