深度學習之Google Deepmind的Alphago人工智慧演算法技術演變歷程

DinK發表於2016-05-10

原文網址 : http://www.199it.com/archives/470890.html

一、簡介

有些人會有如下質疑“Alphago都用了蒙特卡洛搜尋樹了，這變成了一部分搜尋問題了並不是人工智慧演算法了或者說不夠智慧了”，但我的拙見是人在思考問題的時候除了直覺、經驗判斷、邏輯推理之外也會去列舉、搜尋，所以我覺得演算法包含一部分搜尋並不能直接說該演算法這不夠智慧或者這不是智慧演算法了，我覺得更多的是要考慮該演算法在該類問題上如何去刻畫出人類的直覺、經驗判斷、邏輯推理等。

最近大家比較關心的圍棋人機大戰（Alphago vs 李世石）中，deep mind基於Nature2016文章的Alphago在5局制的比賽中已經取得了4-1的獲勝。2016年Google與facebook兩個大拿在圍棋領域基於深度學習都發表了文章，其中facebook文章如下：《BETTER COMPUTER GO PLAYER WITH NEURAL NET- WORKAND LONG-TERM PREDICTION》；Google文章如下：《Mastering the game of Go with deep neural networks and tree search》。這兩篇文章都是蒙特卡洛搜尋樹+DCNN，效果Google的Alphago優於facebook的方法，剛好藉此機會將之前看到的deep mind該領域的文章捋了一下。

Google在Alphago之前就已經發表了相當多這方面的demo與文章,從其最早的NIPS2013文章《Playing Atari with Deep ReinforcementLearning》到現在的Nature2016 《Mastering the game of Go with Deep Neural Networks & Tree Search》。deep mind在此期間做了很多紮實的研究工作，本文將進行簡單的描述。本文接下去會按如下幾點內容進行敘述：

Q-learning
Reinforcement learning
Deep Q-Networks
Alphago

二、Q-learning與Reinforcement learning

增強學習Reinforcement learning的場景大部分有一個共同的特點，那就是這些場景有序列決策或者控制的問題，對於當前的任何一個state不能明確的對不同的action給出一個事先well defined的score值。它大多應用於如下的領域：機器人控制，市場決策，工業控制等。

Q-learning是用於解決Reinforcement learning問題的一種常見方法，其經典的公式如下：

三、deep Q-Networks(DQN)

2013發表NIPS文章《Playing Atari with Deep ReinforcementLearning》是deep mind公開的最早使用raw pixels作為輸入的，用於解決reinforcement learning的深度學習網路DQN。在該文章中，作者在atari一系列的遊戲上做了各種演算法的比較，如下圖所示：

在總共7個遊戲中，有6個做到了演算法中最好，其中還有3個做到了比人類專家還要好。該文章中提到的DQN有兩個特點：1. 用來更新引數的minibatch是是從replay memory（回放記憶）中取樣出來的，而不是僅僅的用當前一個片段或者session，這樣能使得模型收斂性更好，否則會很容易訓飛。2. value函式是一個多層網路。

在上述文章提出後，deep mind在該問題上不停的打磨，不斷的優化其工程與演算法：

1. 2015發表ICML文章《MassivelyParallel Methods for Deep Reinforcement Learning》，該文章從工程上了做了4個方面的分散式：學習、決策、價值、經驗，第1個屬於學習，第2、3個屬於網路方面，第4個偏儲存方面。DQN的全面分散式將DQN的學習時間成本與模型效果都提升了一個檔次。DQN分散式結構簡要如下：

2. 2016發表ICLR文章《PRIORITIZEDEXPERIENCE REPLAY》，該文章指出了原DQN中經驗均勻取樣的問題，並從防過擬合、防區域性最優這些點上，設計了介於均勻取樣與純優先順序貪心之間的經驗取樣方法，提出的這個改進再次將DQN的模型效果提升了一個檔次。

3. 2016發表ICLR文章《PolicyDistillation》，該篇文章實際上是做了DQN的transfer learning的實驗，有很多思想與hinton的dark knowledge裡面的東西都很相似，其方法示意圖如下所示：

四、Alphago

訓練階段：

Alphago訓練如下圖a中展示了Alphago相應的4個neural network，b中主要展示了policy network與value network及其輸出形式。

1. policy network（14層，輸出棋盤每步move概率值），它首先採用supervisedlearning訓練方法在KGS資料集上達到了55.7%的專家moves預測準確率，然後由reinforcement learning訓練方法進行自我訓練（每一次訓練都在前幾次迭代完的模型中隨機一個模型做決策），自我訓練的policy network在80%的情況下打敗了supervised learning訓練出來的policy network。

2. value network（15層，預測棋盤下一步move），該網路由pair訓練資料做regressionloss反饋更新得到。在KGS的資料集上，該訓練方法出現了過擬合的現象（訓練MSE0.19，測試MSE0.37），但若在reinforcement learning學出來的policy network基礎上產生出的自我訓練集裡進行取樣學習的話，就可以有效的避免該問題（訓練MSE0.226，測試MSE0.234）。

預測階段：

在Alphago系統模擬的時候，每一個action由如下三個因素決定：s狀態下a的訪問次數，RL policy network for action value，SL policy networkfor prior probability；在Alphago系統模擬的時候，每一個葉子節點價值由如下兩個因素決定：value network，rollout network；在Alphago系統所有模擬都結束後，由上述兩點計算得到s狀態下a的value值。綜上RL與SL學習出來的兩個policy network共同決定了蒙特卡洛搜尋樹節點的選擇，value network與rollout network決定了模擬出來的葉子節點的價值，最終s狀態下a的value由上述兩部分以及所有模擬中s狀態下a的訪問次數共同影響得到。最後Alphago系統選擇s狀態下最優的action作為圍棋當前的move。

Git 學習記錄之演變歷史
2019-12-26
Git
人工智慧技術對傳統技術的演變
2022-07-13
人工智慧
人臉識別技術演進：從幾何演算法到深度學習的深度剖析
2023-12-27
演算法深度學習
阿里雲的“全站加速”技術演進歷程
2022-09-15
阿里
深度學習發展歷程
2020-11-24
深度學習
Anthropic挖走DeepMind強化學習大牛、AlphaGo核心作者Julian Schrittwieser
2024-10-29
強化學習Go
【人工智慧】AI技術人才成長路線圖；深度學習課程筆記
2018-03-28
人工智慧AI深度學習筆記
深度學習技術研究會
2020-12-04
深度學習
蘇寧影片雲高階技術經理：漫談前端系統架構的演變歷程（上）
2018-10-25
前端架構
蘇寧影片雲高階技術經理：漫談前端系統架構的演變歷程（中）
2018-10-25
前端架構
蘇寧影片雲高階技術經理：漫談前端系統架構的演變歷程（下）
2018-10-25
前端架構
Flutter 的學習歷程
2019-09-11
Flutter
機器學習中的聚類演算法演變及學習筆記
2020-05-16
機器學習聚類演算法筆記
深度學習、強化學習核心技術實戰
2021-03-21
深度學習強化學習
《深度學習Python》核心技術實戰
2021-04-03
深度學習Python
深度學習DeepLearning核心技術實戰
2021-03-21
深度學習
node學習歷程
2018-06-04
【人工智慧】機器深度學習如何改變企業？
2018-03-30
人工智慧深度學習
基於深度學習的影象語義分割技術概述之背景與深度網路架構
2019-01-25
深度學習架構
Google正在失去DeepMind？
2018-04-20
Go
深度學習之影象超分辨重建技術
2018-03-26
深度學習
深度強化學習核心技術實戰
2021-03-20
強化學習
學習人工智慧技術，為何先學Python？
2021-12-17
人工智慧Python
Go學習歷程(一)
2021-04-21
Go
AlphaGo之後，DeepMind重磅推出AlphaFold：基因序列預測蛋白質結構
2018-12-03
Go
人工智慧 (15) 深度學習
2019-12-23
人工智慧深度學習
深度學習發展歷史
2024-11-30
深度學習
DeepMind用元強化學習框架探索多巴胺在學習過程中的作用
2019-02-21
強化學習框架
神經網路碰上高斯過程，DeepMind論文開啟深度學習新方向
2018-07-06
神經網路深度學習
人工智慧：原理與技術學習筆記
2024-11-15
人工智慧筆記
萬字長文概述NLP中的深度學習技術
2019-02-28
深度學習
機器視覺軟體中的深度學習技術
2018-04-26
視覺深度學習
電商搜尋演算法技術的演進
2018-12-05
演算法
一文帶你看遍深度學習發展的成就歷程(一)
2019-06-24
深度學習
深度學習技術發展趨勢淺析
2019-04-19
深度學習
深度學習和幾何（演講提要）
2018-12-04
深度學習
深度學習技術實踐與圖神經網路新技術
2022-09-17
深度學習神經網路
小程式：技術標準與生態的演變
2023-05-09
7000 字讀懂網際網路公司的架構演變歷程
2020-04-06
架構

深度學習之Google Deepmind的Alphago人工智慧演算法技術演變歷程

相關文章