打造自己的高效能AlphaZero演算法

HuJian發表於2019-03-20

原文網址 : https://juejin.im/post/5c9183daf265da611c5569e1

前言

專案地址：github.com/hijkzzz/alp… 如果覺得本專案還可以，請贊顆星星支援一下...感謝

AlphaZero演算法已經發布了一年多了，GitHub也有各種各樣的實現，有一千行Python程式碼單執行緒低效能版，也有數萬行C++程式碼的分散式版本。但是這些實現都不能滿足一般的演算法愛好者的需求，即一個簡單的並且單機的可執行的高效能AlphaZero演算法。

一圖解密AlphaZero

首先我們先了解一下AlphaZero演算法的原理

大圖連結：applied-data.science/static/main…

可以看到AlaphaGo Zero的演算法流程分為：自對弈（利用蒙特卡洛樹搜尋）N局生成棋譜 ==> 利用生成的棋譜訓練網路 ==> 評估新訓練的網路

分析

對於Python版本的AlphaZero演算法，通常受限制於GIL，過程中最耗時間的自對弈階段（見下圖）無法並行化，所以最直接的優化方式是使用C++這種高效能語言實現底層運算細節，用Python封裝。

解決方法

執行緒池

原始碼 github.com/hijkzzz/alp…

為了並行化自對弈過程，首先我們需要實現一個C++的執行緒池。關於執行緒池網上有很多的資料可以參考，這裡就不多做敘述。

Root Parallelization

從演算法流程圖中可以看到，自對弈過程使用蒙特卡洛樹搜尋實現，所以有兩個維度可以並行化自對弈：Root Parallelization和Tree Parallelization。其中Root Parallelization指的是同時開啟N局對弈，每個執行緒負責一局遊戲。Tree Parallelization指的是把單局遊戲中的蒙特卡洛樹搜尋（MCTS）並行化。於是用N個執行緒就很容易實現Root Parallelization，下面我們討論Tree Parallelization。

Tree Parallelization

首先分析一下蒙特卡洛樹搜尋（MCTS）的執行過程：

每執行一步棋子，MCTS要執行M次落子模擬，每次模擬就是一次遞迴過程，如下：

Select，如果當前節點不是葉子節點則通過特定的UCT演算法（探索-利用演算法，通過神經網路預測的勝率值（q值）以及先驗概率計算選擇概率，勝率/先驗概率越高選擇機率越大）找出最優的下一個落子位置，搜尋進入下一層，直到當前節點是葉子節點。
Expand and evaluate，如果當前節點是葉子節點，這裡分為兩種情況：
- 當前節點遊戲結束，某一方獲勝，則進行Backup向上回溯更新父節點的勝率值
- 如果遊戲沒有結束，則用神經網路預測當前節點的勝率和下一層的先驗概率，用這個先驗概率展開此節點，然後進行Backup向上回溯更新父節點的勝率值（q值）
Backup，每個節點儲存一個勝率值（q值），q值等於贏的次數/訪問次數，backup從結束狀態向上更新這個值以及訪問次數。
Play，實際遊戲中落子的時候選擇根節點下訪問次數最多的子節點即可（因為q值越大的節點select的概率越大，訪問次數也越多）。

所以我們可以同時進行M'（小於M）次模擬，所以對一些關鍵資料就要加鎖，比如蒙特卡洛樹的父子節點關係，訪問次數，q值等。也有人研發出了一些無鎖的演算法[5]，但是因為預先分配樹節點的關係，對記憶體的佔用量極大，一般的機器跑不起來，所以這裡用的是加鎖版的並行蒙特卡洛樹搜尋。

Virtual Loss

對於Tree Parallelization，如果我們簡單的把蒙特卡洛搜尋（MCTS）並行化，那麼會遇到一個問題：M'個執行緒經常會搜尋同一個節點，這樣我們的並行化就失去了意義，因為搜尋同一個節點意味著重複工作。所以在UCT演算法中，當一個節點被一個執行緒訪問時，我們加入一個Virtual Loss的懲罰，這樣其它執行緒就不太可能會選擇這個節點進行搜尋。

LibTorch

因為MCTS的過程中需要用到神經網路預測勝率和先驗概率，所以C++需要呼叫Python實現的神經網路預測方法，但是這樣又會回到原點。即Pyhton的GIL限制會導致並行化的自對弈被強制序列化執行。所以我們使用Pytorch的C++版本LibTorch實現神經網路預測。

CUDA Stream

對於GPU版本的神經網路來說，完成上面的工作後，實際上我們的程式還是沒有真正的並行化。這是因為LibTorch的預測執行實際上受限制於Default CUDA Steam，預設是序列的，這也會導致多執行緒被阻塞。所以有兩個方法：1. 用多個CUDA Stream 2.合併預測請求。這裡我們使用的方法是用緩衝佇列合併多個預測，一次性推送到GPU，這樣就防止了GPU工作流的爭用導致執行緒阻塞。

SWIG

最後我們把上述相關的C++程式碼用SWIG封裝成Python介面，以供主程式呼叫。雖然這會導致一部分效能開銷，但是大大提高了開發的效率。

效果

經過測試，並行化後的訓練效率至少提升了10倍。簡單的計算一下，假設每個MCTS4個執行緒，同時玩4局遊戲，即4x4=16倍，考慮鎖和緩衝佇列以及Python介面的開銷，提升數量級是合理的。此外只要GPU足夠強悍，提升執行緒數還能繼續提高效能。最後我用了12個小時在一塊GTX1070上訓練了一個標準的15x15的五子棋演算法，已足夠可以對我的棋藝進行碾壓。

參考文獻

Mastering the Game of Go without Human Knowledge
Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm
Parallel Monte-Carlo Tree Search
An Analysis of Virtual Loss in Parallel MCTS
A Lock-free Multithreaded Monte-Carlo Tree Search Algorithm

用Python和Keras搭建你自己的AlphaZero
2019-03-04
PythonKeras
打造屬於自己的underscore系列（六）- 洗牌演算法
2019-02-17
演算法
如何打造自己的npm庫
2018-03-02
NPM
打造自己的JavaScript工具庫
2022-03-01
JavaScript
告別原生，打造自己的topBar
2019-04-09
Mac - 打造自己的工作流
2018-05-15
Mac
使用 Azure OpenAI 打造自己的 ChatGPT
2023-03-30
OpenAIChatGPT
2019年如何打造自己的“前端品牌”
2018-12-04
前端
打造自己的Vue元件文件生成工具
2021-08-09
Vue元件
PicGo+GitHub：打造自己的圖床
2021-04-07
PicGoGithub圖床
打造自己的系統許可權控制
2020-08-24
如何快速為團隊打造自己的元件庫（下）—— 基於 element-ui 為團隊打造自己的元件庫
2022-02-14
元件UI
RSS推送技術——打造自己的今日頭條
2018-05-10
用 yeoman 打造自己的專案腳手架
2018-08-20
Unity 3D 打造自己的Mecanim Callback System
2018-05-14
Unity3D
打造自己的滲透測試框架 — 溯光
2019-05-24
框架
如何打造一款自己的 VSCode 主題？
2019-04-18
VSCode
Step-by-step，打造屬於自己的vue ssr
2018-04-14
Vue
使用 Pulumi 打造自己的多雲管理平臺
2023-03-12
打造屬於自己的underscore系列（三）- 迭代器（上）
2019-01-22
打造屬於自己的underscore系列 ( 一 ) - 框架設計
2018-12-06
框架
打造自己的HelloDrone 無人機APP過程《0》
2020-09-28
無人機APP
打造屬於自己的underscore系列（四）- 迭代器（下）
2019-01-29
使用Typora + 阿里雲OSS + PicGo 打造自己的圖床
2022-04-28
阿里PicGo圖床
使用 Docker 和 Nginx 打造高效能的二維碼服務
2018-10-19
DockerNginx
用PHP如何打造一個高可用高效能的網站
2021-02-01
PHP網站
Go使用grpc+http打造高效能微服務
2018-05-16
GoRPCHTTP微服務
從零開始打造自己的PHP框架――第2章
2019-02-16
PHP框架
Drone CI For Github —— 打造自己的CI/CD工作流（一）
2020-10-01
Github
如何進入開源世界並打造自己的明星 Project？
2018-04-12
Project
通過Consul Raft庫打造自己的分散式系統
2020-11-28
Raft分散式
用深度學習打造自己的音樂推薦系統
2018-11-02
深度學習
Vue.js+Egg.js+Mongodb 打造自己的個人部落格
2018-12-14
Vue.jsMongoDB
基於 vue-cli3 打造屬於自己的 UI 庫
2019-03-28
VueUI
使用webpack4打造自己的前端工作流
2018-08-24
Web前端
微信小程式開發04-打造自己的UI庫
2018-08-04
微信小程式UI
打造自己的專屬軍團，《奇幻東征》今日啟程！
2020-03-12
打造自己的php半自動化程式碼審計工具
2020-08-19
PHP