【AlphaGo】AlphaGo背後的力量：蒙特卡洛樹搜尋入門指南

產業智慧官發表於2018-03-28

原文網址 : https://blog.csdn.net/np4rhi455vg29y2/article/details/79722325

選自int8 Blog

機器之心編譯

我們都知道 DeepMind 的圍棋程式 AlphaGo，以及它超越人類的強大能力，也經常會聽到「蒙特卡洛樹搜尋」這個概念。事實上，蒙特卡洛樹搜尋是在完美資訊博弈場景中進行決策的一種通用技術，除遊戲之外，它還在很多現實世界的應用中有著廣闊前景。本文中，我們會以 AlphaGo 為例子，對這一方法進行詳細介紹。

長久以來，學術世界一直認為計算機在圍棋這個複雜遊戲上達到超越人類的水平是幾乎無法實現的。它被視為人工智慧的「聖盃」——一個我們原本希望在未來十年挑戰的遙遠里程碑。在國際象棋上，「深藍」曾在 20 多年前實現了自己的目標，而其後數年，沒有一個圍棋引擎能夠打敗人類頂尖棋手。圍棋及其引發的「數字混沌」是如此令人著迷，以至於人們一度將其想象為人類「對抗」計算機的最後壁壘。

然而正如我們所知，2016 年 DeepMind 推出的人工智慧圍棋程式 AlphaGo 結束了這一局面，它在當年 3 月份的系列比賽中以 4：1 的比分擊敗了來自韓國的前世界冠軍李世石。AlphaGo 證明了世人對於虛擬和現實世界的懷疑是錯誤的。而在短短一年之後，新一代圍棋程式 AlphaGo Zero 在測試中就能夠以 100：0 的成績擊敗舊程式，這無疑宣告了人類在圍棋上和計算機的差距已經越來越遠。

640?wx_fmt=png&wxfrom=5&wx_lazy=1

作為今天最被人們所熟知的人工智慧系統（沒有之一），AlphaGo/Zero 是一個多種計算方法的集合體，人類工程學的傑作，其核心元件包含：

蒙特卡洛樹搜尋——內含用於樹遍歷的 PUCT 函式的某些變體
殘差卷積神經網路——其中的策略和價值網路被用於評估棋局，以進行下一步落子位置的先驗概率估算。
強化學習——通過自我對弈進行神經網路訓練

在本文中，我們只著重於介紹蒙特卡洛樹搜尋（MCTS/Monte Carlo Tree Search）。這個演算法很容易理解，而且也在遊戲人工智慧領域外有很多應用。

1 介紹

1.1 有限兩人零和回合制遊戲

1.2 如何表徵一個遊戲

1.3 什麼是最有潛力的下一步？簡要介紹極小極大（minimax）演算法和 alpha-beta 修剪演算法

2 蒙特卡洛樹搜尋——基本概念

2.1 模擬——AlphaGo 和 AlphaZero

2.2 博弈樹的展開節點、完全展開節點和訪問節點

2.3 反向傳播：將模擬結果傳播回去

2.4 關於節點的統計學

2.5 博弈樹遍歷

2.6 樹的置信上限

2.7 終止蒙特卡洛樹搜尋

3 總結

介紹

蒙特卡洛樹搜尋是由前里爾第三大學助理教授 Rémi Coulom 在圍棋程式 Crazy Stone 中首先引入的方法——後者是第一個在圍棋上達到職業五段水平的計算機程式。

從最直觀的角度來看，蒙特卡洛樹搜尋有一個主要目的：給出一個「遊戲狀態」並選擇「勝率最高的下一步」。在本文中，我會試圖解釋蒙特卡洛樹搜尋的大多數細節，其中我們也會不時回顧 AlphaGo/Zero，並試圖解釋那些在 DeepMind AI 程式系列中使用的 MCTS 變體。

有限兩人零和回合制遊戲

蒙特卡洛樹搜尋執行的框架/環境是「遊戲」，其本身是一個非常抽象的廣義術語，所以在這裡我們只針對於一種遊戲型別：有限兩人零和回合制遊戲——這聽起來或許有點複雜，不過其實很簡單，讓我們來分析一下：

「遊戲」意味著處理「互動情況」。互動意味著有玩家會參與進來（一個或多個）
「有限」表示在任何時間點上，玩家之間都有有限的互動
「兩人」有限遊戲，顧名思義
「回合制」表示玩家按照一定順序進行遊戲——輪流出招
最後「零和遊戲」——這意味著遊戲雙方有著相反的目標，換句話說：在遊戲的任何終結狀態下，所有玩家獲得的總和等於零。有時這樣的遊戲也被稱為嚴格競爭博弈

我們可以輕易驗證圍棋、國際象棋或井字棋是有限兩人零和回合制遊戲。的確，它們都是兩個玩家，遊戲可選的下一步也是有限的，且遊戲是嚴格競爭的——兩名玩家會進行對抗（遊戲的所有輸出之和為零）。

Notes：請注意，為了簡化本教程，我們只專注於可能場景的某系子集，蒙特卡洛樹搜尋是一個應用廣泛的工具，適用於兩人有限零和遊戲以外。更為全面的概述請參閱：http://mcts.ai/pubs/mcts-survey-master.pdf

如何表徵一個博弈

形式上，一個博弈由一系列的基本數學實體表徵。在一本 PhD 級別的博弈論書中你可以找到這樣的定義：

定義 1. 一個博弈的擴充套件式可以用一個多元組來定義：

640?wx_fmt=png

從計算機程式設計的角度來看形式化的定義可能難以理解，但幸運的是，我們可以使用一種著名的資料結構以簡單的形式來表徵一個博弈：博弈樹。

博弈樹是一種樹結構，其中每一個節點表徵博弈的確定狀態。從一個節點向其子節點的轉換被稱為一個行動（move）。節點的子節點數目被稱為分支因子（branching factor）。樹的根節點表徵博弈的初始狀態。我們還區分了博弈樹的端節點（terminal nodes），即沒有子節點的節點，表示博弈無法再繼續進行。端節點的狀態可以被評估，並總結博弈的結果。

640?wx_fmt=png

為了限制博弈樹的大小，僅訪問被展開的狀態，未被展開的狀態被標記為灰色。

在上圖的井字棋博弈樹（部分展示）的例子中：

在頂部，你可以看到樹的根節點，其表徵了井字棋博弈的初始狀態，即空白棋盤（標記為綠色）；
任何從一個節點向另一個節點的轉換被稱為一個行動；
井字棋的分支因子是變化的，它依賴於樹的深度；
從一個根節點到一個端節點的樹遍歷表徵了單個博弈過程。

博弈樹是一種遞迴的資料結構，因此當你選擇了一個最佳行動併到達一個子節點的時候，這個子節點其實就是其子樹的根節點。因此，你可以在每一次（以不同的根節點開始），將博弈看成由博弈樹表徵的「尋找最有潛力的下一步行動」問題的序列。在實踐中很常見的是，你不需要記住到達當前狀態的路徑，因為它在當前的博弈狀態中並不重要。

什麼是最有潛力的下一步行動？簡要介紹極小極大（minimax）策略和 alpha-beta 剪枝演算法

再次提醒，我們的最終目標是在給定博弈狀態的前提下，利用博弈樹尋找最有潛力的下一步行動。但這究竟是什麼意思呢？

這個問題並沒有直接的答案。首先你不能提前知道對手的策略，對手可能是個高手，也可能是個菜鳥。假定在國際象棋中，你知道對手是個業餘愛好者（數學家會說，你的對手使用的是混合策略），你可以使用簡單的策略來嘗試欺騙對手並快速獲得勝利。但很明顯，同樣的策略在面對強大的對手時將適得其反。

如果你完全不瞭解對手，那麼你可以使用一種非常保守的策略即極小極大演算法，在假定你的對手執行最佳行動的前提下，最大化你的收益，也可以說在各種獲得最小收益的策略中選擇有最大收益的策略。這種方法以放棄最優策略為代價，從而最小化了風險，因此它是一種非常保守的方法。在 A 和 B 的兩人有限零和序列博弈中（其中 A 嘗試最大化其收益，而 B 嘗試最小化 A 的收益），極小極大演算法可以用以下的遞迴形式來描述：

640?wx_fmt=png

其中：

v_A 和 v_B 分別是玩家 A 和玩家 B 的效用函式（效用=收益）；
move 是一個函式，它在給定當前狀態 s_i 和在該狀態的動作 a_i 下，生成下一個博弈狀態（當前節點的子節點之一）；
eval 是一個評估最終博弈狀態（在端節點處）的函式；
s hat 是任意的最終博弈狀態（即一個端節點）；
右下方式子的負號表示該博弈是一個零和博弈。

簡單來說，給定狀態 s，並假定對手嘗試最小化你的收益，你希望找到能最大化收益的動作 a_i。這正是該演算法被稱為極小極大的原因。我們需要做的就是展開整個博弈樹，並反向傳播由遞迴形式的規則得到的值。

640?wx_fmt=png

上圖中的博弈樹展示了極小極大演算法中的最佳行動選擇過程。白皇后希望博弈的結果儘可能的黑暗（冷色，獎勵值=畫素強度），而黑皇后希望博弈的結果儘可能的明亮（暖色）。每一個層級的選擇都是極小極大判斷的最優結果。我們可以從底部的終端節點開始，其中的選擇是很明顯的。黑皇后將總是選擇最明亮的顏色，然後白皇后將尋找最大的獎勵並選擇到達最暗顏色的路徑，等等。這正是基礎的極小極大演算法的執行過程。

極小極大演算法的最大弱點是它需要展開整個博弈樹。對於有高分支因子的博弈（例如圍棋或國際象棋），該演算法將導致巨大的博弈樹，使得計算無法進行。

那麼有什麼解救的辦法嗎？其中一個方法是僅在確定的閾值深度 d 內展開博弈樹，但是我們無法保證在閾值深度 d 處的任何節點是否端節點。因此我們一個函式來評估非終端博弈狀態。這對於人類來說很自然：即使博弈仍在進行，你也可能通過觀察圍棋或國際象棋的棋盤預測勝者。例如，對以下棋局可以很容易知道結束棋局的走法。

640?wx_fmt=png

另一種克服博弈樹規模過大問題的方法是通過 alpha-beta 剪枝演算法來修剪博弈樹。alpha-beta 剪枝是提升版的極小極大演算法，它以極小極大演算法的形式遍歷博弈樹，並避免某些樹分支的展開，其得到的結果在最好的情況下等於極小極大演算法的結果。alpha-beta 剪枝通過壓縮搜尋空間提高搜尋效率。

極小極大演算法和 alpha-beta 修剪演算法已經是相當成熟的解決方案，目前已被用於多個成功的博弈引擎例如 Stockfish——AlphaZero 的主要對手之一。

蒙特卡洛樹搜尋的基本概念

在蒙特卡洛樹搜尋演算法中，最優行動會通過一種新穎的方式計算出來。顧名思義，蒙特卡洛樹搜尋會多次模擬博弈，並嘗試根據模擬結果預測最優的移動方案。

蒙特卡洛樹搜尋的主要概念是搜尋，即沿著博弈樹向下的一組遍歷過程。單次遍歷的路徑會從根節點（當前博弈狀態）延伸到沒有完全展開的節點，未完全展開的節點表示其子節點至少有一個未訪問到。遇到未完全展開的節點時，它的一個未訪問子節點將會作為單次模擬的根節點，隨後模擬的結果將會反向傳播回當前樹的根節點並更新博弈樹的節點統計資料。一旦搜尋受限於時間或計算力而終止，下一步行動將基於收集到的統計資料進行決策。

下面有一些關於上述蒙特卡洛樹搜尋過程的關鍵問題，它們有助於我們的理解：

什麼是展開或未完全展開的博弈樹？
在搜尋過程中，向下遍歷是什麼意思？如何選擇訪問的下一個子節點？
什麼是模擬？
什麼是反向傳播？
反向傳播回的統計資料是什麼，在展開博弈樹結點更新的是什麼?
最後的行動策略到底是如何選擇的？

下面，我們將依次解決這些問題，因而能對蒙特卡洛樹搜尋有一個清晰的理解。

模擬

首先我們會關注於模擬，它並不會過多依賴於其它術語的定義。模擬即單次博弈策略，它是一系列從當前節點（表示博弈狀態）開始，並在計算出博弈結果後結束於端節點。模擬是一個在隨機博弈初始點開始評估近似計算的博弈樹節點。那在模擬中如何選擇行動呢？

在模擬中，行動可以通過 rollout 策略函式選擇：

640?wx_fmt=png

該函式將輸入一個博弈狀態，併產生下一次行動的選擇。在實踐中，該函式會設計為允許很多次模擬快速進行，一般預設的 rollout 策略函式可以是服從均勻分佈的隨機取樣。

640?wx_fmt=png

Alpha Go 和 Alpha Zero 中的模擬

在 Alpha Go Lee 葉 S_L 的評估中，它會採用以下兩個分量的加權和：

帶有自定義快速 rollout 策略的標準 rollout 評估 z_L，它是一個帶有人工特徵的淺層 softmax 神經網路。
稱之為價值網路的 13 層卷積網路 v_0 從 Alpha Go 自我對抗中抽取 30mln 不同位置進行訓練，並最後預測評估位置。

640?wx_fmt=png

Deepmind 的工程師在 Alpha Zero 中更進一步，他們根本不會執行模擬，他們會使用 19 層 CNN 殘差網路直接評估當前節點。

640?wx_fmt=png

最簡單的模擬形式只是在給定博弈狀態下的隨機行動序列。模擬總會產生一個評估，對於博弈來說，該評估就是勝利、失敗或平局等結果，但通常任何值都可以是模擬的合理結果。

在蒙特卡洛樹搜尋模擬中，我們始終會從一個前面沒訪問的節點開始，因此下面會介紹關於訪問節點的意義。

博弈樹的展開節點、完全展開節點和訪問節點

現在我們需要思考人類是如何考慮圍棋或象棋等博弈的。給定一個根節點並加上博弈的規則，那麼博弈樹的其餘部分就已經隱含表示出來了。我們可以遍歷它而不需要將整棵樹儲存在記憶體中。在最初的根節點中，它是完全未展開的，我們處於博弈的初始狀態，其餘所有節點都沒有被訪問。一旦我們需要執行一個行動，我們就會思考採用該行動後會產生怎樣的結果，因此訪問一個節點後，需要分析該節點位置與帶來的效用。

蒙特卡洛樹搜尋也是採用相同的特性構建博弈樹。所有節點可以分為訪問或未訪問，那麼一個節點的訪問到底指的是什麼？一般而言，如果模擬將該節點作為初始節點，這就意味著它至少評估了一次，那麼它就可以視為已訪問節點。如果某節點的所有子節點都是已訪問節點，那麼它就可視為完全展開的節點，相對而言也就存在未完全展開的節點。

640?wx_fmt=png

在實踐中，搜尋開始時，根節點的所有子節點都未被訪問。然後一個節點被選中，第一個模擬（評估）就開始了。

請注意：模擬過程中 rollout 策略函式選擇的節點並未被訪問。它們仍然是未被訪問狀態，即使 rollout 經過它們，只有模擬開始的那個節點是被訪問的狀態。

反向傳播：將模擬結果傳播回去

當初次訪問節點的模擬結束後，其結果會反向傳播至當前博弈樹的根節點。模擬開始的節點被標註為已訪問。

640?wx_fmt=png

反向傳播是從子節點（模擬開始的地方）遍歷回根節點。模擬結果被傳輸至根節點，反向傳播路徑上的每個節點的統計資料都被計算／更新。反向傳播保證每個節點的資料都會反映開始於其所有子節點的模擬結果（因為模擬結果被傳輸回博弈樹的根節點）。

節點的統計資料

反向傳播模擬結果的目的是更新反向傳播路徑（包括模擬起始的節點）上所有節點 v 的總模擬獎勵 Q(v) 以及總訪問次數 N(v)。

Q(v) 即總模擬獎勵是節點 v 的一項屬性，在最簡單的形式中是通過考慮的節點得到的模擬結果的總和。
N(v) 即總訪問次數是節點 v 的另一項屬性，表示節點 v 位於反向傳播路徑上的次數（即它對總模擬獎勵做出了多少次貢獻）。

每個被訪問節點都會儲存這兩個值，一旦完成了確定次數的模擬之後，被訪問的節點就儲存了它們被利用/探索（expolited/explored）的資訊。

換句話說，當你檢視任意節點的統計資料時，這兩個值將反映該節點的潛在價值（總模擬獎勵）和它被探索的程度（總訪問次數）。高獎勵的節點是很好的可利用候選，而那些訪問次數少的節點也可能是有價值的（因為它們尚未得到很好的探索）。

我們還缺少一塊拼圖。如何從一個根節點到達一個未訪問節點，來啟動一次模擬呢？

博弈樹遍歷

在搜尋最開始的時候，由於我們還沒有進行任何模擬，所以先選擇未被訪問的節點。在每個未被訪問的節點上進行單次模擬，結果被反向傳播至根節點，然後根節點即被認為經過了完全展開。

但是接下來怎麼做呢？現在我們如何從完全展開的節點導向未被訪問的節點呢？我們必須遍歷被訪問節點的層，目前沒有很好的繼續進行的方式。

為了在路徑中找到下一個節點，以通過完全展開的節點 v 開始下一次模擬，我們需要考慮 v 所有子節點 v_1, v_2, …, v_k 的資訊，以及節點 v 本身的資訊。現在我們來思考一下可用資訊有哪些：

640?wx_fmt=png

當前節點（藍色）是完全展開的，因此它必須經過訪問，以儲存節點資料：它及其子節點的總模擬獎勵和總訪問次數。這些值是為了最後一部分：樹的置信上限（UCT）做準備。

樹的置信上限

UCT 是一個函式，使我們在被訪問節點中選擇下一個要遍歷的節點，這也是蒙特卡洛樹搜尋的核心函式：

640?wx_fmt=png

UCT 最大的節點就是蒙特卡洛樹搜尋遍歷過程中選擇的節點。讓我們來看看 UCT 函式如何執行：

首先，該函式為節點 v 的子節點 v_i 而定義，它包括兩個元件：第一個元件是

640?wx_fmt=png

，又叫做 exploitation 元件，可以理解為贏／輸率，總模擬獎勵（simulation reward）除以總訪問次數，即節點 v_i 的勝率評估結果。我們當然更想遍歷具備高贏率的節點。

為什麼不僅僅使用 exploitation 元件呢？因為我們會在搜尋開始時很快結束對取得單次獲勝的節點的貪婪探索。

簡單示例：

假設我們僅使用 exploitation UCT 元件開始蒙特卡洛樹搜尋。從根節點開始，我們對所有子節點進行一次模擬，然後下一步僅訪問那些模擬結果至少有一次是贏的節點。第一次模擬結果不幸失敗的節點會立刻被捨棄。

因此我們還要有第二個 UCT 元件 exploration。exploration 元件支援未被探索的節點，這些節點相對來說更少被訪問（N(v_i) 較低）。我們來看一下 UCT 函式 exploration 元件的形狀：隨著節點訪問量的增加而遞減，給訪問量少的節點提供更高的被選中機率，以指引 exploration 探索。

640?wx_fmt=png

最終，UCT 公式中的引數 c 控制蒙特卡洛樹搜尋中 expolitation 和 exploration 元件之間的權衡。

UCT 函式中的一個重要標誌是：在競爭性遊戲中，其 exploitaion 元件 Q_i 的計算通常與在節點 i 處行動的玩家有關，這意味著在遍歷博弈樹時，玩家視角根據被遍歷的節點而變化：對於任意連續節點，玩家視角都是相反的。

終止蒙特卡洛樹搜尋

現在我們瞭解了實現蒙特卡洛樹搜尋所需要的所有因素，但還有一些問題需要回答。首先，我們什麼時候可以終止 MCTS？答案是：看情況。如果你構建一個遊戲引擎，那麼你的「思考時間」有限，計算能力也有限。因此最安全的選擇是隻要資源允許，就可以一直執行 MCTS。

一旦 MCTS 過程結束，最好的一步通常是具備最高訪問量 N(v_i) 的一步，因為它的獎勵值評估結果最好（評估的值必須很高，因為它被探索的頻率也最高）。

640?wx_fmt=png

在使用蒙特卡洛樹搜尋走了一步之後，你的選擇節點就變成了對手下一步的起始遊戲狀態。一旦他走了一步，你就可以執行蒙特卡洛樹搜尋，從表示對手選擇遊戲狀態的節點開始。之前的 MCTS round 資料可能仍然在你現在考慮的新分支以內。這就可以重新使用資料而不是從頭構建新的樹，事實上這就是 Alpha Go / Alpha Zero 創造者所做的。

總結

現在，我們來回顧一下蒙特卡洛樹搜尋的簡單定義，並將其封裝進虛擬碼：

640?wx_fmt=png

你可以看到它縮減至非常少的函式，這些函式對任何遊戲都有效，不只是圍棋或象棋。你可以在這裡找到蒙特卡洛樹搜尋用於井字棋（Tic-Tac-Toe）的實現示例：https://github.com/int8/monte-carlo-tree-search。

希望本文對大家有所幫助。 640?wx_fmt=png

原文連結：https://int8.io/monte-carlo-tree-search-beginners-guide/

本文為機器之心編

640?wx_fmt=png

人工智慧賽博物理作業系統

AI-CPS OS

“人工智慧賽博物理作業系統”（新一代技術+商業作業系統“AI-CPS OS”：雲端計算+大資料+物聯網+區塊鏈+人工智慧）分支用來的今天，企業領導者必須瞭解如何將“技術”全面滲入整個公司、產品等“商業”場景中，利用AI-CPS OS形成數字化+智慧化力量，實現行業的重新佈局、企業的重新構建和自我的煥然新生。

AI-CPS OS的真正價值並不來自構成技術或功能，而是要以一種傳遞獨特競爭優勢的方式將自動化+資訊化、智造+產品+服務和資料+分析一體化，這種整合方式能夠釋放新的業務和運營模式。如果不能實現跨功能的更大規模融合，沒有顛覆現狀的意願，這些將不可能實現。

領導者無法依靠某種單一戰略方法來應對多維度的數字化變革。面對新一代技術+商業作業系統AI-CPS OS顛覆性的數字化+智慧化力量，領導者必須在行業、企業與個人這三個層面都保持領先地位：

重新行業佈局：你的世界觀要怎樣改變才算足夠？你必須對行業典範進行怎樣的反思？
重新構建企業：你的企業需要做出什麼樣的變化？你準備如何重新定義你的公司？
重新打造自己：你需要成為怎樣的人？要重塑自己並在數字化+智慧化時代保有領先地位，你必須如何去做？

AI-CPS OS是數字化智慧化創新平臺，設計思路是將大資料、物聯網、區塊鏈和人工智慧等無縫整合在雲端，可以幫助企業將創新成果融入自身業務體系，實現各個前沿技術在雲端的優勢協同。AI-CPS OS形成的數字化+智慧化力量與行業、企業及個人三個層面的交叉，形成了領導力模式，使數字化融入到領導者所在企業與領導方式的核心位置：

精細：這種力量能夠使人在更加真實、細緻的層面觀察與感知現實世界和數字化世界正在發生的一切，進而理解和更加精細地進行產品個性化控制、微觀業務場景事件和結果控制。
智慧：模型隨著時間（資料）的變化而變化，整個系統就具備了智慧（自學習）的能力。
高效：企業需要建立實時或者準實時的資料採集傳輸、模型預測和響應決策能力，這樣智慧就從批量性、階段性的行為變成一個可以實時觸達的行為。
不確定性：數字化變更顛覆和改變了領導者曾經仰仗的思維方式、結構和實踐經驗，其結果就是形成了複合不確定性這種顛覆性力量。主要的不確定性蘊含於三個領域：技術、文化、制度。
邊界模糊：數字世界與現實世界的不斷融合成CPS不僅讓人們所知行業的核心產品、經濟學定理和可能性都產生了變化，還模糊了不同行業間的界限。這種效應正在向生態系統、企業、客戶、產品快速蔓延。

AI-CPS OS形成的數字化+智慧化力量通過三個方式激發經濟增長：

創造虛擬勞動力，承擔需要適應性和敏捷性的複雜任務，即“智慧自動化”，以區別於傳統的自動化解決方案；
對現有勞動力和實物資產進行有利的補充和提升，提高資本效率；
人工智慧的普及，將推動多行業的相關創新，開闢嶄新的經濟增長空間。

給決策制定者和商業領袖的建議：

超越自動化，開啟新創新模式：利用具有自主學習和自我控制能力的動態機器智慧，為企業創造新商機；
迎接新一代資訊科技，迎接人工智慧：無縫整合人類智慧與機器智慧，重新
評估未來的知識和技能型別；
制定道德規範：切實為人工智慧生態系統制定道德準則，並在智慧機器的開
發過程中確定更加明晰的標準和最佳實踐；
重視再分配效應：對人工智慧可能帶來的衝擊做好準備，制定戰略幫助面臨
較高失業風險的人群；
開發數字化+智慧化企業所需新能力：員工團隊需要積極掌握判斷、溝通及想象力和創造力等人類所特有的重要能力。對於中國企業來說，創造兼具包容性和多樣性的文化也非常重要。

子曰：“君子和而不同，小人同而不和。” 《論語·子路》雲端計算、大資料、物聯網、區塊鏈和人工智慧，像君子一般融合，一起體現科技就是生產力。

如果說上一次哥倫布地理大發現，擴充的是人類的物理空間。那麼這一次地理大發現，擴充的就是人們的數字空間。在數學空間，建立新的商業文明，從而發現新的創富模式，為人類社會帶來新的財富空間。雲端計算，大資料、物聯網和區塊鏈，是進入這個數字空間的船，而人工智慧就是那船上的帆，哥倫布之帆！

新一代技術+商業的人工智慧賽博物理作業系統AI-CPS OS作為新一輪產業變革的核心驅動力，將進一步釋放歷次科技革命和產業變革積蓄的巨大能量，並創造新的強大引擎。重構生產、分配、交換、消費等經濟活動各環節，形成從巨集觀到微觀各領域的智慧化新需求，催生新技術、新產品、新產業、新業態、新模式。引發經濟結構重大變革，深刻改變人類生產生活方式和思維模式，實現社會生產力的整體躍升。

產業智慧官 AI-CPS

用“人工智慧賽博物理作業系統”（新一代技術+商業作業系統“AI-CPS OS”：雲端計算+大資料+物聯網+區塊鏈+人工智慧），在場景中構建狀態感知-實時分析-自主決策-精準執行-學習提升的認知計算和機器智慧；實現產業轉型升級、DT驅動業務、價值創新創造的產業互聯生態鏈。

640?wx_fmt=png

長按上方二維碼關注微信公眾號： AI-CPS，更多資訊回覆：

新技術：“雲端計算”、“大資料”、“物聯網”、“區塊鏈”、“人工智慧”；新產業：“智慧製造”、“智慧金融”、“智慧零售”、“智慧駕駛”、“智慧城市”；新模式：“財富空間”、“工業網際網路”、“資料科學家”、“賽博物理系統CPS”、“供應鏈金融”。

官方網站：AI-CPS.NET

本文系“產業智慧官”（公眾號ID：AI-CPS）收集整理，轉載請註明出處！

版權宣告：由產業智慧官（公眾號ID：AI-CPS）推薦的文章，除非確實無法確認，我們都會註明作者和來源。部分文章推送時未能與原作者取得聯絡。若涉及版權問題，煩請原作者聯絡我們，與您共同協商解決。聯絡、投稿郵箱：erp_vip@hotmail.com

AlphaGo的制勝祕訣：蒙特卡洛樹搜尋初學者指南
2018-03-31
Go
詳解AlphaGo到AlphaGo Zero！
2019-01-31
Go
LeetCode入門指南之二分搜尋
2021-09-01
LeetCode
完勝人類之後，AlphaGo猝不及防的宣佈“退役”
2018-03-07
Go
聊聊百度搜尋背後的故事
2021-07-28
AlphaGo Zero，一次成功的炒作而已？
2018-04-18
Go
二叉搜尋樹的後序遍歷序列
2018-11-08
AlphaGo之後，DeepMind重磅推出AlphaFold：基因序列預測蛋白質結構
2018-12-03
Go
LinkedIn 招聘之搜尋和推薦系統背後的 AI
2019-05-17
AI
強化學習-學習筆記5 | AlphaGo
2022-07-06
強化學習筆記Go
96不同的二查搜尋樹
2020-07-15
二叉搜尋樹
2024-11-21
Leetcode 700. 二叉搜尋樹中的搜尋（DAY 2）
2020-12-20
LeetCode
Elasticsearch從入門到放棄：再聊搜尋
2020-07-14
Elasticsearch
LeetCode入門指南之二叉樹
2021-08-30
LeetCode二叉樹
從二分搜尋到二叉搜尋樹
2023-04-03
[劍指offer] 二叉搜尋樹的後序遍歷序列
2018-07-01
JZ-023-二叉搜尋樹的後序遍歷序列
2021-12-18
leetcode 700. 二叉搜尋樹中的搜尋思考分析
2020-10-24
LeetCode
編譯器背後的故事（入門練習）
2020-10-16
編譯
遊戲AI探索之旅：從AlphaGo到MOBA遊戲
2018-10-25
遊戲AIGo
二叉搜尋樹的操作集
2018-08-04
二叉搜尋樹的結構
2024-10-20
二分搜尋樹元素的插入
2021-03-30
Avalonia下拉可搜尋樹（TreeComboBox）
2024-04-11
【資料結構】搜尋樹
2020-12-08
資料結構
ElasticSearch分散式搜尋引擎——從入門到精通
2023-02-05
Elasticsearch分散式
判斷序列是否是二叉搜尋樹的後續遍歷
2019-09-02
中國AI背後的一股“神祕力量”
2018-08-27
AI
復工背後的“防斷鏈”指南：探尋智慧製造的堅實底座
2020-03-04
DeepMind新一代圍棋程式AlphaGo Zero再次登上Nature
2018-10-23
Go
Anthropic挖走DeepMind強化學習大牛、AlphaGo核心作者Julian Schrittwieser
2024-10-29
強化學習Go
跬步至千里：揭秘谷歌AutoML背後的漸進式搜尋技術
2018-03-28
谷歌TOML
二叉搜尋樹的python實現
2019-02-16
Python
96. 不同的二叉搜尋樹
2024-11-11
Day20 | 654.最大二叉樹、 617.合併二叉樹、 700.二叉搜尋樹中的搜尋 98.驗證二叉搜尋樹
2024-06-15
二叉樹
ES(Elasticsearch)支援PB級全文搜尋引擎入門教程
2019-01-23
Elasticsearch
分散式搜尋引擎Elasticsearch基礎入門學習
2023-05-10
分散式Elasticsearch

【AlphaGo】AlphaGo背後的力量：蒙特卡洛樹搜尋入門指南

相關文章