TensorFlow分散式計算機制解讀：以資料並行為重

機器之心發表於2017-06-18

原文網址 : http://www.jiqizhixin.com/articles/2017-06-18-5

Tensorflow 是一個為數值計算（最常見的是訓練神經網路）設計的流行開源庫。在這個框架中，計算流程通過資料流程圖（data flow graph）設計，這為更改操作結構與安置提供了很大靈活性。TensorFlow 允許多個 worker 平行計算，這對必須通過處理的大量訓練資料訓練的神經網路是有益的。此外，如果模型足夠大，這種並行化有時可能是必須的。在本文中，我們將探討 TensorFlow 的分散式計算機制。

TensorFlow 計算圖示例

資料並行 VS. 模型並行

當在多個計算節點間分配神經網路訓練時，通常採用兩種策略：資料並行和模型並行。在前者中，在每個節點上單獨建立模型的例項，並饋送不同的訓練樣本；這種架構允許更高的訓練吞吐量。相反，在模型並行中，模型的單一例項在多個節點間分配，這種架構允許訓練更大的模型（可能不一定適合單節點的儲存器）。如果需要，也可以組合這兩種策略，使給定模型擁有多個例項，每個例項跨越多個節點。在本文中，我們將重點關注資料並行。

TensorFlow分散式計算機制解讀：以資料並行為重

資料並行與模型並行的不同形式。左：資料並行；中：模型並行；右：資料並行與模型並行。

TensorFlow 中的資料並行

當使用 TensorFlow 時，資料並行主要表現為兩種形式：圖內複製（in-graph replication）和圖間複製（between-graph replication）。兩種策略之間最顯著的區別在於流程圖的結構與其結果。

圖內複製

圖內複製通常被認為是兩種方法中更簡單和更直接（但更不可擴充套件的）的方法。當採用這種策略時，需要在分散式的主機上建立一個包含所有 worker 裝置中副本的流程圖。可以想象，隨著 worker 數量的增長，這樣的流程圖可能會大幅擴充套件，這可能會對模型效能產生不利影響。然而，對於小系統（例如，雙 GPU 臺式計算機），由於其簡單性，圖內複製可能是最優的。

以下是使用單個 GPU 的基線 TensorFlow 方法與應用圖內複製方法的程式碼片段的對比。考慮到圖內複製方法與擴充套件（scaling）相關的問題，我們將僅考慮單機、多 GPU 配置的情況。這兩個程式碼片段之間的差異非常小，它們的差異僅存在於：對輸入資料的分塊，使得資料在各 worker 間均勻分配，遍歷每個含有 worker 流程圖的裝置，並將來自不同 worker 的結果連線起來。通過少量程式碼更改，我們可以利用多個裝置，這種方法使可擴充套件性不再成為大障礙，從而在簡單配置下更受歡迎。

# single GPU (baseline) 單個 GPU（基線）import tensorflow as tf# place the initial data on the cpuwith tf.device('/cpu:0'): input_data = tf.Variable([[1., 2., 3.],[4., 5., 6.],[7., 8., 9.],[10., 11., 12.]]) b = tf.Variable([[1.], [1.], [2.]])# compute the result on the 0th gpuwith tf.device('/gpu:0'): output = tf.matmul(input_data, b)# create a session and runwith tf.Session() as sess: sess.run(tf.global_variables_initializer())print sess.run(output)

# in-graph replication 圖內複製import tensorflow as tfnum_gpus = 2# place the initial data on the cpuwith tf.device('/cpu:0'): input_data = tf.Variable([[1., 2., 3.],[4., 5., 6.],[7., 8., 9.],[10., 11., 12.]]) b = tf.Variable([[1.], [1.], [2.]])# split the data into chunks for each gpuinputs = tf.split(input_data, num_gpus)outputs = []# loop over available gpus and pass input datafor i in range(num_gpus):with tf.device('/gpu:'+str(i)): outputs.append(tf.matmul(inputs[i], b))# merge the results of the deviceswith tf.device('/cpu:0'): output = tf.concat(outputs, axis=0)# create a session and runwith tf.Session() as sess: sess.run(tf.global_variables_initializer())print sess.run(output)

這些更改也可以通過檢查下面的 TensorFlow 流程圖來視覺化。增加的 GPU 模組說明了原始方法的擴充套件方式。

TensorFlow分散式計算機制解讀：以資料並行為重

圖內複製的視覺化。左：原始圖。右：圖內複製的結果圖。

圖間複製

認識到圖內複製在擴充套件上的侷限性，圖間複製的優勢在於運用大量節點時保證模型效能。這是通過在每個 worker 上建立計算圖的副本來實現的，並且不需要主機儲存每個 worker 的圖副本。通過一些 TensorFlow 技巧來協調這些 worker 的圖——如果兩個單獨的節點在同一個 TensorFlow 裝置上分配一個具有相同名稱的變數，則這些分配將被合併，變數將共享相同的後端儲存，從而這兩個 worker 將合併在一起。

但是，必須確保裝置的正確配置。如果兩個 worker 在不同的裝置上分配變數，則不會發生合併。對此，TensorFlow 提供了 replica_device_setter 函式。只要每個 worker 以相同的順序建立計算圖，replica_device_setter 為變數分配提供了確定的方法，確保變數在同一裝置上。這將在下面的程式碼中演示。

由於圖間複製在很大程度上重複了原始圖，因此多數相關的修改實際上都在叢集中節點的配置上。因此，下面的程式碼段將只針對這一點進行改動。重要的是要注意，這個指令碼通常會在叢集中的每臺機器上執行，但具體的命令列引數不同。下面來逐行研究程式碼。

import sysimport tensorflow as tf# specify the cluster's architecturecluster = tf.train.ClusterSpec({'ps': ['192.168.1.1:1111'],'worker': ['192.168.1.2:1111','192.168.1.3:1111']})# parse command-line to specify machinejob_type = sys.argv[1] # job type: "worker" or "ps"task_idx = sys.argv[2] # index job in the worker or ps list# as defined in the ClusterSpec# create TensorFlow Server. This is how the machines communicate.server = tf.train.Server(cluster, job_name=job_type, task_index=task_idx)# parameter server is updated by remote clients.# will not proceed beyond this if statement.if job_type == 'ps': server.join()else:# workers onlywith tf.device(tf.train.replica_device_setter( worker_device='/job:worker/task:'+task_idx, cluster=cluster)):# build your model here as if you only were using a single machinewith tf.Session(server.target):# train your model here

執行分散式 TensorFlow 的第一步是使用 tf.train.ClusterSpec 來指定叢集的架構。節點通常分為兩個角色（或「job」）：含有變數的引數伺服器（「ps」）和執行大量計算的「worker」。下面提供每個節點的 IP 地址和埠。接下來，指令碼必須確定其 job 型別和在網路中的索引；這通常是通過將命令列引數傳遞給指令碼並解析來實現的。job_type 指定節點是執行 ps 還是 worker 任務，而 task_idx 指定節點在 ps 或 worker 列表中的索引。使用以上變數建立 TensorFlow 伺服器，用於連線各裝置。

接下來，如果節點是引數伺服器，它只連線它們的執行緒並等待它們終止。雖然似乎沒有特定的 ps 程式碼，但圖元素實際上是由 worker 推送到 ps 的。

相反，如果裝置是 worker，則使用 replica_device_setter 構建我們的模型，以便在前面討論的這些 ps 伺服器上連續分配引數。這些副本將在很大程度上與單機的流程圖相同。最後，我們建立一個 tf.Session 並訓練我們的模型。

總結

希望本文清楚地闡述了與分散式 TensorFlow 相關的一些術語和技術。在以後的文章中，我們將詳細探討與此相關及其它的主題。

原文連結：https://clindatsci.com/blog/2017/5/31/distributed-tensorflow

[原始碼解析] 並行分散式框架 Celery 之容錯機制
2021-05-17
原始碼並行分散式框架
分散式混合並行訓練關鍵技術解讀
2024-07-08
分散式並行
Redisson 分散式鎖實戰與 watch dog 機制解讀
2021-01-26
Redis分散式
[原始碼解析] TensorFlow 分散式環境(8) --- 通訊機制
2022-04-06
原始碼分散式
[原始碼解析] TensorFlow 分散式之 MirroredStrategy 分發計算
2022-04-26
原始碼分散式
分散式資料庫入門：以國產資料庫 TDSQL 為例
2024-05-29
分散式資料庫SQL
分散式鎖機制
2024-04-09
分散式
分散式ID系列（3）——資料庫自增ID機制適合做分散式ID嗎
2019-08-07
分散式資料庫
崑崙分散式資料庫儲存叢集 Fullsync 機制
2022-04-07
分散式資料庫
以電商為例讀懂分散式架構的前世今生
2018-06-27
分散式架構
TensorFlow讀寫資料
2019-03-16
解讀MySQL 8.0資料字典快取管理機制
2024-07-16
MySql快取
詳解 Apache SkyWalking OAP 的分散式計算
2022-02-16
Apache分散式
[分散式]分散式計算系統淺析
2019-03-20
分散式
崑崙分散式資料庫Sequence功能及其實現機制
2022-01-17
分散式資料庫
[翻譯] 使用 TensorFlow 進行分散式訓練
2022-04-10
分散式
分散式資料庫 ZNBase 的分散式計劃生成
2022-09-28
分散式資料庫
陽振坤：資料庫天然選擇了計算機，但計算機天然並不適合資料庫
2019-03-04
資料庫計算機
TensorFlow分散式實踐
2019-01-16
分散式
瞭解 MySQL的資料行、行溢位機制嗎？
2020-11-25
MySql
分散式雲端計算
2021-03-21
分散式
十圖詳解TensorFlow資料讀取機制tf.train.string_input_producer和tf.train.start_queue_runners
2018-12-27
AI
GlusterFS分散式儲存資料的恢復機制(AFR)的說明
2018-04-09
分散式
TensorFlow2020:如何使用Tensorflow.js執行計算機視覺應用程式？
2020-07-17
JS計算機視覺
資深 Googler 深度解讀 TensorFlow
2019-02-28
Go
大資料分散式計算系統 Spark 入門核心之 RDD
2022-03-23
大資料分散式Spark
Uber實時資料基礎設施：分散式計算架構
2022-11-09
分散式架構
資料庫會演變成分散式計算平臺嗎？ - Nikita
2022-06-02
資料庫分散式
Apache Pulsar分散式事務機制
2022-03-09
Apache分散式
靈活運用分散式鎖解決資料重複插入問題
2021-07-26
分散式
【重學計算機】計算機組成原理
2020-12-31
計算機
[原始碼解析] PyTorch分散式優化器(2)----資料並行優化器
2021-12-08
原始碼PyTorch分散式優化並行
分散式計算與Map Reduce
2021-01-03
分散式
為什麼量子計算如此難以解釋？ - quantamagazine
2021-06-18
圖解計算機中的資料表示形式
2021-01-25
圖解計算機
嵌入式計算機學習資料第435篇：工業現場綜合資料採集嵌入式計算機
2020-12-10
計算機
「分散式技術專題」事務型、分析型資料資源隔離機制
2023-02-14
分散式
[原始碼解析] PyTorch 分散式(18) --- 使用 RPC 的分散式管道並行
2021-12-20
原始碼PyTorch分散式RPC並行
解讀容器 2019：把“以應用為中心”進行到底
2019-12-31

TensorFlow分散式計算機制解讀：以資料並行為重

相關文章