分散式 TensorFlow：Distribution Strategy API 丨Google 開發者大會 2018

隨風追魚發表於2018-09-25

原文網址 : https://juejin.im/post/5ba9d72ff265da0ac849384b

Google 開發者大會 (Google Developer Days，簡稱 GDD) 是展示 Google 最新開發者產品和平臺的全球盛會，旨在幫助你快速開發優質應用，發展和留住活躍使用者群，充分利用各種工具獲得更多收益。2018 Google 開發者大會於 9 月 20 日和 21 日於上海舉辦。?Google 開發者大會 2018 掘金專題

2018 年 9 月 21 日周玥楓（Google Brain 軟體工程師）帶來一場《分散式 TensorFlow：Distribution Strategy API》的演講，本文將對演講做一個回顧。

為什麼要分散式訓練？

分散式 TensorFlow：Distribution Strategy API 丨Google 開發者大會 2018

如上圖所示，在單個 GPU 訓練 Accuracy 需要花費 87 個小時。但是在實際的生產環境中，我們花費如此多的時間在單個模型的訓練上。如果我們把時間從幾天壓縮到幾個小時的話，在同樣的時間裡，可以訓練更多的模型，嘗試更多的想法，生產力將大大提高，所以使用分散式訓練是實際生產環境所需要的。

Distribution Strategy API

分散式 TensorFlow：Distribution Strategy API 丨Google 開發者大會 2018

目標：

簡單易用 - 極少的程式碼修改
優秀的開箱效能
多功能 - 支援不同的分散式架構和 API

用Keras 訓練 ResNet50 (非分散式)

train_dataset = tf.data.Dataset(...)
eval_dataset = tf.data.Dataset(...)
model = tf.keras.applications.ReyNet50()
optimizer = tf.train.GradientDescentOptimizer(learning_rate = 0.1)

model.compile(loss = "categorcial_crossentropy",optimizer = optimizer)

model.fit(train_dataset, epochs = 10)
model.evaluate(eval_dataset)
複製程式碼

用Keras 在多個 GPU 上訓練 ResNet50 （在 TensorFlow r1.11 中可用）

train_dataset = tf.data.Dataset(...)
eval_dataset = tf.data.Dataset(...)
model = tf.keras.applications.ReyNet50()
optimizer = tf.train.GradientDescentOptimizer(learning_rate = 0.1)

strategy = tf.contrib.distribute.MirroredStrategy()
model.compile(loss = "categorcial_crossentropy",optimizer = optimizer, 
    distribute = strategy)

model.fit(train_dataset, epochs = 10)
model.evaluate(eval_dataset)
複製程式碼

通過對比我們可以發現，僅僅只是對兩行程式碼的修改就能實現多 GPU 的訓練。即使用MirroredStrategy API 無需修改 input pipeline ，無需修改模型、訓練迴圈就可以實現多 GPU 訓練，並且無縫支援 Checkpoints，metrics, summaries.

MirroredStrategy

僅僅通過兩行程式碼的修改，就能實現多 GPU 訓練，MirroredStrategy 做了些什麼？

資料並行
Mirrored Variables(映象變數)
ALL- reduce
同步訓練

資料並行

分散式 TensorFlow：Distribution Strategy API 丨Google 開發者大會 2018

Mirrored Variables(映象變數)

分散式 TensorFlow：Distribution Strategy API 丨Google 開發者大會 2018

ALL - reduce

分散式 TensorFlow：Distribution Strategy API 丨Google 開發者大會 2018

分散式 TensorFlow：Distribution Strategy API 丨Google 開發者大會 2018

同步訓練

分散式 TensorFlow：Distribution Strategy API 丨Google 開發者大會 2018

每個裝置都有模型（模型為兩層）
每個裝置拿到資料的一部分，用本地映象變數進行計算
用 ALL - reduce 交換梯度，對梯度就行求和，並用求和結果來更新本地的映象變數
只有當映象更新之後才會進行下一步，從而保證了一致性

多 GPU 效能

分散式 TensorFlow：Distribution Strategy API 丨Google 開發者大會 2018

在 Cloud TPU 上用 keras 訓練 ResNet50 (Coming up in TF r1.12)

分散式 TensorFlow：Distribution Strategy API 丨Google 開發者大會 2018

同樣只需要修改上圖中方框標記的兩行程式碼，就可以實現雲端 TPU 的擴充。

TPUStrategy

分散式 TensorFlow：Distribution Strategy API 丨Google 開發者大會 2018

擴充到多機

分散式 TensorFlow：Distribution Strategy API 丨Google 開發者大會 2018

分散式 TensorFlow：Distribution Strategy API 丨Google 開發者大會 2018

部署到叢集

分散式 TensorFlow：Distribution Strategy API 丨Google 開發者大會 2018

推薦使用 kubernetes 部署叢集

分散式 TensorFlow：Distribution Strategy API 丨Google 開發者大會 2018

Collective ALL-Reduce Strategy

Collective Ops具有以下幾個特點：

自動選擇最佳演算法，融合梯度
支援外掛，可以新增支援新的架構和演算法
容錯（Future）

同時，Collective 支援多種 All - Reduce 演算法。

Ring All - Reduce

分散式 TensorFlow：Distribution Strategy API 丨Google 開發者大會 2018

Hierarchical All - Reduce

分散式 TensorFlow：Distribution Strategy API 丨Google 開發者大會 2018

其他多機架構

分散式 TensorFlow：Distribution Strategy API 丨Google 開發者大會 2018

實現示例如下：

分散式 TensorFlow：Distribution Strategy API 丨Google 開發者大會 2018

同樣只需要修改少量的程式碼，就可實現我們想要的效果。

分散式 TensorFlow：Distribution Strategy API 丨Google 開發者大會 2018

通過Kubernetes 可以設定 PS 數量

新的分散式訓練方法

分散式 TensorFlow：Distribution Strategy API 丨Google 開發者大會 2018

我們可以在筆記本上構建我們的模型，叢集跑 TensorFlow 服務並提供介面，筆記本通過介面來實現分散式訓練。

分散式 TensorFlow：Distribution Strategy API 丨Google 開發者大會 2018

如上圖所示，啟動叢集。

程式碼例項如下：

分散式 TensorFlow：Distribution Strategy API 丨Google 開發者大會 2018

在筆記本上啟動之後，我們可以檢視到執行日誌。可以通過關閉程式來結束訓練，也同樣可以修改模型用同樣的叢集來進行訓練。

正在實現

分散式 TensorFlow：Distribution Strategy API 丨Google 開發者大會 2018

參考資源

分散式 TensorFlow：Distribution Strategy API 丨Google 開發者大會 2018

以上就是本次演講全部內容，希望對大家有所幫助。閱讀更多 Google 開發者大會 2018 技術乾貨

相關文章

Google 開發者大會 2018 實錄 — TensorFlow篇
2018-09-25
Go
TensorFlow 主題演講 | Google 開發者大會 2018
2018-09-22
Go
TensorFlow 簡介：機器學習技術使用入門丨 Google 開發者大會 2018
2018-09-20
機器學習Go
使用 TensorFlow Extended (TFX) 在生產環境中部署機器學習丨 Google 開發者大會 2018
2019-03-04
機器學習Go
Android 在 Google 開發者大會上釋出了哪些更新？ | Google 開發者大會 2018
2018-09-21
AndroidGo
2018 Google 開發者大會精彩回顧
2018-09-22
Go
程式設計介面的新動態：用 TensorFlow 高層 API 來構建機器學習模型丨 Google 開發者大會 2018
2018-09-21
程式設計API機器學習模型Go
谷歌開發者大會2018實錄——TensorFlow篇
2018-09-25
谷歌
網站效能調優開發工具: Lighthouse, Puppeteer 以及進階部分丨 Google 開發者大會 2018
2018-09-23
網站Go
Google 2019開發者大會
2019-09-11
Go
中國 2018 Google 開發者大會！今起開放報名
2018-08-15
Go
Google開發者大會：你不得不知的Tensorflow小技巧
2019-02-16
Go
前沿AI：Tensor2Tensor | Google 開發者大會 2018
2019-03-04
AIGo
2021 Google 開發者大會丨共建全球技術生態
2021-11-26
Go
[譯] Flutter 釋出預覽版 2.0 : 完美適配 iOS丨Google 開發者大會2018
2019-03-04
FlutteriOSGo
全網首發 | 2018 Google 開發者大會現場紀要
2018-09-22
Go
以 tf.data 優化訓練資料輸入管道丨 Google 開發者大會 2018
2018-09-21
優化Go
TensorFlow Lite：TensorFlow在移動裝置與嵌入式裝置上的輕量級跨平臺解決方案 | Google 開發者大會 2018
2018-09-22
Go
2021 Google 開發者大會丨助力共建多元、平等、共融的社群
2021-11-30
Go
來自前端工程師的Google開發者大會2018參會總結
2019-03-01
前端工程師Go
Google I/O 2022開發者大會
2022-05-12
Go
帶你逛 2019 Google 開發者大會
2019-09-13
Go
Google 2020開發者大會Flutter專題
2020-11-20
GoFlutter
2018 TensorFlow開發者峰會都發布了哪些殺器？
2019-02-06
2021 Google 開發者大會丨助力優質應用構建，多維度提升開發效率
2021-11-26
Go
多元共進｜2023 Google 開發者大會全解析
2023-09-20
Go
大會沒看夠？2021 Google 開發者大會總結看這裡！
2021-12-08
Go
Google開發者大會：為中國開發者和消費者推出新的工具
2018-09-20
Go
在你的 Android App 中使用 Flutter | Google開發者大會
2018-09-25
AndroidAPPFlutterGo
右鍵收藏！2021 Google 開發者大會怎麼看？
2021-11-16
Go
谷歌開發者大會2018實錄——Flutter篇
2019-03-04
谷歌Flutter
微信小遊戲開發技巧（大會演講內容整理）丨掘金開發者大會
2018-09-20
遊戲開發
2021 Google 開發者大會即將登陸：年度盛會，先睹為快！
2021-11-16
Go
連續六天：2020 Google 開發者大會官網集結！
2020-11-13
Go
Develop as One | 2021 Google 開發者大會主旨演講精彩回顧
2021-11-20
devGo
Wear OS 平臺的最新發展和商機 | Google 開發者大會
2019-02-26
Go
雲開發初探 —— 更簡便的小程式開發模式丨掘金開發者大會
2018-09-20
模式
2021 Google 開發者大會進行時: 匯聚開發者合力，共建全球技術生態
2021-11-27
Go