你也可以訓練超大神經網路！谷歌開源GPipe庫

機器之心發表於2019-03-05

原文網址 : https://www.jiqizhixin.com/articles/2019-03-05-6

選自Google AI Blog

作者：Yanping Huang

機器之心編譯

機器之心編輯部

BigGan、Bert、GPT 2.0 等模型的出現似乎表明，DNN 模型越大，其準確率越高。但晶片記憶體的增長速度似乎無法滿足這種“暴力美學”的需要。為此，谷歌提出並開源了一種新的方法——GPipe，利用管道並行化擴充套件 DNN 訓練以克服這種侷限。它可以讓研究者輕鬆部署更多的加速器，以訓練更大的模型，並在不調整超引數的前提下實現效能擴充套件。

深度神經網路（DNN）推動了許多機器學習任務的發展，包括語音識別、視覺識別、語言處理。BigGan、Bert、GPT 2.0取得的近期進展表明，DNN模型越大，其在任務中的表現越好。視覺識別領域過去取得的進展也表明，模型大小和分類準確率之間存在很強的關聯。例如，2014年ImageNet視覺識別挑戰賽的冠軍GoogleNet以400萬的引數取得了74.8%的top-1準確率，但僅僅過了三年，冠軍的寶座就被Squeeze-and-ExcitationNetworks搶去，後者以1.458億（前者的36倍還多）的引數量取得了82.7%的top-1準確率。然而，在這段時間裡，GPU的記憶體只提高了3倍左右，當前最優的影像模型卻已經達到了谷歌雲 TPUv2的可用記憶體。因此，我們急需一個能夠實現大規模深度學習並克服當前加速器記憶體侷限的可擴充套件高效架構。

你也可以訓練超大神經網路！谷歌開源GPipe庫

近期有代表性的影像分類模型的ImageNet準確率和模型大小之間的強關聯。

谷歌在論文《GPipe: Efficient Training of GiantNeural Networks using Pipeline Parallelism》中，展示了利用管道並行化（pipeline parallelism）擴充套件DNN訓練以克服這種侷限。GPipe是一個分散式機器學習庫，它使用同步隨機梯度下降和管道並行化進行訓練，可以應用到包含多個序列層的任意DNN中。重要的是，GPipe可以讓研究者輕鬆部署更多的加速器，以訓練更大的模型，並在不調整超引數的前提下實現效能擴充套件。為了展示GPipe的有效性，谷歌在谷歌雲TPUv2上訓練了AmoebaNet-B模型，該模型具備5.57億個引數，輸入影像大小為480 x 480。這一模型在多個流行的資料集上表現良好，比如將ImageNet上的single-crop準確率提高到84.3%，將CIFAR-10上的準確率提高到99%，CIFAR-100準確率提高到91.3%。該核心GPipe庫已經在Lingvo框架下開源。

開源地址：https://github.com/tensorflow/lingvo/blob/master/lingvo/core/gpipe.py

從小批量到微小批量

加速中型DNN模型有兩種標準方法。第一種是資料並行化方法，它利用更多機器將輸入資料分散到這些機器上。另一種方法是將模型移到加速器上，如GPU 或 TPU，這些加速器具備特殊的硬體可以加速模型訓練。但是，加速器記憶體有限、通訊頻寬也有限。因此，要在加速器上訓練大型DNN模型需要模型並行化，將模型分割成多個部分，然後將不同的部分分配到不同的加速器。但是由於DNN的序列本質，這一策略可能導致計算期間只有一個加速器處於活躍狀態，而這會導致無法充分利用加速器的計算能力。另外，標準資料並行化方法允許同一個模型在多個加速器上對不同的輸入資料執行並行訓練，但是這無法增加每個加速器可以支援的最大模型大小。

為了在多個加速器上也能進行高效的模型訓練，GPipe將模型分割並分配給不同的加速器，將小批量訓練樣本自動分割成更小的批量（微小批量）。通過在微小批量樣本上管道化整個執行過程，加速器可以實現並行執行。此外，各微小批量上的梯度可以一直累加，這樣分割槽數量就不會影響到模型質量。

你也可以訓練超大神經網路！谷歌開源GPipe庫

上：由於DNN網路的序列本質，初始的模型並行化策略導致計算能力無法充分利用，每次只有一個加速器處於活躍狀態。下：GPipe 將輸入小批量分割成更小的批量，使得不同的加速器可以同時處理各自分配到的微小批量樣本。

最大化記憶體和效率

GPipe 最大化了模型引數的記憶體分配。谷歌在雲 TPUv2上進行試驗，每個晶片上有8個加速器核心和64GB的記憶體（每個加速器8GB記憶體）。沒有TPUv2的情況下，由於記憶體限制，單個加速器最多訓練8200萬模型引數。由於反向傳播和批量分割中的重複計算，GPipe 將中間啟用記憶體從6.26GB降至3.46GB，使得單個加速器上可以訓練3.18億個引數。谷歌還發現，如預期所料，在管道並行化的情況下，最大模型大小與分割槽數量成正比。有了GPipe，AmoebaNet 能夠在雲TPUv2的8個加速器上加入18億引數，是沒有GPipe時的25倍。

為了測試效率，谷歌衡量了GPipe對AmoebaNet-D模型吞吐量的影響。因為訓練至少需要兩個加速器來適應模型大小，谷歌衡量了在兩個分割槽但沒有管道並行化的naive情況下的加速，發現訓練過程中幾乎是線性加速。與具有兩個分割槽的naive方法相比，將模型分佈在四倍的加速器上實現了3.5倍的加速。雖然本文所有的實驗都使用了雲TPUv2，但谷歌發現當前可用的雲TPUv3會有更好的效能，每個晶片有16個加速器核心和256GB記憶體（每個加速器16GB）。當在所有16個加速器上分佈模型時，GPipe使得具有80億引數的Transformer 語言模型在1024-token語句上的加速達到11倍。

你也可以訓練超大神經網路！谷歌開源GPipe庫

使用GPipe加速AmoebaNet-D。該模型不適合加速器。基線naive-2是模型被分割成兩個分割槽時native分割槽方法的效能。Pipeline-k是使用K個加速器將模型分割成K個分割槽時GPipe的效能。

GPipe還可以通過使用更多的加速器而不改變引數來擴大訓練規模。因此，它可以與資料並行相結合，以互補的方式使用更多的加速器來擴大神經網路訓練規模。

測試準確率

谷歌使用GPipe 來驗證一個假設，即擴大現有神經網路能夠提高模型質量。谷歌在 ImageNet ILSVRC-2012 資料集上訓練了一個AmoebaNet-B模型，其模型引數為5.57億，輸入影像大小為480 x 480。該網路被分為四個分割槽，且在模型和資料上應用了並行訓練過程。這個巨大的模型在沒有任何外部資料的情況下達到了當前最先進的84.3% top-1 / 97% top-5 single-crop驗證準確率。大型神經網路不僅適用於如ImageNet這樣的資料集，並且通過遷移學習還可適用於其他資料集。已有研究證明，更好的ImageNet模型遷移效果更好。谷歌在CIFAR10 和CIFAR100資料集上進行遷移學習實驗。其巨大的模型將 CIFAR-10的準確率提高到99%，將CIFAR-100的準確率提高到91.3%。

你也可以訓練超大神經網路！谷歌開源GPipe庫

表2：單個AmoebaNet-B(6, 512) 模型在ImageNet ILSVRC 2012驗證資料集上的single-crop分類準確率與其他已釋出最優模型的對比結果。

你也可以訓練超大神經網路！谷歌開源GPipe庫

表3：AmoebaNet-B (6,512) 的遷移學習結果，輸入影像大小為480×480，測試時使用的是single crop。這些結果均為5次精調執行後的平均值。

總結

很多機器學習實際應用的持續發展和成功依賴於儘可能高的準確率，如自動駕駛和醫療成像。而這通常需要構建更大型、更復雜的模型，谷歌很高興將GPipe帶給更廣大的社群，並希望它能夠有效訓練大型深度神經網路。

論文：GPipe: Efficient Training of GiantNeural Networks using Pipeline Parallelism

你也可以訓練超大神經網路！谷歌開源GPipe庫

論文連結：https://arxiv.org/pdf/1811.06965.pdf

摘要：GPipe是一個可擴充套件管道並行化庫，可以訓練超大型的深度神經網路。它將網路的層分割成多個部分並分配給不同的加速器，將執行過程管道化以達到最高的硬體利用率。例如，在8個加速器上應用分割技術，則GPipe支援25倍大小的神經網路的訓練，這充分展示了其可擴充套件性。它還保證了無論分割槽數量多少，梯度仍是一致的。在對模型引數幾乎不做更改的情況下，它獲得了幾乎是線性的加速：加速器數量是原來的4倍時，同一模型的訓練速度是原來的3.5倍。我們訓練了一個具備5.57億引數的AmoebaNet模型，在 ImageNet 2012 資料集上達到了新的SOTA結果：84.3%的 top-1 準確率和97.0% 的 top-5 準確率。最後，我們將這個學到的模型應用到多個流行影像分類資料集上，同樣獲得了有競爭力的結果，比如在CIFAR-10資料集上達到了99%的準確率，在CIFAR-100資料集上達到了91.3%的準確率。

原文連結：https://ai.googleblog.com/2019/03/introducing-gpipe-open-source-library.html

谷歌開源Neural Tangents：簡單快速訓練無限寬度神經網路
2020-04-17
谷歌神經網路
想免費用谷歌資源訓練神經網路？Colab 詳細使用教程 —— Jinkey 原創
2019-03-04
谷歌神經網路
3.3 神經網路的訓練
2019-12-31
神經網路
從零開始：教你如何訓練神經網路
2019-02-16
神經網路
祕籍在手，訓練不愁！特斯拉AI負責人Karpathy的超全神經網路訓練套路
2019-04-26
AI神經網路
【python實現卷積神經網路】開始訓練
2020-04-18
Python卷積神經網路
訓練自己的Android TensorFlow神經網路
2020-10-25
Android神經網路
谷歌力作：神經網路訓練中的Batch依賴性很煩？那就消了它！
2020-04-06
谷歌神經網路BAT
完勝 BERT，谷歌最佳 NLP 預訓練模型開源，單卡訓練僅需 4 天
2020-03-17
谷歌模型
迴圈神經網路設計同樣可以使用預訓練詞“嵌入”
2024-12-02
神經網路
使用tf.estimator.Estimator訓練神經網路
2018-09-16
神經網路
小白也能玩轉開源專案，你與大神只差這幾步！
2019-02-28
訓練神經網路時如何確定batch size？
2018-07-12
神經網路BAT
umich cv-5-1 神經網路訓練1
2023-10-28
神經網路
umich cv-5-2 神經網路訓練2
2023-10-28
神經網路
用神經網路測量訓練集的半衰期
2020-11-14
神經網路
如何應對訓練的神經網路不工作？
2020-04-06
神經網路
Batch Normalization: 如何更快地訓練深度神經網路
2019-04-18
BATORM神經網路
composer：2-4倍加速神經網路訓練的演算法庫
2022-03-20
神經網路演算法
機器學習之訓練神經網路：最佳做法
2020-06-28
機器學習神經網路
FSRNet：端到端深度可訓練人臉超分辨網路
2019-02-15
開源圖神經網路框架DGL升級：GCMC訓練時間從1天縮到1小時
2019-10-16
神經網路框架GC
別再煉丹了！谷歌大腦提出“權重無關”神經網路，無需調參訓練
2019-06-14
谷歌神經網路
當前訓練神經網路最快的方式：AdamW優化演算法+超級收斂
2018-07-04
神經網路優化演算法
如何入門Pytorch之四：搭建神經網路訓練MNIST
2020-09-13
PyTorch神經網路
WiFi 網路也可以這麼玩
2023-02-16
WiFi
深度學習煉丹-超引數設定和網路訓練
2022-12-12
深度學習
既保護隱私又快速訓練，Facebook開源Opacus庫
2020-09-04
DeepMind圖網路庫開源了！
2018-10-22
谷歌開源的 GAN 庫–TFGAN
2019-03-01
谷歌
Yelp訓練了一個神經網路來debug，然後就被這個AI刪庫了
2019-01-16
神經網路AI
神經網路之反向傳播訓練(8行程式碼)
2018-05-23
神經網路反向傳播行程
神經網路訓練的三個基本概念Epoch, Batch, Iteration
2019-05-20
神經網路BAT
深度學習與CV教程(6) | 神經網路訓練技巧 (上)
2022-06-01
深度學習神經網路
迴圈神經網路之embedding，padding，模型構建與訓練
2021-03-02
神經網路padding模型
網安周科普|這些網路安全陷阱，你是否也經歷過？
2021-10-05
谷歌開源 BERT：最先進的 NLP 預訓練技術，支援中文和更多語言
2018-11-07
谷歌
DeepMind開源圖網路庫，一種結合圖和神經網路的新方法
2018-10-19
神經網路

你也可以訓練超大神經網路！谷歌開源GPipe庫

相關文章