用免費TPU訓練Keras模型，速度還能提高20倍！

機器之心發表於2019-04-05

原文網址 : https://www.jiqizhixin.com/articles/2019-04-04-18

很長一段時間以來，我在單個 GTX 1070 顯示卡上訓練模型，其單精度大約為 8.18 TFlops。後來谷歌在 Colab 上啟用了免費的 Tesla K80 GPU，配備 12GB 記憶體，且速度稍有增加，為 8.73 TFlops。最近，Colab 的執行時型別選擇器中出現了 Cloud TPU 選項，其浮點計算能力為 180 TFlops。

本文將介紹如何在 Colab 上使用 TPU 訓練已有的 Keras 模型，其訓練速度是在 GTX 1070 上訓練速度的 20 倍。

我們首先構建一個易於理解但訓練過程比較複雜的 Keras 模型，以便「預熱」Cloud TPU。在 IMDB 情感分類任務上訓練 LSTM 模型是個不錯的選擇，因為 LSTM 的計算成本比密集和卷積等層高。

流程如下所示：

構建一個 Keras 模型，可使靜態輸入 batch_size 在函式式 API 中進行訓練。
將 Keras 模型轉換為 TPU 模型。
使用靜態 batch_size * 8 訓練 TPU 模型，並將權重儲存到檔案。
構建結構相同但輸入批大小可變的 Keras 模型，用於執行推理。
載入模型權重。
使用推理模型進行預測。

讀者閱讀本文時，可以使用 Colab Jupyter notebook Keras_LSTM_TPU.ipynb（https://colab.research.google.com/drive/1QZf1WeX3EQqBLeFeT4utFKBqq-ogG1FN）進行試驗。

首先，按照下圖的說明在 Colab 執行時選項中選擇啟用 TPU。

用免費TPU訓練Keras模型，速度還能提高20倍！

啟用 TPU

靜態輸入 Batch Size

在 CPU 和 GPU 上執行的輸入管道大多沒有靜態形狀的要求，而在 XLA/TPU 環境中，則對靜態形狀和 batch size 有要求。

Could TPU 包含 8 個可作為獨立處理單元執行的 TPU 核心。只有八個核心全部工作，TPU 才算被充分利用。為通過向量化充分提高訓練速度，我們可以選擇比在單個 GPU 上訓練相同模型時更大的 batch size。最開始最好設定總 batch size 為 1024（每個核心 128 個）。

如果你要訓練的 batch size 過大，可以慢慢減小 batch size，直到它適合 TPU 記憶體，只需確保總的 batch size 為 64 的倍數即可（每個核心的 batch size 大小應為 8 的倍數）。

使用較大的 batch size 進行訓練也同樣有價值：通常可以穩定地提高優化器的學習率，以實現更快的收斂。（參考論文：https://arxiv.org/pdf/1706.02677.pdf）

在 Keras 中，要定義靜態 batch size，我們需使用其函式式 API，然後為 Input 層指定 batch_size 引數。請注意，模型在一個帶有 batch_size 引數的函式中構建，這樣方便我們再回來為 CPU 或 GPU 上的推理執行建立另一個模型，該模型採用可變的輸入 batch size。

import tensorflow as tf
from tensorflow.python.keras.layers import Input, LSTM, Bidirectional, Dense, Embedding


def make_model(batch_size=None):
    source = Input(shape=(maxlen,), batch_size=batch_size,
                   dtype=tf.int32, name='Input')
    embedding = Embedding(input_dim=max_features,
                          output_dim=128, name='Embedding')(source)
    lstm = LSTM(32, name='LSTM')(embedding)
    predicted_var = Dense(1, activation='sigmoid', name='Output')(lstm)
    model = tf.keras.Model(inputs=[source], outputs=[predicted_var])
    model.compile(
        optimizer=tf.train.RMSPropOptimizer(learning_rate=0.01),
        loss='binary_crossentropy',
        metrics=['acc'])
    return model


training_model = make_model(batch_size=128)

此外，使用 tf.train.Optimizer，而不是標準的 Keras 優化器，因為 Keras 優化器對 TPU 而言還處於試驗階段。

將 Keras 模型轉換為 TPU 模型

tf.contrib.tpu.keras_to_tpu_model 函式將 tf.keras 模型轉換為同等的 TPU 模型。

import os
import tensorflow as tf
# This address identifies the TPU we'll use when configuring TensorFlow.
TPU_WORKER = 'grpc://' + os.environ['COLAB_TPU_ADDR']
tf.logging.set_verbosity(tf.logging.INFO)

tpu_model = tf.contrib.tpu.keras_to_tpu_model(
    training_model,
    strategy=tf.contrib.tpu.TPUDistributionStrategy(
        tf.contrib.cluster_resolver.TPUClusterResolver(TPU_WORKER)))

然後使用標準的 Keras 方法來訓練、儲存權重並評估模型。請注意，batch_size 設定為模型輸入 batch_size 的八倍，這是為了使輸入樣本在 8 個 TPU 核心上均勻分佈並執行。

history = tpu_model.fit(x_train, y_train,
                        epochs=20,
                        batch_size=128 * 8,
                        validation_split=0.2)
tpu_model.save_weights('./tpu_model.h5', overwrite=True)
tpu_model.evaluate(x_test, y_test, batch_size=128 * 8)

我設定了一個實驗，比較在 Windows PC 上使用單個 GTX1070 和在 Colab 上執行 TPU 的訓練速度，結果如下。

GPU 和 TPU 都將輸入 batch size 設為 128，

GPU：每個 epoch 需要 179 秒。20 個 epoch 後驗證準確率達到 76.9％，總計 3600 秒。
TPU：每個 epoch 需要 5 秒，第一個 epoch 除外（需 49 秒）。20 個 epoch 後驗證準確率達到 95.2％，總計 150 秒。

20 個 epoch 後，TPU 上訓練模型的驗證準確率高於 GPU，這可能是由於在 GPU 上一次訓練 8 個 batch，每個 batch 都有 128 個樣本。

在 CPU 上執行推理

一旦我們獲得模型權重，就可以像往常一樣載入它，並在 CPU 或 GPU 等其他裝置上執行預測。我們還希望推理模型接受靈活的輸入 batch size，這可以使用之前的 make_model() 函式來實現。

inferencing_model = make_model(batch_size=None)
inferencing_model.load_weights('./tpu_model.h5')
inferencing_model.summary()

可以看到推理模型現在採用了可變的輸入樣本。

_________________________________________________________________
Layer (type) Output Shape Param #
=================================================================
Input (InputLayer) (None, 500) 0
_________________________________________________________________
Embedding (Embedding) (None, 500, 128) 1280000
_________________________________________________________________
LSTM (LSTM) (None, 32) 20608
_________________________________________________________________
Output (Dense) (None, 1) 33
=================================================================

然後，你可以使用標準 fit()、evaluate() 函式與推理模型。

結論

本快速教程介紹瞭如何利用 Google Colab 上的免費 Cloud TPU 資源更快地訓練 Keras 模型。

原文連結：https://www.kdnuggets.com/2019/03/train-keras-model-20x-faster-tpu-free.html

一步一步教你線上免費訓練機器學習模型（啟用GPU和TPU）
2018-10-20
機器學習模型GPU
預訓練語言模型：還能走多遠？
2020-11-13
模型
TensorFlow2.0教程-使用keras訓練模型
2020-02-17
Keras模型
【tf.keras】tf.keras載入AlexNet預訓練模型
2019-05-29
Keras模型
如何將keras訓練的模型轉換成tensorflow lite模型
2018-08-21
Keras模型
keras中VGG19預訓練模型的使用
2018-07-24
Keras模型
運用預訓練 Keras 模型來處理影像分類請求，學習如何使用從 Keras 建立 SavedModel
2024-04-09
Keras模型
keras-retinanet 用自己的資料集訓練
2019-03-19
KerasNaN
iGear 用了這個小魔法，模型訓練速度提升 300%
2022-01-28
模型
視覺化 Keras 訓練過程
2018-04-08
視覺化Keras
分散式訓練|horovod+keras(1)
2018-12-27
分散式Keras
實驗12-使用keras預訓練模型完成貓狗識別
2024-04-27
Keras模型
基於Theano的深度學習框架keras及配合SVM訓練模型
2020-04-06
深度學習框架Keras模型
對比復現34個預訓練模型，PyTorch和Keras你選誰？
2019-03-11
模型PyTorchKeras
自媒體一鍵分發工具提高發文速度，管理多個賬號而且還是免費的
2020-04-23
MNIST3_tf2.keras訓練預測
2020-09-30
TF2Keras
6144塊TPU，5400億引數，會改bug、解讀笑話，谷歌剛剛用Pathways訓練了一個大模型
2022-04-06
谷歌大模型
提高組雜題訓練1
2024-10-12
「暑期訓練」「基礎DP」免費餡餅（HDU-1176）
2018-08-13
文字主題抽取：用gensim訓練LDA模型
2019-05-17
LDA模型
爽了！免費的SSL，還能自動續期！
2024-04-26
tensorflow：一個簡單的python訓練儲存模型，java還原模型方法
2018-04-24
Python模型Java
推薦8個自媒體免費工具，不僅提高工作效率，還能提供靈感
2022-04-06
考研數學得126分、還能編寫小遊戲，智譜首個推理模型來了，人人免費用
2024-12-31
遊戲模型
監控大模型訓練
2024-03-13
大模型
PyTorch預訓練Bert模型
2020-11-17
PyTorch模型
fasttext訓練模型程式碼
2020-12-23
AST模型
keras 手動搭建alexnet並訓練mnist資料集
2020-11-27
Keras
Colab提供了免費TPU，機器之心幫你試了試
2018-10-11
自訓練 + 預訓練 = 更好的自然語言理解模型
2020-11-13
模型
PaddlePaddle分散式訓練及CTR預估模型應用
2019-05-21
分散式模型
想免費用谷歌資源訓練神經網路？Colab 詳細使用教程 —— Jinkey 原創
2019-03-04
谷歌神經網路
索引的作用、為什麼能提高檢索速度？
2020-11-14
索引
PyTorch 模型訓練實⽤教程（程式碼訓練步驟講解）
2020-09-25
PyTorch模型
預訓練模型 & Fine-tuning
2020-10-18
模型
大模型如何提升訓練效率
2024-07-08
大模型
【AI】Pytorch_預訓練模型
2021-08-26
AIPyTorch模型
資料不出本地，還能享受大資料訓練模型，聯邦學習提供一種應用廣闊的學習新正規化
2019-09-12
大資料模型聯邦學習

用免費TPU訓練Keras模型，速度還能提高20倍！

相關文章