以 tf.data 優化訓練資料輸入管道丨 Google 開發者大會 2018

Jason Wu發表於2018-09-21

原文網址 : https://juejin.im/post/5ba4b2a7f265da0ab719aa7e

Google 開發者大會 (Google Developer Days，簡稱 GDD) 是展示 Google 最新開發者產品和平臺的全球盛會，旨在幫助你快速開發優質應用，發展和留住活躍使用者群，充分利用各種工具獲得更多收益。2018 Google 開發者大會於 9 月 20 日和 21 日於上海舉辦。?Google 開發者大會 2018 掘金專題

GDD 2018 第二天的 9 月 21 日，陳爽（Google Brain 軟體工程師）為我們帶來了《以 tf.data 優化訓練資料》，講解如何使用 tf.data 為各類模型打造高效能的 TensorFlow 輸入渠道，本文將摘錄演講技術乾貨。

資料輸入管道

大多人將時間和金錢花在神經網路架構上，資料輸入容易被忽略
沒有好的資料輸入管道，GPU 再強速度也不會顯著提高
目標：高效丶靈活丶易用

ETL 系統

提取資料（Extract）：將訓練資料從存取器（硬碟丶雲端等）提取
轉換資料（Transform）：將資料轉換為模型可讀取的資料，同時進行資料清洗等預處理
裝載資料（Load）：將處理好的資料裝載至加速器

tf.data：為機器學習設計的資料輸入系統

圖中程式碼分別對應 ETL 系統的三個步驟，使用 tf.data 即可輕鬆實現。

tf.data 優化手段：以上圖程式碼為例

多執行緒處理（使用 num_parallel_reads）

files = tf.data.Dataset.list_files("training-*-of-1024.tfrecord")
dataset = tf.data.TFRecordDataset(files, num_parallel_reads=32)
複製程式碼

合併轉換步驟（如 shuffle_and_repaeat, map_and_batch）

dataset = dataset.apply(tf.contrib.data.shuffle_and_repaeat(10000, NUM_EPOCHS))
dataset = dataset.apply(tf.contrib.data.map_and_batch(lambda x: ..., BATCH_SIZE))
複製程式碼

流水線化（使用 prefetch_to_device）

dataset = dataset.apply(tf.contrib.data.prefetch_to_device("/gpu:0"))
複製程式碼

最終程式碼如下圖所示，更多優化手段可以參考 tf.data 效能指南：

tf.data 的靈活性

支援函數語言程式設計

如上圖，可以用自定義的 map_fn 處理 TensorFlow 或相容的函式，同時支援 AutoGraph 處理過的函式。

支援不同語言與資料型別

使用 Dataset.form_generator() 支援 Python 程式碼生成 Dataset
使用 DatasetOpKernel 和 tf.load_op_library 支援自定義 C++ 資料處理程式碼

如下圖，使用 Python 自帶的 urllib 獲取伺服器資料，存入 dataset：

支援多種資料來源

如普通檔案系統丶GCP 雲儲存丶其他雲儲存丶SQL 資料庫等。

讀取 Google 雲儲存的 TFRecord 檔案示例：

files = tf.contrib.data.TFRecordDataset(
  "gs://path/to/file.tfrecord", num_parallel_reads=32)
複製程式碼

使用自訂 SQL 資料庫示例：

files = tf.contrib.data.SqlDataset(
  "sqllite", "/foo/db.sqlite", "SELECT name, age FROM people", 
  (tf.string, tf.int32))
複製程式碼

tf.data 的易用性

在 Eager 執行模式下，可以直接使用 Python for 迴圈：

tf.enable_eager_execution()
for batch in dataset:
    train_model(batch)
複製程式碼

為 TF Example 或 CSV 提供現有高效配方

上圖可以簡單替換為一個函式：

dataset = tf.contrib.data.make_batched_features_dataset(
  "training-*-of-1024.tfrecord",
  BATCH_SIZE, features, num_epochs=NUM_EPOCHS)
複製程式碼

使用 CSV 資料集的情境：

dataset = tf.contrib.data.make_csv_dataset(
  "*.csv", BATCH_SIZE, num_epochs=NUM_EPOCHS)
複製程式碼

使用 AUTOTUNE 自動調節管道

可以簡單的使用 AUTOTUNE 找到 prefetching 的最佳引數：

dataset = dataset.prefetch(tf.contrib.data.AUTOTUNE)
複製程式碼

支援 Keras 和 Estimators 相互相容

對於 Keras，可以將 dataset 直接傳遞使用；對於 Estimators 訓練函式，將 dataset 包裝至輸入函式並返回即可，如下示例：

def input_fn():
    dataset = tf.contrib.data.make_csv_dataset(
      "*.csv", BATCH_SIZE, num_epochs=NUM_EPOCHS)
    return dataset
   
tf.estimator.Estimator(model_fn=train_model).train(input_fn=input_fn)
複製程式碼

實際運用經驗

原始 tf.data 資料輸入程式碼： ~150 影象 / 秒
管道化的 tf.data 資料輸入程式碼： ~1,750 影象 / 秒 => 12倍的效能！
Cloud TPU 上使用 tf.data： ~4,100 影象 / 秒
Cloud TPU Pod 上使用 tf.data： ~219,000 影象 / 秒

結論

本場演講介紹了 tf.data 這個兼具高效丶靈活與易用的 API，同時瞭解如何運用管道化及其他優化手段來增進運算效能，以及許多可能未曾發現的實用函式。

資源

入門指南
- www.tensorflow.org/guide/datas…
- www.tensorflow.org/performance…
示例程式碼

閱讀更多 Google 開發者大會 2018 技術乾貨

分散式 TensorFlow：Distribution Strategy API 丨Google 開發者大會 2018
2018-09-25
分散式APIGo
網站效能調優開發工具: Lighthouse, Puppeteer 以及進階部分丨 Google 開發者大會 2018
2018-09-23
網站Go
Android 在 Google 開發者大會上釋出了哪些更新？ | Google 開發者大會 2018
2018-09-21
AndroidGo
2018 Google 開發者大會精彩回顧
2018-09-22
Go
TensorFlow 簡介：機器學習技術使用入門丨 Google 開發者大會 2018
2018-09-20
機器學習Go
Google 開發者大會 2018 實錄 — TensorFlow篇
2018-09-25
Go
TensorFlow 主題演講 | Google 開發者大會 2018
2018-09-22
Go
Google 2019開發者大會
2019-09-11
Go
中國 2018 Google 開發者大會！今起開放報名
2018-08-15
Go
前沿AI：Tensor2Tensor | Google 開發者大會 2018
2019-03-04
AIGo
2021 Google 開發者大會丨共建全球技術生態
2021-11-26
Go
2021 Google 開發者大會丨助力優質應用構建，多維度提升開發效率
2021-11-26
Go
[譯] Flutter 釋出預覽版 2.0 : 完美適配 iOS丨Google 開發者大會2018
2019-03-04
FlutteriOSGo
全網首發 | 2018 Google 開發者大會現場紀要
2018-09-22
Go
java大資料開發訓練營--Nginx
2020-10-26
Java大資料Nginx
java大資料開發訓練營--Impala
2020-11-30
Java大資料
使用 TensorFlow Extended (TFX) 在生產環境中部署機器學習丨 Google 開發者大會 2018
2019-03-04
機器學習Go
2021 Google 開發者大會丨助力共建多元、平等、共融的社群
2021-11-30
Go
來自前端工程師的Google開發者大會2018參會總結
2019-03-01
前端工程師Go
Google I/O 2022開發者大會
2022-05-12
Go
Tensorflow的資料輸入模組tf.data模組
2020-11-21
帶你逛 2019 Google 開發者大會
2019-09-13
Go
Google 2020開發者大會Flutter專題
2020-11-20
GoFlutter
2019谷歌開發者大會首日看點：Google Play的新變化
2019-09-16
谷歌Go
多元共進｜2023 Google 開發者大會全解析
2023-09-20
Go
大會沒看夠？2021 Google 開發者大會總結看這裡！
2021-12-08
Go
Google開發者大會：為中國開發者和消費者推出新的工具
2018-09-20
Go
在你的 Android App 中使用 Flutter | Google開發者大會
2018-09-25
AndroidAPPFlutterGo
右鍵收藏！2021 Google 開發者大會怎麼看？
2021-11-16
Go
谷歌開發者大會2018實錄——Flutter篇
2019-03-04
谷歌Flutter
谷歌開發者大會2018實錄——TensorFlow篇
2018-09-25
谷歌
520來 GitHub Copilot 開發者訓練營，與技術大咖們約個會！
2023-05-18
Github
程式設計介面的新動態：用 TensorFlow 高層 API 來構建機器學習模型丨 Google 開發者大會 2018
2018-09-21
程式設計API機器學習模型Go
程式設計優化之管道資料流
2022-03-10
程式設計優化
微信小遊戲開發技巧（大會演講內容整理）丨掘金開發者大會
2018-09-20
遊戲開發
2021 Google 開發者大會即將登陸：年度盛會，先睹為快！
2021-11-16
Go
Google開發者大會：你不得不知的Tensorflow小技巧
2019-02-16
Go
連續六天：2020 Google 開發者大會官網集結！
2020-11-13
Go

以 tf.data 優化訓練資料輸入管道 丨 Google 開發者大會 2018