前沿AI：Tensor2Tensor | Google 開發者大會 2018

luozhouyang發表於2019-03-04

原文網址 : https://flycode.co/archives/282252

"Tensor2Tensor: 組織世界上的模型和資料"。本場演講嘉賓是Laurence Moroney。

回顧Tensorflow

首先回顧一下Tensorflow:

Tensorflow可以執行在任何地方。tf.data可以幫你構建出高效的資料輸入管道，tf.layers和tf.keras.Model可以快速幫你構建出神經網路，而td.estimator和DistributionStrategy可以幫你快速構建分散式訓練。

Tensor2Tensor

但是，對於前沿AI來說，這些是不夠的。例如在影象識別、文字翻譯和文字分析等領域，很多人並沒有足夠的知識和經驗來掌握這些最佳實踐，他們很難享受到最新的AI研究成果。Tensor2Tensor就是為了給社群一個良好的共享平臺而來的。

Tensor2Tensor順帶著一些資料集和模型及其超引數釋出：

我們通過各種調研和研究，發現這些超引數的設定對於對應的模型和資料集，效能是最好的。如果沒有Tensor2Tensor，大家只能通過自己調整引數，不斷地試驗，效率十分低下。這就是Tensor2Tensor的設計初衷。

為了更夠更好地開箱即用，Tensor2Tensor給大家準備好了配套的工具，比如超引數集的設定，GPU或者TPU的分散式訓練，這些在Tensor2Tensor裡面都有提供。

Tensor2Tensor開源

Tensor2Tensor完全開源在GitHub:

Tensor2Tensor緊跟學術前沿

Tensor2Tensor緊跟學術前沿。

有一個很有趣的例子，有一個人在推特上發推：

這個推主的意思是: AMSGrad演算法是目前最新的SGD優化演算法。

然後，另一個使用者回覆到：

意思是：這不再是最新的SGD優化演算法了，最新的是三個星期前就被實現進Tensor2Tensor裡面的AdaFactor演算法。

然後，這個人很快就被Google錄用了。笑:-D

當然，Laurence還放了一張AdaFactor演算法的虛擬碼截圖，有興趣的同學可以深入瞭解一下：

另外，Tensor2Tensor也實現了Transformer模型：

Transformer模型是Google 2017年的論文《Attention is all you need》提出的全新的模型，拋棄傳統的CNN和RNN，僅僅使用注意力機制，就到了最當時最頂尖的水平。這個模型廣泛應用於NLP領域，例如機器翻譯，問答系統，文字摘要和語音識別等等方向。

目前，有很多人蔘與到我們的Tensor2Tensor專案中來：

我們十分鼓勵研究人員使用Tensor2Tensor來幫助他們的研究。

Meet t2t-trainer

接下來讓我們瞭解一下 t2t-trainer，這是Tensor2Tensor提供的一個工具，這個工具可以讓不理解程式碼的人員也能用機器學習來完成一些事情。

使用Tensor2Tensor，你只需要定義少量的幾個引數，就可以完成你的任務。

pip install tensor2tensor & t2t-trainer \
  --problem=$PROBLEM \
  --model=$MODEL \
  --hparams_set=$HPARAMS \
  --generate_data \
  --data_dir=$DATA_DIR \
  --output_dir=$TRAIN_DIR \
  --train_steps=$TRAIN_STEPS \
  --eval_steps=$EVAL_STEPS
複製程式碼

這裡主要有以下三個引數:

--problem:問題或者任務
--model:選用的模型
--hparams_set:超引數集

超引數集很好解釋，對於模型中的超引數，我們改變某些引數，就可以構建一套新的超引數集。

以下是幾個很常見的例子。

文字摘要

文字摘要任務是從一段長文字中提取出關鍵資訊。

你可以這樣做:

pip install tensor2tensor & t2t-trainer \
  --problem=summarize_cnn_dailymail32k \
  --model=transformer \
  --hparams_set=transformer_big \
  --generate_data \
  --data_dir=$DATA_DIR \
  --output_dir=$TRAIN_DIR \
  --train_steps=$TRAIN_STEPS \
  --eval_steps=$EVAL_STEPS
複製程式碼

僅僅這樣幾行命令，訓練結束後你就可以獲得一個相當不錯的文字摘要模型！

影象分類

你僅需這樣幾行命令：

pip install tensor2tensor & t2t-trainer \
  --problem=image_cifar10 \
  --model=shake_shake \
  --hparams_set=shake_shake_big \
  --generate_data \
  --data_dir=$DATA_DIR \
  --output_dir=$TRAIN_DIR \
  --train_steps=$TRAIN_STEPS \
  --eval_steps=$EVAL_STEPS
複製程式碼

這裡選用的模型和引數集所訓練出來的模型，在一年前是效果最好的模型！

翻譯

要實現一個en-de(英語－德語)的翻譯模型，你只需要：

pip install tensor2tensor & t2t-trainer \
  --problem=translate_ende_wmt32k \
  --model=transformer \
  --hparams_set=transformer_big \
  --generate_data \
  --data_dir=$DATA_DIR \
  --output_dir=$TRAIN_DIR \
  --train_steps=$TRAIN_STEPS \
  --eval_steps=$EVAL_STEPS
複製程式碼

達到的效果：

>29 BLEU，當前的最佳效果！

語音識別

如果你想實現一個語音識別模型，你只需要以下幾行命令：

pip install tensor2tensor & t2t-trainer \
  --problem=librispeech \
  --model=tranformer \
  --hparams_set=transformer_librispeech \
  --generate_data \
  --data_dir=$DATA_DIR \
  --output_dir=$TRAIN_DIR \
  --train_steps=$TRAIN_STEPS \
  --eval_steps=$EVAL_STEPS
複製程式碼

達到的效果：

<7.5 WER，這近乎是最佳結果！

影象生成

pip install tensor2tensor & t2t-trainer \
  --problem=librispeech \
  --model=tranformer \
  --hparams_set=transformer_librispeech \
  --generate_data \
  --data_dir=$DATA_DIR \
  --output_dir=$TRAIN_DIR \
  --train_steps=$TRAIN_STEPS \
  --eval_steps=$EVAL_STEPS
複製程式碼

達到的效果：

~2.92 bits/dim，當前最佳

規模化

對於大量的資料，想要在普通筆記本上面訓練是不太現實的。我們需要規模化的訓練。比如使用GPU甚至雲端的機器叢集。 Tensor2Tensor可以很好地支援這種規模化的訓練。

在多GPU的環境下，你只需要：

t2t-trainer \
  --worker_gpu=8 \
  --problem=translate_ende_wmt32k \
  --model=transformer \
  --hparams_set=transformer_big \
  --generate_data \
  --data_dir=$DATA_DIR \
  --output_dir=$TRAIN_DIR \
  --train_steps=$TRAIN_STEPS \
  --eval_steps=$EVAL_STEPS
複製程式碼

僅僅增加了一行--worker_gpu=8，你的模型就可以在8個GPU的機器上並行訓練！

在Cloud TPU環境裡，你只需要：

t2t-trainer \
  --use_tpu --cloud_tpu_name=$TPU_NAME \
  --problem=translate_ende_wmt32k \
  --model=transformer \
  --hparams_set=transformer_big \
  --generate_data \
  --data_dir=$DATA_DIR \
  --output_dir=$TRAIN_DIR \
  --train_steps=$TRAIN_STEPS \
  --eval_steps=$EVAL_STEPS
複製程式碼

在具有超引數調整的Cloud ML引擎裡，你只需要：

t2t-trainer \
  --cloud_mlengine --worker_gpu=8 \
  --autotune --autotune_maximize \
  --autotune_objective='metrics/neg_log_perplexity' \
  --autotune_max_trails=100 \
  --autotune_parallel_trials=20 \
  --hparams_range=transformer_base_range \
  --problem=translate_ende_wmt32k \
  --model=transformer \
  --hparams_set=transformer_big \
  --generate_data \
  --data_dir=$DATA_DIR \
  --output_dir=$TRAIN_DIR \
  --train_steps=$TRAIN_STEPS \
  --eval_steps=$EVAL_STEPS
複製程式碼

想要更多控制？

Tensor2Tensor提供了很多十分方便的工具，但是如果我想要更加精細的控制，該怎麼做呢？

Datasets 資料集

首先，很多人想要控制的就是資料集。比如很多人不想用Tensor2Tensor裡面的資料集，而僅僅使用其中的一部分，那麼我該怎麼做呢？

首先，我們建立出對應的problem，然後指定一個資料目錄data_dir，然後生成資料。

現在，我們有了這個資料，那麼你就可以進行你想要的任何操作，這樣就實現了資料集的更精細的控制。

用Keras實現模型

還有一部分人想用Keras layers來實現模型。

Tensor2Tensor已經實現了很多模型，如果有人想在這基礎之上，構建更好地模型，它們需要這樣做（舉個例子）：

# 選擇超引數
hparams = registry.hparams('bytenet_base')
# 例項化模型
model = tensor2tensor.models.byte_net.ByteNet(hparams,mode='train')

# 呼叫模型
features = {'inputs':embedded_inputs,'targets':embedded_targets}
outputs,_ = model(feature)

複製程式碼

首先獲取超引數，並且構建出模型，然後通過呼叫，就可以獲得輸出。

演講者說的內容和標題似乎有點牽強，這裡沒有看出來和keras有什麼直接關係。

實現自己的資料集和模型

要實現自己的資料集和模型，你可以這樣做：

繼承Problem或者它的子類來建立自定義的資料集
繼承T2TModel來實現自己的模型

總結

目前，我們的Tensor2Tensor包含以下內容：

Datasets 資料集
Models 模型
Scripts 指令碼

接下來，主要從以下方面改進我們的工作：

謝謝大家！閱讀更多 Google 開發者大會 2018 技術乾貨

Android 在 Google 開發者大會上釋出了哪些更新？ | Google 開發者大會 2018
2018-09-21
AndroidGo
2018 Google 開發者大會精彩回顧
2018-09-22
Go
Google 開發者大會 2018 實錄 — TensorFlow篇
2018-09-25
Go
TensorFlow 主題演講 | Google 開發者大會 2018
2018-09-22
Go
Google 2019開發者大會
2019-09-11
Go
中國 2018 Google 開發者大會！今起開放報名
2018-08-15
Go
全網首發 | 2018 Google 開發者大會現場紀要
2018-09-22
Go
分散式 TensorFlow：Distribution Strategy API 丨Google 開發者大會 2018
2018-09-25
分散式APIGo
來自前端工程師的Google開發者大會2018參會總結
2019-03-01
前端工程師Go
Google I/O 2022開發者大會
2022-05-12
Go
2019 AI開發者大會
2019-08-14
AI
帶你逛 2019 Google 開發者大會
2019-09-13
Go
Google 2020開發者大會Flutter專題
2020-11-20
GoFlutter
網站效能調優開發工具: Lighthouse, Puppeteer 以及進階部分丨 Google 開發者大會 2018
2018-09-23
網站Go
多元共進｜2023 Google 開發者大會全解析
2023-09-20
Go
大會沒看夠？2021 Google 開發者大會總結看這裡！
2021-12-08
Go
Google開發者大會：為中國開發者和消費者推出新的工具
2018-09-20
Go
[譯] Flutter 釋出預覽版 2.0 : 完美適配 iOS丨Google 開發者大會2018
2019-03-04
FlutteriOSGo
TensorFlow 簡介：機器學習技術使用入門丨 Google 開發者大會 2018
2018-09-20
機器學習Go
在你的 Android App 中使用 Flutter | Google開發者大會
2018-09-25
AndroidAPPFlutterGo
右鍵收藏！2021 Google 開發者大會怎麼看？
2021-11-16
Go
谷歌開發者大會2018實錄——Flutter篇
2019-03-04
谷歌Flutter
谷歌開發者大會2018實錄——TensorFlow篇
2018-09-25
谷歌
36氪WISE 2018新商業大會召開與時代前沿者共探新經濟發展
2018-11-28
以 tf.data 優化訓練資料輸入管道丨 Google 開發者大會 2018
2018-09-21
優化Go
2021 Google 開發者大會丨共建全球技術生態
2021-11-26
Go
使用 TensorFlow Extended (TFX) 在生產環境中部署機器學習丨 Google 開發者大會 2018
2019-03-04
機器學習Go
2021 Google 開發者大會即將登陸：年度盛會，先睹為快！
2021-11-16
Go
共聚北理工，2019 AI科學前沿大會即將開幕
2019-04-09
AI
Google開發者大會：你不得不知的Tensorflow小技巧
2019-02-16
Go
連續六天：2020 Google 開發者大會官網集結！
2020-11-13
Go
Develop as One | 2021 Google 開發者大會主旨演講精彩回顧
2021-11-20
devGo
Wear OS 平臺的最新發展和商機 | Google 開發者大會
2019-02-26
Go
2021 Google 開發者大會進行時: 匯聚開發者合力，共建全球技術生態
2021-11-27
Go
2019谷歌開發者大會首日看點：Google Play的新變化
2019-09-16
谷歌Go
2021 Google 開發者大會丨助力共建多元、平等、共融的社群
2021-11-30
Go
Cocos 亮相 2022 Google 開發者大會，併成 Web 端遊戲推薦開發工具
2022-09-16
GoWeb遊戲
2022 Google 遊戲開發者峰會來啦！
2022-03-22
Go遊戲開發

前沿AI：Tensor2Tensor | Google 開發者大會 2018

回顧Tensorflow

Tensor2Tensor

Tensor2Tensor開源

Tensor2Tensor緊跟學術前沿

Meet t2t-trainer

文字摘要

影象分類

翻譯

語音識別

影象生成

規模化

想要更多控制？

Datasets 資料集

用Keras實現模型

實現自己的資料集和模型

總結

相關文章