程式設計介面的新動態：用 TensorFlow 高層 API 來構建機器學習模型丨 Google 開發者大會 2018

隨風追魚發表於2018-09-21

原文網址 : https://juejin.im/post/5ba46151e51d450e4437d1ea

Google 開發者大會 (Google Developer Days，簡稱 GDD) 是展示 Google 最新開發者產品和平臺的全球盛會，旨在幫助你快速開發優質應用，發展和留住活躍使用者群，充分利用各種工具獲得更多收益。2018 Google 開發者大會於 9 月 20 日和 21 日於上海舉辦。?Google 開發者大會 2018 掘金專題

2018 年 9 月 21 日，馮亦菲（Google Brain 軟體工程師）帶來一場《用 TensorFlow 高層 API 來構建機器學習模型》的演講，本文將對演講做一個回顧。

如何機器學習模型

程式設計介面的新動態：用 TensorFlow 高層 API 來構建機器學習模型丨 Google 開發者大會 2018

構建機器學習模型是一個循序漸進的過程：

首先獲取資料集，並明確機器學習所要解決的問題；
接下來處理資料集，讓我們的模型能夠快速的理解形式；
緊接著搭建機器學習模型的結構，並且訓練評估我們的模型；
最後，當模型達到我們預先設定的目標，就可以將其打包投入到生產環境中去。

機器學習問題

推測自然保護區型別

本例中的所使用的資料集為科羅拉多州森林植被資料集。該資料集記錄了美國科羅拉多州不同地塊的森林植被型別，每個樣本包含了描述每塊土地的若干特徵，包括海拔、坡度、到水源的距離、遮陽情況和土壤型別，並且隨同給出了地塊的已知森林植被型別。資料集下載

資料樣本

按照連結地址下載的原始資料集是以逗號分割、每行有55個整數列，如下圖：

每一列所代表的含義如下圖所示：

其中，上圖中橘黃色方框選中的區域就是我們此次想要推測的自然保護區型別。

使用 TensorFlow構建模型

在瞭解我們所有的資料集之後，可以著手使用 TensorFlow 來構建我們的模型。

首先 import tensorflow

import tensorflow as tf
複製程式碼

接下來，馮亦菲推薦使用 Eager Execution 立即執行

tf.enable_eager_execution()
複製程式碼

eager 執行模型

Eager Execution 的優點如下：

快速除錯即刻的執行錯誤並通過 Python 工具進行整合
藉助易於使用的 Python 控制流支援動態模型
為自定義和高階梯度提供強大支援
適用於幾乎所有可用的 TensorFlow 運算

使用tensorflow 提供的 Dataset 載入資料.我們下載的資料格式為 .csv，所以我們用的是 CsvDataset。

dataset = tf.contrib.data.CsvDataset(
    filenames = ['covtype.csv.train']
    record_defaults = [tf.int32] * 55)
print(list(dataset.take(1)))
複製程式碼

檢視 dataset 中第一行資料。

上圖中雖然我們可以看出每一行原始資料的含義，但是想要帶入到機器學習的模型中，我們還需要對資料進行解析。

解析原始資料集

col_names = ['elevation','aspect','slope'...]
//特徵名稱

def _parse_csv_row(*vals):
    soil_type_t = tf.convert_to_tensor(vals[14:54])
    //土壤型別是一個特徵，而不是 40 個單獨的特徵
    
    feat_vals = vals[:10] + (soil_type_t, vals[54])
    //重新組成 12 個特徵
    
    features = dict(zip(col_names, feat_vals))
    //給每個特徵取一個名稱
    
    class_label = tf.argmax(vals[10:14], axis = 0)
    //生成自然保護區標籤，在原始資料集中它的一個長度為 4
    return features, class_label
複製程式碼

解析資料

dataset = dataset.map(_parse_csv_row).batch(64)
//利用解析函式解析，並以 64 為單位對訓練集進行分組

print(list(dataset.take(1)))
複製程式碼

因為我們使用的是 Eager 執行模式，所以我們可以直接列印檢視資料，如下圖所示：

定義資料特徵

使用 feature_column, 將原始數值變成模型可理解的數值。

# Cover_Type / integer / 1 to 7
cover_type = tf.keras.feature_column.
    categorical_column_with_identity(
        'cover_type', num_buckets=8
    )

//把離散的類別，變成對模型有意義的連續的數值
cover_embedding = tf.kears.feature_column.
    embedding_column(cover_type,dimension = 10)

numeric_features = [tf.keras.feature_column.
    numeric_column(feat) for feat in numeric_cols]

soil_type = tf.keras.feature_column.
    numeric_column(soil_type, shape = (40,))

columns = numeric_features + [
    soil_type, cover_embedding]

feature_layer = tf.keras.feature_column.
    FeatureLayer(columns)
複製程式碼

構造模型

這裡我們使用的是 keras API 來搭建我們的模型，通過 keras 可以像搭積木一樣來構造模型。

model = tf.keras.Sequential([
    feature_layer,
    tf.keras.layers.Dense(256, activation = tf.nn.relu),
    tf.keras.layers.Dense(16, activation = tf.nn.relu),
    tf.keras.layers.Dense(8, activation = tf.nn.relu),
    tf.keras.layers.Dense(4, activation = tf.nn.softmax)
])

model.fit(dataset,steps_per_epoch = NUM_TRAIN_EXAMPLES/64)
複製程式碼

訓練結果如下：

驗證模型

載入驗證資料

def load_data(*filenames):
    dataset = tf.contrib.data.CsvDataset(
    filenames,record_defaults)
    dataset = dataset.map(_parse_csv_row)
    dataset = dataset.batch(64)
    return dataset
複製程式碼

驗證

test_data = load_data('covtype.csv.test')

loss, accury = model.evaluate(
    test_data,
    steps = 50
)

print(loss, accury)
複製程式碼

損失值與準去率如下圖所示：

輸出模型

如果驗證結果達到我們所設定的要求，可以利用 SavedModel 打包。

export_dir = tf.contrib.saved_model.
    save_keras_model(model, 'keras_nn')

//重新訓練已訓練的模型
restored_model = tf.contrib.saved_model.
    save_keras_model(export_dir)
複製程式碼

至此我們完成了構造機器學習模型的完整流程。在我們日常的生產環境中，不存在一次構建完美模型的情況。所以，我們可以根據上面構建模型的 5 個步驟，就單個步驟或多這個步驟進行改進。例如，我們可以獲得跟多原始資料，以提高模型的普遍性等等。

Wide & Deep 模型

前面我們使用的是 keras 模型，下面我們使用 Wide & Deep 模型就實現。

model = tf.estimator.DNNLinearCombinedClassifier(
    linear_feature_columns = [cover_type, soil_type],
    dnn_feature_columns = numeric_features,
    dnn_hidden_unites = [256, 16, 8]
    n_classes = 4
)

//訓練
model.train(
    input_fn = lambda: load_data('covtype.csv.train'))
//驗證
model.evaluate(
    input_fn = lambda: load_data('covtype.csv.test'))
    
//輸出
features_sample = list(dataset.take(1))[0][0]
input_receiver_fn = tf.estimator.export.
    bulid_raw_serving_input_receiver_fn(
    features_sample)

//重新訓練已訓練的模型    
model.export_saved_model(
    export_dir_base = 'wide_deep',
    serving_input_receiver_fn = input_receiver_fn)
複製程式碼

總結

以上就是本次演講的全部內容，希望對大家有所幫助。

閱讀更多 Google 開發者大會 2018 技術乾貨

TensorFlow 簡介：機器學習技術使用入門丨 Google 開發者大會 2018
2018-09-20
機器學習Go
分散式 TensorFlow：Distribution Strategy API 丨Google 開發者大會 2018
2018-09-25
分散式APIGo
使用 TensorFlow Extended (TFX) 在生產環境中部署機器學習丨 Google 開發者大會 2018
2019-03-04
機器學習Go
Google 開發者大會 2018 實錄 — TensorFlow篇
2018-09-25
Go
TensorFlow 主題演講 | Google 開發者大會 2018
2018-09-22
Go
2021 Google 開發者大會丨助力優質應用構建，多維度提升開發效率
2021-11-26
Go
2021 Google 開發者大會丨共建全球技術生態
2021-11-26
Go
ICML 2018 | 模型層面的對偶學習
2018-07-10
模型
Android 在 Google 開發者大會上釋出了哪些更新？ | Google 開發者大會 2018
2018-09-21
AndroidGo
2018 Google 開發者大會精彩回顧
2018-09-22
Go
谷歌開發者大會2018實錄——TensorFlow篇
2018-09-25
谷歌
來自前端工程師的Google開發者大會2018參會總結
2019-03-01
前端工程師Go
DeepMind依靠CBN統計方法來構建公平的機器學習模型
2020-10-25
機器學習模型
構建大模型應用程式框架 LangChain 介紹
2025-02-10
大模型框架LangChain
網站效能調優開發工具: Lighthouse, Puppeteer 以及進階部分丨 Google 開發者大會 2018
2018-09-23
網站Go
2018 TensorFlow開發者峰會都發布了哪些殺器？
2019-02-06
Google 2019開發者大會
2019-09-11
Go
中國 2018 Google 開發者大會！今起開放報名
2018-08-15
Go
Google開發者大會：你不得不知的Tensorflow小技巧
2019-02-16
Go
前沿AI：Tensor2Tensor | Google 開發者大會 2018
2019-03-04
AIGo
TensorFlow釋出面向JavaScript開發者的機器學習框架TensorFlow.js
2019-03-03
JavaScript機器學習框架JS
[譯] Flutter 釋出預覽版 2.0 : 完美適配 iOS丨Google 開發者大會2018
2019-03-04
FlutteriOSGo
TensorFlow2程式設計練習——多層感知機MLP
2021-08-09
程式設計
全網首發 | 2018 Google 開發者大會現場紀要
2018-09-22
Go
從模型到部署，教你如何用Python構建機器學習API服務
2024-04-08
模型Python機器學習API
以 tf.data 優化訓練資料輸入管道丨 Google 開發者大會 2018
2018-09-21
優化Go
機器學習與移動應用開發的未來
2019-02-21
機器學習
2018年Java程式設計師學習大資料開發最佳之路！
2018-10-25
Java程式設計師大資料
深入學習和理解Django模板層：構建動態頁面
2024-05-05
Django
2021 Google 開發者大會丨助力共建多元、平等、共融的社群
2021-11-30
Go
TensorFlow Lite：TensorFlow在移動裝置與嵌入式裝置上的輕量級跨平臺解決方案 | Google 開發者大會 2018
2018-09-22
Go
Google I/O 2022開發者大會
2022-05-12
Go
城市大腦頂層設計：構建智慧城市的新引擎
2024-10-15
帶你逛 2019 Google 開發者大會
2019-09-13
Go
Google 2020開發者大會Flutter專題
2020-11-20
GoFlutter
Google開源TensorFlow強化學習框架！
2018-08-28
Go強化學習框架
JavaScript高階程式設計學習(一)之介紹
2018-05-17
JavaScript程式設計
為什麼機器學習模型會越來越糟？ - Santiago
2021-05-27
機器學習模型Go

程式設計介面的新動態：用 TensorFlow 高層 API 來構建機器學習模型 丨 Google 開發者大會 2018