在昇騰平臺上對TensorFlow網路進行效能調優

華為雲開發者聯盟發表於2023-03-15

原文網址 : https://www.cnblogs.com/huaweiyun/p/17217726.html

摘要：本文就帶大家瞭解在昇騰平臺上對TensorFlow訓練網路進行效能調優的常用手段。

本文分享自華為雲社群《在昇騰平臺上對TensorFlow網路進行效能調優》，作者：昇騰CANN 。

使用者將TensorFlow訓練網路遷移到昇騰平臺後，如果存在效能不達標的問題，就需要進行調優。本文就帶大家瞭解在昇騰平臺上對TensorFlow訓練網路進行效能調優的常用手段。

首先了解下效能調優的全流程：

當TensorFlow訓練網路效能不達標時，首先可嘗試昇騰平臺提供的“三板斧”操作，即上圖中的“基本提升手段”：使能自動混合精度 > 進行親和介面的替換 > 使能訓練迭代迴圈下沉 > 使用AOE工具進行調優。

基本調優操作完成後，需要再次執行模型訓練並評估效能，如果效能達標了，調優即可結束；如果未達標，需要使用Profling工具採集詳細的效能資料進一步分析，從而找到效能瓶頸點，並進一步針對性的解決，這部分調優操作需要使用者有一定的經驗，難度相對較大，我們將這部分調優操作稱為進階調優。

本文主要帶大家詳細瞭解基本調優操作，即上圖中的灰色底紋部分。

使能自動混合精度

混合精度是業內通用的效能提升方式，透過降低部分計算精度提升資料計算的並行度。混合計算訓練方法透過混合使用float16和float32資料型別來加速深度神經網路的訓練過程，並減少記憶體使用和存取，從而可以提升訓練網路效能，同時又能基本保證使用float32訓練所能達到的網路精度。

Ascend平臺提供了“precision_mode”引數用於配置網路的精度模式，使用者可以在訓練指令碼的執行配置中新增此引數，並將取值配置為“allow_mix_precision”，從而使能自動混合精度，下面以手工遷移的訓練指令碼為例，介紹配置方法。

Estimator模式下，在NPURunConfig中新增precision_mode引數設定精度模式：

npu_config=NPURunConfig(
 model_dir=FLAGS.model_dir,
 save_checkpoints_steps=FLAGS.save_checkpoints_steps,  session_config=tf.ConfigProto(allow_soft_placement=True,log_device_placement=False),
 precision_mode="allow_mix_precision"
 )

sess.run模式下，透過session配置項precision_mode設定精度模式：

config = tf.ConfigProto(allow_soft_placement=True)
custom_op = config.graph_options.rewrite_options.custom_optimizers.add()
custom_op.name = "NpuOptimizer" 
custom_op.parameter_map["use_off_line"].b = True
custom_op.parameter_map["precision_mode"].s = tf.compat.as_bytes("allow_mix_precision")
…
with tf.Session(config=config) as sess:
 print(sess.run(cost))

親和介面替換

針對TensorFlow訓練網路中的dropout、gelu介面，Ascend平臺提供了硬體親和的替換介面，從而使網路獲得更優效能。

對於訓練指令碼中的nn.dropout，建議替換為Ascend對應的API實現，以獲得更優效能：

layers = npu_ops.dropout()

若訓練指令碼中存在layers.dropout、tf.layers.Dropout、tf.keras.layers.Dropout、tf.keras.layers.SpatialDropout1D、tf.keras.layers.SpatialDropout2D、tf.keras.layers.SpatialDropout3D介面，建議增加標頭檔案引用：

from npu_bridge.estimator.npu import npu_convert_dropout

對於訓練指令碼中的gelu介面，建議替換為Ascend提供的gelu介面，以獲得更優效能。

例如，TensorFlow原始程式碼：

遷移後的程式碼：

from npu_bridge.estimator.npu_unary_ops import npu_unary_ops
layers = npu_unary_ops.gelu(x)

訓練迭代迴圈下沉

訓練迭代迴圈下沉是指在Host呼叫一次，在Device執行多次迭代，從而減少Host與Device間的互動次數，縮短訓練時長。使用者可透過iterations_per_loop引數指定訓練迭代的次數，該引數取值大於1即可使能訓練迭代迴圈下沉的特性。

使用該特性時，要求訓練指令碼使用TF Dataset方式讀資料，並開啟資料預處理下沉，即enable_data_pre_proc開關配置為True，例如sess.run配置示例如下：

custom_op.parameter_map["enable_data_pre_proc"].b = True

其他使用約束，使用者可參見昇騰文件中心的《TensorFlow模型遷移和訓練指南》。

Estimator模式下，透過NPURunConfig中的iterations_per_loop引數配置訓練迭代迴圈下沉的示例如下：

session_config=tf.ConfigProto(allow_soft_placement=True)
config = NPURunConfig(session_config=session_config, iterations_per_loop=10)

AOE自動調優

昇騰平臺提供了AOE自動調優工具，可對網路進行子圖調優、運算元調優與梯度調優，生成最優排程策略，並將最優排程策略固化到知識庫。模型再次訓練時，無需開啟調優，即可享受知識庫帶來的收益。

建議按照如下順序使用AOE工具進行調優：

訓練場景下使能AOE調優有兩種方式：

透過設定環境變數啟動AOE調優。

# 1：子圖調優 
# 2：運算元調優 
# 4：梯度調優
export AOE_MODE=2

修改訓練指令碼，透過“aoe_mode”引數指定調優模式，例如：

sess.run模式，訓練指令碼修改方法如下：

custom_op.parameter_map["aoe_mode"].s = tf.compat.as_bytes("2")

estimator模式下，訓練指令碼修改方法如下：

config = NPURunConfig(
 session_config=session_config, 
 aoe_mode=2)

以上就是TensorFlow網路在昇騰平臺上進行效能調優的常見手段。關於更多文件介紹，可以在昇騰文件中心檢視，您也可在昇騰社群線上課程板塊學習影片課程，學習過程中的任何疑問，都可以在昇騰論壇互動交流！

在昇騰平臺上對TensorFlow網路進行效能調優

使能自動混合精度

親和介面替換

訓練迭代迴圈下沉

AOE自動調優

相關參考：

相關文章