加速訓練之並行化 tf.data.Dataset 生成器

魚與魚發表於2022-06-11

原文網址 : https://www.cnblogs.com/gongyanzh/p/16365627.html

在處理大規模資料時，資料無法全部載入記憶體，我們通常用兩個選項

使用tfrecords
使用 tf.data.Dataset.from_generator()

tfrecords的並行化使用前文已經有過介紹，這裡不再贅述。如果我們不想生成tfrecord中間檔案，那麼生成器就是你所需要的。

本文主要記錄針對 from_generator()的並行化方法，在 tf.data 中，並行化主要通過 map和 num_parallel_calls 實現，但是對一些場景，我們的generator()中有一些處理邏輯，是無法直接並行化的，最簡單的方法就是將generator()中的邏輯抽出來，使用map實現。

tf.data.Dataset generator 並行

對generator()中的複雜邏輯，我們對其進行簡化，即僅在生成器中做一些下標取值的型別操作，將generator()中處理部分使用py_function 包裹(wrapped) ，然後呼叫map處理。

def func(i):
    i = i.numpy() # Decoding from the EagerTensor object
    x, y = your_processing_function(training_set[i])
    return x, y

z = list(range(len(training_set))) # The index generator

dataset = tf.data.Dataset.from_generator(lambda: z, tf.uint8)

dataset = dataset.map(lambda i: tf.py_function(func=func, 
                                               inp=[i], 
                                               Tout=[tf.uint8,
                                                     tf.float32]
                                               ), 
                      num_parallel_calls=tf.data.AUTOTUNE)

由於隱式推斷的原因，有時tensor的輸出shape是未知的，需要額外處理

dataset = dataset.batch(8)
def _fixup_shape(x, y):
    x.set_shape([None, None, None, nb_channels]) # n, h, w, c
    y.set_shape([None, nb_classes]) # n, nb_classes
    return x, y
dataset = dataset.map(_fixup_shape)

tf.Tensor與tf.EagerTensor

為什麼需要 tf.py_function，先來看下tf.Tensor與tf.EagerTensor

EagerTensor是實時的，可以在任何時候獲取到它的值，即通過numpy獲取

Tensor是非實時的，它是靜態圖中的元件，只有當喂入資料、運算完成才能獲得該Tensor的值，

map中對映的函式運算，而僅僅是告訴dataset，你每一次拿出來的樣本時要先進行一遍function運算之後才使用的，所以function的呼叫是在每次迭代dataset的時候才呼叫的，屬於靜態圖邏輯

tensorflow.python.framework.ops.EagerTensor
tensorflow.python.framework.ops.Tensor

tf.py_function在這裡起了什麼作用？

Wraps a python function into a TensorFlow op that executes it eagerly.

剛才說到map資料靜態圖邏輯，預設引數都是Tensor。而使用tf.py_function()包裝後，引數就變成了EagerTensor。

references

【1】https://medium.com/@acordier/tf-data-dataset-generators-with-parallelization-the-easy-way-b5c5f7d2a18

【2】https://blog.csdn.net/qq_27825451/article/details/105247211

【3】https://www.tensorflow.org/guide/data_performance#parallelizing_data_extraction

LLM並行訓練5-MoE並行
2024-07-20
並行
使用 PyTorch 完全分片資料並行技術加速大模型訓練
2023-12-04
PyTorch並行大模型
LLM並行訓練1-流水線並行
2024-06-26
並行
LLM並行訓練3-資料並行
2024-06-28
並行
LLM並行訓練2-張量並行
2024-06-27
並行
LLM並行訓練6-啟用最佳化
2024-07-20
並行
LLM並行訓練7-混合並行總結
2024-07-29
並行
Gradient Centralization: 簡單的梯度中心化，一行程式碼加速訓練並提升泛化能力 | ECCV 2020 Oral
2020-08-03
梯度中心化行程
Pytorch：單卡多程式並行訓練
2023-01-24
PyTorch並行
[原始碼解析] 模型並行分散式訓練 Megatron (3) ---模型並行實現
2022-02-08
原始碼模型並行分散式
LLM並行訓練4-megascale論文學習
2024-06-29
並行
[原始碼解析] 模型並行分散式訓練 Megatron (4) --- 如何設定各種並行
2022-02-10
原始碼模型並行分散式
分散式混合並行訓練關鍵技術解讀
2024-07-08
分散式並行
[原始碼解析] 模型並行分散式訓練Megatron (5) --Pipedream Flush
2022-02-14
原始碼模型並行分散式
KubeDL HostNetwork：加速分散式訓練通訊效率
2022-02-14
分散式
lora訓練之偷師
2023-11-07
輕量化模型訓練加速的思考（Pytorch實現）
2020-09-01
模型PyTorch
Python資料預處理:Dask和Numba並行化加速!
2018-06-06
Python並行
[原始碼解析] 模型並行分散式訓練Megatron (2) --- 整體架構
2022-02-07
原始碼模型並行分散式架構
[原始碼解析] 模型並行分散式訓練Megatron (1) --- 論文 & 基礎
2022-01-27
原始碼模型並行分散式
飛槳分散式訓練又推新品，4D混合並行可訓千億級AI模型
2021-04-15
分散式並行AI模型
pytorch訓練簡單的CNN(visdom進行視覺化)
2020-11-02
PyTorchCNN視覺化
支援Transformer全流程訓練加速，加速3倍！位元組跳動LightSeq上新
2021-06-25
ORM
ML2021 | (騰訊)PatrickStar：通過基於塊的記憶體管理實現預訓練模型的並行訓練
2021-11-25
記憶體模型並行
【預訓練語言模型】使用Transformers庫進行BERT預訓練
2024-03-13
模型ORM
ctf訓練命令執行漏洞
2020-12-04
基於 Fluid+JindoCache 加速大模型訓練的實踐
2024-02-28
UI大模型
如何藉助分散式儲存 JuiceFS 加速 AI 模型訓練
2023-04-26
分散式UIAI模型
視覺化 Keras 訓練過程
2018-04-08
視覺化Keras
神經網路之反向傳播訓練(8行程式碼)
2018-05-23
神經網路反向傳播行程
【預訓練語言模型】使用Transformers庫進行GPT2預訓練
2024-03-13
模型ORMGPT
keras 手動搭建alexnet並訓練mnist資料集
2020-11-27
Keras
新型大語言模型的預訓練與後訓練正規化，阿里Qwen
2024-11-27
模型阿里
C語言訓練之杭電OJ
2021-01-04
C語言
[原始碼解析] PyTorch 分散式之彈性訓練(7)---節點變化
2021-12-31
原始碼PyTorch分散式
DL4J實戰之六：圖形化展示訓練過程
2021-10-21
「GAN優化」GAN訓練的小技巧
2019-10-19
優化
TorchVision 預訓練模型進行推斷
2021-02-26
模型

加速訓練之並行化 tf.data.Dataset 生成器

tf.data.Dataset generator 並行

tf.Tensor與tf.EagerTensor

references

相關文章