模型並行-Gpipe演算法

博客员626發表於2024-12-09

原文網址 : https://www.cnblogs.com/boke626/p/18594685

模型並行演算法

1.原理

與CPU的流水線的方法相同，Gpipe將模型分成多個塊，每個塊含有原模型的數個層。將每個塊放在不同的GPU上，實現模型的流水線執行。

只對模型進行切分實際上並沒有達到並行的效果，因為是按照模型的層進行切分，不同層之間的前向傳播和反向傳播存在同步關係，所以無法並行執行。

所以在模型切分的基礎上，再對資料進行切分，使得每個GPU在處理完一批切分的資料後，可以立刻處理下一批資料，而不會閒置。就實現了並行的效果。

Gpipe的開銷為$O(\frac{K - 1}{M + K - 1})$，K是切分模型的塊數，M是切分資料的塊數，當$M >= 4K$時，開銷可忽略不計

2.缺點

由於使用了流水線，在流水線中，執行時間最長的塊將成為整個系統的瓶頸。卷積網路訓練過程中，設計到矩陣的維度變換，無法實現良好的切分平衡不同GPU之間的負載，而在transformer中表現較好。只能支援序列結構的神經網路。只能同步進行更新操作。

[原始碼解析] 深度學習流水線並行GPipe (2) ----- 梯度累積
2021-08-26
原始碼深度學習並行梯度
[原始碼解析] 深度學習流水線並行 GPipe(3) ----重計算
2021-08-30
原始碼深度學習並行
[原始碼解析] 深度學習流水線並行Gpipe(1)---流水線基本實現
2021-08-23
原始碼深度學習並行
模型並行-Megatron-LM
2024-12-10
模型並行
[原始碼解析] 模型並行分散式訓練 Megatron (3) ---模型並行實現
2022-02-08
原始碼模型並行分散式
pangrank演算法--PageRank演算法並行實現
2021-09-09
演算法並行
並行排序演算法：雙調排序
2024-11-15
並行排序演算法
並行Louvain社群檢測演算法
2021-12-12
並行AI演算法
任務排程的並行演算法
2018-04-03
並行演算法
[原始碼解析] 模型並行分散式訓練 Megatron (4) --- 如何設定各種並行
2022-02-10
原始碼模型並行分散式
使用MPI並行化遺傳演算法框架GAFT
2019-02-12
並行演算法框架
Golang非CSP併發模型外的其他並行方法總結
2018-12-22
Golang模型並行
C#並行Parallel程式設計模型實戰技巧手冊
2019-01-20
C#並行Parallel程式設計模型
[原始碼解析] 模型並行分散式訓練Megatron (5) --Pipedream Flush
2022-02-14
原始碼模型並行分散式
使用 PyTorch 完全分片資料並行技術加速大模型訓練
2023-12-04
PyTorch並行大模型
[原始碼解析] PyTorch 流水線並行實現 (2)--如何劃分模型
2021-09-24
原始碼PyTorch並行模型
並查集演算法
2021-04-16
並查集演算法
LLM並行訓練5-MoE並行
2024-07-20
並行
任務排程並行演算法的Java簡單實現
2018-04-08
並行演算法Java
任務排程並行演算法的Python簡單實現
2018-04-09
並行演算法Python
activiti 新增流程模型並返回 modelId
2021-10-26
模型
[原始碼解析] 模型並行分散式訓練Megatron (2) --- 整體架構
2022-02-07
原始碼模型並行分散式架構
[原始碼解析] 模型並行分散式訓練Megatron (1) --- 論文 & 基礎
2022-01-27
原始碼模型並行分散式
[原始碼解析] 並行分散式任務佇列 Celery 之多程式模型
2021-04-15
原始碼並行分散式佇列模型
LLM並行訓練1-流水線並行
2024-06-26
並行
LLM並行訓練3-資料並行
2024-06-28
並行
LLM並行訓練2-張量並行
2024-06-27
並行
LLM並行訓練7-混合並行總結
2024-07-29
並行
Transformers 儲存並載入模型 | 八
2020-04-05
ORM模型
Oracle並行FAQ
2019-05-28
Oracle並行
BERT微調進行命名實體識別並將模型儲存為pb形式
2020-11-21
模型
systemverilog中for/foreach並行執行
2024-08-04
並行
WRF WPS多核並行執行
2024-09-14
並行
語音合成領域的首個完全端到端模型，百度提出並行音訊波形生成模型ClariNet
2018-07-25
模型並行音訊
【6】TensorFlow光速入門-python模型轉換為tfjs模型並使用
2020-10-27
Python模型JS
Keras 轉換成 Tensorflow 模型格式並使用
2019-07-10
Keras模型
DM並行查詢
2019-12-06
並行
oracle的並行世界
2019-06-06
Oracle並行

模型並行-Gpipe演算法

1.原理

2.缺點

相關文章