LLM並行訓練2-張量並行

SunStriKE發表於2024-06-27

原文網址 : https://www.cnblogs.com/sunstrikes/p/18271719

並行

切分方式

前置知識

矩陣乘法求導

\[Y=f(AB)=f(C) \]

\[\frac{\partial Y}{\partial A} = \frac{\partial Y}{\partial C} \cdot B^{T} \]

\[\frac{\partial Y}{\partial B} = A^{T} \cdot \frac{\partial Y}{\partial C} \]

以下定義X的dim為(M,K), W的dim為(K, N), 平均切分z次

行式切分

forward

\[Y= X_1W_1 + X_2W_2 \]

\[X= concat(X_1, X_2, axis=1) \]

\[W = concat(W_1, W_2, axis= 0) \]

先把X按列切分每個子塊的dim都是 (M, K/z), W1的dim(K/z, N), 這裡利用了分塊矩陣乘法的性質, 把切分好的Xi scatter到對應W的卡上, 計算完成後相加結果矩陣即可拿到Y的前向結果

backward:

\[\frac{\partial L}{\partial W_i} = \frac{\partial L}{\partial Y}\cdot \frac{\partial Y}{\partial Y_i}\cdot \frac{\partial Y_i}{\partial W_i} \\ \]

Y對Yi的偏導因為 Y= Y1 + Y2求導偏導是1, 可以直接省略. 只需要把L對Y的偏導廣播到W1, W2各自的卡上, 他們就能各自計算對應的梯度來更新W. L對X的偏導也是兩張卡各自計算後(L對Y的偏導 * Wi的轉置), 最後按列concat到一起就能得到最終X的偏導

列式切分

forward:

\[Y= concat(X_1W_1, X_2W_2, axis=1) \\ \]

因為按列切分沒有改變矩陣乘法的中間dim, 前向只需要concat起來兩個切分後的乘法結果

backward:

\[\frac{\partial L}{\partial W_i} = \frac{\partial L}{\partial Y}\cdot \frac{\partial Y_i}{\partial W_i} \]

\[\frac{\partial L}{\partial X} = \frac{\partial L}{\partial X_1} + \frac{\partial Y_i}{\partial X_2} \\ \]

這裡是需要先把L對Y的導數切分後再傳給各張卡, L對W的偏導計算方法和行切分一樣, L對X的偏導因為對於損失L，X既參與了XW1的計算，也參與了XW2的計算, 所以需要把兩張卡上對X1,X2的偏導求和. 得到最終的結果

MLP並行

以Y = GELU(X * A) * B 為例

forward: 把引數A進行列切分, B進行行切分. 先把X廣播到每張卡上, 每張卡直接算完從A->B的所有流程後, AllReduce計算結果就能得到Y

Backward: 把Grad(y)廣播到各張卡上獨立反向, 然後allreduce所有的grad(xi), 就能得到grad(x)

這個設計真挺巧妙的. 如果我們只用行切分或者列切分, 在兩個矩陣計算的中間必然會進行一次集合通訊的同步. 列切分是AllGather, 行切分是AllReduce. 然而先行後列, 中間除了節省掉集合通訊的成本, 連第二次列切分的時候需要先對X做分塊操作的步驟都節省了. 牛啊

MultiHeadAttention並行

如果有兩個頭兩張卡, 把V,Q,K權重矩陣進行列切分後. 算出來的Q1,Q2 透過concat就能得到Q, 完美的切分了資料和算力..真的感覺天然適配張量並行, 只要我們保證head數能整除卡數就能完全利用起來所有的卡.

總結

張量並行結合了分塊矩陣運算的性質, 透過合理的切分輸入和引數, 再加上行列切分的合理配置. 就能節省掉很多過程中的不必要通訊和冗餘計算. 而且對效果無損, 看的過程中感覺好神奇.

LLM並行訓練5-MoE並行
2024-07-20
並行
LLM並行訓練1-流水線並行
2024-06-26
並行
LLM並行訓練3-資料並行
2024-06-28
並行
LLM並行訓練7-混合並行總結
2024-07-29
並行
LLM並行訓練6-啟用最佳化
2024-07-20
並行
LLM並行訓練4-megascale論文學習
2024-06-29
並行
Pytorch：單卡多程式並行訓練
2023-01-24
PyTorch並行
[原始碼解析] 模型並行分散式訓練 Megatron (3) ---模型並行實現
2022-02-08
原始碼模型並行分散式
[原始碼解析] 模型並行分散式訓練 Megatron (4) --- 如何設定各種並行
2022-02-10
原始碼模型並行分散式
使用LLaMA-Factory訓練LLM大模型並用ollama呼叫
2024-10-16
大模型
分散式混合並行訓練關鍵技術解讀
2024-07-08
分散式並行
[原始碼解析] 模型並行分散式訓練Megatron (5) --Pipedream Flush
2022-02-14
原始碼模型並行分散式
加速訓練之並行化 tf.data.Dataset 生成器
2022-06-11
並行
使用 PyTorch 完全分片資料並行技術加速大模型訓練
2023-12-04
PyTorch並行大模型
[原始碼解析] 模型並行分散式訓練Megatron (2) --- 整體架構
2022-02-07
原始碼模型並行分散式架構
[原始碼解析] 模型並行分散式訓練Megatron (1) --- 論文 & 基礎
2022-01-27
原始碼模型並行分散式
飛槳分散式訓練又推新品，4D混合並行可訓千億級AI模型
2021-04-15
分散式並行AI模型
Oracle並行FAQ
2019-05-28
Oracle並行
ML2021 | (騰訊)PatrickStar：通過基於塊的記憶體管理實現預訓練模型的並行訓練
2021-11-25
記憶體模型並行
systemverilog中for/foreach並行執行
2024-08-04
並行
WRF WPS多核並行執行
2024-09-14
並行
DM並行查詢
2019-12-06
並行
oracle的並行世界
2019-06-06
Oracle並行
Sqoop 並行抽數
2022-06-19
OOP並行
PostgreSQL 之並行框架
2022-11-08
SQL並行框架
26、多執行緒與並行
2020-10-17
執行緒並行
oracle 並行查詢時並行資源分配追蹤測試
2020-06-22
Oracle並行
keras 手動搭建alexnet並訓練mnist資料集
2020-11-27
Keras
Oracle“並行執行”——監控檢視
2019-01-17
Oracle並行
快速理解併發、並行
2019-04-21
並行
Java 8 Stream並行流
2019-01-19
Java並行
淺談並行測試
2019-01-18
並行
Python的併發、並行
2018-05-06
Python並行
並行開發基礎
2018-06-13
並行
MySQL 5.7 並行複製
2018-06-04
MySql並行
Docker部署並執行Elasticsearch
2020-11-02
DockerElasticsearch
PostgreSQL並行查詢概述
2019-01-05
SQL並行
並行處理 Parallel Processing
2019-01-04
並行Parallel