LLM並行訓練4-megascale論文學習

SunStriKE發表於2024-06-29

原文網址 : https://www.cnblogs.com/sunstrikes/p/18275554

並行

演算法最佳化

並行注意力機制

\[序列版本: y = x + MLP(LayerNorm(x + Attention(LayerNorm(x)))) \]

\[並行版本: y = x + MLP(LayerNorm(x)) + Attention(LayerNorm(x)))) \]

乍一看確實不是等價的, attention那塊的後置mlp去哪了..這個其實沒有理論證明, Palm論文裡提到把mlp融合到attention裡實驗62B模型上效能沒有下降. 主要對應的是下圖網路結構的並行化改造.

滑動視窗Attention

透過堆疊不同大小的視窗來捕獲句子中的資訊，所需要的計算量會比直接計算整個輸入文字長度的計算量要小很多

滑動視窗attention的原理參考這個文章的解釋:因為模型都是多層疊加的，所以層級越高，attend的視野域就越廣。如果w=3，那麼第一層只能注意3個位置，但到第二層能注意到第一層輸出的三個位置，換算到第一層的輸入，就是5個位置。所以隨著層級越高，理論上每個位置注意到的區域就越大，所能儲存的資訊就越接近全域性attention時的狀態

AdamW最佳化(LAMB):

adamW對比adam是把權重衰減項從梯度的計算中拿出來直接加在了最後的權重更新步驟上, 為了把權重衰減和梯度計算解耦(如果加到梯度計算裡會影響到動量的滑動平均), 從而提升最佳化效果.

這裡做的最佳化是新增了一個 \(\phi\)截斷函式, 主要目的是為了防止batch_size太大的時候導致最佳化過程中動量出現極端值影響bp. 這個方法論文裡說可以把batch_size增大4倍從而加速訓練.

\[W_t\leftarrow W_{t-1}-\alpha \cdot\phi(\frac{||W_{t-1}||}{||r_t+\lambda W_{t-1}||})(r_t+\lambda W_{t-1}) \]

3D並行最佳化

張量並行最佳化

序列並行(SP)主要有2個目的: 平攤LayerNorm和Dropout的計算開銷, 而且Activation佔用視訊記憶體也很多, 能夠平攤視訊記憶體消耗.

[!NOTE]

這裡有個疑問: LayerNorm不是要算全域性均值和方差麼..這個拆分後是隻算該裝置內部的均值還是說需要進行額外的allReduce?

AllGather最佳化

序列並行(SP)後, 在進行張量並行(TP)前需要在fp的時候需要先透過gather把之前層的切片從其他節點copy匯聚過來. 如果等gather完成再跑mlp和attention就會讓gpu在通訊這段時間空置等待, 這裡可以最佳化成每通訊完成一個切片後, 進行這個切片的MLP列切分計算, 同時直接把gather結果送給attention平行計算, 最後再把切片計算結果concat到一起. 比如在copy完A0後, A0的前向計算就和A1的通訊並行起來了, 這樣就能儘量的隱藏通訊

另外對矩陣做切片後再進行矩陣乘法, 計算效率要也比2個超大的矩陣乘法要高.

Reduce-Scatter最佳化

這塊是需要把匯聚計算完成的tensor在重新進行切分傳送到序列並行的節點裡, 這裡是把MLP的第二次行切分和attention結果加和給merge到了一起, 完成一個切片的計算後就傳送出去, 同步進行下一個切片的計算使計算和通訊非同步進行.

流水線最佳化

回顧一下交錯式1F1B, 每個節點fp前需要等recv之前layer的結果, 在當前層fp完後, 透過allGather send出去計算完成的資料, 在bp的時候需要透過Reduce-scatter傳送出去計算完的grad.

在warm-up/cool-down過程裡, 都是必須等通訊完成才能進行計算的. 為了縮短等待時間megascale把allGather的recv/send拆分開, recv優先順序高於send, recv後就能直接開始計算, 不需要等send的長尾. 從而縮短等待時間.

在穩定狀態的時候應該和megatron一樣, 通訊都會和計算非同步. 實際情況裡通訊一般都會被隱藏掉(這裡我沒看懂為啥上面畫的對比圖是個純序列的流程)

資料載入最佳化

這章的主要思想工作中經常用到就不細看了, 主要有2部分:

在bp完同步梯度的時候, 所有前向相關的資料就沒用了, 就可以直接釋放回池預載入下一輪fp需要的embed
避免單機內多張卡重複讀相同的冗餘資料(這裡可能指的是embed集合麼?), 先在記憶體裡去好重再copy到視訊記憶體

網路通訊最佳化

TODO待補充..網路這塊基本都忘完了.

叢集容錯

錯誤檢測

主要思想和flux-cpu有很多相似點, 主要有以下幾個點

每個worker定期上報心跳給中心節點, 確保當前狀態正常
狀態異常時的自動化診斷(NCCL allToAll, allReduce. 同主機RDMA網路卡間的連線和頻寬, 網路卡到GPU/MEM的連線和頻寬), 完成診斷後上報給中心節點.
中心節點向k8s申請失敗節點的拉黑和重分配替換

狀態恢復

checkpoint儲存: 這個看著實現方法和async_patch是一樣的, 先把引數copy到記憶體, 模型繼續訓練. 同步再起一個非同步執行緒用來把記憶體裡的引數寫到hdfs. 這樣就可以把非常耗時的hdfs寫入給隱藏掉.
checkpoint讀取: 主要最佳化手段是在同一資料並行組裡的卡, 只選一個GPU對應的訓練執行緒讀hdfs後寫記憶體, 然後透過broadcast給這個資料並行組裡的其他卡. 可以降低hdfs的讀取壓力.

LLM的狀態恢復感覺還挺複雜的, 如果有一個節點掛了在重分配後是所有節點全部回滾到上一個checkpoint還是有更快的方法..pipeline並行應該是在根據節點rank在啟動的時候就分好了層, 節點重入後要替換原來的rank_id.

狀態監控

基於cuda_event的timeline視覺化, 算是老熟人了. 這裡的難點感覺在於超多卡的實時日誌收集, 根據DP來畫出卡和卡的資料流依賴關係

參考:

megascale: https://arxiv.org/abs/2402.15627

Palm(並行attention): https://public.agent-matrix.com/publish/shared/Paper/Palm.pdf

滑動視窗注意力解釋: https://zhuanlan.zhihu.com/p/223430086

LLM並行訓練5-MoE並行
2024-07-20
並行
LLM並行訓練1-流水線並行
2024-06-26
並行
LLM並行訓練3-資料並行
2024-06-28
並行
LLM並行訓練2-張量並行
2024-06-27
並行
LLM並行訓練7-混合並行總結
2024-07-29
並行
LLM並行訓練6-啟用最佳化
2024-07-20
並行
[原始碼解析] 模型並行分散式訓練Megatron (1) --- 論文 & 基礎
2022-01-27
原始碼模型並行分散式
並行多工學習論文閱讀（五）：論文閱讀總結
2021-11-12
並行
並行多工學習論文閱讀（一）：多工學習速覽
2021-10-29
並行
使用LLaMA-Factory訓練LLM大模型並用ollama呼叫
2024-10-16
大模型
論文學習
2020-06-01
如何基於元學習方法進行有效的模型訓練？四篇論文詳細剖析元模型的學習原理和過程
2021-04-05
模型
Pytorch：單卡多程式並行訓練
2023-01-24
PyTorch並行
ZGC論文學習
2019-01-03
GC
【LLM訓練系列】NanoGPT原始碼詳解和中文GPT訓練實踐
2024-08-25
NaNGPT原始碼
[論文翻譯] 分散式訓練 Parameter sharding 之 ZeRO
2022-01-11
分散式
並行多工學習論文閱讀（三）：運用代理損失進行任務分解
2021-11-05
並行
並行多工學習論文閱讀（四）：去偏lasso實現高效通訊
2021-11-10
並行
[原始碼解析] 模型並行分散式訓練 Megatron (3) ---模型並行實現
2022-02-08
原始碼模型並行分散式
機器學習的訓練集
2021-02-05
機器學習
並行多工學習論文閱讀（二）同步和非同步優化演算法
2021-10-30
並行非同步優化演算法
【LLM訓練】從零訓練一個大模型有哪幾個核心步驟？
2024-11-24
大模型
【論文學習】FastText總結
2020-10-10
AST
深度學習相關論文
2020-04-06
深度學習
Google Illuminate革新學習論文
2024-10-12
Go
深度學習 | 訓練網路trick——mixup
2020-08-09
深度學習
BERT新轉變：面向視覺基礎進行預訓練| NeurIPS 2019論文解讀
2019-12-27
視覺
[原始碼解析] 模型並行分散式訓練 Megatron (4) --- 如何設定各種並行
2022-02-10
原始碼模型並行分散式
分散式混合並行訓練關鍵技術解讀
2024-07-08
分散式並行
圖論訓練記錄 2024.10
2024-10-23
圖論
【深度學習論文篇 01-1 】AlexNet論文翻譯
2022-04-05
深度學習
飛槳圖學習大模型訓練框架
2023-04-10
大模型框架
LLM學習筆記
2024-06-18
筆記
深度學習-最新論文解釋
2019-04-10
深度學習
學習日記2020-11-16論文學習
2020-11-16
試用阿里雲GPU伺服器進行深度學習模型訓練
2024-04-17
阿里GPU伺服器深度學習模型
如何對SAP Leonardo上的機器學習模型進行重新訓練
2019-07-24
機器學習模型
「預訓練」獲EMNLP最佳論文，一作為華人，哈工大劉挺教授10篇論文被接收
2019-11-08