模型並行-Megatron-LM

博客员626發表於2024-12-10

原文網址 : https://www.cnblogs.com/boke626/p/18596916

模型並行

1.原理

針對transformer模型的模型並行方法，利用矩陣乘法的特性，將每個層切開，放入不同GPU中。

對於注意力層，是按注意力頭進行切分; 對於MLP層，是按矩陣列進行切分。整個執行流程中，每個層的需要進行資料通訊，因為對於矩陣切分後的乘法要得到最終的結果需要每個分塊的結果進行矩陣加。

2.缺點

使用多頭注意力的transformer的頭數、MLP隱藏層大小需要能夠被GPU數整除。每計算一個層就需要進行all reduce，導致不同層之間的計算是同步的，且有較大的通訊開銷。

[原始碼解析] 模型並行分散式訓練 Megatron (3) ---模型並行實現
2022-02-08
原始碼模型並行分散式
模型並行-Gpipe演算法
2024-12-09
模型並行演算法
[原始碼解析] 模型並行分散式訓練 Megatron (4) --- 如何設定各種並行
2022-02-10
原始碼模型並行分散式
Golang非CSP併發模型外的其他並行方法總結
2018-12-22
Golang模型並行
C#並行Parallel程式設計模型實戰技巧手冊
2019-01-20
C#並行Parallel程式設計模型
[原始碼解析] 模型並行分散式訓練Megatron (5) --Pipedream Flush
2022-02-14
原始碼模型並行分散式
Distributed Training: DeepSpeed ZeRO 1/2/3 + Accelerate, Megatron-LM
2024-09-07
AI
使用 PyTorch 完全分片資料並行技術加速大模型訓練
2023-12-04
PyTorch並行大模型
[原始碼解析] PyTorch 流水線並行實現 (2)--如何劃分模型
2021-09-24
原始碼PyTorch並行模型
LLM並行訓練5-MoE並行
2024-07-20
並行
activiti 新增流程模型並返回 modelId
2021-10-26
模型
[原始碼解析] 模型並行分散式訓練Megatron (2) --- 整體架構
2022-02-07
原始碼模型並行分散式架構
[原始碼解析] 模型並行分散式訓練Megatron (1) --- 論文 & 基礎
2022-01-27
原始碼模型並行分散式
[原始碼解析] 並行分散式任務佇列 Celery 之多程式模型
2021-04-15
原始碼並行分散式佇列模型
LLM並行訓練1-流水線並行
2024-06-26
並行
LLM並行訓練3-資料並行
2024-06-28
並行
LLM並行訓練2-張量並行
2024-06-27
並行
LLM並行訓練7-混合並行總結
2024-07-29
並行
Transformers 儲存並載入模型 | 八
2020-04-05
ORM模型
Oracle並行FAQ
2019-05-28
Oracle並行
BERT微調進行命名實體識別並將模型儲存為pb形式
2020-11-21
模型
systemverilog中for/foreach並行執行
2024-08-04
並行
WRF WPS多核並行執行
2024-09-14
並行
語音合成領域的首個完全端到端模型，百度提出並行音訊波形生成模型ClariNet
2018-07-25
模型並行音訊
【6】TensorFlow光速入門-python模型轉換為tfjs模型並使用
2020-10-27
Python模型JS
Keras 轉換成 Tensorflow 模型格式並使用
2019-07-10
Keras模型
DM並行查詢
2019-12-06
並行
oracle的並行世界
2019-06-06
Oracle並行
Sqoop 並行抽數
2022-06-19
OOP並行
PostgreSQL 之並行框架
2022-11-08
SQL並行框架
執行緒模型
2021-09-23
執行緒模型
Mxnet模型轉化為ncnn模型，並驗證轉化正確性
2019-05-23
模型CNN
26、多執行緒與並行
2020-10-17
執行緒並行
oracle 並行查詢時並行資源分配追蹤測試
2020-06-22
Oracle並行
2天訓練出15億引數大模型，國產開源專案力克英偉達Megatron-LM，來自LAMB作者團隊
2022-01-21
大模型
Laravel Eloquent 分表方法並使用模型關聯
2019-10-23
Laravel模型
ollama搭建本地ai大模型並應用呼叫
2024-08-19
AI大模型
Oracle“並行執行”——監控檢視
2019-01-17
Oracle並行

模型並行-Megatron-LM

1.原理

2.缺點

相關文章