模型訓練時間預測，計算量估計 Scaling Laws for Neural Language Models

爱串门的小马驹發表於2024-07-22

原文網址 : https://www.cnblogs.com/acmdxmj/p/18315246

一、模型計算量
C ≈ 6N*D
其中C表示訓練語言模型所需的總計算量，N表示模型引數量，D表示用於訓練的語料總量，6表示每訓練一個token所需的浮點計算量約為6N，其中前向計算2N，反向計算4N。
注意：這裡的6是針對Transformers，如果其它模型結構，還請重新確定每個引數的平均計算量。開了啟用點檢查activation checkpoint，這個係數是8。
啟用檢查activation checkpoint透過在前向傳播過程中只儲存一部分（而不是全部）的啟用值來減少儲存空間消耗。對於沒有儲存的啟用值，如果在後向傳播過程中需要它們，就重新計算這些值。這種方法可以顯著減儲存佔用，但是會增加計算開銷，因需要重新計算一些啟用值。
舉個例子
哈哈哈，還是例子好理解。
比如我現在要訓練模型引數量為175B，用於訓練的語料總量為300B，即
N=175B=175*10^9
D=300B=300*10^9
那麼訓練模型所需的總計算量為：
C ≈ 6ND=6175B300B=617510^9*300*109=3.1510^23=3.15*107 PFlops
二、模型訓練耗時估計
哈哈哈，都知道所需的總的計算量，那不是輕輕鬆鬆估計訓練耗時。
T=C/(MFU*S)
其中C表示訓練語言模型所需的總計算量，S表示訓練模型所用叢集的算力，MFU(Model FLOPs Utilization)訓練模型時的算力利用率。
舉個例子
比如我現在訓練模型所需總計算量為3.1510^7 PFlops，叢集算力能力為3924.44565 PFlops/s，訓練模型時的算力利用率為55.2%，即：
**C =3.1510^7 PFlops**
S=3924.4 PFlops/s=卡的數量*每張卡的算力
MFU=55.2%
則訓練該模型所需的時間為：
T=C/(MFUS)=3.1510^7/(55.2%*3924.4)=14541秒=4小時
注意：這裡的算力利用率是整個訓練過程中的算力利用率，有的地方的算力利用率是計算的時候的算力利用率，不考慮純通訊和叢集故障。如果想獲取訓練總時間，這些時間需單獨考慮。
影片教程：
模型計算量預測訓練時間估計_嗶哩嗶哩_bilibili
參考文獻：
[2001.08361] Scaling Laws for Neural Language Models (arxiv.org)

大模型量化訓練極限在哪？騰訊混元提出低位元浮點數訓練Scaling Laws
2025-01-16
大模型
隱私計算 FATE - 模型訓練
2022-07-12
模型
隱私計算FATE-模型訓練
2022-06-20
模型
CANN訓練：模型推理時資料預處理方法及歸一化引數計算
2023-04-03
模型
PaddlePaddle分散式訓練及CTR預估模型應用
2019-05-21
分散式模型
大語言模型的Scaling Law：如何隨著模型大小、訓練資料和計算資源的增加而擴充套件
2024-07-27
模型套件
用大模型最佳化大模型預訓練資料，節省20倍計算量，實現顯著效能提升！
2024-09-27
大模型
低精度只適用於未充分訓練的LLM？騰訊提出LLM量化的scaling laws
2024-12-29
大型語言模型(Large Language Models)的介紹
2024-09-22
模型
PyTorch預訓練Bert模型
2020-11-17
PyTorch模型
取出預訓練模型中間層的輸出(pytorch)
2023-03-12
模型PyTorch
時間差計算
2024-10-28
PHP時間計算
2021-09-09
PHP
預訓練模型 & Fine-tuning
2020-10-18
模型
【AI】Pytorch_預訓練模型
2021-08-26
AIPyTorch模型
【預訓練語言模型】使用Transformers庫進行BERT預訓練
2024-03-13
模型ORM
計量經濟學(七)——時間序列GARCH模型
2024-10-16
模型
Large language models as surrogate models in evolutionary algorithms: A preliminary study
2024-12-06
Go
預訓練模型時代：告別finetune, 擁抱adapter
2021-12-29
模型APT
配送交付時間輕量級預估實踐
2022-12-05
自訓練 + 預訓練 = 更好的自然語言理解模型
2020-11-13
模型
程式設計師如何預估自己的專案開發時間？
2018-09-19
程式設計師
【預訓練語言模型】使用Transformers庫進行GPT2預訓練
2024-03-13
模型ORMGPT
Mxnet速查_CPU和GPU的mnist預測訓練_模型匯出_模型匯入再預測_匯出onnx並預測
2022-04-02
GPU模型
Keras速查_CPU和GPU的mnist預測訓練_模型匯出_模型匯入再預測_匯出onnx並預測
2022-03-20
KerasGPU模型
[Paper Reading] KOSMOS: Language Is Not All You Need: Aligning Perception with Language Models
2024-03-27
MxNet預訓練模型到Pytorch模型的轉換
2018-06-28
模型PyTorch
TorchVision 預訓練模型進行推斷
2021-02-26
模型
TimeDateCalculator for mac 時間計算器
2021-08-17
Mac
Scaling Law撞牆？預訓練終結？亞馬遜雲科技為什麼還在做基礎大模型
2024-12-18
亞馬遜大模型
2019最佳預訓練模型：非暴力美學，1/4算力超越RoBERTa
2019-11-09
模型
CVPR 2024 ｜自動駕駛世界模型四維時空預訓練
2024-06-03
自動駕駛世界模型
模型訓練：資料預處理和預載入
2020-10-27
模型
Findings | 中文預訓練語言模型回顧
2020-11-18
模型
常見預訓練語言模型簡述
2022-04-11
模型
吳恩達團隊提出倒數計時迴歸模型：用AI技術預測病患死亡時間
2019-02-28
吳恩達模型AI
訓練一個目標檢測模型
2023-12-13
模型
YOLOv5模型訓練及檢測
2022-02-14
YOLO模型

模型訓練時間預測，計算量估計 Scaling Laws for Neural Language Models

相關文章