一、模型計算量
C ≈ 6N*D
其中C表示訓練語言模型所需的總計算量,N表示模型引數量,D表示用於訓練的語料總量,6表示每訓練一個token所需的浮點計算量約為6N,其中前向計算2N,反向計算4N。
注意:這裡的6是針對Transformers,如果其它模型結構,還請重新確定每個引數的平均計算量。開了啟用點檢查activation checkpoint,這個係數是8。
啟用檢查activation checkpoint透過在前向傳播過程中只儲存一部分(而不是全部)的啟用值來減少儲存空間消耗。對於沒有儲存的啟用值,如果在後向傳播過程中需要它們,就重新計算這些值。這種方法可以顯著減儲存佔用,但是會增加計算開銷,因需要重新計算一些啟用值。
舉個例子
哈哈哈,還是例子好理解。
比如我現在要訓練模型引數量為175B,用於訓練的語料總量為300B,即
N=175B=175*10^9
D=300B=300*10^9
那麼訓練模型所需的總計算量為:
C ≈ 6ND=6175B300B=6175109*300*109=3.151023=3.15*107 PFlops
二、模型訓練耗時估計
哈哈哈,都知道所需的總的計算量,那不是輕輕鬆鬆估計訓練耗時。
T=C/(MFU*S)
其中C表示訓練語言模型所需的總計算量,S表示訓練模型所用叢集的算力,MFU(Model FLOPs Utilization)訓練模型時的算力利用率。
舉個例子
比如我現在訓練模型所需總計算量為3.1510^7 PFlops,叢集算力能力為3924.44565 PFlops/s,訓練模型時的算力利用率為55.2%,即:
**C =3.1510^7 PFlops**
S=3924.4 PFlops/s=卡的數量*每張卡的算力
MFU=55.2%
則訓練該模型所需的時間為:
T=C/(MFUS)=3.1510^7/(55.2%*3924.4)=14541秒=4小時
注意:這裡的算力利用率是整個訓練過程中的算力利用率,有的地方的算力利用率是計算的時候的算力利用率,不考慮純通訊和叢集故障。如果想獲取訓練總時間,這些時間需單獨考慮。
影片教程:
模型計算量預測 訓練時間估計_嗶哩嗶哩_bilibili
參考文獻:
[2001.08361] Scaling Laws for Neural Language Models (arxiv.org)
模型訓練時間預測,計算量估計 Scaling Laws for Neural Language Models
相關文章
- 大模型量化訓練極限在哪?騰訊混元提出低位元浮點數訓練Scaling Laws大模型
- 隱私計算 FATE - 模型訓練模型
- 隱私計算FATE-模型訓練模型
- CANN訓練:模型推理時資料預處理方法及歸一化引數計算模型
- PaddlePaddle分散式訓練及CTR預估模型應用分散式模型
- 大語言模型的Scaling Law:如何隨著模型大小、訓練資料和計算資源的增加而擴充套件模型套件
- 用大模型最佳化大模型預訓練資料,節省20倍計算量,實現顯著效能提升!大模型
- 大型語言模型(Large Language Models)的介紹模型
- 低精度只適用於未充分訓練的LLM?騰訊提出LLM量化的scaling laws
- PyTorch預訓練Bert模型PyTorch模型
- 取出預訓練模型中間層的輸出(pytorch)模型PyTorch
- 預訓練模型 & Fine-tuning模型
- 【AI】Pytorch_預訓練模型AIPyTorch模型
- 時間差計算
- PHP時間計算PHP
- 【預訓練語言模型】 使用Transformers庫進行BERT預訓練模型ORM
- 計量經濟學(七)——時間序列GARCH模型模型
- Large language models as surrogate models in evolutionary algorithms: A preliminary studyGo
- 預訓練模型時代:告別finetune, 擁抱adapter模型APT
- 配送交付時間輕量級預估實踐
- 自訓練 + 預訓練 = 更好的自然語言理解模型模型
- 程式設計師如何預估自己的專案開發時間?程式設計師
- 【預訓練語言模型】使用Transformers庫進行GPT2預訓練模型ORMGPT
- Mxnet速查_CPU和GPU的mnist預測訓練_模型匯出_模型匯入再預測_匯出onnx並預測GPU模型
- Keras速查_CPU和GPU的mnist預測訓練_模型匯出_模型匯入再預測_匯出onnx並預測KerasGPU模型
- [Paper Reading] KOSMOS: Language Is Not All You Need: Aligning Perception with Language Models
- MxNet預訓練模型到Pytorch模型的轉換模型PyTorch
- TorchVision 預訓練模型進行推斷模型
- TimeDateCalculator for mac 時間計算器Mac
- Scaling Law撞牆?預訓練終結?亞馬遜雲科技為什麼還在做基礎大模型亞馬遜大模型
- 2019最佳預訓練模型:非暴力美學,1/4算力超越RoBERTa模型
- CVPR 2024 | 自動駕駛世界模型四維時空預訓練自動駕駛世界模型
- 模型訓練:資料預處理和預載入模型
- Findings | 中文預訓練語言模型回顧模型
- 常見預訓練語言模型簡述模型
- 吳恩達團隊提出倒數計時迴歸模型:用AI技術預測病患死亡時間吳恩達模型AI
- 訓練一個目標檢測模型模型
- YOLOv5模型訓練及檢測YOLO模型