梯度累計講解-支援更大的batch

海_纳百川發表於2024-08-07

原文網址 : https://www.cnblogs.com/chentiao/p/18346997

在對比學習（Contrastive Learning）中，梯度累計（Gradient Accumulation）是一種技術，用於在記憶體有限的情況下實現大批次（Large Batch）訓練。這個操作透過將多個小批次的梯度累加起來，再進行一次權重更新，從而模擬大批次訓練的效果。

以下是梯度累計的基本操作步驟：

初始化：在訓練開始時，初始化模型引數和最佳化器。
設定累計步數：定義一個引數 accumulation_steps，表示要累積多少個小批次的梯度後進行一次權重更新。
累積梯度：
- 對每一個小批次（Mini-batch）資料，進行前向傳播，計算損失函式。
- 進行反向傳播，計算梯度，但不進行權重更新。此時，梯度會累加到當前的梯度快取中。
- 每處理一個小批次的資料，增加一個步數計數器 step。
權重更新：
- 當 step 達到 accumulation_steps，進行一次權重更新。此時，最佳化器會使用累積的梯度進行引數更新。
- 重置步數計數器 step 和梯度快取。
重複：重複上述步驟，直到完成所有的訓練資料。

以下是一個使用 PyTorch 的虛擬碼示例，展示瞭如何實現梯度累計：

import torch
import torch.nn as nn
import torch.optim as optim

# 模型和最佳化器
model = YourModel()
optimizer = optim.Adam(model.parameters(), lr=learning_rate)
criterion = nn.CrossEntropyLoss()

# 設定累計步數
accumulation_steps = 4

# 訓練迴圈
for epoch in range(num_epochs):
    optimizer.zero_grad()  # 初始化梯度
    for i, (inputs, labels) in enumerate(dataloader):
        outputs = model(inputs)
        loss = criterion(outputs, labels)
        loss.backward()  # 反向傳播，計算梯度
        
        # 累積梯度，每 accumulation_steps 更新一次權重
        if (i + 1) % accumulation_steps == 0:
            optimizer.step()  # 更新權重
            optimizer.zero_grad()  # 清空累計的梯度

# 最後的更新，確保剩餘的梯度也被更新
if (i + 1) % accumulation_steps != 0:
    optimizer.step()
    optimizer.zero_grad()

在對比學習的具體應用中，例如 SimCLR 或 MoCo，梯度累計同樣適用，特別是在記憶體受限的環境中。透過梯度累計，可以有效地提高模型訓練的穩定性和收斂速度，同時模擬大批次訓練的效果。

使用大批次訓練通常可以提高訓練的穩定性和效率，但如果批次大小過大，可能會超過顯示卡的視訊記憶體限制，導致記憶體溢位（out-of-memory, OOM）錯誤。為了在有限的視訊記憶體中實現大批次訓練，梯度累計技術應運而生。

透過梯度累計，可以將多個小批次的資料逐個處理，每次計算的梯度累加起來，最後在累積了一定次數後進行一次引數更新。這種方法相當於模擬大批次訓練，同時避免視訊記憶體不足的問題。

例如，如果你想要一個等效的批次大小為 256 的訓練，但由於視訊記憶體限制只能使用批次大小為 64 的小批次，可以設定梯度累計步數為 4（256 / 64 = 4）。這樣每處理 4 個小批次的資料才進行一次權重更新，效果上等同於使用批次大小為 256 的訓練。

ptorch常用程式碼梯度篇（梯度裁剪、梯度累積、凍結預訓練層等）
2022-05-07
梯度
陪你解讀Spring Batch（一）Spring Batch介紹
2019-02-18
SpringBAT
陪你解讀Spring Batch（二）帶你入手Spring Batch
2019-02-21
SpringBAT
梯度消失和梯度爆炸及解決方案
2020-10-21
梯度
pytorch（1）梯度計算
2024-07-01
PyTorch梯度
maven “Generating project in Batch mode“問題的解決
2020-11-21
MavenProjectBAT
[原始碼解析] 深度學習流水線並行GPipe (2) ----- 梯度累積
2021-08-26
原始碼深度學習並行梯度
RNN梯度消失與梯度爆炸的原因
2019-01-17
RNN梯度
神經網路常見引數解釋：epoch、batch、batch size、step、iteration
2024-05-30
神經網路BAT
C# 入門深度學習：萬字長文講解微積分和梯度下降
2024-11-18
C#深度學習梯度
RNN神經網路產生梯度消失和梯度爆炸的原因及解決方案
2020-08-02
RNN神經網路梯度
LSTM解決RNN梯度爆炸（消失）
2024-09-28
RNN梯度
面試官：你講下如何設計支援千萬級別的短鏈？
2024-06-19
面試
【小白學AI】GBDT梯度提升詳解
2020-08-30
AI梯度
flink batch dataset 的基本操作
2019-01-23
BAT
batch、epoch、iteration的區別
2020-10-17
BAT
詳細講解23種設計模式
2023-03-01
設計模式
Newman的使用講解
2023-12-11
解累積流圖的真正含義
2018-10-27
解毒batch normalization
2020-04-06
BATORM
Batch Scripting Tutorial
2024-07-16
BAT
通俗講解邊緣計算，抓住資訊革命的浪潮
2019-02-26
白話講解函式計算中的角色授權
2018-12-18
函式
最詳細的測試用例設計方法講解
2024-09-11
梯度下降
2018-11-21
梯度
設計模式 - 原則及例項講解
2020-02-19
設計模式
設計模式例項講解 - 里氏替換
2020-01-04
設計模式
設計模式例項講解 - 介面隔離
2020-01-04
設計模式
設計模式例項講解 - 依賴倒置
2020-01-04
設計模式
變長子網劃分講解（計網）
2020-11-22
簡單講解觀察者設計模式
2023-01-29
設計模式
迎接人生更大的挑戰
2018-10-14
解讀真實的私域流量，幫企業把生意做更大！
2020-12-23
Gson的原始碼講解
2019-03-07
原始碼
Nebula Graph 特性講解——RocksDB 統計資訊的收集和展示
2020-08-13
李巨集毅機器學習課程筆記-3.梯度下降精講
2020-12-27
機器學習筆記梯度
Spring Batch 簡介
2024-07-09
SpringBAT
Learning with Mini-Batch
2023-03-22
BAT

梯度累計講解-支援更大的batch

相關文章