簡單的特徵值梯度剪枝，CPU和ARM上帶來4-5倍的訓練加速 | ECCV 2020

曉飛的演算法工程筆記發表於2020-09-08

原文網址 : https://www.cnblogs.com/VincentLee/p/13631543.html

論文通過DBTD方法計算過濾閾值，再結合隨機剪枝演算法對特徵值梯度進行裁剪，稀疏化特徵值梯度，能夠降低迴傳階段的計算量，在CPU和ARM上的訓練分別有3.99倍和5.92倍的加速效果

來源：曉飛的演算法工程筆記公眾號

論文: Accelerating CNN Training by Pruning
Activation Gradients

論文地址：https://arxiv.org/abs/1908.00173

Introduction

在訓練過程中，特徵值梯度的回傳和權值梯度的計算佔了大部分的計算消耗。由於這兩個操作都是以特徵值梯度作為輸入，而且零梯度不會佔用計算資源，所以稀疏化特徵值梯度可以降低迴傳階段的計算消耗以及記憶體消耗。論文的目標在於高效地降低訓練負載，從而在資源有限的平臺進行大規模資料集的訓練。
論文假設特徵值梯度服從正態分佈，基於此計算閾值$\tau$，隨後使用隨機剪枝演算法(stochastic pruning)將小於閾值的特徵值梯度隨機置為零或$\pm \tau$。經理論推理和實驗證明，這種方法不僅能夠有效地稀疏化特徵值梯度，還能在加速訓練的同時，不影響訓練的收斂性。

General Dataflow

卷積層通常包含4個階段：推理、特徵值梯度回傳、權值梯度計算和權值更新。為了表示這些階段的計算，論文定義了一些符號：

卷積層的四個訓練階段的總結為：

論文通過視覺化發現，回傳階段的特徵值梯度幾乎全是非常小的、接近於零的值，自然而然地想到將這些值去掉不會對權值更新階段造成很大的影響，所以論文認為剪枝特徵值梯度能夠加速卷積層在訓練時的計算。

Sparsification Algorithms

Distribution Based Threshold Determination (DBTD)

剪枝操作最關鍵的步驟是決定選擇哪些元素進行消除，先前有研究使用最小堆進行元素選擇，但這會帶來較大的額外計算開銷。為此，論文采用簡單的閾值過濾進行元素選擇。

論文首先分析了兩種經典的卷積網路結構的特徵值梯度分佈：Conv-ReLU結構和Conv-BN-ReLU結構：

對於Conv-ReLU結構，輸出的特徵值梯度$dO$是稀疏的，但其分佈是無規律的，而結構的輸入特徵值梯度$dI$幾乎全是非零值。通過統計發現，$dI(\cdot)$的分佈以零值對稱分佈，且密度隨著梯度值的增加而下降。
對於Conv-BN-ReLU結構，BN層設定在卷積層與ReLU層中間，改變了梯度的分佈，且$dO$的分佈與$dI$類似，。

所以，上述的兩種結構的梯度都可認為服從零均值、方差為$\sigma^2$的正態分佈。對於Conv-ReLu結構，由於ReLU不會降低稀疏性，$dO$能夠繼承$dI$的稀疏性，將$dI$是作為Conv-ReLU結構中的剪枝目標梯度$g$。而對於Conv-BN-ReLU結構，則將$dO$作為剪枝目標$g$。這樣，兩種結構的剪枝目標都可統一為正態分佈。假設$g$的數量為$n$，可以計算梯度的絕對值的均值，並得到該均值的期望為：

這裡的期望為從分佈中取樣$n$個點的期望，而非分佈的整體期望，再定義以下公式

將公式2代入公式1中，可以得到：

從公式3可以看出$\tilde{\sigma}$為引數$\sigma$的無偏估計，接近於真實的均值，且$\tilde{\sigma}$的整體計算消耗是可以接受的。基於上面的分析，論文結合正態分佈的累積函式$\Phi$、剪枝率$p$和$\tilde{\sigma}$計算閾值$\tau$：

Stochastic Pruning

剪枝少量值較小的梯度幾乎對權值的更新沒有影響，但如果將這些值較小的梯度全部設為零，則會對特徵值梯度的分佈影響很大，進而影響梯度更新，造成嚴重的精度損失。參考Stochastic Rounding演算法，論文采用隨機剪枝來解決這個問題。

隨機剪枝邏輯如演算法1所示，對於小於閾值$\tau$的梯度值，隨機取樣一個縮放權重來計算新閾值，再根據新閾值將梯度值置為零或$\pm \tau$。

隨機剪枝的效果如圖2所示，能夠在保持梯度分佈的數學期望的情況下進行剪枝，與當前的方法相比，論文提出的方法的優點如下：

Lower runtime cost：DBTD的計算複雜度$O(n)$小於top-k演算法$O(nlogk)$，且DBTD對硬體更友好，能夠在異構平臺實現。
Lower memory footprint：隨機裁剪能保持收斂性，且不需要儲存而外的記憶體。

至此，Sparsification Algorithms在梯度回傳時的特徵值梯度計算為：

Experimental Results

在CIFAR-10、CIFAR-100以及ImageNet上進行準確率驗證。

在CIFAR-10和ImageNet上進行收斂性驗證。

在不同的裝置上進行加速效果驗證。

Conclustion

論文通過DBTD方法計算過濾閾值，再結合隨機剪枝演算法對特徵值梯度進行裁剪，稀疏化特徵值梯度，能夠降低迴傳階段的計算量，在CPU和ARM上的訓練分別有3.99倍和5.92倍的加速效果。論文提出的特徵值稀疏化演算法看似很簡單，其實進行了充分的理論推導以及實驗驗證，才得到最終合理的過濾方法，唯一可惜的是沒在GPU裝置上進行實驗驗證。論文對演算法的收斂性以及期望有詳細的理論驗證，不過這裡沒有列出來，有興趣的可以去看看原文。

如果本文對你有幫助，麻煩點個贊或在看唄～
更多內容請關注微信公眾號【曉飛的演算法工程筆記】

work-life balance.

Gradient Centralization: 簡單的梯度中心化，一行程式碼加速訓練並提升泛化能力 | ECCV 2020 Oral
2020-08-03
梯度中心化行程
支援Transformer全流程訓練加速，加速3倍！位元組跳動LightSeq上新
2021-06-25
ORM
矩陣的特徵值和特徵向量
2024-05-07
矩陣特徵
【陣列】1608. 特殊陣列的特徵值（簡單）
2020-10-20
陣列特徵
SAPD：FSAF升級版，合理的損失值加權以及金字塔特徵選擇 | ECCV 2020
2022-03-09
特徵
用CPU來加速你的Linux命令
2023-05-07
Linux
composer：2-4倍加速神經網路訓練的演算法庫
2022-03-20
神經網路演算法
NeurIPS 2020 | 百裡挑一：如何加速超網訓練的收斂和搜尋速度
2020-11-26
特徵值和特徵向量
2024-04-25
特徵
DeepSparse: 透過剪枝和稀疏預訓練，在不損失精度的情況下減少70%的模型大小，提升三倍速度
2024-05-19
模型
【ICDE 2022】稀疏模型訓練框架HybridBackend，單位成本下訓練吞吐提升至5倍
2022-05-09
模型框架
梯度會洩漏訓練資料？MIT新方法從梯度竊取訓練資料只需幾步
2019-12-12
梯度MIT
特徵值和特徵向量，thrive
2024-11-04
特徵
ptorch常用程式碼梯度篇（梯度裁剪、梯度累積、凍結預訓練層等）
2022-05-07
梯度
pytorch訓練簡單的CNN(visdom進行視覺化)
2020-11-02
PyTorchCNN視覺化
CSG：清華大學提出通過分化類特定卷積核來訓練可解釋的卷積網路 | ECCV 2020 Oral
2020-10-09
卷積
用 Java 訓練深度學習模型，原來可以這麼簡單！
2020-11-02
Java深度學習模型
簡單說明一下資料庫審計能帶來的價值
2022-03-03
資料庫
特徵工程：基於梯度提升的模型的特徵編碼效果測試
2022-11-23
特徵工程梯度模型
輕量化模型訓練加速的思考（Pytorch實現）
2020-09-01
模型PyTorch
簡單的ARM+Linux音訊方案
2022-07-25
Linux音訊
Jigsaw pre-training：擺脫ImageNet，拼圖式主幹網路預訓練方法 | ECCV 2020
2020-09-01
AI
Windows on Arm 下的 Inline Hook 簡單實現
2024-06-28
WindowsinlineHook
關於特徵值和特徵向量的幾何直覺意義
2020-10-24
特徵
基於 Fluid+JindoCache 加速大模型訓練的實踐
2024-02-28
UI大模型
halcon——缺陷檢測常用方法總結(特徵訓練）
2021-06-16
特徵
tensorflow：一個簡單的python訓練儲存模型，java還原模型方法
2018-04-24
Python模型Java
【Meetup預告】OpenMLDB＋OneFlow：連結特徵工程到模型訓練，加速機器學習模型開發
2022-11-23
特徵工程模型機器學習
在英特爾 CPU 上加速 Stable Diffusion 推理
2023-04-13
KubeDL HostNetwork：加速分散式訓練通訊效率
2022-02-14
分散式
人工智慧大模型的訓練階段和使用方式來分類
2024-04-15
人工智慧大模型
特徵值與特徵向量
2020-04-04
特徵
插值查詢的簡單理解
2022-07-05
git的簡單上傳
2024-04-26
Git
【技術乾貨】原來ARM+Linux音訊方案如此簡單！
2022-07-13
Linux音訊
SSM的查詢簡單練習+JSP
2020-12-08
SSMJS
2020年的UWP(3)——UWP和desktop extension的簡單互動
2020-11-10
簡單說說vue的父子元件，父子元件傳值和vuex
2018-07-05
Vue元件