一文讀懂：梯度消失（爆炸）及其解決方法

忽逢桃林發表於2020-06-21

梯度消失問題和梯度爆炸問題，總的來說可以稱為梯度不穩定問題。

【要背住的知識】：用ReLU代替Sigmoid，用BN層，用殘差結構解決梯度消失問題。梯度爆炸問題的話，可以用正則化來限制。sigmoid的導數是【0，0.25】.

出現原因

兩者出現原因都是因為鏈式法則。當模型的層數過多的時候，計算梯度的時候就會出現非常多的乘積項。用下面這個例子來理解：

這是每層只有1個神經元的例子，每個神經元的啟用函式都是sigmoid，然後我們想要更新b1這個引數。
按照大家都公認的符號來表示：

\(w_1\*x_1 + b_1 = z_1\)這就是z的含義；
\(\sigma(z_1)=a_1\),這是a的含義。

可以得到這個偏導數：
\(\frac{\partial C}{\partial b_1} = \frac{\partial z_1}{\partial b_1}\frac{\partial a_1}{\partial z_1} \frac{\partial z_2}{\partial a_2}\frac{\partial a_2}{\partial z_2} \frac{\partial z_2}{\partial a_3}\frac{\partial a_3}{\partial z_3} \frac{\partial z_3}{\partial a_4}\frac{\partial a_4}{\partial z_4} \frac{\partial C}{\partial a_4}\)

然後化簡：
\(\frac{\partial C}{\partial b_1}=\sigma'(z_1)w_2\sigma'(z_2)w_3\sigma'(z_3)w_4\sigma'(z_4)\frac{\partial C}{\partial a_4}\)

關鍵在於這個\(\sigma'(z_1)\)，sigmoid函式的導數，是在0~0.25這個區間的，這意味著，當網路層數越深，那麼對於前面幾層的梯度，就會非常的小。下圖是sigmoid函式的導數的函式圖：

因此經常會有這樣的現象：

圖中，分別表示4層隱含層的梯度變化幅度。可以看到，最淺的那個隱含層，梯度更新的速度，是非常小的。【圖中縱軸是指數變化的】。

那麼梯度爆炸也很好理解，就是\(w_j\sigma'(z_j)>1\)，這樣就爆炸了。
【注意：如果啟用函式是sigmoid，那麼其導數最大也就0.25，而\(w_j\)一般不會大於4的，所以sigmoid函式而言，一般都是梯度消失問題】

【總結】：

梯度消失和梯度爆炸是指前面幾層的梯度，因為鏈式法則不斷乘小於（大於）1的數，導致梯度非常小（大）的現象；
sigmoid導數最大0.25，一般都是梯度消失問題。

解決方案

更換啟用函式

最常見的方案就是更改啟用函式，現在神經網路中，除了最後二分類問題的最後一層會用sigmoid之外，每一層的啟用函式一般都是用ReLU。

【ReLU】：如果啟用函式的導數是1，那麼就沒有梯度爆炸問題了。

【好處】：可以發現，relu函式的導數在正數部分，是等於1的，因此就可以避免梯度消失的問題。
【不好】：但是負數部分的導數等於0，這樣意味著，只要在鏈式法則中某一個\(z_j\)小於0，那麼這個神經元的梯度就是0，不會更新。

【leakyReLU】：在ReLU的負數部分，增加了一定的斜率：

解決了ReLU中會有死神經元的問題。

【elu】:跟LeakyReLU一樣是為了解決死神經元問題，但是增加的斜率不是固定的：

但是相比leakrelu，計算量更大。

batchnorm層

這個是非常給力的成功，在影像處理中必用的層了。BN層提出來的本質就是為了解決反向傳播中的梯度問題。

在神經網路中，有這樣的一個問題：Internal Covariate Shift。
假設第一層的輸入資料經過第一層的處理之後，得到第二層的輸入資料。這時候，第二層的輸入資料相對第一層的資料分佈，就會發生改變，所以這一個batch，第二層的引數更新是為了擬合第二層的輸入資料的那個分佈。然而到了下一個batch，因為第一層的引數也改變了，所以第二層的輸入資料的分佈相比上一個batch，又不太一樣了。然後第二層的引數更新方向也會發生改變。層數越多，這樣的問題就越明顯。

但是為了保證每一層的分佈不變的話，那麼如果把每一層輸出的資料都歸一化0均值，1方差不就好了？但是這樣就會完全學習不到輸入資料的特徵了。不管什麼資料都是服從標準正太分佈，想想也會覺得有點奇怪。所以BN就是增加了兩個自適應引數，可以通過訓練學習的那種引數。這樣吧每一層的資料都歸一化到\(\beta\)均值，\(\gamma\)標準差的正態分佈上。

【將輸入分佈變成正態分佈，是一種去除資料絕對差異，擴大相對差異的一種行為，所以BN層用在分類上效果的好的。對於Image-to-Image這種任務，資料的絕對差異也是非常重要的，所以BN層可能起不到相應的效果。】

殘差結構

殘差結構，簡單的理解，就是讓深層網路通過走捷徑，讓網路不那麼深層。這樣梯度消失的問題就緩解了。

正則化

之前提到的梯度爆炸問題，一般都是因為\(w_j\)過大造成的，那麼用L2正則化就可以解決問題。

喜歡的話請關注我們的微信公眾號~【你好世界煉丹師】。

公眾號主要講統計學，資料科學，機器學習，深度學習，以及一些參加Kaggle競賽的經驗。
公眾號內容建議作為課後的一些相關知識的補充，飯後甜點。
此外，為了不過多打擾，公眾號每週推送一次，每次4~6篇精選文章。

微信搜尋公眾號：你好世界煉丹師。期待您的關注。

梯度消失和梯度爆炸及解決方案
2020-10-21
梯度
LSTM解決RNN梯度爆炸（消失）
2024-09-28
RNN梯度
RNN梯度消失與梯度爆炸的原因
2019-01-17
RNN梯度
RNN神經網路產生梯度消失和梯度爆炸的原因及解決方案
2020-08-02
RNN神經網路梯度
一文讀懂：GBDT梯度提升
2020-06-22
梯度
一文讀懂快取穿透、快取擊穿、快取雪崩及其解決方案
2023-03-10
快取穿透
徹底解決梯度爆炸問題，新方法不用反向傳播也能訓練ResNet
2019-08-17
梯度反向傳播
weblogic程式自動消失解決方法
2020-11-09
WebC程式
一文讀懂maven
2024-11-17
Maven
一文讀懂Servlet
2021-02-22
Servlet
一文讀懂微服務架構——【詳解】
2020-08-22
微服務架構
【讀書1】【2017】MATLAB與深度學習——消失的梯度(1)
2018-11-10
Matlab深度學習梯度
一文讀懂特徵工程
2018-07-31
特徵工程
一文讀懂 NPM 版本
2024-11-22
NPM
一文讀懂 Apache Pulsar
2021-12-10
Apache
一文讀懂Ka/Ks
2021-09-09
一文讀懂 Data Mesh
2022-11-07
一文讀懂微核心
2021-05-14
一文讀懂eBPF/XDP
2021-05-03
eBPF
梯度消失問題自我記錄
2020-11-10
梯度
一文讀懂Spring整合Redis
2018-11-05
SpringRedis
一文讀懂擁塞控制
2018-11-17
一文讀懂支付系統
2019-03-11
一文讀懂前端快取
2018-12-26
前端快取
一文讀懂“負載均衡”
2024-07-01
負載
一文讀懂web組態
2024-06-07
Web
一文讀懂「雲託管」
2022-01-20
一文讀懂野指標
2022-12-05
指標
一文讀懂Lua元表
2021-09-08
一文讀懂 Kubernetes APIServer 原理
2021-01-20
APIServer
Java集合詳解2：一文讀懂Queue和LinkedList
2019-10-10
Java
一文讀懂DNS解析故障的排查思路，輕鬆解決解析常見問題
2023-12-15
DNS
一文讀懂隨機森林的解釋和實現
2018-12-19
隨機森林
一文讀懂Apache Flink技術
2018-10-29
Apache
JVM(2)--一文讀懂垃圾回收
2018-08-12
JVM
一文讀懂系列－JVM垃圾收集
2018-05-18
JVM
【Flutter】一文讀懂混入類Mixin
2023-11-14
Flutter
一文讀懂git核心工作原理
2020-01-27
Git