梯度消失和梯度爆炸及解決方案

JYRoy發表於2020-10-21

原文網址 : https://www.cnblogs.com/jyroy/p/13852848.html

梯度

梯度在神經網路中的作用

在談梯度消失和梯度爆炸的問題之前，我們先來考慮一下為什麼我們要利用梯度，同時鋪墊一些公式，以便於後面的理解。

存在梯度消失和梯度爆炸問題的根本原因就是我們在深度神網路中利用反向傳播的思想來進行權重的更新。即根據損失函式計算出的誤差，然後通過梯度反向傳播來減小誤差、更新權重。

我們假設，存在一個如圖所示的簡單神經網路，我們可以得到相關的公式如右側所示：

其中函式 g 是啟用函式，c 是偏置值，t 是目標值，E 是損失函式，這裡利用的是平方誤差損失函式。我們可以很清晰的看出，其實整個神經網路就是一個複合函式：

\[z = g((c+v_1(g(b_1+w_{11}x_1+w_{12}x_2))+v_2{g(b_2+w_{21}x_1+w_{22}x_2)})) \]

帶入到損失函式中，公式如下：

\[E = \frac{1}{2}\sum(g((c+v_1(g(b_1+w_{11}x_1+w_{12}x_2))+v_2{g(b_2+w_{21}x_1+w_{22}x_2)})) - t)^2 \]

為了便於討論，我們對上面的神經網路進行簡化，簡化為每一層只有一個節點的網路，這樣我們的公式也可以相應的簡化：

\[z = g((c+v_1(g(b_1+w_{11}x_1)))) \]

\[E = \frac{1}{2}\sum(g((c+v_1(g(b_1+w_{11}x_1)))) - t)^2 \]

這樣我們的目的就變得更加明確，整個函式中需要調整的就是 \(c\) 和 \(b_1\) 這兩個偏置值以及 \(v_1\) 和 \(w_{11}\) 這兩個權重。

我們假設權重空間如圖所示，其中 cost function 就是上面的 E， State Space 就是上面的 \(c\) 和 \(b_1\) 這兩個偏置值以及 \(v_1\) 和 \(w_{11}\) 這兩個權重：

因為我們知道我們的目的是找到最小的 E，所以需要通過調整 \(c\) 和 \(b_1\) 這兩個偏置值以及 \(v_1\) 和 \(w_{11}\) 這兩個權重的值，來找到圖中的 Global Minimum，即 E 最小的點。這一類尋找最小值的問題，在數學上利用梯度下降演算法可以有效的解決。

梯度消失的原因

我們利用上面提到的公式來說明梯度消失產生的原因，求代價函式對 \(w_{11}\) 的偏導數：

\[\frac{\delta{E}}{\delta{w_{11}}} = (z-t)*g'(s)*v_1*g'(u_1)*x_1 \]

假設，當我們的啟用函式使用 Sigmoid 函式的時候，如果 Sigmoid 公式為：

\[S(x) = \frac{1}{1+e^{-x}}, S'(x) = S(x)(1-S(x)) \]

帶入替換 g() 後，公式變為：

\[\frac{\delta{E}}{\delta{w_{11}}} = (z-t)*S(s)*(1-S(s))*v_1*S(u)*(1-S(u))*x_1 \]

根據上述公式，我們可以得出，Sigmoid函式的導數影像如下所示：

而我們神經網路中的初始權值也一般是小於 1 的數，所以相當於公式中是多個小於 1 的數在不斷的相乘，導致乘積和還很小。這只是有兩層的時候，如果層數不斷增多，乘積和會越來越趨近於 0，以至於當層數過多的時候，最底層的梯度會趨近於 0，無法進行更新，並且 Sigmoid 函式也會因為初始權值過小而趨近於 0，導致斜率趨近於 0，也導致了無法更新。

除了這個情況以外，還有一個情況會產生梯度消失的問題，即當我們的權重設定的過大時候，較高的層的啟用函式會產生飽和現象，如果利用 Sigmoid 函式可能會無限趨近於 1，這個時候斜率接近 0，最終計算的梯度一樣也會接近 0，最終導致無法更新。

可以參考如下圖片，底層要比高層的學習速度低特別多。

梯度爆炸的原因

當我們取得的權重值為一箇中間值的時候，如果這個中間值使 \(S'(s)w > 1\) ，那麼會導致網路的底層會比高層的梯度變化更快，則就會導致梯度爆炸（激增）的問題。

避免梯度消失和梯度爆炸的方案

使用新的啟用函式
- Sigmoid 函式和雙曲正切函式都會導致梯度消失的問題。ReLU 函式當 x < 0，的時候一樣會導致無法學習。
- 利用一些改進的 ReLU 可以在一定程度上避免梯度消失的問題。例如，ELU 和 Leaky ReLU，這些都是 ReLU 的變體。
權重初始化

在初始化權重的時候，使權重滿足如下公式：

\[G_1n^{out}_iVar[w^{(i)}] = 1 \]

其中 \(G_1\) 是估計的啟用函式的平均值，\(n^{out}_i\) 是第 i 層神經網路上向外連線的平均值

批量規範化

我們要規範化一個特定層節點的啟用，利用如下公式：

\[\hat{x}_k^{(i)} = \frac{x_k^{(i)} - Mean[x_k^{(i)}]}{\sqrt{Var[x_k^{(i)}]}} \]
然後我們利用自己的自定義平均值和方差來移動和調整它，並且用反向傳播進行訓練

\[y_k^{(i)} = \beta_k^{(i)} + \gamma_k^{(i)}\times \hat{x}_k^{(i)} \]
長短記憶網路（LSTM）
逐層無監督預訓練（layer-wise unsupervised pre-training）
殘差網路（Residual Network）
- 在傳統網路的基礎，在兩個連續的堆疊層上增加一個到輸出的直接連線，也叫跳過連線，使這些層分流。
- \(F(x)\) 被稱為一個 residual component，主要是糾正以前層的錯誤或者提供前一層計算不出的額外的細節
- 如果超過了 100 層需要在新增殘差之前就使用 ReLU 而不是之後。這個過程被叫做 identity skip connection。
梯度截斷

RNN神經網路產生梯度消失和梯度爆炸的原因及解決方案
2020-08-02
RNN神經網路梯度
LSTM解決RNN梯度爆炸（消失）
2024-09-28
RNN梯度
RNN梯度消失與梯度爆炸的原因
2019-01-17
RNN梯度
一文讀懂：梯度消失（爆炸）及其解決方法
2020-06-21
梯度
徹底解決梯度爆炸問題，新方法不用反向傳播也能訓練ResNet
2019-08-17
梯度反向傳播
梯度下降法原理及小結
2020-12-23
梯度
梯度下降
2018-11-21
梯度
ptorch常用程式碼梯度篇（梯度裁剪、梯度累積、凍結預訓練層等）
2022-05-07
梯度
003.01 梯度下降
2019-09-17
梯度
【小白學AI】GBDT梯度提升詳解
2020-08-30
AI梯度
梯度下降與excel
2019-01-04
梯度Excel
實現梯度下降
2018-07-21
梯度
團隊梯度管理
2024-06-16
梯度
R：梯度提升器
2024-10-14
梯度
梯度累計講解-支援更大的batch
2024-08-07
梯度BAT
梯度下降演算法
2018-07-05
梯度演算法
導數與微分、梯度
2020-10-26
梯度
pytorch（1）梯度計算
2024-07-01
PyTorch梯度
1. 梯度下降法
2022-06-18
梯度
【深度學習篇】--神經網路中解決梯度彌散問題
2018-03-28
深度學習神經網路梯度
什麼是梯度下降法？
2018-07-11
梯度
amCharts粒狀梯度柱形圖
2024-04-26
梯度
【機器學習】梯度下降
2020-08-11
機器學習梯度
梯度下降求解最小二乘
2018-06-22
梯度
opencv 梯度運算、禮貌操作
2020-06-07
OpenCV梯度
機器學習之梯度下降
2020-02-08
機器學習梯度
梯度消失問題自我記錄
2020-11-10
梯度
【機器學習】梯度下降 II
2020-09-20
機器學習梯度
有監督學習——梯度下降
2023-03-11
梯度
梯度下降演算法 Gradient Descent
2023-01-14
梯度演算法
ThunderGBM：快成一道閃電的梯度提升決策樹
2019-03-08
梯度
大白話5分鐘帶你走進人工智慧-第十一節梯度下降之手動實現梯度下降和隨機梯度下降的程式碼（6）
2019-04-15
人工智慧梯度隨機
梯度下降優化演算法概述
2018-08-31
梯度優化演算法
一文讀懂：GBDT梯度提升
2020-06-22
梯度
如何使用 CatBoost 進行快速梯度提升
2020-10-21
梯度
機器學習之梯度下降法
2020-06-12
機器學習梯度
numpy梯度回傳線性迴歸
2024-08-17
梯度
【機器學習基礎】——梯度下降
2021-10-12
機器學習梯度

梯度消失和梯度爆炸及解決方案

梯度在神經網路中的作用

梯度消失的原因

梯度爆炸的原因

避免梯度消失和梯度爆炸的方案

相關文章