RNN梯度消失與梯度爆炸的原因

贪心科技發表於2019-01-17

原文網址 : http://www.jiqizhixin.com/articles/2019-01-17-7

• 關於RNN結構

• 關於RNN前向傳播

• 關於RNN反向傳播

• 解決方法

1. 關於RNN結構

迴圈神經網路RNN（Recurrent Neural Network）是用於處理序列資料的一種神經網路，已經在自然語言處理中被廣泛應用。下圖為經典RNN結構：

RNN梯度消失與梯度爆炸的原因

RNN結構

2. 關於RNN前向傳播

RNN前向傳導公式：

RNN梯度消失與梯度爆炸的原因其中: St : t 時刻的隱含層狀態值

Ot : t 時刻的輸出值

① 是隱含層計算公式，U是輸入x的權重矩陣，W是時刻t-1的狀態值

St-1作為輸入的權重矩陣，Φ是啟用函式。

② 是輸出層計算公式，V是輸出層的權重矩陣，f是啟用函式。

損失函式（loss function）採用交叉熵 RNN梯度消失與梯度爆炸的原因（ Ot 是t時刻預測輸出，是 t 時刻正確的輸出）

那麼對於一次訓練任務中，損失函式： RNN梯度消失與梯度爆炸的原因， T 是序列總長度。

假設初始狀態St為0，t=3 有三段時間序列時，由 ① 帶入②可得到

t1、t2、t3 各個狀態和輸出

RNN梯度消失與梯度爆炸的原因

RNN梯度消失與梯度爆炸的原因

RNN梯度消失與梯度爆炸的原因

3. 關於RNN反向傳播

BPTT（back-propagation through time）演算法是針對循層的訓練演算法，它的基本原理和BP演算法一樣。其演算法本質還是梯度下降法，那麼該演算法的關鍵就是計算各個引數的梯度，對於RNN來說引數有 U、W、V。

RNN梯度消失與梯度爆炸的原因

反向傳播

RNN梯度消失與梯度爆炸的原因可以簡寫成：

RNN梯度消失與梯度爆炸的原因

RNN梯度消失與梯度爆炸的原因觀察③④⑤式，可知，對於 V 求偏導不存在依賴問題；但是對於 W、U 求偏導的時候，由於時間序列長度，存在長期依賴的情況。主要原因可由 t=1、2、3 的情況觀察得 , St會隨著時間序列向前傳播，同時St是 U、W 的函式。

前面得出的求偏導公式⑥，取其中累乘的部分出來，其中啟用函式 Φ 通常是：tanh 則

RNN梯度消失與梯度爆炸的原因

RNN梯度消失與梯度爆炸的原因

由上圖可知當啟用函式是tanh函式時，tanh函式的導數最大值為1，又不可能一直都取1這種情況,而且這種情況很少出現，那麼也就是說，大部分都是小於1的數在做累乘，若當t很大的時候， RNN梯度消失與梯度爆炸的原因趨向0，舉個例子：0.8⁵⁰=0.00001427247也已經接近0了，這是RNN中梯度消失的原因。

再看⑦部分：

RNN梯度消失與梯度爆炸的原因

tanh’，還需要網路引數 W ，如果引數 W 中的值太大，隨著序列長度同樣存在長期依賴的情況，那麼產生問題就是梯度爆炸，而不是梯度消失了，在平時運用中，RNN比較深，使得梯度爆炸或者梯度消失問題會比較明顯。

4. 解決方法

面對梯度消失問題，可以採用ReLu作為啟用函式，下圖為ReLu函式

RNN梯度消失與梯度爆炸的原因

ReLU函式在定義域大於0部分的導數恆等於1，這樣可以解決梯度消失的問題，（雖然恆等於1很容易發生梯度爆炸的情況，但可通過設定適當的閾值可解決）。

另外計算方便，計算速度快，可以加速網路訓練。但是，定義域負數部分恆等於零，這樣會造成神經元無法啟用（可通過合理設定學習率，降低發生的概率）。

ReLU有優點也有缺點，其中的缺點可以通過其他操作取避免或者減低發生的概率，是目前使用最多的啟用函式。

還可以通過更改內部結構來解決梯度消失和梯度爆炸問題，那就是LSTM了～！

知乎原文連結：

https://zhuanlan.zhihu.com/p/53405950

相關文章

LSTM解決RNN梯度爆炸（消失）
2024-09-28
RNN梯度
RNN神經網路產生梯度消失和梯度爆炸的原因及解決方案
2020-08-02
RNN神經網路梯度
梯度消失和梯度爆炸及解決方案
2020-10-21
梯度
一文讀懂：梯度消失（爆炸）及其解決方法
2020-06-21
梯度
梯度消失問題自我記錄
2020-11-10
梯度
【讀書1】【2017】MATLAB與深度學習——消失的梯度(1)
2018-11-10
Matlab深度學習梯度
梯度下降與excel
2019-01-04
梯度Excel
sigmod啟用函式和梯度消失問題
2020-09-24
函式梯度
導數與微分、梯度
2020-10-26
梯度
梯度下降
2018-11-21
梯度
ptorch常用程式碼梯度篇（梯度裁剪、梯度累積、凍結預訓練層等）
2022-05-07
梯度
003.01 梯度下降
2019-09-17
梯度
神經網路最佳化演算法：Dropout、梯度消失/爆炸、Adam最佳化演算法，一篇就夠了！
2019-08-19
神經網路演算法梯度
實現梯度下降
2018-07-21
梯度
團隊梯度管理
2024-06-16
梯度
R：梯度提升器
2024-10-14
梯度
梯度下降演算法
2018-07-05
梯度演算法
pytorch（1）梯度計算
2024-07-01
PyTorch梯度
1. 梯度下降法
2022-06-18
梯度
《神經網路的梯度推導與程式碼驗證》之CNN的前向傳播和反向梯度推導
2020-09-03
神經網路梯度CNN
《神經網路的梯度推導與程式碼驗證》之LSTM的前向傳播和反向梯度推導
2020-09-07
神經網路梯度
梯度下降法原理與模擬分析||系列（1）
2020-12-10
梯度
《神經網路的梯度推導與程式碼驗證》之FNN（DNN）的前向傳播和反向梯度推導
2020-09-02
神經網路梯度DNN
《神經網路的梯度推導與程式碼驗證》之vanilla RNN前向和反向傳播的程式碼驗證
2020-09-06
神經網路梯度RNN反向傳播
徹底解決梯度爆炸問題，新方法不用反向傳播也能訓練ResNet
2019-08-17
梯度反向傳播
梯度下降法中導數的求解
2021-09-09
梯度
什麼是梯度下降法？
2018-07-11
梯度
amCharts粒狀梯度柱形圖
2024-04-26
梯度
【機器學習】梯度下降
2020-08-11
機器學習梯度
邏輯迴歸：損失函式與梯度下降
2018-04-10
邏輯迴歸函式梯度
大白話5分鐘帶你走進人工智慧-第十一節梯度下降之手動實現梯度下降和隨機梯度下降的程式碼（6）
2019-04-15
人工智慧梯度隨機
梯度累計講解-支援更大的batch
2024-08-07
梯度BAT
梯度下降求解最小二乘
2018-06-22
梯度
opencv 梯度運算、禮貌操作
2020-06-07
OpenCV梯度
機器學習之梯度下降
2020-02-08
機器學習梯度
【機器學習】梯度下降 II
2020-09-20
機器學習梯度
有監督學習——梯度下降
2023-03-11
梯度
梯度下降演算法 Gradient Descent
2023-01-14
梯度演算法