迴圈神經網路

Galois發表於2020-03-14

原文網址 : https://learnku.com/articles/41829?order_by=vote_count&

RNN是什麼

迴圈神經網路即recurrent neural network，它的提出主要是為了處理序列資料，序列資料是什麼？就是前面的輸入和後面的輸入是有關聯的，比如一句話，前後的詞都是有關係的，“我肚子餓了，準備去xx”，根據前面的輸入判斷“xx”很大可能就是“吃飯”。這個就是序列資料。

迴圈神經網路有很多變種，比如LSTM、GRU等，這裡搞清楚基礎的迴圈神經網路的思想，對於理解其他變種就比較容易了。

與傳統神經網路區別

下圖是我們經典的全連線網路，從輸入層到兩個隱含層再到輸出層，四層之間都是全連線的，而且層內之間的節點不相連。這種網路模型對於序列資料的預測就基本無能為力，比如某句話的下一個單詞是什麼就很難處理。

迴圈神經網路則擅長處理序列資料，它會對前面的資訊進行記憶並且參與當前輸出的計算，理論上迴圈神經網路能處理任意長度的序列資料。

RNN模型

RNN模型最抽象的畫法就是下面這種了，但它不太好理解，因為它將時間維度擠壓了。其中x是輸入，U是輸出層到隱含層的權重，s是隱含層值，W則是上個時刻隱含層作為這個時刻輸入的權重，V是隱含層到輸出層的權重，o是輸出。

為方便理解，將上圖展開，現在可以清楚看到輸入x、隱層值s和輸出o都有了下標t，這個t表示時刻，t-1是上一時刻，t+1則是下一時刻。不同時刻輸入對應不同的輸出，而且上一時刻的隱含層會影響當前時刻的輸出。

那麼反應到神經元是怎樣的呢？如下圖，這下就更清晰了，輸入的3個神經元連線4個隱含層神經元，然後保留隱含層狀態用於下一刻參與計算。

RNN的正向傳播

RNN的訓練

假設損失函式為

在t時刻，根據誤差逆傳播，有

首先，我們來看看對V的求導，每個時刻t的誤差至於當前時刻的誤差相關，則

其次，對W求導，對於一個訓練樣本，所有時刻的誤差加起來才是這個樣本的誤差，某時刻t對W求偏導為，

其中

一直依賴上個時刻，某個樣本的總誤差是需要所有時刻加起來，不斷對某個時刻進行求偏導，誤差一直反向傳播到t為0時刻，則

其中

根據鏈式法則是會一直乘到k
時刻，k可以是0、1、2...，那麼上式可以表示成，

最後，對U求導，

通過上面實現梯度下降訓練。

梯度消失或梯度爆炸

對於tanh和sigmoid啟用函式的RNN，我們說它不能很好的處理較長的序列，這個是為什麼呢？簡單說就是因為RNN很容易會存在梯度消失或梯度爆炸問題，發生這種情況時RNN就捕捉不了很早之前的序列的影響。

為什麼會這樣？接著往下看，tanh和sigmoid的梯度大致如下圖所示，兩端的梯度值都基本接近0了，而從上面的求導公式可以看到

其中有個連乘操作，而向量函式對向量求導結果為一個Jacobian矩陣，元素為每個點的導數，離當前時刻越遠則會乘越多啟用函式的導數，指數型，本來就接近0的梯度再經過指數就更加小，基本忽略不計了，於是便接收不到遠距離的影響，這就是RNN處理不了較長序列的原因。

而當矩陣中的值太大時，經過指數放大，則會產生梯度爆炸。

梯度爆炸會導致程式NaN，可以設定一個梯度閾值來處理。

梯度消失則可以用ReLU來替代tanh和sigmoid啟用函式，或者用LSTM或GRU結構。

RNN簡單應用例子

比如可以做字元級別的預測，如下圖，假如這裡只有四種字元，樣本為"hello"單詞，則輸入h預測下個字元為e，e接著則輸出l，l則輸出l，最後輸入l則輸出o。

========廣告時間========

鄙人的新書《Tomcat核心設計剖析》已經在京東銷售了，有需要的朋友可以到 item.jd.com/12185360.ht… 進行預定。感謝各位朋友。

為什麼寫《Tomcat核心設計剖析》

=========================

歡迎關注：

迴圈神經網路（RNN）
2020-07-14
神經網路RNN
迴圈神經網路 RNN
2020-12-21
神經網路RNN
迴圈神經網路介紹
2018-08-12
神經網路
pytorch--迴圈神經網路
2020-12-22
PyTorch神經網路
第五週：迴圈神經網路
2020-08-22
神經網路
迴圈神經網路（Recurrent Neural Network，RNN）
2018-08-22
神經網路RNN
動畫圖解迴圈神經網路
2019-09-09
動畫圖解神經網路
（一）線性迴圈神經網路（RNN）
2019-02-21
神經網路RNN
常見迴圈神經網路結構
2021-03-24
神經網路
（二）非線性迴圈神經網路（RNN）
2019-02-16
神經網路RNN
YJango的迴圈神經網路——實現LSTM
2018-08-13
Go神經網路
深度學習之RNN(迴圈神經網路)
2018-05-28
深度學習RNN神經網路
深度學習迴圈神經網路詳解
2018-05-28
深度學習神經網路
4.5 RNN迴圈神經網路（recurrent neural network）
2021-07-05
RNN神經網路
從網路架構方面簡析迴圈神經網路RNN
2019-05-17
架構神經網路RNN
YJango的迴圈神經網路——scan實現LSTM
2018-08-13
Go神經網路
NLP與深度學習（二）迴圈神經網路
2021-08-28
深度學習神經網路
迴圈神經網路LSTM RNN迴歸：sin曲線預測
2021-09-11
神經網路RNN
[譯] RNN 迴圈神經網路系列 2：文字分類
2019-03-01
RNN神經網路文字分類
一文讀懂LSTM和迴圈神經網路
2018-04-18
神經網路
RNN-迴圈神經網路和LSTM_01基礎
2018-05-27
RNN神經網路
從零開始用 Python 構建迴圈神經網路
2019-03-13
Python神經網路
【神經網路篇】--RNN遞迴神經網路初始與詳解
2018-05-13
神經網路RNN遞迴
[譯] RNN 迴圈神經網路系列 3：編碼、解碼器
2019-03-03
RNN神經網路
用於自然語言處理的迴圈神經網路RNN
2024-11-25
自然語言處理神經網路RNN
使用PyTorch從零開始構建Elman迴圈神經網路
2018-03-29
PyTorch神經網路
迴圈神經網路之embedding，padding，模型構建與訓練
2021-03-02
神經網路padding模型
關於 RNN 迴圈神經網路的反向傳播求導
2021-01-11
RNN神經網路反向傳播求導
十 | 門控迴圈神經網路LSTM與GRU（附python演練）
2018-11-23
神經網路Python
[譯] 如何在 keras 中使用迴圈神經網路創作音樂
2019-03-28
Keras神經網路
從前饋到反饋：解析迴圈神經網路（RNN）及其tricks
2018-07-26
神經網路RNN
【機器學習】李宏毅——Recurrent Neural Network(迴圈神經網路)
2022-12-17
機器學習神經網路
torch神經網路--線性迴歸
2024-10-05
神經網路
TensorFlow系列專題（七）：一文綜述RNN迴圈神經網路
2018-11-22
RNN神經網路
吳恩達《序列模型》課程筆記（1）– 迴圈神經網路（RNN）
2018-08-02
吳恩達模型筆記神經網路RNN
深度學習四從迴圈神經網路入手學習LSTM及GRU
2020-10-24
深度學習神經網路
雙向迴圈神經網路+條件隨機場進行分詞
2019-02-21
神經網路條件隨機場分詞
遞迴神經網路教程請簽收！
2018-11-20
遞迴神經網路