LSTM理解

早起的小蟲子發表於2020-08-03

原文網址 : https://www.cnblogs.com/liuxiaochong/p/13423872.html

簡介

　　LSTM(Long short-term memory,長短期記憶)是一種特殊的RNN，主要是為了解決長序列訓練過程中的梯度消失問題。以下先從RNN介紹。

簡說RNN

　　RNN(Recurrent Neural Network,迴圈神經網路)是一種處理序列資料的神經網路。下圖是它的結構：

LSTM理解

RNN優點：它能處理序列資料，並且有記憶能力，能夠利用上文資訊。

RNN缺點：

梯度消失：對於獲取長距離依賴的效果不是很好(即如果上文資訊離當前輸入距離太遠的話，理論上它是能夠記得上文資訊，但是事實上並不是這樣，所以它並不能很好地處理長距離依賴問題)
梯度爆炸
RNN較難訓練

注：長距離依賴處理效果不佳的原因是使用tanh或者relu作為啟用函式。（如果是sigmoid函式則不會）

LSTM結構

　　LSTM也是一種RNN，因此它也是一種迴圈結構，不同的是RNN神經元內部只用tan層進行計算，而LSTM是有4個全連線層進行計算的，LSTM的內部結構如下圖所示。

LSTM理解

　　上圖中符號的含義如下圖所示，黃色方框類似於CNN中的啟用函式操作，粉色圓圈表示點操作，單箭頭表示資料流向，下圖中第四個符號表示兩個向量的連線操作，第五個符號表示向量的拷貝操作，且上圖中的σ表示sigmoid層(該層的輸出時0-1的值，0表示不能通過，1表示能通過)。

LSTM理解

　　現在來描述LSTM的內部操作，具體內容如下圖所示：

LSTM理解

　　LSTM的核心是細胞狀態——最上層的橫穿整個細胞的水平線，它通過門來控制資訊的增加或者刪除。

　　那麼什麼是門呢？門是一種用來選擇資訊通過與否的方式，它由一個sigmoid層和點乘操作組成。LSTM共有三個門，分別是遺忘門，輸入門和輸出門，具體內容如下所述：

　　(1)遺忘門：遺忘門決定丟棄哪些資訊，輸入是上一個神經元細胞的計算結果h_t-1以及當前的輸入向量x_t,二者聯接並通過遺忘門後(sigmoid會決定哪些資訊留下，哪些資訊丟棄)，會生成一個0-1向量Γ^f_t(維度與上一個神經元細胞的輸出向量C_t-1相同)，Γ^f_t與C_t-1進行點乘操作後，就會獲取上一個神經元細胞經過計算後保留的資訊。遺忘門控制前一步記憶單元中的資訊有多大程度被遺忘掉。

　　(2)輸入門：表示要儲存的資訊或者待更新的資訊，如上圖所示是h_t-1與x_t的連線向量，經過sigmoid層後得到的結果Γⁱ_t，這就是輸入門的輸出結果了。但是接下來我們要計算該神經元細胞的輸出結果，即新細胞的更新狀態：C_t，C_t= C_t-1· Γ^f_t + Γⁱ_t· ^~c_t(其中^~c_t= tanh(h_t-1_，x_t))，文字描述是：輸入門的計算結果點乘 h_t-1與x_t的連線向量經過tanh層計算的結果後，再與上一個神經元細胞經過計算後保留的資訊進行相加，則是最終要輸出的C_t_。輸入門控制當前計算的新狀態以多大程度更新到記憶單元中。

　　(3)輸出門：輸出門決定當前神經原細胞輸出的隱向量h_t，h_t與C_t不同，h_t要稍微複雜一點，它是C_t進過tanh計算後與輸出門的計算結果進行點乘操作後的結果，用公式描述是：h_t= tanh(c_t) · Γ^o_t。輸出門控制當前的輸出有多大程度上取決於當前的記憶單元。

　　在一個訓練好的網路中，當輸入的序列中沒有重要資訊時，LSTM的遺忘門的值接近於1，輸入門的值接近於0，此時過去的記憶會被儲存，從而實現了長期記憶的功能；當輸入的序列中出現了重要的資訊時，LSTM應當把其存入記憶中，此時其輸入門的值會接近於1；當輸入的序列中出現了重要資訊，且該資訊意味著之前的記憶不再重要時，輸入門的值接近於1，而遺忘門的值接近於0，這樣舊的記憶被遺忘，新的重要資訊被記憶。經過這樣的設計，整個網路更容易學習到序列之間的長期依賴。

LSTM具體實現步驟

　　1、首先，輸入上一個神經元細胞輸出的隱藏層向量和當前神經元細胞的輸入，並將其連線起來。

　　2、將步驟1中的結果傳入遺忘門中，該層將刪除不相關的資訊。

　　3、一個備選層將用步驟1中的結果建立，這一層將儲存可能的會加入細胞狀態的值或者說資訊。

　　4、將步驟1中的結果傳入輸入門中，這一層決定步驟4的備選層中哪些資訊應該加入到細胞狀態中去。

　　5、步驟2、3、4計算結束後，用這三個步驟計算後的向量和上一個神經元細胞傳出的細胞狀態向量來更新當前細胞的細胞狀態。

　　6、結果就被計算完了。

　　7、將結果和新的細胞狀態進行點乘則是當前細胞狀態的隱向量。

LSTM如何避免梯度消失與梯度爆炸

　　RNN中的梯度消失/爆炸與CNN中的含義不同，CNN中不同的層有不同的引數，每個引數都有自己的梯度；而RNN中同樣的權重在各個時間步中共享，所以最終的梯度等於各個時間步的梯度和。因此，RNN中的梯度不會消失，它只會遺忘遠距離的依賴關係，而被近距離的梯度所主導。但是LSTM中的梯度傳播有很多條路徑，最主要的一條是當前細胞的狀態更新這一過程，該過程中只有逐元素的相乘和相加操作，梯度流最穩定，因此基本不會發生梯度消失或者梯度爆炸；但是其他的傳播路徑依然有梯度消失或者爆炸風險，而最終的梯度計算是各個梯度路徑的和，因此LSTM仍然有梯度消失或者爆炸的風險，只是這個風險被大幅降低了。

總結

　LSTM優點：LSTM降低了梯度消失或者梯度爆炸的風險，並且比RNN具有更強的長距離依賴能力。

　LSTM缺點：

LSTM處理長距離依賴的能力依然不夠，因此Transformer橫空出世，它具有比LSTM更強的長距離依賴處理能力。
它的計算很費時。每個細胞中都有4個全連線層(MLP)，因此如果LSTM的時間跨度很大的話，計算量會很大也很費時。

參考：https://www.cnblogs.com/mj-selina/p/12463265.html

LSTM:好理解的資源
2020-12-28
機器閱讀理解Match-LSTM模型
2021-09-09
模型
LSTM & Bi-LSTM & GRU
2020-12-18
深度學習課程--assign3--LSTM結構的理解
2020-12-02
深度學習
RNN、LSTM
2024-07-25
RNN
Understanding LSTM Networks
2018-09-26
lstm(一) 演化之路
2019-01-08
雙向lstm原理
2024-07-19
深度學習-LSTM
2023-02-23
深度學習
三次簡化一張圖: 一招理解LSTM/GRU門控機制
2019-02-26
開發Bidirectional LSTM模型的簡單教程 | 博士帶你學LSTM
2019-02-27
模型
LSTM神經網路
2019-03-02
神經網路
原作者帶隊，LSTM捲土重來之Vision-LSTM出世
2024-06-09
pytorch lstm原始碼解讀
2021-01-02
PyTorch原始碼
最後一期：如何更新LSTM模型？（附程式碼）| 博士帶你學LSTM
2019-04-01
模型
使用Keras進行深度學習：（六）LSTM和雙向LSTM講解及實踐
2018-05-04
Keras深度學習
RNN與LSTM網路簡述
2018-06-10
RNN
LSTM 長短期記憶網路
2020-03-14
LSTM解決RNN梯度爆炸（消失）
2024-09-28
RNN梯度
LSTM - 長短期記憶網路
2021-02-08
利用LSTM做語言情感分類
2018-09-08
LSTM變種-GRU網路結構
2018-06-12
【Python】keras使用LSTM擬合曲線
2018-09-21
PythonKeras
利用LSTM自動生成中文文字
2020-11-19
使用 LSTM 智慧作詩送新年祝福
2019-04-30
深度學習（三）之LSTM寫詩
2022-04-04
深度學習
LSTM機器學習生成音樂
2021-02-04
機器學習
201204-通過一個A4紙張掃描的例子通俗理解PyTorch中LSTM的引數定義
2020-12-05
PyTorch
基於LSTM模型的智慧選股策略
2019-10-21
模型
時間序列神器之爭：prophet VS lstm
2020-06-11
NLP教程(5) - 語言模型、RNN、GRU與LSTM
2022-05-07
模型RNN
使用LSTM模型做股票預測【基於Tensorflow】
2020-11-26
模型
YJango的迴圈神經網路——實現LSTM
2018-08-13
Go神經網路
Tensorflow實現RNN（LSTM）手寫數字識別
2018-05-27
RNN
原作者帶隊，LSTM真殺回來了！
2024-05-09
LSTM捲土重來！xLSTM：一舉超越Mamba、Transformer！
2024-05-14
ORM
NLP入門（十）使用LSTM進行文字情感分析
2019-05-18
視覺化LSTM網路：探索「記憶」的形成
2018-03-31
視覺化

LSTM理解

簡介

簡說RNN

相關文章