LSTM變種-GRU網路結構
簡介
GRU是LSTM的一種變體,其將忘記門和輸入門合成了一個單一的更新門。同樣還混合了細胞狀態和隱藏狀態,加諸其他一些改動。最終的模型比標準的 LSTM 模型要簡單,是非常流行的變體。
使用LSTM的原因之一是解決RNN Deep Network的Gradient錯誤累積太多,以至於Gradient歸零或者成為無窮大,所以無法繼續進行優化的問題。GRU的構造更簡單:比LSTM少一個gate,這樣就少幾個矩陣乘法。在訓練資料很大的情況下GRU能節省很多時間。
GRU模型
與LSTM不同,GRU只有兩個門了,分別為更新門和重置門,即圖中的
z_t
和r_t
。更新門用於控制前一時刻的狀態資訊被帶入到當前狀態中的程度,更新門的值越大說明前一時刻的狀態資訊帶入越多。重置門用於控制忽略前一時刻的狀態資訊的程度,重置門的值越小說明忽略得越多。 GRU訓練
從前面的公式中可以看到需要學習的引數就是
W_rW_zW_hW_o
那些權重引數,其中前三個權重都是拼接的,所以在學習時需要分割出來,即 輸出層的輸入
y^i_t=W_oh,輸出為y^o_t=σ(y^i_t)
。 設某時刻的損失函式為
Et=1/2*(y_d−y^o_t)^2
,則某樣本的損失為 與前面LSTM網路類似,最終可以推出
GRU與LSTM
參考資料:
https://blog.csdn.net/wangyangzhizhou/article/details/77332582
https://blog.csdn.net/lreaderl/article/details/78022724
相關文章
- 十 | 門控迴圈神經網路LSTM與GRU(附python演練)神經網路Python
- 深度學習四從迴圈神經網路入手學習LSTM及GRU深度學習神經網路
- NLP教程(5) - 語言模型、RNN、GRU與LSTM模型RNN
- LSTM神經網路神經網路
- IMPLEMENTING A GRU/LSTM RNN WITH PYTHON AND THEANO - 學習筆記RNNPython筆記
- LSTM 長短期記憶網路
- LSTM - 長短期記憶網路
- RNN與LSTM網路簡述RNN
- 簡單理解LSTM神經網路神經網路
- 機器學習:深入理解LSTM網路 (二)機器學習
- 1.2網際網路的網路結構
- 網路拓撲結構
- 深度學習中的序列模型演變及學習筆記(含RNN/LSTM/GRU/Seq2Seq/Attention機制)深度學習模型筆記RNN
- 三次簡化一張圖: 一招理解LSTM/GRU門控機制
- 網路流量預測入門(三)之LSTM預測網路流量
- 網路管理體系結構
- 淺談網路架構及其演變架構
- 網路晶片架構的新改變晶片架構
- 深度殘差收縮網路:(三)網路結構
- YJango的迴圈神經網路——實現LSTMGo神經網路
- 視覺化LSTM網路:探索「記憶」的形成視覺化
- Android技能樹 — 網路小結(1)之網路體系結構Android
- Keras輸出網路結構圖Keras
- YJango的迴圈神經網路——scan實現LSTMGo神經網路
- 『網際網路架構』軟體架構-mybatis體系結構(14)架構MyBatis
- Mirai 殭屍網路出現了新的變種AI
- 408-計算機網路-網路體系結構計算機網路
- 計算機網路的七層結構、五層結構和四層結構計算機網路
- 結網:改變世界的網際網路產品經理
- 計算機網路概念和結構計算機網路
- Pytorch網路結構視覺化PyTorch視覺化
- 詳細展示RNN的網路結構RNN
- OSI七層網路結構詳解
- 計算機網路體系結構計算機網路
- N多變種 網路賭博靠著這些套路成為網際網路毒瘤
- 深度學習課程--assign3--LSTM結構的理解深度學習
- 一文讀懂LSTM和迴圈神經網路神經網路
- Gafgyt變種——Jaws殭屍網路的分析報告