LSTM變種-GRU網路結構

一夜了發表於2018-06-12

簡介

GRU是LSTM的一種變體,其將忘記門和輸入門合成了一個單一的更新門。同樣還混合了細胞狀態和隱藏狀態,加諸其他一些改動。最終的模型比標準的 LSTM 模型要簡單,是非常流行的變體。
使用LSTM的原因之一是解決RNN Deep Network的Gradient錯誤累積太多,以至於Gradient歸零或者成為無窮大,所以無法繼續進行優化的問題。GRU的構造更簡單:比LSTM少一個gate,這樣就少幾個矩陣乘法。在訓練資料很大的情況下GRU能節省很多時間。

GRU模型

與LSTM不同,GRU只有兩個門了,分別為更新門和重置門,即圖中的zt

z_t
rt
r_t
。更新門用於控制前一時刻的狀態資訊被帶入到當前狀態中的程度,更新門的值越大說明前一時刻的狀態資訊帶入越多。重置門用於控制忽略前一時刻的狀態資訊的程度,重置門的值越小說明忽略得越多。
這裡寫圖片描述
這裡寫圖片描述

GRU訓練

從前面的公式中可以看到需要學習的引數就是WrWzWhWo

W_rW_zW_hW_o
那些權重引數,其中前三個權重都是拼接的,所以在學習時需要分割出來,即
這裡寫圖片描述
輸出層的輸入yti=Wohyto=σ(yti)
y^i_t=W_oh,輸出為y^o_t=σ(y^i_t)

設某時刻的損失函式為Et=1/2(ydyto)2
Et=1/2*(y_d−y^o_t)^2
,則某樣本的損失為
這裡寫圖片描述
與前面LSTM網路類似,最終可以推出
這裡寫圖片描述

GRU與LSTM

這裡寫圖片描述
這裡寫圖片描述

參考資料:
https://blog.csdn.net/wangyangzhizhou/article/details/77332582
https://blog.csdn.net/lreaderl/article/details/78022724

相關文章