雙向lstm原理

澳大利亚树袋熊發表於2024-07-19

參考:https://blog.csdn.net/qq_17677907/article/details/86485461

https://zhuanlan.zhihu.com/p/626611179

https://zhuanlan.zhihu.com/p/690262925

https://blog.csdn.net/weixin_43589681/article/details/103699352

一、RNN原理

RNN是一種專門處理序列資料的神經網路結構,它的特點是具有迴圈連線,能夠在網路中傳遞資訊,從而捕捉序列中的時序依賴關係。

上述兩公式,直接闡述了RNN的工作原理。W為連線層,h為狀態,x為輸入,b為偏置,y為輸出。

二、lstm原理

RNN存在梯度消失、不能保持長期記憶的問題,由此提出了lstm。主要是提出了門限的概念,減緩梯度消失、長短期記憶的問題。

tanh主要作用是調節、壓縮數值為狀態,使其數值為(-1,1)。sigmoid則發揮門限作用,保留重要資訊。細胞狀態則保證資訊能夠傳遞長距離資訊。

三、雙向lstm

一言以蔽之,就是如上圖所示那樣。主要是讓其發揮上下文聯絡的作用。transfomer可能受此啟發,設計了transformer的decoder部分,而參照單向lstm設計了transformer的encoder部分。

相關文章