參考:https://blog.csdn.net/qq_17677907/article/details/86485461
https://zhuanlan.zhihu.com/p/626611179
https://zhuanlan.zhihu.com/p/690262925
https://blog.csdn.net/weixin_43589681/article/details/103699352
一、RNN原理
RNN是一種專門處理序列資料的神經網路結構,它的特點是具有迴圈連線,能夠在網路中傳遞資訊,從而捕捉序列中的時序依賴關係。
上述兩公式,直接闡述了RNN的工作原理。W為連線層,h為狀態,x為輸入,b為偏置,y為輸出。
二、lstm原理
RNN存在梯度消失、不能保持長期記憶的問題,由此提出了lstm。主要是提出了門限的概念,減緩梯度消失、長短期記憶的問題。
tanh主要作用是調節、壓縮數值為狀態,使其數值為(-1,1)。sigmoid則發揮門限作用,保留重要資訊。細胞狀態則保證資訊能夠傳遞長距離資訊。
三、雙向lstm
一言以蔽之,就是如上圖所示那樣。主要是讓其發揮上下文聯絡的作用。transfomer可能受此啟發,設計了transformer的decoder部分,而參照單向lstm設計了transformer的encoder部分。