LSTM解決RNN梯度爆炸(消失)

erdong911發表於2024-09-28

梯度的尺度保持不變:

利用阿達瑪乘積,梯度的尺度不會因為層數的增加而減小或增大,因為每次乘積都是獨立的元素乘法,不涉及整個矩陣的縮放。總的來說,阿達瑪乘積不會像矩陣乘積那樣導致梯度消失或梯度爆炸,因為它不涉及線性變換的累積效應,而是對梯度進行逐元素的操作。這使得LSTM等網路結構在處理長序列時更加穩定

門控機制:

在LSTM中,門控機制(如遺忘門、輸入門)使用的是阿達瑪乘積,這些門的啟用值(0到1之間)可以控制資訊的流動,但不會像矩陣乘積那樣對梯度進行縮放。這意味著梯度在透過門控機制時不會消失或爆炸。

梯度裁剪:

即使在阿達瑪乘積中,梯度也可能因為極端的值而變得非常大。為了防止梯度爆炸,通常會使用梯度裁剪技術,將梯度限制在一個合理的範圍內

相關文章