lstm(一) 演化之路

遞迴神經網路引入了時序的反饋機制，在語音、音樂等時序訊號的分析上有重要的意義。
Hochreiter(應該是Schmidhuber的弟子)在1991年分析了bptt帶來的梯度爆炸和消失問題，給學習演算法帶來了梯度
震盪和學習困難等問題；
Hochreater和Schmidhuber在1997年提出了LSTM的網路結構，引入CEC單元解決bptt的梯度爆炸和消失問題；
Felix Gers(Schmidhuber是指導人之一)2001年的博士論文進一步改進了lstm的網路結構，增加了forget gate和peephole；
Alex Graves(Schmidhuber的弟子)2006年提出了lstm的ctc訓練準則。

第一步：RNN->基本lstm

參考文獻[1]和[2]

問題

問題一：gradient

BPTT學習演算法存在梯度爆炸和消失問題(gradient blow up or vanish)，簡單通過local error flow分析如下：
對RNN的隱層進行unfolding後，可以得到如下的遞推關係：

ϑ j (t) = f' j (n e t j (t)) \sum i w i j ϑ i (t + 1)

可以理解為t+1時刻的error通過

\partial ϑ v ( t - q ) \partial ϑ u ( t ) = ⎧⎩⎨ f ' v ( n e t v ( t - 1 ) )

\partial ϑ l q - 1 ( t - q + 1 ) \partial ϑ u ( t ) = f ' l q - 1

. . . . . .

\partial ϑ v ( t - q ) \partial ϑ u ( t ) = \sum l 1 = 1 n . . . \sum

| f' l m (n e t l m (t - m)) w l m l m - 1

問題二：conflict

input weight conflict
假設
output weight conflict
同理，隱層到輸出層之間也存在放行和遮蔽的conflict。

解決

這裡寫圖片描述
1997年Hochreiter和Schmidhuber首先提出了LSTM的網路結構，解決了傳統RNN的上面兩個問題。

問題一的solution

lstm通過引入CEC(constant error carrousel)單元解決了梯度沿時間尺度unfolding帶來的問題。
首先梯度的遞推關係如下：

ϑ j (t) = f' j (n e t j (t)) \sum i w i j ϑ i (t + 1)

f' j (n e t j (t)) w i j = 1

f j (x) = x

w j j = 1

w i j = 0 (i \neq j)

以上兩點保證了error可以無損由t時刻傳遞到t-1時刻，如上圖中的

問題二的solution

針對問題二，lstm引入了兩個gate：input gate（對應圖中的

第二步：lstm + forget gate

參考文獻[3]

問題

傳統的lstm存在一個問題：隨著時間序列的增多，lstm網路沒有重置的機制（比如兩句話合成一句話作為輸入的話，希望是在第一句話結束的時候進行reset），從而導致cell state容易發生飽和，進一步會導致cell state的輸出h（趨近於1）的梯度很小（sigmoid函式在x值很大的時候梯度趨向於0），阻礙了error的傳入；另一方面輸出h趨近於1，導致cell的輸出近似等於output gate的輸出，意味著網路喪失了memory的功能。

解決

這裡寫圖片描述
在傳統lstm的基礎之上，引入了forget gate。使用這種結構可以讓網路自動學習什麼時候應該reset。具體做法即為使用

n e t φ j (t) = \sum m w φ j m y m (t - 1)

y φ j (t) = f φ j (n e t φ j (t))

第三步：lstm+peephole

參考文獻[3]

問題

lstm的gate的輸入包含兩個部分，網路輸入和上一時刻（t-1）網路的輸出。
此時如果output gate關閉（值接近0）的話，網路的輸出（t時刻）將為0，下一時刻（t+1）網路gate將完全跟網路輸入有關，就會丟失歷史資訊。

解決

這裡寫圖片描述
增加CEC到各個gate之間的連線，使得CEC(const error carrousels)和gate之間存在雙向的關聯，CEC收到當前時刻gate的限制，同時又會影響下一時刻的gate。
- input gate和forget gate的輸入增加一項

peephole使得網路可以記錄更多的時序上的關聯性，有助於提取相關事件準確週期的相關資訊，可以應用於音樂韻律的分析等工作。

第四步：CTC訓練準則

ctc訓練

參考

[1]《Untersuchungen zu dynamischen neuronalen Netzen》 Hochreiter（德文的，人家的碩士論文）
[2]《Long Short-Term Memory》 Hochreiter, Sepp; Schmidhuber
[3]《Long Short-Term Memory in Recurrent Neural Networks》 Felix Gers
[4]《Supervised Sequence Labelling with Recurrent Neural Networks》 Alex Graves
[5] http://colah.github.io/posts/2015-08-Understanding-LSTMs/