清華、李飛飛團隊等提出強記憶力 E3D-LSTM 網路

AIBigbull2050發表於2019-08-27

清華大學、Google AI 和史丹佛大學李飛飛團隊提出了一種具有強記憶力的 E3D-LSTM 網路,強化了 LSTM 的長時記憶能力,這為影片預測、動作分類等相關問題提供了新思路,是一項非常具有啟發性的工作。

如何對時間序列進行時空建模及特徵抽取,是 RGB 影片預測分類,動作識別,姿態估計等相關領域的研究熱點。

清華大學、Google AI 和史丹佛大學李飛飛團隊提出了一種具有強記憶力的 E3D-LSTM 網路,用 3D 卷積代替 2D 卷積作為 LSTM 網路的基礎計算操作,並加入自注意力機制,使網路能同時兼顧長時和短時資訊依賴以及區域性時空特徵抽取。

這為影片預測、動作分類等相關問題提供了新思路,是一項非常具有啟發性的工作。

清華、李飛飛團隊等提出強記憶力 E3D-LSTM 網路

作者 | Yunbo Wang,、Lu Jiang、 Ming-Hsuan Yang、Li-Jia Li、Mingsheng Long、Li Fei-Fei

論文地址:

時間序列的時空建模問題

現實生活中許多資料都同時具有時間特徵和空間特徵,例如人體的運動軌跡,連續幀的影片等,每個時間點都對應一組資料,而資料往往又具有一定的空間特徵。因此要 在這樣的時間序列資料上開展分類,預測等工作,就必須在時間(temporal)和空間 (spatial) 上對其進行建模和特徵抽取。

常用的時間建模工具是迴圈神經網路(RNN)相關模型(LSTM 等),由於其特有的門結構設計,對時間序列特徵具有強大的抽取能力,因此被廣泛應用於預測問題並取得了良好的成果,但是 RNN 並不能很好的學習到原始特徵的高階表示,這不利於對空間資訊的提取。空間建模則當屬卷積神經網路(CNN),其具有強大的空間特徵抽取能力,其中  3D-CNN 又能將卷積核可控範圍擴大到時域上,相對於 2D 卷積靈活性更高,能學習到更多的運動資訊(motion 資訊),相對於 RNN 則更有利於學習到資訊的高階表示(層數越深,資訊越高階),  是目前動作識別領域的流行方法。當然 3D 卷積的時間特徵抽取能力並不能和 RNN 媲美。

得益於 3D 卷積和 RNN 在各自領域的成功,如何進一步將二者結合起來使用也成為了研究熱點,常見的簡單方法是將二者串聯堆疊或者並聯結合(在圖卷積網路出現之前,動作識別領域的最優方法就是將 CNN 和 RNN 並聯),但測試發現這麼做並不能帶來太大的提升,這是因為二者的工作機制差距太大,簡單的結合並不能很好的實現優勢互補。 本文提出用 3D 卷積代替原始 LSTM 中的門更新操作,使 LSTM 不僅能在時間層面,也能在空間層面上進行短期依賴的表象特徵和運動特徵的抽取,從而在更深的機制層面實現兩種網路的結合。此外,在 LSTM 中引入自注意力(self-attention)機制,進一步強化了 LSTM 的長時記憶能力,使其對長距離資訊作用具有更好的感知力。作者將這種網路稱為  Eidetic 3D LSTM(E3D-LSTM),Eidetic 意思是具有逼真記憶,強調網路的強記憶能力。

E3D-LSTM 網路結構

清華、李飛飛團隊等提出強記憶力 E3D-LSTM 網路

圖 1:三種不同的 3D 卷積和 LSTM 的結合方法

圖中每個顏色的模組都代表了多層相應的網路。圖(a)和圖(b)是兩種 3D 卷積和 LSTM 結合的基線方法,3D 卷積和 LSTM 線性疊加,主要起到了編碼(解碼器)的作用,並沒有和 RNN 有機制上的結合。圖(a)中 3D 卷積作為編碼器,輸入是一段影片幀,圖(b)中作為解碼器,得到每個單元的最終輸出。這兩個方法中的綠色模組使用的是時空長短時記憶網路(ST-LSTM)[1],這種 LSTM 獨立的維護兩個記憶狀態 M 和 C,但由於記憶狀態 C 的遺忘門過於響應具有短期依賴的特徵,因此容易忽略長時依賴資訊,因此 E3D-LSTM 在 ST-LSTM 的基礎新增了自注意力機制和 3D 卷積操作,在一定程度上解決了這個問題。具體單元結構下一節介紹。

圖(c)是 E3D-LSTM 網路的結構,3D 卷積作為編碼 - 解碼器(藍色模組),同時和 LSTM 結合(橙色模組)。E3D-LSTM 既可用於分類任務,也可用於預測任務。分類時將所有 LSTM 單元的輸出結合,預測時則利用 3D 卷積解碼器的輸出作為預測值。

E3D-LSTM 單元結構設計

清華、李飛飛團隊等提出強記憶力 E3D-LSTM 網路

圖 2:標準 LSTM 單元結構

首先簡要介紹一下標準 LSTM 結構,和 RNN 相比 LSTM 增加了更復雜的門結構(圖中黃色模組),主要解決 RNN 中存在的梯度消失問題,從而提高網路對長時依賴(long-term dependency)的記憶感知能力。LSTM 有兩個輸入門

清華、李飛飛團隊等提出強記憶力 E3D-LSTM 網路

,一個輸出門

清華、李飛飛團隊等提出強記憶力 E3D-LSTM 網路

和遺忘門

清華、李飛飛團隊等提出強記憶力 E3D-LSTM 網路

清華、李飛飛團隊等提出強記憶力 E3D-LSTM 網路

圖 2:ST-LSTM 網路結構和單元結構

和標準 LSTM 相比,ST-LSTM 還增加了不同層間對應位置的 cell 連線,如圖 2 左側,水平灰色連線線表示標準 LSTM 的單元連線,豎直黃色連線線表示層間同一時刻的單元連線,透過張量 M 傳播,注意當 l=1 時,

清華、李飛飛團隊等提出強記憶力 E3D-LSTM 網路

(作者認為 t 時刻的頂層資訊對 t+1 時刻的底層資訊影響很大),這樣記憶資訊就能同時在層內和層間傳播。

清華、李飛飛團隊等提出強記憶力 E3D-LSTM 網路

清華、李飛飛團隊等提出強記憶力 E3D-LSTM 網路

清華、李飛飛團隊等提出強記憶力 E3D-LSTM 網路

清華、李飛飛團隊等提出強記憶力 E3D-LSTM 網路

清華、李飛飛團隊等提出強記憶力 E3D-LSTM 網路

圖 3 E3D-LSTM 單元結構

圖 3 是本文提出的 E3D-LSTM 模型的單元結構,

清華、李飛飛團隊等提出強記憶力 E3D-LSTM 網路

是一個維度為

清華、李飛飛團隊等提出強記憶力 E3D-LSTM 網路

的五維張量,代表之前

清華、李飛飛團隊等提出強記憶力 E3D-LSTM 網路

個時間步的所有隱狀態。

清華、李飛飛團隊等提出強記憶力 E3D-LSTM 網路

表示召回門(代替遺忘門),和 ST-LSTM 相比,主要有以下改進:

1、輸入資料是

清華、李飛飛團隊等提出強記憶力 E3D-LSTM 網路

的四維張量,對應時刻

清華、李飛飛團隊等提出強記憶力 E3D-LSTM 網路

的連續幀序列,因此現在每個單元時間步都對應一段影片,而不是單幀影片。

2、針對幀序列資料額外新增了一個召回門(recall gate)以及相關結構,用於實現長時依賴學習,也就是自注意力機制。這部分對應網路名稱中的 Eidetic。

3、由於輸入資料變成了四維張量,因此在更新公式中採用 3D 卷積操作而不是 2D 卷積。

大部分門結構的更新公式和 ST-LSTM 相同,額外新增了召回門更新公式:

清華、李飛飛團隊等提出強記憶力 E3D-LSTM 網路

清華、李飛飛團隊等提出強記憶力 E3D-LSTM 網路

上面介紹的機制用於同一層不同時間步連線,作者將這種機制也用在了不同層同一時間步的連線,但效果並不好,這是因為不同層在同一時刻學習到的資訊並沒有太好的依賴性。

基於 E3D-LSTM 的半監督輔助學習

在許多監督學習任務,例如影片動作識別中,沒有足夠的監督資訊和標註資訊來幫助訓練一個令人滿意的 RNN,因此可以將影片預測作為一個輔助的表徵學習方法,來幫助網路更好的理解影片特徵,並提高時間域上的監督性。

具體的,讓影片預測和動作識別任務共享相同的主幹網路(圖 1),只不過損失函式不同,在影片預測任務中,目標函式為:

清華、李飛飛團隊等提出強記憶力 E3D-LSTM 網路

帶上標的 X 表示預測值,不帶上標的表示真值,F 表示 Frobenius 歸一化。

在動作識別任務中,目標函式為:

清華、李飛飛團隊等提出強記憶力 E3D-LSTM 網路

其中 Y 和

清華、李飛飛團隊等提出強記憶力 E3D-LSTM 網路

是預測值和幀值,這樣透過將預測任務的損失函式嵌入到識別任務中,以及主幹網路的共享,能在一定程度上幫助識別任務學習到更多的時序資訊。為了保證過渡平滑,額外新增了一個權重因子

清華、李飛飛團隊等提出強記憶力 E3D-LSTM 網路

清華、李飛飛團隊等提出強記憶力 E3D-LSTM 網路

會隨著迭代次數的增加而線性衰減:

清華、李飛飛團隊等提出強記憶力 E3D-LSTM 網路

作者將這種方法稱為半監督輔助學習。

實驗結果

影片預測任務,在 Moving MINIST 資料集上的結果:

清華、李飛飛團隊等提出強記憶力 E3D-LSTM 網路

為了驗證 E3D-LSTM 中不同模組對效能的影響,作者還在該資料集上進行了燒蝕研究

清華、李飛飛團隊等提出強記憶力 E3D-LSTM 網路

可以看到不管是新增 3D 卷積還是自注意力機制,網路效能相對於基線方法都有提升。

影片預測任務,在 KTH 人體動作資料集上的結果:

清華、李飛飛團隊等提出強記憶力 E3D-LSTM 網路

接下來在一個實際影片預測任務:交通流預測中,與其他方法進行了對比:

清華、李飛飛團隊等提出強記憶力 E3D-LSTM 網路

動作識別任務,在 Something-Something 資料集上進行了測試:

清華、李飛飛團隊等提出強記憶力 E3D-LSTM 網路

同樣在該資料集上進行了燒蝕研究:

清華、李飛飛團隊等提出強記憶力 E3D-LSTM 網路

以及不同的半監督輔助學習策略帶來的效能提升:

清華、李飛飛團隊等提出強記憶力 E3D-LSTM 網路

總結

本文對 ST-LSTM 進行了改進,將流行的 3D 卷積操作作為其基本張量操作,同時新增了自注意力模組,進一步強化了網路對長距離依賴資訊的刻畫能力,不僅能用於預測任務,還能透過輔助學習的方法擴充到其他任務上,是非常具有啟發性的工作。

[1] Yunbo Wang, Mingsheng Long, Jianmin Wang, Zhifeng Gao, and S Yu Philip. Predrnn: Recurrent neural networks for predictive learning using spatiotemporal lstms. In NIPS, 2017.





來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69946223/viewspace-2655038/,如需轉載,請註明出處,否則將追究法律責任。

相關文章