清華大學、Google AI 和史丹佛大學李飛飛團隊提出了一種具有強記憶力的 E3D-LSTM 網路，強化了 LSTM 的長時記憶能力，這為視訊預測、動作分類等相關問題提供了新思路，是一項非常具有啟發性的工作。

如何對時間序列進行時空建模及特徵抽取，是 RGB 視訊預測分類，動作識別，姿態估計等相關領域的研究熱點。

清華大學、Google AI 和史丹佛大學李飛飛團隊提出了一種具有強記憶力的 E3D-LSTM 網路，用 3D 卷積代替 2D 卷積作為 LSTM 網路的基礎計算操作，並加入自注意力機制，使網路能同時兼顧長時和短時資訊依賴以及區域性時空特徵抽取。

這為視訊預測、動作分類等相關問題提供了新思路，是一項非常具有啟發性的工作。

作者 | Yunbo Wang,、Lu Jiang、 Ming-Hsuan Yang、Li-Jia Li、Mingsheng Long、Li Fei-Fei

論文地址：

https://openreview.net/pdf?id=B1lKS2AqtX

時間序列的時空建模問題

現實生活中許多資料都同時具有時間特徵和空間特徵，例如人體的運動軌跡，連續幀的視訊等，每個時間點都對應一組資料，而資料往往又具有一定的空間特徵。因此要在這樣的時間序列資料上開展分類，預測等工作，就必須在時間（temporal）和空間 (spatial) 上對其進行建模和特徵抽取。

常用的時間建模工具是迴圈神經網路（RNN）相關模型（LSTM 等），由於其特有的門結構設計，對時間序列特徵具有強大的抽取能力，因此被廣泛應用於預測問題並取得了良好的成果，但是 RNN 並不能很好的學習到原始特徵的高階表示，這不利於對空間資訊的提取。空間建模則當屬卷積神經網路（CNN），其具有強大的空間特徵抽取能力，其中 3D-CNN 又能將卷積核可控範圍擴大到時域上，相對於 2D 卷積靈活性更高，能學習到更多的運動資訊（motion 資訊），相對於 RNN 則更有利於學習到資訊的高階表示（層數越深，資訊越高階），是目前動作識別領域的流行方法。當然 3D 卷積的時間特徵抽取能力並不能和 RNN 媲美。

得益於 3D 卷積和 RNN 在各自領域的成功，如何進一步將二者結合起來使用也成為了研究熱點，常見的簡單方法是將二者串聯堆疊或者並聯結合（在圖卷積網路出現之前，動作識別領域的最優方法就是將 CNN 和 RNN 並聯），但測試發現這麼做並不能帶來太大的提升，這是因為二者的工作機制差距太大，簡單的結合並不能很好的實現優勢互補。本文提出用 3D 卷積代替原始 LSTM 中的門更新操作，使 LSTM 不僅能在時間層面，也能在空間層面上進行短期依賴的表象特徵和運動特徵的抽取，從而在更深的機制層面實現兩種網路的結合。此外，在 LSTM 中引入自注意力（self-attention）機制，進一步強化了 LSTM 的長時記憶能力，使其對長距離資訊作用具有更好的感知力。作者將這種網路稱為 Eidetic 3D LSTM（E3D-LSTM），Eidetic 意思是具有逼真記憶，強調網路的強記憶能力。

E3D-LSTM 網路結構

圖 1：三種不同的 3D 卷積和 LSTM 的結合方法

圖中每個顏色的模組都代表了多層相應的網路。圖（a）和圖（b）是兩種 3D 卷積和 LSTM 結合的基線方法，3D 卷積和 LSTM 線性疊加，主要起到了編碼（解碼器）的作用，並沒有和 RNN 有機制上的結合。圖（a）中 3D 卷積作為編碼器，輸入是一段視訊幀，圖（b）中作為解碼器，得到每個單元的最終輸出。這兩個方法中的綠色模組使用的是時空長短時記憶網路（ST-LSTM）[1]，這種 LSTM 獨立的維護兩個記憶狀態 M 和 C，但由於記憶狀態 C 的遺忘門過於響應具有短期依賴的特徵，因此容易忽略長時依賴資訊，因此 E3D-LSTM 在 ST-LSTM 的基礎新增了自注意力機制和 3D 卷積操作，在一定程度上解決了這個問題。具體單元結構下一節介紹。

圖（c）是 E3D-LSTM 網路的結構，3D 卷積作為編碼 - 解碼器（藍色模組），同時和 LSTM 結合（橙色模組）。E3D-LSTM 既可用於分類任務，也可用於預測任務。分類時將所有 LSTM 單元的輸出結合，預測時則利用 3D 卷積解碼器的輸出作為預測值。

E3D-LSTM 單元結構設計

圖 2：標準 LSTM 單元結構

首先簡要介紹一下標準 LSTM 結構，和 RNN 相比 LSTM 增加了更復雜的門結構（圖中黃色模組），主要解決 RNN 中存在的梯度消失問題，從而提高網路對長時依賴（long-term dependency）的記憶感知能力。LSTM 有兩個輸入門

，一個輸出門

和遺忘門

圖 2：ST-LSTM 網路結構和單元結構

和標準 LSTM 相比，ST-LSTM 還增加了不同層間對應位置的 cell 連線，如圖 2 左側，水平灰色連線線表示標準 LSTM 的單元連線，豎直黃色連線線表示層間同一時刻的單元連線，通過張量 M 傳播，注意當 l=1 時，

（作者認為 t 時刻的頂層資訊對 t+1 時刻的底層資訊影響很大），這樣記憶資訊就能同時在層內和層間傳播。

圖 3 E3D-LSTM 單元結構

圖 3 是本文提出的 E3D-LSTM 模型的單元結構，

是一個維度為

的五維張量，代表之前

個時間步的所有隱狀態。

表示召回門（代替遺忘門），和 ST-LSTM 相比，主要有以下改進：

1、輸入資料是

的四維張量，對應時刻

的連續幀序列，因此現在每個單元時間步都對應一段視訊，而不是單幀視訊。

2、針對幀序列資料額外新增了一個召回門（recall gate）以及相關結構，用於實現長時依賴學習，也就是自注意力機制。這部分對應網路名稱中的 Eidetic。

3、由於輸入資料變成了四維張量，因此在更新公式中採用 3D 卷積操作而不是 2D 卷積。

大部分門結構的更新公式和 ST-LSTM 相同，額外新增了召回門更新公式：

上面介紹的機制用於同一層不同時間步連線，作者將這種機制也用在了不同層同一時間步的連線，但效果並不好，這是因為不同層在同一時刻學習到的資訊並沒有太好的依賴性。

基於 E3D-LSTM 的半監督輔助學習

在許多監督學習任務，例如視訊動作識別中，沒有足夠的監督資訊和標註資訊來幫助訓練一個令人滿意的 RNN，因此可以將視訊預測作為一個輔助的表徵學習方法，來幫助網路更好的理解視訊特徵，並提高時間域上的監督性。

具體的，讓視訊預測和動作識別任務共享相同的主幹網路（圖 1），只不過損失函式不同，在視訊預測任務中，目標函式為：

帶上標的 X 表示預測值，不帶上標的表示真值，F 表示 Frobenius 歸一化。

在動作識別任務中，目標函式為：

其中 Y 和

是預測值和幀值，這樣通過將預測任務的損失函式嵌入到識別任務中，以及主幹網路的共享，能在一定程度上幫助識別任務學習到更多的時序資訊。為了保證過渡平滑，額外新增了一個權重因子

，

會隨著迭代次數的增加而線性衰減：

作者將這種方法稱為半監督輔助學習。

實驗結果

視訊預測任務，在 Moving MINIST 資料集上的結果：

為了驗證 E3D-LSTM 中不同模組對效能的影響，作者還在該資料集上進行了燒蝕研究

可以看到不管是新增 3D 卷積還是自注意力機制，網路效能相對於基線方法都有提升。

視訊預測任務，在 KTH 人體動作資料集上的結果：

接下來在一個實際視訊預測任務：交通流預測中，與其他方法進行了對比：

動作識別任務，在 Something-Something 資料集上進行了測試：

同樣在該資料集上進行了燒蝕研究：

以及不同的半監督輔助學習策略帶來的效能提升：

總結

本文對 ST-LSTM 進行了改進，將流行的 3D 卷積操作作為其基本張量操作，同時新增了自注意力模組，進一步強化了網路對長距離依賴資訊的刻畫能力，不僅能用於預測任務，還能通過輔助學習的方法擴充到其他任務上，是非常具有啟發性的工作。

[1] Yunbo Wang, Mingsheng Long, Jianmin Wang, Zhifeng Gao, and S Yu Philip. Predrnn: Recurrent neural networks for predictive learning using spatiotemporal lstms. In NIPS, 2017.

https://www.toutiao.com/i6729342527494685188/

來自 “ ITPUB部落格 ” ，連結：http://blog.itpub.net/69946223/viewspace-2655038/，如需轉載，請註明出處，否則將追究法律責任。

清華、李飛飛團隊等提出強記憶力 E3D-LSTM 網路

時間序列的時空建模問題

E3D-LSTM 網路結構

E3D-LSTM 單元結構設計

基於 E3D-LSTM 的半監督輔助學習

實驗結果

總結

相關文章