清華、李飛飛團隊等提出強記憶力 E3D-LSTM 網路
清華大學、Google AI 和史丹佛大學李飛飛團隊提出了一種具有強記憶力的 E3D-LSTM 網路,強化了 LSTM 的長時記憶能力,這為影片預測、動作分類等相關問題提供了新思路,是一項非常具有啟發性的工作。
如何對時間序列進行時空建模及特徵抽取,是 RGB 影片預測分類,動作識別,姿態估計等相關領域的研究熱點。
清華大學、Google AI 和史丹佛大學李飛飛團隊提出了一種具有強記憶力的 E3D-LSTM 網路,用 3D 卷積代替 2D 卷積作為 LSTM 網路的基礎計算操作,並加入自注意力機制,使網路能同時兼顧長時和短時資訊依賴以及區域性時空特徵抽取。
這為影片預測、動作分類等相關問題提供了新思路,是一項非常具有啟發性的工作。
作者 | Yunbo Wang,、Lu Jiang、 Ming-Hsuan Yang、Li-Jia Li、Mingsheng Long、Li Fei-Fei
論文地址:
時間序列的時空建模問題
現實生活中許多資料都同時具有時間特徵和空間特徵,例如人體的運動軌跡,連續幀的影片等,每個時間點都對應一組資料,而資料往往又具有一定的空間特徵。因此要 在這樣的時間序列資料上開展分類,預測等工作,就必須在時間(temporal)和空間 (spatial) 上對其進行建模和特徵抽取。
常用的時間建模工具是迴圈神經網路(RNN)相關模型(LSTM 等),由於其特有的門結構設計,對時間序列特徵具有強大的抽取能力,因此被廣泛應用於預測問題並取得了良好的成果,但是 RNN 並不能很好的學習到原始特徵的高階表示,這不利於對空間資訊的提取。空間建模則當屬卷積神經網路(CNN),其具有強大的空間特徵抽取能力,其中 3D-CNN 又能將卷積核可控範圍擴大到時域上,相對於 2D 卷積靈活性更高,能學習到更多的運動資訊(motion 資訊),相對於 RNN 則更有利於學習到資訊的高階表示(層數越深,資訊越高階), 是目前動作識別領域的流行方法。當然 3D 卷積的時間特徵抽取能力並不能和 RNN 媲美。
得益於 3D 卷積和 RNN 在各自領域的成功,如何進一步將二者結合起來使用也成為了研究熱點,常見的簡單方法是將二者串聯堆疊或者並聯結合(在圖卷積網路出現之前,動作識別領域的最優方法就是將 CNN 和 RNN 並聯),但測試發現這麼做並不能帶來太大的提升,這是因為二者的工作機制差距太大,簡單的結合並不能很好的實現優勢互補。 本文提出用 3D 卷積代替原始 LSTM 中的門更新操作,使 LSTM 不僅能在時間層面,也能在空間層面上進行短期依賴的表象特徵和運動特徵的抽取,從而在更深的機制層面實現兩種網路的結合。此外,在 LSTM 中引入自注意力(self-attention)機制,進一步強化了 LSTM 的長時記憶能力,使其對長距離資訊作用具有更好的感知力。作者將這種網路稱為 Eidetic 3D LSTM(E3D-LSTM),Eidetic 意思是具有逼真記憶,強調網路的強記憶能力。
E3D-LSTM 網路結構
圖 1:三種不同的 3D 卷積和 LSTM 的結合方法
圖中每個顏色的模組都代表了多層相應的網路。圖(a)和圖(b)是兩種 3D 卷積和 LSTM 結合的基線方法,3D 卷積和 LSTM 線性疊加,主要起到了編碼(解碼器)的作用,並沒有和 RNN 有機制上的結合。圖(a)中 3D 卷積作為編碼器,輸入是一段影片幀,圖(b)中作為解碼器,得到每個單元的最終輸出。這兩個方法中的綠色模組使用的是時空長短時記憶網路(ST-LSTM)[1],這種 LSTM 獨立的維護兩個記憶狀態 M 和 C,但由於記憶狀態 C 的遺忘門過於響應具有短期依賴的特徵,因此容易忽略長時依賴資訊,因此 E3D-LSTM 在 ST-LSTM 的基礎新增了自注意力機制和 3D 卷積操作,在一定程度上解決了這個問題。具體單元結構下一節介紹。
圖(c)是 E3D-LSTM 網路的結構,3D 卷積作為編碼 - 解碼器(藍色模組),同時和 LSTM 結合(橙色模組)。E3D-LSTM 既可用於分類任務,也可用於預測任務。分類時將所有 LSTM 單元的輸出結合,預測時則利用 3D 卷積解碼器的輸出作為預測值。
E3D-LSTM 單元結構設計
圖 2:標準 LSTM 單元結構
首先簡要介紹一下標準 LSTM 結構,和 RNN 相比 LSTM 增加了更復雜的門結構(圖中黃色模組),主要解決 RNN 中存在的梯度消失問題,從而提高網路對長時依賴(long-term dependency)的記憶感知能力。LSTM 有兩個輸入門
,一個輸出門
和遺忘門
圖 2:ST-LSTM 網路結構和單元結構
和標準 LSTM 相比,ST-LSTM 還增加了不同層間對應位置的 cell 連線,如圖 2 左側,水平灰色連線線表示標準 LSTM 的單元連線,豎直黃色連線線表示層間同一時刻的單元連線,透過張量 M 傳播,注意當 l=1 時,
(作者認為 t 時刻的頂層資訊對 t+1 時刻的底層資訊影響很大),這樣記憶資訊就能同時在層內和層間傳播。
圖 3 E3D-LSTM 單元結構
圖 3 是本文提出的 E3D-LSTM 模型的單元結構,
是一個維度為
的五維張量,代表之前
個時間步的所有隱狀態。
表示召回門(代替遺忘門),和 ST-LSTM 相比,主要有以下改進:
1、輸入資料是
的四維張量,對應時刻
的連續幀序列,因此現在每個單元時間步都對應一段影片,而不是單幀影片。
2、針對幀序列資料額外新增了一個召回門(recall gate)以及相關結構,用於實現長時依賴學習,也就是自注意力機制。這部分對應網路名稱中的 Eidetic。
3、由於輸入資料變成了四維張量,因此在更新公式中採用 3D 卷積操作而不是 2D 卷積。
大部分門結構的更新公式和 ST-LSTM 相同,額外新增了召回門更新公式:
上面介紹的機制用於同一層不同時間步連線,作者將這種機制也用在了不同層同一時間步的連線,但效果並不好,這是因為不同層在同一時刻學習到的資訊並沒有太好的依賴性。
基於 E3D-LSTM 的半監督輔助學習
在許多監督學習任務,例如影片動作識別中,沒有足夠的監督資訊和標註資訊來幫助訓練一個令人滿意的 RNN,因此可以將影片預測作為一個輔助的表徵學習方法,來幫助網路更好的理解影片特徵,並提高時間域上的監督性。
具體的,讓影片預測和動作識別任務共享相同的主幹網路(圖 1),只不過損失函式不同,在影片預測任務中,目標函式為:
帶上標的 X 表示預測值,不帶上標的表示真值,F 表示 Frobenius 歸一化。
在動作識別任務中,目標函式為:
其中 Y 和
是預測值和幀值,這樣透過將預測任務的損失函式嵌入到識別任務中,以及主幹網路的共享,能在一定程度上幫助識別任務學習到更多的時序資訊。為了保證過渡平滑,額外新增了一個權重因子
,
會隨著迭代次數的增加而線性衰減:
作者將這種方法稱為半監督輔助學習。
實驗結果
影片預測任務,在 Moving MINIST 資料集上的結果:
為了驗證 E3D-LSTM 中不同模組對效能的影響,作者還在該資料集上進行了燒蝕研究
可以看到不管是新增 3D 卷積還是自注意力機制,網路效能相對於基線方法都有提升。
影片預測任務,在 KTH 人體動作資料集上的結果:
接下來在一個實際影片預測任務:交通流預測中,與其他方法進行了對比:
動作識別任務,在 Something-Something 資料集上進行了測試:
同樣在該資料集上進行了燒蝕研究:
以及不同的半監督輔助學習策略帶來的效能提升:
總結
本文對 ST-LSTM 進行了改進,將流行的 3D 卷積操作作為其基本張量操作,同時新增了自注意力模組,進一步強化了網路對長距離依賴資訊的刻畫能力,不僅能用於預測任務,還能透過輔助學習的方法擴充到其他任務上,是非常具有啟發性的工作。
[1] Yunbo Wang, Mingsheng Long, Jianmin Wang, Zhifeng Gao, and S Yu Philip. Predrnn: Recurrent neural networks for predictive learning using spatiotemporal lstms. In NIPS, 2017.
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69946223/viewspace-2655038/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 李飛飛團隊提出OpenTag模型:減少人工標註,自動提取產品屬性值模型
- 李飛飛團隊提出ReKep,讓機器人具備空間智慧,還能整合GPT-4o機器人GPT
- 李飛飛「空間智慧」之後,上交、智源、北大等提出空間大模型SpatialBot大模型
- 李飛飛團隊新論文:新網路新策略,讓AI通過視覺觀察實現因果歸納AI視覺
- 李飛飛團隊最新論文:如何對影像中的實體精準“配對”?
- 李飛飛等提出新的迭代視覺推理框架,在ADE上實現8.4 %的絕對提升視覺框架
- 李飛飛團隊最新研究成果:視覺AI讓醫院細菌無處可逃!視覺AI
- 業界 | 李飛飛團隊最新研究成果:視覺AI讓醫院細菌無處可逃!視覺AI
- 這麼多人,AI怎麼知道你說的是哪個? | 李飛飛團隊CVPR論文+程式碼AI
- 李飛飛等人提出Auto-DeepLab:自動搜尋影象語義分割架構架構
- 李飛飛等人提出Auto-DeepLab:自動搜尋影像語義分割架構架構
- 李飛飛團隊年度報告揭底大模型訓練成本:Gemini Ultra是GPT-4的2.5倍大模型GPT
- 李飛飛「空間智慧」系列新進展,吳佳俊團隊新「BVS」套件評估計算機視覺模型套件計算機視覺模型
- 出神入化:特斯拉AI主管、李飛飛高徒Karpathy的33個神經網路「煉丹」技巧AI神經網路
- 要強化AI技術?Twitter任命人工智慧專家李飛飛為獨立董事AI人工智慧
- OpenAI 再發 Sora 新短片,傳 Sora 兩週內推出;李飛飛團隊出品空間智慧版 ImageNet 丨 RTE 開發者日報OpenAISora開發者日報
- 下一代技術:李飛飛靠它打造Cloud AutoML,吳恩達力挺CloudTOML吳恩達
- 有望顯著提高整合光子電路的計算效能,清華團隊提出了一種衍射圖神經網路框架神經網路框架
- 李飛飛 CS231n 最全學霸筆記精煉版來了筆記
- 重磅 | 李飛飛 CS231n 官方筆記授權翻譯正式釋出!筆記
- 半年21項全新發布和升級,百度飛槳團隊「碼力」全開
- ACM 2018 Fellow名單公佈:李飛飛等多位華人入選,無國內成員ACM
- AI學會了視覺推理,“腦補”看不清的物體 | 李佳李飛飛等的CVPR論文AI視覺
- 深度 | 阿里雲李飛飛:中國資料庫的時與勢阿里資料庫
- 傳小米投資無人機團隊“飛米” 或正測試無人機無人機
- 李飛飛最新訪談:我每天都在對AI的擔憂中醒來AI
- 史丹佛AI實驗室換帥!Christopher Manning接替李飛飛AI
- 美陸軍新深度神經網路框架為AI增強記憶力神經網路框架AI
- 網路時代的團隊:虛擬團隊(轉)
- 福布斯評選 8 位 AI 風雲女性,李飛飛、Coursera 創始人在列AI
- 阿里李飛飛:資料庫將全面進入雲原生分散式時代阿里資料庫分散式
- 獨家對話李飛飛:雲資料庫戰爭已經進入下半場資料庫
- 李飛飛解讀創業方向「空間智慧」,讓AI真正理解世界創業AI
- 專訪龍淵網路CEO李龍飛:自走棋沒涼,MOBA還有機會
- 李飛飛CS231n專案:這兩位工程師想用神經網路幫你還原買家秀工程師神經網路
- 邂逅 CODING ,墨刀測試團隊實現「質」的飛躍
- 阿里巴巴副總裁李飛飛:如何看待資料庫的未來?阿里資料庫
- 我們應該如何理解李飛飛價值十億美金的“人文AI”計劃?AI