神經架構搜尋在視訊理解中研究進展的綜述
作者 | Michael S. Ryoo 研究員與 AJ Piergiovanni 學生研究員(Google 機器人團隊)
來源 | TensorFlow( ID:TensorFlow_official)
視訊理解一直是項頗具挑戰性的難題。視訊中包含時空資料,因此要提取特徵表示需要同時提取其表面資訊與包含的動作資訊。無論是對視訊語義內容的自動理解(如網路視訊分類或體育運動識別),還是對機器人的感知和學習而言(與人類一樣,機器人攝像頭的輸入資訊大多是連續的動態視訊,少為單張靜態的照片),這都至關重要。
深度學習模型的能力非常依賴於其神經架構。用於處理視訊的卷積神經網路的常見構建方法是將現有的 2D 架構(例如 Inception 和 ResNet)手動擴充套件為 3D,或者精心設計融合表面資訊和動作資訊的雙流卷積神經網路架構 (two-stream CNN architectures)。不過,我們仍在探索如何設計出可充分利用視訊中時空資訊的理想視訊架構。雖然我們對用於影像的神經架構 搜尋已進行了廣泛的研究(如 Zoph 等人的研究、Real 等人的研究),但用於視訊的神經架構 搜尋仍缺乏研究,即尚未開發出機器自動優化架構的視訊處理神經網路。處理視訊的卷積神經網路 (Video CNNs) 的構建通常需要大量計算和記憶體資源,因此很難設計一種既能高效 搜尋又可捕獲其特徵的方法。
為應對這些挑戰,我們對自動 搜尋進行了一系列研究,旨在探索更理想的神經網路架構,從而實現視訊理解。下文我們將展示三種不同的神經網路架構進化演算法:學習層及其模組配置 (EvaNet);學習多流連線 (AssembleNet);構建計算高效的緊湊網路 (TinyVideoNet)。我們開發的視訊架構在多個公開的資料集上的效能遠勝現有的人工模型,並在網路執行時實現了 10 至 100 倍的效能提升。
EvaNet:首個進化的視訊架構
EvaNet 是我們在構建視訊架構上的首次嘗試(詳情請參閱我們在 ICCV 2019 上發表的 《進化用於視訊的時空神經架構》(Evolving Space-Time Neural Architectures for Videos))。
EvaNet 是一種模組級架構 搜尋,側重於尋找時空卷積層的型別,及其最優順序或最優並行配置。此 搜尋採用帶有變異運算元的進化演算法,以迭代更新架構群。如此一來,我們可以更高效地對 搜尋空間進行並行 搜尋,而這正是視訊架構 搜尋在考慮各種時空層及其組合時所必需的條件。EvaNet 可演化成多個模組(在網路中的不同位置),進而生成不同架構。
實驗結果證明,通過進化異構模組獲得此類 Video CNN 架構具有諸多優點。該方法證明,由多個並行層組成的 Non-Trivial Modules 最高效,因為它們速度更快,展現出更勝於人工設計模組的效能。
另一個有趣的方面是,我們在進化中獲得了許多效能同樣出色的不同架構,無需額外計算。如果整合這些架構,我們可以進一步提升效能。由於架構的並行性質,使得即便是一個模型集合,其計算效率也要高於其他標準的視訊網路(例如 (2+1)D ResNet)。我們已開放此專案的原始碼。
AssembleNet:構建更強大、更出色的(多流)模型
在《AssembleNet:在視訊架構中 搜尋多流神經連線》(AssembleNet: Searching for Multi-Stream Neural Connectivity in Video Architectures)中,我們研究了一種新方法,針對不同的子網路和輸入模態(例如 RGB 和光流)及時間解析度進行融合。
AssembleNet 是一種會學習的架構,因此可提供通用方法來學習不同模態特徵表示輸入間的“連線”,並針對目標任務進行優化。我們引入了一種綜合機制,能夠將多種形式的多流卷積神經網路表示為有向圖並 結合高效的進化演算法,進而探索 高層網路連線。通過視訊中的表面資訊和動作的視覺線索更好的學習特徵表示。
不同於先前使用 Late Fusion 或 Fixed Intermediate Fusion 的雙流模型,AssembleNet 在通過連線權重學習指導架構變異的同時,進化出眾多過連線的、多流的、多解析度架構。我們首次研究了帶有不同中間連線的四流架構,其中有 RGB 流和視覺流這 2 種流,而每種流的時間解析度均各不相同。
通過對隨機初始多流架構池經過 50 至 150 輪的進化,我們發現了下圖所示的 AssembleNet 架構示例。我們在兩個非常流行的視訊識別資料集(Charades 和 Moments-in-Time (MiT))上測試了 AssembleNet。該架構首次在 MiT 的效能上超過 34%。而在 Charades 的效能上更令人吃驚,平均精度 (mean Average Precision) 為 58.6%,這一資料超過了先前已知的最佳結果(42.5 和 45.2)。
Tiny Video Network:速度最快的視訊理解網路
為了使 Video CNN 模型適合執行於現實環境(如機器人需要的環境)中的裝置,我們必須擁有實時高效的計算。
不過,如要在處理視訊理解任務時獲得最佳 (state-of-the-art, SOTA) 結果,我們還需要應用許多輸入幀的超大型網路,這些網路通常擁有數十到數百個卷積層。因此,這些網路經常受到執行太慢的影響,具體表現為:在現代 GPU 和 CPU 上,每執行 1 秒視訊剪輯至少分別需要 500 多毫秒和 2000 多毫秒。在 Tiny Video Network 中,我們通過自動設計網路,以一小部分計算成本提供同等效能,進而解決了此問題。我們的 TinyVideoNet 可提供更高的精度,並且能更快速甚至實時地高效執行,具體表現為:在GPU 和 CPU 上,每執行約 1 秒的視訊剪輯分別用時 10 毫秒和 37 至 100 毫秒,此結果比人工設計的現代模型快了數百倍。
為實現上述效能提升,我們在架構進化過程中明確考慮模型執行時間並強制演算法 搜尋空間,同時加入空間或時間解析度和通道大小,從而減少計算量。下圖展示了通過 TinyVideoNet 發現的兩種簡單且十分高效的架構。有趣的是,通過學習獲得的模型架構比典型的視訊架構擁有更少的卷積層:Tiny Video Network 更喜歡輕量級元素,例如 2D pooling、Gating Layers和 Squeeze-and-Excitation Layers。此外,TinyVideoNet 還能夠 結合優化引數和執行時,從而提供用於未來網路探索的高效網路。
圖:TVN-1架構(上) TVN-2架構(下)
進化後,TinyVideoNet (TVN) 架構可以在最大限度提升識別效能的時候,同時保證計算時間不超過期望限制。例如,TVN-1執行在 CPU 和 GPU 上所需的時間分別為 37 毫秒和 10 毫秒。TVN-2執行在 CPU 和 GPU 上所需的時間分別為 65 毫秒和 13 毫秒。
結論
據我們所知,這是業界將神經架構 搜尋應用於視訊理解的首次研究。我們在處理公共資料集時,使用全新進化演算法生成的視訊架構對比人工設計卷積神經網路架構有顯著優勢。此外,我們還可利用架構進化學習的視訊模型 TinyVideoNet。這項研究不但為我們開闢了全新方向,並展示出用於視訊理解的機器進化卷積神經網路的廣闊前景。
本研究由 Michael S. Ryoo、AJ Piergiovanni 和 Anelia Angelova 共同完成。此外,Alex Toshev 和 Mingxing Tan 也對本研究做出了貢獻。感謝 Vincent Vanhoucke、Juhana Kangaspunta、Esteban Real、Ping Yu 和 Sarah Sirajuddin 以及 Google 機器人團隊積極參與討論,併為我們提供支援。
如果您想 詳細瞭解 本文提及 的相關內容,請參閱以下文件。這些文件深入探討了這篇文章中提及的許多主題:
-
Inception
https:// www.cv-foundation.org/openaccess/content_cvpr_2016/papers/Szegedy_Rethinking_the_Inception_CVPR_2016_paper.pdf
-
ResNet
https://arxiv.org/abs/1512.03385
-
Zoph 等人的研究
https://ai.googleblog .com/2017/05/using-machine-learning-to-explore.html
-
Real 等人的研究
https://ai.googleblog .com/2018/03/using-evolutionary-automl-to-discover.html
-
EvaNet
https://arxiv.org/abs/1811.10636
-
AssembleNet
https://arxiv.org/abs/1905.13209
-
TinyVideoNet
https://arxiv.org/abs/1910.06961
-
ICCV 2019
http://iccv2019.thecvf .com/
-
《進化用於視訊的時空神經架構》
https://arxiv.org/abs/1811.10636
-
進化演算法
https://ai.googleblog .com/2018/03/using-evolutionary-automl-to-discover.html
-
(2+1)D
https://arxiv.org/abs/1711.11248
-
專案原始碼
https://github .com/google-research/google-research/tree/master/evanet
-
《AssembleNet:在視訊架構中 搜尋多流神經連線》
https://arxiv.org/abs/1905.13209
-
雙流模型
https://arxiv.org/abs/1406.2199
-
連線權重學習
https://arxiv.org/pdf/1905.13209.pdf
-
Charades
https://allenai.org/plato/charades/
-
Moments-in-Time
http://moments.csail.mit.edu/
-
Tiny Video Network
https://arxiv.org/abs/1910.06961
-
Squeeze-and-Excitation
https://arxiv.org/abs/1709.01507
https://www.toutiao.com/i6767715199295160846/
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69946223/viewspace-2667438/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 卷積神經網路表徵視覺化研究綜述卷積神經網路視覺化
- 谷歌雲提出漸進式神經架構搜尋:高效搜尋高質量CNN結構谷歌架構CNN
- 自動機器學習:最近進展研究綜述機器學習
- 深度學習的未來:神經架構搜尋深度學習架構
- 從經典結構到改進方法,神經網路語言模型綜述神經網路模型
- RNN神經網路模型綜述RNN神經網路模型
- 「技術綜述」視訊分類/行為識別研究綜述,從資料集到方法
- 阿里推薦與搜尋引擎-AI·OS綜述阿里AI
- 分散式快取架構綜述分散式快取架構
- 圖神經網路綜述:模型與應用神經網路模型
- 有贊搜尋系統的架構演進架構
- Jina:在雲上構建神經網路搜尋的更簡單方法神經網路
- 文字生成神經網路架構發展神經網路架構
- 綜述 | 水稻株型的遺傳基礎與分子調控機理研究進展
- Jeff Dean等人提出ENAS:通過引數共享實現高效的神經架構搜尋架構
- 網路廣告研究綜述
- Tensorflow系列專題(四):神經網路篇之前饋神經網路綜述神經網路
- 復旦大學邱錫鵬教授:詞法、句法分析研究進展綜述
- 用神經架構搜尋給LLM瘦身,模型變小,準確度有時反而更高架構模型
- 94頁論文綜述卷積神經網路:從基礎技術到研究前景卷積神經網路
- 基於RISC-V架構的開源處理器及SoC研究綜述(一)架構
- 基於RISC-V架構的開源處理器及SoC研究綜述(二)架構
- 基於RISC-V架構的開源處理器及SoC研究綜述(三)架構
- 視覺SLAM綜述視覺SLAM
- 圖神經網路在生物醫藥領域的12項研究綜述,附資源下載神經網路
- 有贊訂單搜尋AKF架構演進之路架構
- 7大類深度CNN架構創新綜述CNN架構
- 指數級加速架構搜尋:CMU提出基於梯度下降的可微架構搜尋方法架構梯度
- 史丹佛大牛Jure Leskovec:圖神經網路研究最新進展神經網路
- 機器學習研究者必知的八個神經網路架構機器學習神經網路架構
- 清華大學圖神經網路綜述:模型與應用神經網路模型
- 圖神經網路概述第三彈:來自IEEE Fellow的GNN綜述神經網路GNN
- 使用 Postgres 的全文搜尋構建可擴充套件的事件驅動搜尋架構套件事件架構
- Google搜尋產品經理:搜尋仍有很大的創新和發展空間Go
- 分散式搜尋引擎Elasticsearch的架構分析分散式Elasticsearch架構
- 計算廣告系統演算法與架構綜述演算法架構
- 面向程式碼語言模型的安全性研究全新進展,南大&NTU聯合釋出全面綜述模型
- 視覺SLAM技術綜述視覺SLAM