神經架構搜尋在視訊理解中研究進展的綜述

AIBigbull2050發表於2019-12-11

作者 | Michael S. Ryoo 研究員與 AJ Piergiovanni 學生研究員(Google 機器人團隊)

來源 | TensorFlow( ID:TensorFlow_official)

視訊理解一直是項頗具挑戰性的難題。視訊中包含時空資料,因此要提取特徵表示需要同時提取其表面資訊與包含的動作資訊。無論是對視訊語義內容的自動理解(如網路視訊分類或體育運動識別),還是對機器人的感知和學習而言(與人類一樣,機器人攝像頭的輸入資訊大多是連續的動態視訊,少為單張靜態的照片),這都至關重要。

深度學習模型的能力非常依賴於其神經架構。用於處理視訊的卷積神經網路的常見構建方法是將現有的 2D 架構(例如 Inception 和 ResNet)手動擴充套件為 3D,或者精心設計融合表面資訊和動作資訊的雙流卷積神經網路架構 (two-stream CNN architectures)。不過,我們仍在探索如何設計出可充分利用視訊中時空資訊的理想視訊架構。雖然我們對用於影像的神經架構 搜尋已進行了廣泛的研究(如 Zoph 等人的研究、Real 等人的研究),但用於視訊的神經架構 搜尋仍缺乏研究,即尚未開發出機器自動優化架構的視訊處理神經網路。處理視訊的卷積神經網路 (Video CNNs) 的構建通常需要大量計算和記憶體資源,因此很難設計一種既能高效 搜尋又可捕獲其特徵的方法。

為應對這些挑戰,我們對自動 搜尋進行了一系列研究,旨在探索更理想的神經網路架構,從而實現視訊理解。下文我們將展示三種不同的神經網路架構進化演算法:學習層及其模組配置 (EvaNet);學習多流連線 (AssembleNet);構建計算高效的緊湊網路 (TinyVideoNet)。我們開發的視訊架構在多個公開的資料集上的效能遠勝現有的人工模型,並在網路執行時實現了 10 至 100 倍的效能提升。

EvaNet:首個進化的視訊架構

EvaNet 是我們在構建視訊架構上的首次嘗試(詳情請參閱我們在 ICCV 2019 上發表的 《進化用於視訊的時空神經架構》(Evolving Space-Time Neural Architectures for Videos))。

EvaNet 是一種模組級架構 搜尋,側重於尋找時空卷積層的型別,及其最優順序或最優並行配置。此 搜尋採用帶有變異運算元的進化演算法,以迭代更新架構群。如此一來,我們可以更高效地對 搜尋空間進行並行 搜尋,而這正是視訊架構 搜尋在考慮各種時空層及其組合時所必需的條件。EvaNet 可演化成多個模組(在網路中的不同位置),進而生成不同架構。

實驗結果證明,通過進化異構模組獲得此類 Video CNN 架構具有諸多優點。該方法證明,由多個並行層組成的 Non-Trivial Modules 最高效,因為它們速度更快,展現出更勝於人工設計模組的效能。

另一個有趣的方面是,我們在進化中獲得了許多效能同樣出色的不同架構,無需額外計算。如果整合這些架構,我們可以進一步提升效能。由於架構的並行性質,使得即便是一個模型集合,其計算效率也要高於其他標準的視訊網路(例如 (2+1)D ResNet)。我們已開放此專案的原始碼。

神經架構搜尋在視訊理解中研究進展的綜述

各類 EvaNet 架構的示例圖:每個著色框(不論大小)均表示一個層,框的顏色對應其型別:3D 卷積(藍色)、(2+1)D 卷積(橙色)、iTGM(綠色)、最大池化(灰色)、平均(紫色)和 1x1 卷積(粉色)。通常通過對層進行分組來形成模組(較大框)。每個框中的數字表示過濾器大小。

AssembleNet:構建更強大、更出色的(多流)模型

在《AssembleNet:在視訊架構中 搜尋多流神經連線》(AssembleNet: Searching for Multi-Stream Neural Connectivity in Video Architectures)中,我們研究了一種新方法,針對不同的子網路和輸入模態(例如 RGB 和光流)及時間解析度進行融合。

AssembleNet 是一種會學習的架構,因此可提供通用方法來學習不同模態特徵表示輸入間的“連線”,並針對目標任務進行優化。我們引入了一種綜合機制,能夠將多種形式的多流卷積神經網路表示為有向圖並 結合高效的進化演算法,進而探索 高層網路連線。通過視訊中的表面資訊和動作的視覺線索更好的學習特徵表示。

不同於先前使用 Late Fusion 或 Fixed Intermediate Fusion 的雙流模型,AssembleNet 在通過連線權重學習指導架構變異的同時,進化出眾多過連線的、多流的、多解析度架構。我們首次研究了帶有不同中間連線的四流架構,其中有 RGB 流和視覺流這 2 種流,而每種流的時間解析度均各不相同。

通過對隨機初始多流架構池經過 50 至 150 輪的進化,我們發現了下圖所示的 AssembleNet 架構示例。我們在兩個非常流行的視訊識別資料集(Charades 和 Moments-in-Time (MiT))上測試了 AssembleNet。該架構首次在 MiT 的效能上超過 34%。而在 Charades 的效能上更令人吃驚,平均精度 (mean Average Precision) 為 58.6%,這一資料超過了先前已知的最佳結果(42.5 和 45.2)。

神經架構搜尋在視訊理解中研究進展的綜述

使用 MiT 資料集演化的 AssembleNet 模型:每個節點對應一個時空卷積層塊,而每個箭頭代表卷積層的連線。箭頭顏色越深,表示連線越強。AssembleNet 是一種可學習的多流架構,可針對目標任務進行優化

神經架構搜尋在視訊理解中研究進展的綜述

AssembleNet 與主流人工設計模型對比圖(左側使用 Charades 資料集,右側使用 MiT 資料集)。AssembleNet-50 或 AssembleNet-101 與雙流 ResNet-50 或 ResNet-101 擁有相同數量的引數。

Tiny Video Network:速度最快的視訊理解網路

為了使 Video CNN 模型適合執行於現實環境(如機器人需要的環境)中的裝置,我們必須擁有實時高效的計算。

不過,如要在處理視訊理解任務時獲得最佳 (state-of-the-art, SOTA) 結果,我們還需要應用許多輸入幀的超大型網路,這些網路通常擁有數十到數百個卷積層。因此,這些網路經常受到執行太慢的影響,具體表現為:在現代 GPU 和 CPU 上,每執行 1 秒視訊剪輯至少分別需要 500 多毫秒和 2000 多毫秒。在 Tiny Video Network 中,我們通過自動設計網路,以一小部分計算成本提供同等效能,進而解決了此問題。我們的 TinyVideoNet 可提供更高的精度,並且能更快速甚至實時地高效執行,具體表現為:在GPU 和 CPU 上,每執行約 1 秒的視訊剪輯分別用時 10 毫秒和 37 至 100 毫秒,此結果比人工設計的現代模型快了數百倍。

為實現上述效能提升,我們在架構進化過程中明確考慮模型執行時間並強制演算法 搜尋空間,同時加入空間或時間解析度和通道大小,從而減少計算量。下圖展示了通過 TinyVideoNet 發現的兩種簡單且十分高效的架構。有趣的是,通過學習獲得的模型架構比典型的視訊架構擁有更少的卷積層:Tiny Video Network 更喜歡輕量級元素,例如 2D pooling、Gating Layers和 Squeeze-and-Excitation Layers。此外,TinyVideoNet 還能夠 結合優化引數和執行時,從而提供用於未來網路探索的高效網路。

神經架構搜尋在視訊理解中研究進展的綜述

圖:TVN-1架構(上) TVN-2架構(下)

進化後,TinyVideoNet (TVN) 架構可以在最大限度提升識別效能的時候,同時保證計算時間不超過期望限制。例如,TVN-1執行在 CPU 和 GPU 上所需的時間分別為 37 毫秒和 10 毫秒。TVN-2執行在 CPU 和 GPU 上所需的時間分別為 65 毫秒和 13 毫秒。

神經架構搜尋在視訊理解中研究進展的綜述

TinyVideoNet 模型與先前模型的 CPU 執行時對比(左圖),以及 TinyVideoNet 與 (2+1)D ResNet 模型的執行時和模型精度對比(右圖)。請注意,TinyVideoNet 提取的是此時間精度空間中不存在其他模型的一部分(即極速但仍精確的部分)。

結論

據我們所知,這是業界將神經架構 搜尋應用於視訊理解的首次研究。我們在處理公共資料集時,使用全新進化演算法生成的視訊架構對比人工設計卷積神經網路架構有顯著優勢。此外,我們還可利用架構進化學習的視訊模型 TinyVideoNet。這項研究不但為我們開闢了全新方向,並展示出用於視訊理解的機器進化卷積神經網路的廣闊前景。

本研究由 Michael S. Ryoo、AJ Piergiovanni 和 Anelia Angelova 共同完成。此外,Alex Toshev 和 Mingxing Tan 也對本研究做出了貢獻。感謝 Vincent Vanhoucke、Juhana Kangaspunta、Esteban Real、Ping Yu 和 Sarah Sirajuddin 以及 Google 機器人團隊積極參與討論,併為我們提供支援。

如果您想 詳細瞭解 本文提及 的相關內容,請參閱以下文件。這些文件深入探討了這篇文章中提及的許多主題:

  • Inception

    https:// www.cv-foundation.org/openaccess/content_cvpr_2016/papers/Szegedy_Rethinking_the_Inception_CVPR_2016_paper.pdf

  • ResNet

    https://arxiv.org/abs/1512.03385

  • Zoph 等人的研究

    https://ai.googleblog .com/2017/05/using-machine-learning-to-explore.html

  • Real 等人的研究

    https://ai.googleblog .com/2018/03/using-evolutionary-automl-to-discover.html

  • EvaNet

    https://arxiv.org/abs/1811.10636

  • AssembleNet

    https://arxiv.org/abs/1905.13209

  • TinyVideoNet

    https://arxiv.org/abs/1910.06961

  • ICCV 2019

    http://iccv2019.thecvf .com/

  • 《進化用於視訊的時空神經架構》

    https://arxiv.org/abs/1811.10636

  • 進化演算法

    https://ai.googleblog .com/2018/03/using-evolutionary-automl-to-discover.html

  • (2+1)D

    https://arxiv.org/abs/1711.11248

  • 專案原始碼

    https://github .com/google-research/google-research/tree/master/evanet

  • 《AssembleNet:在視訊架構中 搜尋多流神經連線》

    https://arxiv.org/abs/1905.13209

  • 雙流模型

    https://arxiv.org/abs/1406.2199

  • 連線權重學習

    https://arxiv.org/pdf/1905.13209.pdf

  • Charades

    https://allenai.org/plato/charades/

  • Moments-in-Time

    http://moments.csail.mit.edu/

  • Tiny Video Network

    https://arxiv.org/abs/1910.06961

  • Squeeze-and-Excitation

    https://arxiv.org/abs/1709.01507



https://www.toutiao.com/i6767715199295160846/




來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69946223/viewspace-2667438/,如需轉載,請註明出處,否則將追究法律責任。

相關文章