影片理解因大量時空冗餘和複雜時空依賴,同時克服兩個問題難度巨大,CNN 和 Transformer 及 Uniformer 都難以勝任,Mamba 是個好思路,讓我們看看本文是如何創造影片理解的 VideoMamba。
影片理解的核心目標在於對時空表示的把握,這存在兩個巨大挑戰:短影片片段存在大量時空冗餘和複雜的時空依賴關係。儘管曾經占主導地位的三維卷積神經網路 (CNN) 和影片 Transformer 透過利用區域性卷積或長距離注意力有效地應對其中之一的挑戰,但它們在同時解決這兩個挑戰方面存在不足。UniFormer 試圖整合這兩種方法的優勢,但它在建模長影片方面存在困難。
S4、RWKV 和 RetNet 等低成本方案在自然語言處理領域的出現,為視覺模型開闢了新的途徑。Mamba 憑藉其選擇性狀態空間模型 (SSM) 脫穎而出,實現了在保持線性複雜性的同時促進長期動態建模的平衡。這種創新推動了它在視覺任務中的應用,正如 Vision Mamba 和 VMamba 所證實的那樣,它們利用多方向 SSM 來增強二維影像處理。這些模型在效能上與基於注意力的架構相媲美,同時顯著減少了記憶體使用量。
鑑於影片產生的序列本身更長,一個自然的問題是:Mamba 能否很好地用於影片理解?
受 Mamba 啟發,本文引入了 VideoMamba 專為影片理解量身定製的純 SSM (選擇性狀態空間模型)。VideoMamba 以 Vanilla ViT 的風格,將卷積和注意力的優勢融合在一起。它提供一種線性複雜度的方法,用於動態時空背景建模,非常適合高解析度的長影片。相關評估聚焦於 VideoMamba 的四個關鍵能力:
在視覺領域的可擴充套件性:本文對 VideoMamba 的可擴充套件性進行了檢驗,發現純 Mamba 模型在不斷擴充套件時往往容易過擬合,本文引入一種簡單而有效的自蒸餾策略,使得隨著模型和輸入尺寸的增加,VideoMamba 能夠在不需要大規模資料集預訓練的情況下實現顯著的效能增強。
對短期動作識別的敏感性:本文的分析擴充套件到評估 VideoMamba 準確區分短期動作的能力,特別是那些具有細微動作差異的動作,如開啟和關閉。研究結果顯示,VideoMamba 在現有基於注意力的模型上表現出了優異的效能。更重要的是,它還適用於掩碼建模,進一步增強了其時間敏感性。
在長影片理解方面的優越性:本文評估了 VideoMamba 在解釋長影片方面的能力。透過端到端訓練,它展示了與傳統基於特徵的方法相比的顯著優勢。值得注意的是,VideoMamba 在 64 幀影片中的執行速度比 TimeSformer 快 6 倍,並且對 GPU 記憶體需求減少了 40 倍 (如圖 1 所示)。
與其他模態的相容性:最後,本文評估了 VideoMamba 與其他模態的適應性。在影片文字檢索中的結果顯示,與 ViT 相比,其效能得到了改善,特別是在具有複雜情景的長影片中。這凸顯了其魯棒性和多模態整合能力。
本文的深入實驗揭示了 VideoMamba 在理解短期 (K400 和 SthSthV2) 和長期 (Breakfast,COIN 和 LVU) 影片內容方面的巨大潛力。鑑於其高效性和有效性,VideoMamba 註定將成為長影片理解領域的重要基石。所有程式碼和模型均已開源,以促進未來的研究努力。
論文地址:https://arxiv.org/pdf/2403.06977.pdf
專案地址:https://github.com/OpenGVLab/VideoMamba
論文標題:VideoMamba: State Space Model for Efficient Video Understanding
方法介紹
下圖 2a 顯示了 Mamba 模組的細節。
圖 3 說明了 VideoMamba 的整體框架。本文首先使用 3D 卷積 (即 1×16×16) 將輸入影片 Xv ∈ R 3×T ×H×W 投影到 L 個非重疊的時空補丁 Xp ∈ R L×C,其中 L=t×h×w (t=T,h= H 16, 和 w= W 16)。輸入到接下來的 VideoMamba 編碼器的 token 序列是
時空掃描:為了將 B-Mamba 層應用於時空輸入,本文圖 4 中將原始的 2D 掃描擴充套件為不同的雙向 3D 掃描:
(a) 空間優先,透過位置組織空間 token,然後逐幀堆疊它們;
(b) 時間優先,根據幀排列時間 token,然後沿空間維度堆疊;
(c) 時空混合,既有空間優先又有時間優先,其中 v1 執行其中的一半,v2 執行全部 (2 倍計算量)。
圖 7a 中的實驗表明,空間優先的雙向掃描是最有效但最簡單的。由於 Mamba 的線性複雜度,本文的 VideoMamba 能夠高效地處理高解析度的長影片。
對於 B-Mamba 層中的 SSM,本文采用與 Mamba 相同的預設超引數設定,將狀態維度和擴充套件比例分別設定為 16 和 2。參照 ViT 的做法,本文調整了深度和嵌入維度,以建立與表 1 中相當大小的模型,包括 VideoMamba-Ti,VideoMamba-S 和 VideoMamba-M。然而實驗中觀察到較大的 VideoMamba 在實驗中往往容易過擬合,導致像圖 6a 所示的次優效能。這種過擬合問題不僅存在於本文提出的模型中,也存在於 VMamba 中,其中 VMamba-B 的最佳效能是在總訓練週期的四分之三時達到的。為了對抗較大 Mamba 模型的過擬合問題,本文引入了一種有效的自蒸餾策略,該策略使用較小且訓練良好的模型作為「教師」,來引導較大的「學生」模型的訓練。如圖 6a 所示的結果表明,這種策略導致了預期的更好的收斂性。
關於掩碼策略,本文提出了不同的行掩碼技術,如圖 5 所示,專門針對 B-Mamba 塊對連續 token 的偏好。
實驗
表 2 展示了在 ImageNet-1K 資料集上的結果。值得注意的是,VideoMamba-M 在效能上顯著優於其他各向同性架構,與 ConvNeXt-B 相比提高了 + 0.8%,與 DeiT-B 相比提高了 + 2.0%,同時使用的引數更少。VideoMamba-M 在針對增強效能採用分層特徵的非各向同性主幹結構中也表現出色。鑑於 Mamba 在處理長序列方面的效率,本文透過增加解析度進一步提高了效能,僅使用 74M 引數就實現了 84.0% 的 top-1 準確率。
表 3 和表 4 列出了短期影片資料集上的結果。(a) 監督學習:與純注意力方法相比,基於 SSM 的 VideoMamba-M 獲得了明顯的優勢,在與場景相關的 K400 和與時間相關的 Sth-SthV2 資料集上分別比 ViViT-L 高出 + 2.0% 和 + 3.0%。這種改進伴隨著顯著降低的計算需求和更少的預訓練資料。VideoMamba-M 的結果與 SOTA UniFormer 不相上下,後者在非各向同性結構中巧妙地將卷積與注意力進行了整合。(b) 自監督學習:在掩碼預訓練下,VideoMamba 的效能超越了以其精細動作技能而聞名的 VideoMAE。這一成就突顯了本文基於純 SSM 的模型在高效有效地理解短期影片方面的潛力,強調了它適用於監督學習和自監督學習正規化的特點。
如圖 1 所示,VideoMamba 的線性複雜度使其非常適合用於與長時長影片的端到端訓練。表 6 和表 7 中的比較突顯了 VideoMamba 在這些任務中相對於傳統基於特徵的方法的簡單性和有效性。它帶來了顯著的效能提升,即使在模型尺寸較小的情況下也能實現 SOTA 結果。VideoMamba-Ti 相對於使用 Swin-B 特徵的 ViS4mer 表現出了顯著的 + 6.1% 的增長,並且相對於 Turbo 的多模態對齊方法也有 + 3.0% 的提升。值得注意的是,結果強調了針對長期任務的規模化模型和幀數的積極影響。在 LVU 提出的多樣化且具有挑戰性的九項任務中,本文采用端到端方式對 VideoMamba-Ti 進行微調,取得了與當前 SOTA 方法相當或優秀的結果。這些成果不僅突顯了 VideoMamba 的有效性,也展示了它在未來長影片理解方面的巨大潛力。
如表 8 所示,在相同的預訓練語料庫和類似的訓練策略下,VideoMamba 在零樣本影片檢索效能上優於基於 ViT 的 UMT。這突顯了 Mamba 在處理多模態影片任務中與 ViT 相比具有可比較的效率和可擴充套件性。值得注意的是,對於具有更長影片長度 (例如 ANet 和 DiDeMo) 和更復雜場景 (例如 LSMDC) 的資料集,VideoMamba 表現出了顯著的改進。這表明了 Mamba 在具有挑戰性的多模態環境中,甚至在需求跨模態對齊的情況下的能力。
更多研究細節,可參考原論文。