出品人:Towhee 技術團隊 王翔宇、顧夢佳
影片識別的標準方法通常會對完整的影片輸入進行操作,這往往會由於影片中廣泛存在的時空冗餘導致效率低下。影片掩碼建模(即 VideoMAE)的最新進展表明,普通視覺 Transformer (ViT) 能夠在僅給定有限視覺內容的情況下補充時空上下文。受此啟發,掩碼動作識別(MAR)提出丟棄一部分 patch 並僅對部分影片進行操作,以此減少冗餘計算。相比 ViT 模型,MAR 能夠在大量降低計算成本的同時,還能始終展現出顯著的效能優勢。尤其是由 MAR 訓練的 ViT-Large,在動作識別資料集 Kinetics-400 和 Something-Something v2 上均具有令人信服的優勢。
Overview of Masked Action Recognition (MAR).
MAR 包含以下兩個不可或缺的元件:cell running masking 和 bridging classifier。具體來說,為了使 ViT 能夠輕鬆感知可見 patch 之外的細節,cell running masking 保留了影片中的時空相關性。它能夠確保可以依次觀察相同空間位置的 patch,以便於重建。此外,雖然部分觀察到的特徵可以重建語義顯式的不可見 patch,但它們無法實現準確的分類。 為此,bridging classifier 被用來彌合用於重建的 ViT 編碼特徵與專門用於分類的特徵之間的語義鴻溝。
相關資料:
程式碼地址:https://github.com/alibaba-mmai-research/Masked-Action-Recognition
論文連結:MAR: Masked Autoencoders for Efficient Action Recognition