【NeurIPS 2022】影片動作識別,AFNet 用更低的成本接收更多資料

Zilliz發表於2023-02-24

出品人:Towhee 技術團隊 顧夢佳

為了避免大量的計算,現有的影片動作識別方法通常會取樣幾幀來表示每個影片,然而這往往會限制識別的效能。為此,Ample and Focal Network(AFNet)提出兩個分支的結構,以用更少的計算量利用更多的影片幀。在減少計算量的前提下,AFNet 依然能借助其中間特徵中的動態選擇強制執行隱式時序建模,成功實現更高的精度。此外,該方法還可以幫助用更低的成本減少空間冗餘。在五個公開的動作檢測資料集上進行大量實驗,AFNet 證明了其有效性和效率。

Architecture of AFNetAFNet

雖然使用了更多影片幀,但明智地從中提取資訊以保持較低的計算成本。具體來說,該方法設計了一個雙分支結構,根據影片幀的重要性進行區別對待。另外,它以自適應的方式處理特徵,以獲得提供強大的靈活性。Ample Branch 將以較低的解析度和較小的通道尺寸處理所有的輸入特徵。它將所有的影片幀作為資料,透過壓縮計算獲得豐富的資訊,並利用所提出的定位模組為 Focal Branch 提供指導。而 Focal Branch 壓縮時序大小以僅關注每個卷積塊的顯著幀。該分支只會針對導航模組建議的顯著幀,計算其彩色特徵。兩個分支的結果在 AF 模組的末尾自適應融合,防止資訊丟失。

相關資料:

程式碼地址:https://github.com/bespontaneous/afnet-pytorch
論文連結:Look More but Care Less in Video Recognition

相關文章