AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
本文介紹剛剛被 IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI) 錄用的一篇文章:Uni-AdaFocus: Spatial-temporal Dynamic Computation for Video Recognition,會議版本 AdaFocus V1/V2/V3 分別發表於 ICCV-2021 (oral)、CVPR-2022、ECCV-2022。
- 論文連結:https://arxiv.org/abs/2412.11228
- 專案連結:https://github.com/LeapLabTHU/Uni-AdaFocus
Uni-AdaFocus 是一個通用的高效影片理解框架,實現了降低時間、空間、樣本三維度冗餘性的統一建模。程式碼和預訓練模型已開源,還有在自定義資料集上使用的完善教程,請訪問專案連結。Uni-AdaFocus 的關鍵思想與設計思路在於,它建立了一個統一的框架,實現了降低時間、空間、樣本冗餘性的統一建模,並且使用一些數學方法處理了時空動態計算不可微分的問題,可以方便地進行高效端到端訓練,無需強化學習等更為複雜的方法。- 降低時間冗餘性:動態定位和聚焦於任務相關的關鍵影片幀;
- 降低空間冗餘性:動態定位和聚焦於影片幀中的任務相關空間區域;
- 降低樣本冗餘性:將計算資源集中於更加困難的樣本,在不同樣本間差異化分配;
在長影片理解上,Uni-AdaFocus 比現有最好的同類 baseline 加速了 5 倍。它可以相容於現有的高效 backbone,利用動態計算的思想進一步提升其效率,例如將 TSM 和 X3D 各自加速了 4 倍左右。在上述加速情形中,Uni-AdaFocus 基本上都在加速的同時實現了比較顯著的準確性提升。在 7 個學術資料集(ActivityNet, FCVID, Mini-Kinetics, Sth-Sth V1&V2, Jester, Kinetics-400)和 3 個應用場景(使用腦 MRI 診斷阿爾茲海默症和帕金森綜合徵、細粒度跳水動作識別、網際網路不良影片檢測)上進行了驗證,Uni-AdaFocus 發揮穩定,特定典型情況下可實現多達 23 倍的(效能無損)推理加速或高達 7.7% 的準確性提升。在 CPU/GPU 實測速度、吞吐量上,Uni-AdaFocus 與理論結果高度一致。相較於影像,影片理解是一個分佈範圍更廣、應用場景更多的任務。例如,每分鐘,即有超過 300 小時的影片上傳至 YouTube,超過 82% 的消費網際網路流量由線上影片組成。自動識別這些海量影片中的人類行為、互動、事件、緊急情況等內容,對於影片推薦、影片監控、智慧編輯與創作、教育與培訓、健康醫療等受眾廣泛的應用具有重要意義。同時,面向影片資料的視覺理解技術在具身智慧、自動駕駛、機器人等物理世界的實際場景中也有廣泛的應用空間。近年來,已有很多基於深度神經網路的影片理解演算法取得了較佳的效能,如 TSM、SlowFast、I3D、X3D、ViViT 等。然而,一個嚴重的問題是,相較於影像,使用深度神經網路處理影片通常會引入急劇增長的計算開銷。如下圖所示,將 ResNet-50 應用於影片理解將使運算量(FLOPs)擴大 8-75 倍。因此,一個關鍵問題在於,如何降低影片理解模型的計算開銷。一個非常自然的想法是從影片的時間維度入手:一方面,相鄰的影片幀之間往往具有較大的相似性,逐幀處理將引入冗餘計算。另一方面,並非全部影片幀的內容都與理解任務相關。現有工作大多從這一時間冗餘性出發,動態尋找影片中的若干關鍵幀進行重點處理,以降低計算成本,如下圖第二行 (b) 所示。然而,值得注意的一點是,該團隊發現,目前尚未有工作關注於影片中的空間冗餘性。具體而言,在每一幀影片中,事實上只有一部分空間區域與任務相關,如圖中的運動員、起跳動作、水花等。受此啟發,該團隊提出了 AdaFocus 方法來動態定位每幀中的任務相關區域,並將最多的計算資源分配到這些區域以實現高效處理,如上圖第三行 (c) 所示。以 AdaFocus 為基礎,該團隊進一步實現了時間、空間、樣本三個維度的統一動態計算,提出了一個通用於大多數骨幹網路(backbone)的 Uni-AdaFocus 框架。Uni-AdaFocus 能夠自適應地關注於影片中任務相關的關鍵幀、關鍵幀中任務相關的重要區域、以及將計算資源更多地分配給更為困難的樣本,如上圖第四行 (d) 所示。如上圖所示,Uni-AdaFocus 首先使用全域性編碼器 f_G(輕量化的特徵提取網路,例如 MobileNet-V2 等)用低成本對均勻取樣的影片幀進行粗略處理,獲得影片整體的時空分佈資訊,即全域性特徵。一個策略網路 π 基於 f_G 提取的全域性特徵自適應地取樣關鍵幀以及其中的關鍵區域,得到值得關注的 patches,patch 的形狀和大小根據影片幀的具體特性自適應地決定。區域性編碼器 f_L(引數量大的大容量神經網路,準確率高但計算開銷較大)僅處理策略網路 π 選擇出的 patches,即區域性特徵。最後分類器 f_C 逐幀聚合全域性特徵和區域性特徵以得到最優的影片理解結果,同時透過早退機制實現對樣本維度計算冗餘性的建模。關於 Uni-AdaFocus 模型設計和訓練方法的更多細節,由於比較繁雜,可以移步參閱論文。使用 MobileNet-V2 和 ResNet-50 為 backbone, Uni-AdaFocus 在 ActivityNet,FCVID 和 Mini-Kinetics 上的實驗結果,以及與現有最佳同類方法的比較。 藍色文字表示基於 baseline 模型的提升幅度使用 MobileNet-V2-TSM 和 ResNet-50-TSM 為 backbone,Uni-AdaFocus 在 Something-Something-V1 / V2 和 Jester 上的實驗結果。使用 X3D-S 和 X3D-L 為 backbone,Uni-AdaFocus 在 Kinetics-400 上的實驗結果。Uni-AdaFocus 在 3 個應用場景(使用腦 MRI 診斷阿爾茲海默症和帕金森綜合徵、細粒度跳水動作識別、網際網路不良影片檢測)上的實驗結果。Uni-AdaFocus 的視覺化結果。所示的影片幀為 Uni-AdaFocus 所選取的任務相關幀,淺藍色方塊表示 Uni-AdaFocus 在每一幀選擇的 patch。可以看到 Uni-AdaFocus 成功定位到任務相關影片幀中的任務相關區域,例如長笛、小狗、聖誕樹、馬術運動員等,並能自適應地調整 patch 的大小和形狀、以及任務相關影片幀的數目。