出品人:Towhee 技術團隊
由中科院、國科大、上海人工智慧實驗室、商湯、香港中文大學幾大高手聯合出品,SoTA 模型 UniFormer (UNIFIED TRANSFORMER) 在主流資料集上都取得了優秀的成績:在 Kinetics-400/Kinetics600 上取得 82.9% / 84.8% top-1 精度;在 Something-Something V1 & V2 上取得 60.9% 和 71.2% top-1 精度。其論文一經發表,就獲得了高分,最終收錄於 ICLR 2022(初審評分高達7.5分: 8 8 6 8)。
| UniFormer Architecture
UniFormer 提出了一種整合 3D 卷積和時空自注意力機制的 Transformer 結構,能在計算量和精度之間取得平衡。不同於傳統的 Transformer 結構在所有層都使用自注意力機制,論文中提出的 relation aggregator 可以分別處理視訊的冗餘資訊和依賴資訊。在淺層,aggregator 利用一個小的 learnable matrix 學習區域性的關係,通過聚合小的 3D 鄰域的 token 資訊極大地減少計算量。在深層,aggregator通過相似性比較學習全域性關係,可以靈活的建立遠距離視訊幀 token 之間的長程依賴關係。
參考資料:
模型用例:action-classification/video-swin-transformer
論文:[UNIFORMER: UNIFIED TRANSFORMER FOR EFFICIENT
SPATIOTEMPORAL REPRESENTATION LEARNING](https://arxiv.org/pdf/2201.04...)
更多資料:
高分論文!UniFormer:高效時-空表徵學習的統一Transformer
ICLR2022 UniFormer:無縫整合 Transformer,更高效的時空表徵學習框架
更多專案更新及詳細內容請關注我們的專案( https://github.com/towhee-io/...) ,您的關注是我們用愛發電的強大動力,歡迎 star, fork, slack 三連 :)