【ECCV 2022】高效影片學習框架 EVL,CLIP 助力影片識別

Zilliz發表於2023-02-22

出品人:Towhee 技術團隊 顧夢佳

影片識別一直以端到端的學習正規化為主,即首先使用預訓練影像模型的權重初始化影片識別模型,然後用影片進行端到端訓練。雖然這種方式使得影片網路能夠從預訓練的影像模型中受益,但是它需要大量的計算和記憶體資源來微調影片模型。另外,如果直接使用預訓練好的影像模型而不透過微調主幹網路,這樣獲得的影像特徵會導致最終的影片網路結果不佳。幸運的是,CLIP 最近的進展為視覺識別任務的新路徑鋪平了道路。這些模型在大型開放詞彙影像-文字對資料上進行了預訓練,學習了具有豐富語義的強大視覺表示。在此基礎上,高效影片學習框架 EVL 能夠直接訓練具有凍結 CLIP 特徵的高質量影片識別模型。廣泛的實驗證明了 EVL 的有效性,並發現它是一種簡單有效的流水線,具有更高的準確性,同時降低了訓練和推理成本。

EVL ArchitectureEVL 設計了一種有效的遷移學習方法,能夠利用凍結的 CLIP 影像特徵進行影片識別。為了從 CLIP 影像編碼器動態收集幀級空間特徵,該框架採用了一個輕量級的 Transformer 解碼器並學習了一個查詢 token。此外,它在每個解碼器層中採用了區域性時間模組,以便發現來自相鄰幀及其注意力圖的時間線索。最後,模型使用全連線層來預測影片類別的分數。

相關資料:

程式碼地址:https://github.com/opengvlab/...
論文連結:Frozen CLIP Models are Efficient Video Learners
更多資料:ECCV2022|港中文MM Lab證明Frozen的CLIP 模型是高效影片學習者

相關文章