【ECCV 2022】TeSTRa:穩定的流式影片識別

Zilliz發表於2023-02-27

出品人:Towhee 技術團隊 顧夢佳

流式影片識別影片會關注每一個影片幀中的物件及其行為。一個好的流式識別模型可以捕獲影片的長期動態和短期變化。然而在大多數現有方法中,尤其是基於 Transformers 架構的網路,計算複雜度往往會隨著所考慮的變化的長度而劇烈增長。為了解決這個問題,TeSTra 提出一種時序平滑 Transformer,可以接收任意長度的輸入,並具有穩定的快取和計算開銷。由於時間跨度增加,TeSTra 成功在兩個標準線上動作檢測和動作預期資料集 THUMOS'14 和 EPIC-Kitchen-100 上取得了最先進的結果。

圖片

Overview of streaming attention architecture TeSTraTeSTra

能夠對足夠長的歷史進行編碼,每個時間步的推理成本都很穩定。該框架透過核心鏡頭重新表述了影片 Transformer 中的交叉注意力。它採用了一種有效的注意力機制,在連續幀之間重複使用大部分注意力計算。並應用了兩種時間平滑核心:box kernel 和 Laplace kernel。這樣的設計實現了高效的流式注意計算。

相關資料
程式碼地址:https://github.com/zhaoyue-ze...
論文連結:Real-time Online Video Detection with Temporal Smoothing Transformers

相關文章