You Only Watch Once:實時人體動作定位網路

我爱计算机视觉發表於2019-11-22


今天跟大家介紹一篇YOLO風格濃郁的論文,來自慕尼黑工業大學的學者受人類視覺的啟發,提出一種快速實時的視訊動作定位方法You Only Watch Once(YOWO),達到了目前最好的效果,而且程式碼將開源。

下面為作者資訊:


You Only Watch Once:實時人體動作定位網路


視訊動作定位是在視訊中定位出正在執行動作的主體並識別出動作的問題。

請看下面這幅動圖:

You Only Watch Once:實時人體動作定位網路

很顯然該問題包括:在多幀中定位主體和動作分類。

在對關鍵幀(當前幀)進行動作分類時,很顯然要考慮之前的資料。

You Only Watch Once:實時人體動作定位網路

作者提出的演算法正是在這一觀察下,結合3D-CNN 提取時空資訊和2D CNN 提取位置資訊再特徵融合,並參考YOLO檢測方法提出來的。

不同於以往類似Faster R-CNN兩階段方法,先生成大量proposals,再進行分類和位置提精,YOWO在一個網路中實現了時空資訊的提取和融合,易於訓練,精度高,而且速度也很快。

演算法架構

下圖為YOWO從資料輸入到輸出的整個過程:

You Only Watch Once:實時人體動作定位網路

使用3D CNN對視訊片段提取時空資訊,使用2D CNN對關鍵幀提取空間資訊,對得到的兩部分特徵進行注意力機制和通道融合(CFAM)的特徵聚合,後面的過程與YOLO一樣,卷積後進行分類和包圍框迴歸。

作者提出的CFAM特徵聚合方法:

You Only Watch Once:實時人體動作定位網路


開始處,紅色和深藍色代表前一階段的兩個分枝的特徵拼合在一起。

實驗結果

作者在UCF101-24 和 J-HMDB-21資料集上進行了實驗,驗證了演算法各部分的有效性,並在與state-of-the-art演算法的比較上,取得明顯的精度改進。

You Only Watch Once:實時人體動作定位網路

上圖展示了在兩種度量標準下,作者提出的演算法各部分都取得了精度增益。

在兩個資料集上與SOTA演算法的結果比較:

You Only Watch Once:實時人體動作定位網路

在Frame-mAP的度量標準下,YOWO達到了更高的精度,分別比之前的最好結果提高了3.3 和12.2 個百分點。

與其他演算法相比,速度更是一大亮點:

You Only Watch Once:實時人體動作定位網路

在Titan xp GPU上,YOWO 可達到 62 fps!

以下是作者給出的一些結果:

You Only Watch Once:實時人體動作定位網路

You Only Watch Once:實時人體動作定位網路

You Only Watch Once:實時人體動作定位網路

You Only Watch Once:實時人體動作定位網路

You Only Watch Once:實時人體動作定位網路


這個問題還是蠻有意思的,把YOWO用在“打架識別”,應該很有前途^_^

論文地址:

https://arxiv.org/pdf/1911.06644.pdf

專案地址:

https://github.com/wei-tim/YOWO

(還未開源,但已經引起了很多人關注!)

相關文章