「技術綜述」視訊分類/行為識別研究綜述，從資料集到方法

dicksonjyl560101發表於2019-08-25

原文網址 : http://blog.itpub.net/29829936/viewspace-2654854/

視訊分類/行為識別是計算機視覺領域中非常有挑戰性的課題，因為其不僅僅要分析目標體的空間資訊，還要分析時間維度上的資訊，如何更好的提取出空間-時間特徵是問題的關鍵。本文總結了該領域的技術進展和相關資料集，技術進展從傳統特徵法到深度學習中的3DCNN，LSTM，Two-Stream等。

作者 | 言有三

編輯 | 言有三

1 視訊分類/行為識別問題

首先我們要明確這是一個什麼問題，基於視訊的行為識別包括兩個主要問題，即行為定位和行為識別。行為定位即找到有行為的視訊片段，與2D影象的目標定位任務相似。而行為識別即對該視訊片段的行為進行分類識別，與2D影象的分類任務相似。

本文聚焦的是行為識別，即對整個視訊輸入序列進行視訊分類，一般都是經過裁剪後的視訊切片。接下來從資料集的發展，傳統方法，深度學習方法幾個方向進行總結。

2 視訊分類/行為分析重要資料集

深度學習任務的提升往往伴隨著資料集的發展，視訊分類/行為識別相關的資料集非常多，這裡先給大家介紹在論文評測中最常見的3個資料集。

2.1 HMDB-51

HMDB-51共51個類別，6766個短視訊。資料集地址：http://serre-lab.clps.brown.edu/resource/hmdb-a-large-human-motion-database/#dataset，釋出於2011年。

資料來源非常廣泛，包括電影，一些現有的公開資料集，YouTube視訊等。從中選擇了51個類別，每一個類別包含101個以上視訊。

分為5大類：

常見的面部動作(smile，laugh，chew，talk)
複雜的面部動作(smoke，eat，drink)
常見的肢體動作(climb，dive，jump)
複雜的肢體動作(brush hair，catch，draw sword)
多人互動肢體動作(hug，kiss，shake hands)

下面是其中一些維度的統計，包括姿態，相機運動等。

51個類別的展示如下：

2.2 UCF-101

UCF-101共101個類別，13320個短視訊。資料集地址：https://www.crcv.ucf.edu/research/data-sets/human-actions/ucf101/，釋出於2012年。

UCF-101是目前動作類別數、樣本數最多的資料集之一，包含5大類動作：人與物體互動、人體動作、人與人互動、樂器演奏、體育運動。總共包括在自然環境下101種人類動作，每一類由25個人做動作，每個人做4-7組，視訊大小為320×240。正因為類別眾多加上在動作的採集上具有非常大的多樣性，如相機執行、外觀變化、姿態變化、物體比例變化、背景變化等等，所以也成為了當前難度最高的動作類資料集挑戰之一。

各個類別的分佈如上，相對還是比較均勻的，UCF-101是視訊分類/行為識別方法必須評測的標準。

2.3 Kinetics-700 dataset

Kinetics-700 dataset被用於ActivityNet比賽，包含約650000個視訊，700個類別。資料集地址：https://deepmind.com/research/open-source/open-source-datasets/kinetics/，釋出於2019年。

ActivityNet比賽始於2016的CVPR，是與ImageNet齊名的在視訊理解方面最重要的比賽。在這個比賽下的Task A–Trimmed Action Recognition比賽是一個視訊分類比賽，2019年的比賽使用kinetics-700資料集，在此之前還有2017年的kinetics-400和2018年的kinetics-600。

資料集是Google的deepmind團隊提供，每個類別至少600個視訊以上，每段視訊持續10秒左右，標註一個唯一的類別。行為主要分為三大類：人與物互動，比如演奏樂器；人人互動，比如握手、擁抱；運動等。即person、person-person、person-object。

除了以上資料集，比較重要的還有Sports-1M，YouTube-8M等，篇幅所限，就不一一描述，大家可以參考文獻[1]。

如果不能下載資料集，可以移步有三AI知識星球獲取。

3 傳統有監督特徵提取方法

傳統的方法通過提取關鍵點的特徵來對視訊進行描述，以時空關鍵點，密集軌跡方法等為代表。

3.1 時空關鍵點(space-time interest points)

基於時空關鍵點的核心思想是：視訊影象中的關鍵點通常是在時空維度上發生強烈變化的資料，這些資料反應了目標運動的重要資訊[2]。

比如一個人揮舞手掌，手掌一定會在前後幀中發生最大移動，其周圍影象資料發生變化最大。而這個人的身體其他部位卻變化很小，資料幾乎保持不變。如果能將這個變化資料提取出來，並且進一步分析其位置資訊，那麼可以用於區分其他動作。

時空關鍵點的提取方法是對空間關鍵點方法的擴充套件，空間關鍵點的提取則是基於多尺度的影象表達，這裡的時空關鍵點就是將2D Harris角點的檢測方法擴充到了3D，具體求解方法非常複雜讀者需要自行了解，篇幅問題就不講述了。

得到了這些點之後，基於點的一次到四次偏導數，組合成一個34維的特徵向量，使用k-means對這些特徵向量進行了聚類。

除了harris，經典的2D描述子SIFT被擴充到3D空間[3]，示意圖如下：

上圖從左至右分別展示了2D SIFT特徵，多個時間片的2D SIFT特徵，以及3D SIFT特徵，後兩者的區別在於計算區域的不同，3D SIFT的每一個關鍵點包含3個值，幅度和兩個角度

統計關鍵點時空周圍的梯度直方圖就可以形成特徵描述子，然後對所有的特徵描述子進行k-means聚類，劃分類別，形成詞彙“word”。所有不同word就構成了一個vocabulary，每個視訊就可以通過出現在這個vocabulary中詞彙的數量來進行描述，最後訓練一個SVM或者感知器來進行動作識別。

除了以上的兩種特徵，還有HOG3D等，感興趣的讀者可以自行閱讀。

3.2 密集軌跡(dense-trajectories)[4]

時空關鍵點是編碼時空座標中的視訊資訊，而軌跡法iDT(improved Dense Trajectories)是另一種非常經典的方法，它追蹤給定座標影象沿時間的變化。

iDT演算法包含三個步驟：密集取樣特徵點，特徵軌跡跟蹤和基於軌跡的特徵提取。

密集取樣是對不同尺度下的影象進行規則取樣，不過真正被用於跟蹤等不是所有點，因為平滑區域的點沒有跟蹤意義，通過計算每個畫素點自相關矩陣的特徵值，並設定閾值去除低於閾值的特徵點來實現這個選擇。

對軌跡的追蹤是通過光流，首先計算影象光流速率(ut, vt)，然後通過這個速率來描述影象運動軌跡：

wt是密集光流場，M是中值濾波器，得到的一系列點形成了一個軌跡。由於軌跡會隨著時間漂移，可能會從初始位置移動到很遠的地方。所以論文對軌跡追蹤距離做了限制，首先將幀數限制在L內，而且軌跡空間範圍限制在WxW範圍，如果被追蹤點不在這個範圍，就重新取樣進行追蹤，這樣可以保證軌跡的密度不會稀疏。

除了軌跡形狀特徵，還提取了HOG，HOF(histogram of flow)以及MBH(motion boundary histogram)等特徵。其中HOG特徵計算的是灰度影象梯度的直方圖，HOF計算的是光流的直方圖，MBH計算的是光流梯度的直方圖，也可以理解為在光流影象上計算的HOG特徵，它反應了不同畫素之間的相對運動。

以HOG特徵為例，在一個長度為L的軌跡的各幀影象上取特徵點周圍大小為N×N的區域，將其在空間和時間上進行劃分。假如空間劃分為2*2，時間劃分為3份，bins為8，則HOG特徵維度為2*2*3*8=96，HOF特徵和MBH特徵計算類似。

提取出HOG等資訊後，接下來具體的分類與上面基於時空關鍵點的方法類似，不再贅述。

4 深度學習方法

當前基於CNN的方法不需要手動提取特徵，效能已經完全超越傳統方法，以3D卷積，RNN/LSTM時序模型，雙流法等模型為代表。

4.1 3D卷積[5]

視訊相對於影象多出了一個維度，而3D卷積正好可以用於處理這個維度，因此也非常適合視訊分類任務，缺點是計算量比較大，下圖展示了一個簡單的3D模型。

4.2 RNN/LSTM[6]

視訊和語音訊號都是時序訊號，而RNN和LSTM正是處理時序訊號的模型。如下圖所示，通過CNN對每一個視訊幀提取特徵，使用LSTM建模時序關係。

4.3 雙流法(two-stream)[7]

雙流法包含兩個通道，一個是RGB影象通道，用於建模空間資訊。一個是光流通道，用於建模時序資訊。兩者聯合訓練，並進行資訊融合。

雙流模型是視訊分類中非常重要的一類模型，在特徵的融合方式，光流的提取等方向都有非常多的研究，關於更多模型的解讀如果感興趣可以移步有三AI知識星球中的模型結構1000變板塊。

4.4 其他

關於各種視訊分類的網路結構解讀，有興趣的同學可以到有三AI知識星球中進行閱讀和後續學習。

5 總結

雖然在UCF-101資料集上評測指標已經達到了98.5%，但是視訊的分類目前遠沒有影象分類成熟，面臨著巨大的類內方差，相機運動和背景干擾，資料不足等難題。

除了要解決以上難題外，有以下幾個重要方向是值得研究的。

多模態資訊融合。即不只是採用影象資訊，還可以融合語音等資訊。
多標籤視訊分類。與多標籤影象分類類似，現實生活中的視訊可能有多個標籤。
行為定位。一段視訊中的行為有開始和結束，如何定位到真正有效的片段是之後的視訊分類的重要前提。

參考文獻

[1] Kong Y, Fu Y. Human action recognition and prediction: A survey[J]. arXiv preprint arXiv:1806.11230, 2018.

[2] Laptev I. On space-time interest points[J]. International journal of computer vision, 2005, 64(2-3): 107-123.

[3] Scovanner P, Ali S, Shah M. A 3-dimensional sift descriptor and its application to action recognition[C]//Proceedings of the 15th ACM international conference on Multimedia. ACM, 2007: 357-360.

[4] Wang H, Kläser A, Schmid C, et al. Dense trajectories and motion boundary descriptors for action recognition[J]. International journal of computer vision, 2013, 103(1): 60-79.

[5] Ji S, Xu W, Yang M, et al. 3D convolutional neural networks for human action recognition[J]. IEEE transactions on pattern analysis and machine intelligence, 2012, 35(1): 221-231.

[6] Donahue J, Anne Hendricks L, Guadarrama S, et al. Long-term recurrent convolutional networks for visual recognition and description[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2015: 2625-2634.

[7] Simonyan K, Zisserman A. Two-stream convolutional networks for action recognition in videos[C]//Advances in neural information processing systems. 2014: 568-576.

https://www.toutiao.com/a6728318536877343239/

來自 “ ITPUB部落格 ” ，連結：http://blog.itpub.net/29829936/viewspace-2654854/，如需轉載，請註明出處，否則將追究法律責任。

視覺SLAM技術綜述
2019-01-05
視覺SLAM
反諷識別綜述
2018-12-17
極端類別不平衡資料下的分類問題研究綜述
2019-06-18
視覺SLAM綜述
2019-03-09
視覺SLAM
文字識別（一）--傳統方案綜述
2019-02-17
IEA：全球智慧電網技術專利資料綜述
2024-08-29
人工智慧技術發展綜述
2020-11-16
人工智慧
SAP 移動開發技術綜述
2022-02-20
移動開發
「技術綜述」人臉年齡估計研究現狀
2019-07-09
資料複製策略綜述
2023-10-30
94頁論文綜述卷積神經網路：從基礎技術到研究前景
2018-04-07
卷積神經網路
室內定位中非視距的識別和抑制演算法研究綜述
2022-07-23
演算法
PostgreSQL掃描方法綜述
2019-09-22
SQL
Spring綜述
2019-04-03
Spring
資料庫系統防止駭客入侵之技術綜述
2019-04-02
資料庫
聚類演算法綜述
2018-12-09
聚類演算法
文字識別（五）--自然場景文字檢測技術綜述（CTPN, SegLink, EAST）
2019-02-18
AST
表情識別（七）--面部表情識別階段綜述（2018.4）
2018-05-30
AIGC用於智慧寫作的技術綜述-達觀資料
2023-01-13
AIGC
Spring Bean 綜述
2019-04-13
SpringBean
API安全綜述
2021-07-07
API
「技術綜述」閒聊影象分割這件事兒
2019-09-16
Action Recognition——基於表示的動作識別綜述
2018-12-12
擴散模型首篇綜述+論文分類彙總，谷歌&北大最新研究
2024-03-12
模型谷歌
卷積神經網路表徵視覺化研究綜述
2022-08-09
卷積神經網路視覺化
MLsys各方向綜述
2020-02-07
GAN生成影象綜述
2019-05-13
GAN生成影像綜述
2019-05-13
OCR技術發展綜述與達觀資料的實踐經驗
2022-10-12
DevOps全面綜述：從概念到實踐
2024-06-03
dev
深度學習行人重識別ReID最新綜述與展望
2020-01-15
深度學習
神經架構搜尋在視訊理解中研究進展的綜述
2019-12-11
架構
【讀論文】 -- 推薦系統研究綜述
2024-04-10
影象檢索（一）--綜述
2019-03-06
損失函式綜述
2018-05-06
函式
對話系統綜述
2018-04-25
目標檢測綜述
2020-12-13
生成對抗網路綜述：從架構到訓練技巧
2019-02-14
架構