PaddlePaddle視訊聯合時空建模方法開源 | ActivityNet Kinetics奪冠

PaddlePaddle發表於2019-03-29

原文網址 : http://www.jiqizhixin.com/articles/2019-03-29-18

百度視覺技術部聯合PaddlePaddle團隊近期開源了用於視訊分類的StNet框架。StNet框架為ActivityNetKinetics Challenge 2018中奪冠的網路框架。本次開源了基於ResNet50實現的StNet模型。該模型提出“super-image"的概念，在super-image上進行2D卷積，建模視訊中區域性時空相關性。另外通過temporal modeling block建模視訊的全域性時空依賴，最後用一個temporalXception block對抽取的特徵序列進行長時序建模。該框架在動作識別方面優於一些最先進的方法，可以在識別精度和模型複雜性之間取得令人滿意的平衡。

應用背景

視訊當中的動作識別任務已經獲得了許多從事計算機視覺與機器學習研究人員的重點關注。越來越多的視訊錄影裝置的普及，讓更多好玩有趣的視訊豐富了人們的業餘生活。但是過多的視訊已經遠遠超過人工能夠處理的範圍，因此發展針對各種應用場景的自動視訊理解演算法變得尤為重要，比如：視訊推薦、人類行為分析、視訊監控等等。

深度學習在靜態影像理解上取得了巨大成功，但是針對視訊時空建模中最有效的網路架構是什麼還尚不清楚，因此我們將新探索的用於視訊中區域性和全域性時空建模的時空網路（StNet）架構與現有的CNN+RNN模型或是基於純3D卷積的方法進行比對分析，來尋求更有效的網路架構。

現有方法分析

由於深度學習在圖片識別中的卓越表現，該技術也被應用到了解決視訊分類的場景當中。這其中就有兩個主要的研究方向，一個是應用CNN+RNN框架結構來對視訊序列建模，還有一個是單純的利用卷積網路結構來識別視訊當中的行為。但是在動作識別準確性方面，目前的行動識別方法仍然遠遠落後於人類表現。現有方法存在如下待改進之處。

CNN+RNN模型
對於CNN+RNN的方法，CNN前饋網路部分用來空間建模（spatial modeling），LSTM或者GRU用來時域建模（temporal modeling），由於該模型自身的迴圈結構，這導致了端到端的優化困難。
單獨訓練的CNN和RNN部分對於聯合的時空特徵表示學習（representation learning）不是最佳的。
純卷積網路結構
2D卷積網路結構在抽取外觀特徵（appearancefeatures）的時候，只利用了區域性的空間資訊而忽略了區域性的時域資訊；此外，對於時域動態，2D卷積網路僅融合了幾個區域性片段的分類得分並計算平均值，這種取平均的方法在捕捉時空資訊方面的效能有待提高。
3D卷積網路結構可以同時在空間和時間上建模進而得到令人滿意的識別任務結果。眾所周知，淺層的神經網路與深層神經網路相比，淺層網路在大資料集中，表現出較差的表示學習能力。當進行大規模資料集中的人類行為識別任務時，一方面淺層的3D卷積網路得到的視訊特徵的可辨別性相對深層網路較弱，另一方面，深層的3D卷積網路會導致過大的模型以及在訓練中和推理階段中過高的計算成本。

StNet模型

區域性資訊和全域性資訊對識別視訊中的行為都起著非常重要的作用。

例如，在圖1（a）中，我們可以通過區域性的空間資訊來識別搬磚和搬石頭，換而言之，在該圖中，區域性的空間資訊（local spatial information）是我們識別行為至關重要的因素。而在圖1（b）中，全域性時空（global spatial-temporal）線索是用來區分”摞卡片”和”飛卡片”這兩個場景行為的關鍵證據。

PaddlePaddle視訊聯合時空建模方法開源 | ActivityNet Kinetics奪冠

圖1 區域性資訊足以區分”搬磚”和”搬石頭”；全域性時空資訊可以分別”摞卡片”和”飛卡牌”

StNet可以由先進的2D卷積網路改造可得，比如：ResNet，InceptionResnet等等。圖2展示瞭如何從Resnet構建StNet。

PaddlePaddle視訊聯合時空建模方法開源 | ActivityNet Kinetics奪冠

圖2：基於ResNet骨架構建的StNet。StNet的輸入是T ×3N×H ×W張量。通過2D卷積對區域性時空模型進行模型。在Res3和Res4塊之後插入時序卷積模組進行全域性時空特徵建模。最後，用時序Xception模組進一步建模時序動態資訊。3D卷積的設定是（# Output Channel, (temporal kernel size,height kernel size, width kernel size), # groups) -(Ci,(3,1,1), 1)

1. 超影像（Super-Image）：

StNet的輸入為均勻取樣的T個區域性連續N幀的視訊幀。區域性的連續N幀組合成一個”超圖”，這使得”超圖”保留原始視訊各個區域性的時空資訊。所以網路的輸入是一個尺寸為T*3N*H*W的張量。

2. 時域建模組（Temporal Modeling Block）：

採用2D卷積對T個”超圖”進行區域性時空關係的建模，可以避免3D 卷積網路引數量和計算量大的問題，進而生成T個區域性時空特徵圖。通過堆疊3D卷積/2D卷積模組，對T個區域性時空特徵圖進行全域性時空資訊的建模，這對理解整個視訊起到至關重要的作用。具體而言，我們選擇插入2個時域建模組在Res3和Res4塊之後。時域建模組是為了捕捉視訊序列內的長期時域動態，可以利用Conv_3d-BN3d-RELU架構實現。將3D卷積空間維度的kernel size設定成1以節省模型的引數量與計算量。

3. 時域Xception模組（TemporalXception Block）：

時域Xception模組是為了在特徵序列之間進行有效的時域建模，並能輕鬆地進行端到端優化。Xception模組的設計主要基於時序1維卷積，採用了channel-wise和temporal-wise分離的策略進一步減少計算量與模型引數量。

時域Xception塊結構如下：

PaddlePaddle視訊聯合時空建模方法開源 | ActivityNet Kinetics奪冠

圖3：時域 Xception 塊（TXB）。時域Xception 塊的詳細配置如（a）所示：括號中的引數表示 1D卷積的（＃kernel，kernel size，padding，＃groups）配置。綠色的塊表示 channel-wise 的 1D 卷積，藍色的塊表示 temporal-wise 的 1D 卷積。（b）描繪了channel-wise 和 temporal-wise 的1D 卷積。TXB 的輸入是視訊的特徵序列，表示為T×C_in 張量。Channel-wise 1D 卷積的每個卷積核僅在一個通道內沿時間維度應用。Temporal-wise 的 1D 卷積核在每個時序特徵中跨所有通道進行卷積。

基於PaddlePaddle實戰

環境準備：PaddlePaddleFluid 1.3 + cudnn5.1 。使用cudnn7.0以上版本時batchnorm計算moving mean和moving average會出現異常，此問題還在修復中。建議使用者安裝PaddlePaddle時指定cudnn版本。

資料準備：Kinetics資料集是DeepMind公開的大規模視訊動作識別資料集，有Kinetics400與Kinetics600兩個版本。這裡使用Kinetics400資料集。

ActivityNet官方提供了Kinetics的下載工具，具體參考其官方repo 即可下載Kinetics400的mp4視訊集合。將kinetics400的訓練與驗證集合分別下載到dataset/kinetics/data_k400/train_mp4dataset/kinetics/data_k400/val_mp4。

官方repo：

https://github.com/activitynet/ActivityNet/tree/master/Crawler/Kinetics

模型訓練：資料準備完畢後，通過以下方式啟動訓練（方法 1)，同時我們也提供快速啟動指令碼 (方法 2)

方法1

python train.py --model-name=STNET       
       --config=./configs/stnet.txt       
       --save-dir=checkpoints         
       --log-interval=10         
       --valid-interval=1

方法2

bash scripts/train/train_stnet.sh

使用者也可下載Paddle Github上已釋出模型通過--resume指定權重存放路徑進行finetune等開發。

資料預處理說明：模型讀取Kinetics-400資料集中的mp4資料，每條資料抽取seg_num段，每段抽取seg_len幀影像，對每幀影像做隨機增強後，縮放至target_size。

訓練策略：

採用Momentum優化演算法訓練，momentum=0.9
權重衰減係數為1e-4
學習率在訓練的總epoch數的1/3和2/3時分別做0.1的衰減

模型評估：通過以下方式（方法 1）進行模型評估，同樣我們也提供了快速啟動的指令碼（方法 2）:

方法1

python test.py --model-name=STNET        
       --config=configs/stnet.txt       
       --log-interval=1         
       --weights=$PATH_TO_WEIGHTS

方法2

bash scripts/test/test__stnet.sh

使用scripts/test/test_stnet.sh進行評估時，需要修改指令碼中的--weights引數指定需要評估的權重。
若未指定--weights引數，指令碼會下載已釋出模型進行評估。

模型推斷：可通過如下命令進行模型推斷：

python infer.py --model-name=stnet        
       --config=configs/stnet.txt        
       --log-interval=1         
       --weights=$PATH_TO_WEIGHTS         
       --filelist=$FILELIST

模型推斷結果儲存於STNET_infer_result中，通過pickle格式儲存。
若未指定--weights引數，指令碼會下載已釋出模型進行推斷。

模型精度：當模型取如下引數時，在 Kinetics400資料集上的指標為：

引數取值

引數	取值
seg_num	25
seglen	5
target_size	256

評估精度

精度指標	模型精度
TOP_1	0.69

傳送門：

PaddlePaddle Github:

https://github.com/PaddlePaddle

StNet in PaddlePaddle Github：

https://github.com/PaddlePaddle/models/blob/develop/fluid/PaddleCV/video/models/stnet

Reference：Dongliang He, Zhichao Zhou, Chuang Gan, Fu Li, Xiao Liu, Yandong Li, Limin Wang, Shilei Wen，StNet:Local and Global Spatial-Temporal Modeling for Action Recognition

https://arxiv.org/abs/1811.01549

基於PaddlePaddle的視訊聯合時空建模方法在國際賽事奪冠
2019-03-29
百度PaddlePaddle開源視訊分類模型Attention Cluster，曾奪挑戰賽冠軍
2019-03-15
模型
百度PaddlePaddle開源影片分類模型Attention Cluster，曾奪挑戰賽冠軍
2019-03-15
模型
微信視訊號+奪冠生活圈小程式營銷新玩法
2022-01-24
Metacritic：2018年遊戲發行商排名卡普空奪冠
2019-01-30
遊戲
聯合辦公空間，開啟生態辦公新時代
2021-05-31
2022世界盃奪冠熱門最新 2022年世界盃奪冠分析奪冠機率出爐
2022-11-15
2018年中國移動手機視訊拍攝排名 iPhone XS Max奪冠
2018-12-14
iPhone
聯合辦公空間聚焦資源，提升辦公品質
2021-07-06
開源大模型佔GPU視訊記憶體計算方法
2024-09-08
大模型GPU記憶體
18 個實時音視訊開發中會用到開源專案
2018-11-28
18個實時音視訊開發中會用到開源專案
2018-05-16
騰訊安全月報丨騰訊戰隊DEF CON CTF奪冠、國內首個新基建安全大賽啟動、民航資訊保安聯合實驗室成立……
2020-09-02
歷史首次!《英雄聯盟》為iG奪冠設計紀念圖示
2018-11-09
Oracle臨時表空間檢視、新增臨時表空間資料檔案、修改預設臨時表空間方法！
2018-03-22
Oracle
騰訊雲聯合多家生態夥伴，重磅開源 SuperEdge 邊緣容器專案
2020-12-30
中國隊首次奪冠！騰訊A*0*E戰隊斬獲DEF CON CTF預賽冠軍
2020-05-19
MySQL建立表的時候建立聯合索引的方法
2024-06-06
MySql索引
《衛報》：21世紀100部最佳電視劇《黑道家族》奪冠
2019-09-19
2022世界盃最有可能奪冠的球隊今年世界盃奪冠大熱門分析
2022-11-21
FPX輕鬆奪冠，但英雄聯盟還能有下一個10年嗎？
2019-11-12
KBG奪得WRL2總冠軍，英雄聯盟手遊亞洲聯賽LOGO首次亮相
2023-01-16
Go
Android開發海康威視多路視訊播放（同時播放視訊）
2022-01-17
Android
視訊開源作業系統VideoOS
2018-12-14
作業系統IDE
開源視訊播放器介紹
2018-08-21
播放器
React全棧之Instagram開源視訊教程
2019-02-01
React全棧
開放融合 | “引擎級”深度對接！POLARDB與SuperMap聯合構建首個雲原生時空平臺
2019-11-13
《英雄聯盟》中國隊亞運會奪冠，CCTV5特別誇獎Uzi
2018-08-30
Win10設定在播放視訊時針對視訊進行優化方法
2020-10-24
Win10優化
StreamNative 聯合傳智教育推出免費 Apache Pulsar 中文視訊教程
2022-01-27
Apache
汽車智聯網實驗五：序列通訊建模
2024-05-17
聯合辦公空間，平衡辦公與社交
2022-01-12
聯合辦公空間，平臺化佈局
2022-03-25
聯合辦公空間，免去中間環節
2022-04-13
回收寶：2020年手機保值榜華為Mate40保時捷奪冠
2021-02-02
知乎視訊播放器 Griffith 開源了~
2019-04-03
播放器
開源 | Python基礎入門（視訊）課程
2018-07-23
Python
36款頂級的開源音訊/視訊應用程式
2018-11-28
音訊

PaddlePaddle視訊聯合時空建模方法開源 | ActivityNet Kinetics奪冠

應用背景

現有方法分析

StNet模型

基於PaddlePaddle實戰

相關文章