乾貨 | PRCV2018 美圖短視訊實時分類挑戰賽第一名解決方案介紹
隊伍介紹
隊名:CASIA-AIRIA。
隊員:史磊(博士在讀),程科(博士在讀)。
指導教師:張一帆副研究員。
單位:中國科學院自動化研究所,中國科學院自動化研究所南京人工智慧晶片創新研究院。
競賽介紹 [1]
今年 5 月,美圖公司聯合中國模式識別與計算機視覺學術會議(PRCV2018)共同舉辦的 PRCV2018「美圖短視訊實時分類挑戰賽」正式開賽。來自中科院自動化所、中科院自動化所南京人工智慧晶片創研院的史磊、程科在張一帆副研究員的指導下獲得了 PRCV2018「美圖短視訊實時分類挑戰賽」冠軍。不同於以往只關注分類精度的比賽,本競賽綜合考察「演算法準確率」和「實時分類」兩個方面,將執行時間作為重要指標參與評估,將促進視訊分類演算法在工業界的應用。以下是冠軍團隊對本次挑戰賽的技術分享總結:
資料集介紹
本次競賽使用的短視訊資料集(MTSVRC 資料集)一共有 100,000 個視訊,其中訓練集有 50,000 個視訊,驗證集和測試集分別有 25,000 個視訊。視訊主要以短視訊為主,長度約為 5 - 15s。資料集包含 50 個分類,視訊類別包括舞蹈、唱歌、手工、健身等熱門短視訊型別,除了包含與人相關的一些行為類別,還有一些風景,寵物等類別。圖片 1 展示了一些資料樣例:
圖片 1 資料樣例
由於這些資料的主要來源為手機拍攝的日常視訊,視訊的大小,形狀以及拍攝條件(例如光照,景深)等都不統一,造成了很大的類間差異與類內差異。同時,由於後期處理,視訊經常會有一些特效和與類別無關的文字,也增加了視訊識別的難度。圖片 2 展示了一些困難樣例,這些樣例對模型的設計帶來了很大的挑戰。
圖片 2 困難樣例
評測方法
由於競賽同時考慮時間和精度,所以以往的分類誤差不足以評測模型效能。圖片 3 展示了此次競賽所用的評測方法。
圖片 3 評測方法
其中橙色的三角形是官方提供的基準時間和誤差,只有優於基準方法的成績才被視為有效成績,而其他成績(黑色三角)則被視為無效成績。時間和誤差會根據基準成績歸一化到 0-1 之間。在有效成績中,會找出最小誤差和最短時間的兩個成績(綠色三角形和紅色三角形),然後最小誤差和最短時間會組成一個參考點(藍色圓圈)。最終所有的有效成績都會和參考點計算距離,距離最短的方法視為優勝。從評測方法分析,時間和精度都是很重要的因素。而時間和精度往往是矛盾的,所以必須進行一定的取捨。
視訊解碼
因為時間是一個很重要的因素,而視訊解碼又是一個很費時間的過程,所以如何設計解碼模組是本次競賽中的一個關鍵。我們採用了多執行緒軟解提取關鍵幀的方法。
主流的視訊編碼方式中,每個視訊主要包含三種圖片幀,分別叫做:Intra-coded frame(I 幀),Predictive frame(P 幀)和 Bi-Predictive frame(B 幀)。其中 I 幀是一張完整的圖片。P 幀記錄了與之前的幀的差別,所以在解碼 P 幀時必須要參考之前的圖片幀。而 B 幀不僅需要參考之前的圖片幀,還需要參考之後的圖片幀才能完整解碼。圖片 4 闡明瞭這三個概念 [2]。
圖片 4 I 幀,P 幀與 B 幀
顯而易見,P 幀和 B 幀的解碼是相對較慢的,而直接解碼 I 幀則可以獲得更快的速度。同時,由於我們需要解碼不止一幀,所以我們採用了多執行緒的方式,每一個執行緒負責解碼一個關鍵幀。整個解碼過程使用 FFmpeg 實現。
模型設計
解決了解碼問題後,接下來的問題在於如何用所得的多幀來進行分類。
主流方法
目前主流的視訊分類的方法有三大類:基於 LSTM 的方法,基於 3D 卷積的方法和基於雙流的方法。圖片 5 展示了這三種框架的大體結構 [3]。
基於 LSTM 的方法將視訊的每一幀用卷積網路提取出每一幀的特徵,然後將每一個特徵作為一個時間點,依次輸入到 LSTM 中。由於 LSTM 並不限制序列的長度,所以這種方法可以處理任意長度的視訊。但同時,因為 LSTM 本身有梯度消失和爆炸的問題,往往難以訓練出令人滿意的效果。而且,由於 LSTM 需要一幀一幀得進行輸入,所以速度也比不上其他的方法。
基於 3D 卷積的方法將原始的 2D 卷積核擴充套件到 3D。類似於 2D 卷積在空間維度的作用方式,它可以在時間維度自底向上地提取特徵。基於 3D 卷積的方法往往能得到不錯的分類精度。但是,由於卷積核由 2D 擴充套件到了 3D,其引數量也成倍得增加了,所以網路的速度也會相應下降。
基於雙流網路的方法會將網路分成兩支。其中一支使用 2D 卷積網路來對稀疏取樣的圖片幀進行分類,另一支會提取取樣點周圍幀的光流場資訊,然後使用一個光流網路來對其進行分類。兩支網路的結果會進行融合從而得到最終的類標。基於雙流的方法可以很好地利用已有的 2D 卷積網路來進行預訓練,同時光流又可以建模運動資訊,所以精度往往也很高。但是由於光流的提取過程很慢,所以整體上制約了這一方法的速度。
圖片 5 主流的視訊分類的方法
綜上所述,主流的方法都不太適用於短視訊實時分類的任務,所以我們特別設計了一個適用於短視訊實時分類的框架。
我們的方法
圖片 4 展示了我們的解決方案的整體框架:給定一個視訊,我們首先會從中稀疏取樣固定數量的圖片幀,然後將這些幀組成一個 batch,送入到一個 BaseNet 中。這個 BaseNet 是在已有的 2D 卷積網路基礎上優化改進得到的,具有較強的特徵提取能力。BaseNet 輸出的高層的特徵往往具有很強的語義資訊,但是卻沒有時間上的融合。所以我們特別設計了一個基於幀間注意力機制的融合模型,將 BaseNet 提取的不同幀的特徵作為一個輸入送入融合模型中,最終由融合模型得到預測的結果。由於融合模型比較小,推理速度很快,而且引數量較少,也比較容易訓練。整個模型在 mxnet 上進行構建和訓練。基於這樣的設計,我們的模型可以得到很快的推理速度,同時又不會損失太多精度。
圖片 6 整體框架
模型壓縮
當有了訓練好的模型後,為了進一步提高速度,模型壓縮是必不可少的。因為計算平臺是 GPU,所以我們使用了兩種比較適用於 GPU 的方法:剪枝和量化。
模型剪枝
由於需要在 GPU 上運算,這裡我們主要考慮在通道維度的剪枝。假設卷積的引數是具有稀疏性的,我們剪掉其中一些不重要的引數,網路仍然可以達到之前的精度。
圖片 7 剪枝
剪枝過程分為兩步:首先,我們會基於 LASSO 迴歸來找到每一層中最具代表性的通道,然後將沒用的通道去掉,再使用平方差損失微調剪枝後的網路來最小化重構誤差。這樣的操作會對每一層分別進行,經過幾輪迭代後便可以達到不錯的壓縮效果,同時還可以保證精度不會損失太多。
模型量化
由於比賽提供的 GPU 是支援 int8 計算的,所以我們考慮將原來的基於 float32 資料型別訓練的模型轉換為 int8 的資料形式進行推斷,也就是量化操作。這裡我們採用的比較簡單的線性量化,也是 TensorRt 中使用的方法 [4]。
圖片 8 線性量化
假設每個張量的資料符合均勻分佈,那麼其中的每一個元素就可以表示為一個 int8 數和一個 float32 的比例因子相乘的結果。比例因子是對於整個陣列共享的。這樣在張量間進行相乘運算時就可以先進行 int8 的計算,最後再統一乘上比例因子,從而加快運算。那麼接下來的問題在於如何確定比例因子,比例因子的作用是將原始張量的數值範圍對映到-127 到 127(int8 的數值範圍)。由於大多數情況資料並不是完全的均勻分佈,所以直接對映會造成精度損失。
圖片 9 基於閾值的線性對映
為了解決這個問題,TensorRt 中會對每一層的資料分佈進行統計,然後根據得到的分佈確定一個閾值(如圖片 9)。在對映的過程中,閾值之外的數會被統一對映到-127 和 127 之 間,閾值之內的資料會假設為一個均勻分佈然後進行對映。這樣就可以保證在加快速度的同時也不至於有較大的精度損失。
總結
我們的解決方案可以歸納為三個部分:視訊解碼部分,我們採用了多執行緒提取 I 幀的方式。模型設計部分,我們採用了稀疏取樣與幀間注意力融合的方法。模型壓縮部分,我們採用了通道剪枝和量化的方法。最終我們的解決方案在測試集上的速度為平均每個視訊 58.9ms,精度為 87.9%。
參考文獻
[1] 「AI Challenge | Introduction.」[Online]. Available: https://challenge.ai.meitu.com/mtsvrc2018/introduction.html. [Accessed: 21-Nov-2018].
[2] 「視訊壓縮影像型別,」維基百科,自由的百科全書. 08-Jul-2018.
[3] J. Carreira and A. Zisserman,「Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset,」in The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017.
[4] S. Migacz,「8-bit Inference with TensorRT.」[Online]. Available: http://on-demand.gputechconf.com/gtc/2017/presentation/s7310-8-bit-inference-with-tensorrt.pdf.
轉載自:AI科技評論,未經允許不得二次轉載
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31555081/viewspace-2284834/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 騰訊Light·公益創新挑戰賽介紹
- 圖文識別解決方案介紹
- 【乾貨乾貨】configtxlator 工具介紹
- [原創]乾貨 | 雲安全挑戰賽線上熱身賽冠軍戰隊解題分享
- 最快1天搭建短視訊APP!阿里雲短視訊解決方案上線APP阿里
- 百度PaddlePaddle開源視訊分類模型Attention Cluster,曾奪挑戰賽冠軍模型
- 乾貨|Spring Cloud Bus 訊息匯流排介紹SpringCloud
- 解決方案| anyRTC金融音視訊解決方案
- 當CV碰上無人機:ICCV 2019 VisDrone挑戰賽冠軍解決方案解讀無人機
- 超詳細圖文介紹,華為桌面雲解決方案
- 短視訊帶貨原始碼,觀看視訊時雙擊放大原始碼
- 恆訊科技介紹:直播影片流伺服器解決方案伺服器
- 樸素貝葉斯分類流程圖介紹流程圖
- 【虹科乾貨】零售商們正在尋找實時庫存解決方案
- nz百度愛採購的短視訊創作乾貨
- 依圖在實時音視訊中語音處理的挑戰丨RTC Dev Meetupdev
- 羊了個羊,如何自己實現(暨"碼上掘金"程式設計挑戰賽介紹)程式設計
- 可圖Kolors-LoRA風格故事挑戰賽-決賽生成提示詞
- 視訊轉碼解決方案
- 圖卷積實戰——文字分類卷積文字分類
- 抖音口播乾貨:培訓教育類口播短視訊從0到1起步
- 挑戰新物體描述問題,視覺詞表解決方案超越人類表現視覺
- 直播短視訊原始碼短視訊APP短視訊帶貨系統多商戶直播原始碼APP
- 分散式事務解決方案(一)【介紹】分散式
- 文通產品及解決方案介紹
- 乾貨:基於scss的主題配色解決方案CSS
- 乾貨:blob匯出檔案亂碼解決方案
- 數字資產交易所平臺開發解決方案及交易所模式分類介紹模式
- 短視訊系統,解決圖片上傳時底部或頂部留白的問題
- 鳴鑼開戰 | 2019 TechWorld技術嘉年華·資訊保安挑戰賽線下總決賽決戰在即
- 【乾貨】常見的5個python資料視覺化庫介紹!Python視覺化
- 「影像分類」 實戰影像分類網路的視覺化視覺化
- http代理使用分類介紹HTTP
- 億級大表分庫分表實戰總結(萬字乾貨,實戰覆盤)
- 在雲中部署MES:挑戰與解決方案(二)
- 在雲中部署MES:挑戰與解決方案(一)
- 電信行業專案管理解決方案(常見挑戰&解決方案)行業專案管理
- 深圳市恆訊科技介紹:TikTok直播專線的解決方案