深度三維殘差神經網路:視訊理解新突破

微軟研究院AI頭條發表於2017-10-27

編者按:隨著網際網路的不斷髮展,可處理視訊的深度神經網路遠比普通神經網路更難訓練,如何減輕訓練負擔成為了一項不可忽視的工作。來自微軟亞洲研究院多媒體搜尋與挖掘組的研究成果“Learning Spatio-Temporal Representation with Pseudo-3D Residual Networks”,在正在舉辦的International Conference on Computer Vision (ICCV) 2017會議上釋出,它專注於如何利用大量視訊資料來訓練視訊專用的深度三維卷積神經網路,提出一種基於偽三維卷積(Pseudo-3D Convolution)的深度神經網路的設計思路,並實現了迄今為止最深的199層三維卷積神經網路。通過該網路學習到的視訊表達,在多個不同的視訊理解任務上取得了穩定的效能提升。


1993年9月,一款名為NCSA Mosaic的瀏覽器正式支援在網頁內嵌入圖片,這標誌著網際網路從純文字時代邁入了“無圖無真相”的多媒體時代。如今,隨著網際網路頻寬的提升和高速移動裝置的普及,資訊的獲取途徑和傳播途徑也在與日增加,視訊逐漸成為網際網路多媒體消費的重要組成部分。


深度三維殘差神經網路:視訊理解新突破


從傳統的視訊分享網站到電視電影節目的網路化,再到現在新興的視訊直播網站和小視訊分享網站,網際網路視訊已經進入了爆炸式發展的新階段。據統計,僅僅以視訊分享網站YouTube為例,平均每分鐘就有約300小時的視訊上傳到YouTube上,每天的視訊觀看次數更是高達50億次。數量如此巨大的視訊內容與觀看次數對視訊處理、分類、推薦等常見視訊相關技術提出了更高的要求,也提供了更廣闊的應用場景。


深度三維殘差神經網路:視訊理解新突破


在視訊處理相關技術中,視訊特徵描述學習(Representation Learning)是一個最基本的問題。學習視訊的特徵表達是幾乎所有視訊處理和分析的基礎,其中包括視訊標註、動作識別、視訊監控、視訊檢索、視訊場景識別、視訊分割、視訊自然語言描述和基於視訊的人機互動等等。


然而目前視訊識別的相關研究多數使用的是基於影象的卷積神經網路(如微軟研究院在2015提出的殘差神經網路ResNet)來學習視訊特徵,這種方法僅僅是對單幀影象的CNN特徵進行融合,因此往往忽略了相鄰的連續視訊幀間的聯絡以及視訊中的動作資訊。目前,視訊專用的深度神經網路還很缺乏。


在正在舉行的International Conference on Computer Vision (ICCV)2017會議上,微軟亞洲研究院釋出了多媒體搜尋與挖掘組最新的研究成果——Learning Spatio-Temporal Representation with Pseudo-3D Residual Networks[1]。這項工作主要集中在如何利用大量視訊資料來訓練視訊專用的深度三維卷積神經網路,它提出了一種基於偽三維卷積(Pseudo-3D Convolution)的深度神經網路的設計思路,並實現了迄今為止最深的199層三維卷積神經網路。通過該網路學習到的視訊表達,在多個不同的視訊理解任務上取得了穩定的效能提升。



基於三維卷積神經網路的視訊特徵提取


為了使用深度神經網路來提取視訊中時間和空間維度上的資訊,一種直接的思路就是將用於影象特徵學習的二維卷積擴充為三維卷積(3D Convolution),同時在時間和空間維度上進行卷積操作。如此一來,由三維卷積操作構成的三維卷積神經網路可以在獲取每一幀視覺特徵的同時,也能表達相鄰幀隨時間推移的關聯與變化,如下圖所示。


深度三維殘差神經網路:視訊理解新突破


然而這樣的設計在實踐中卻存在一定的困難。首先,時間維度的引入使得整個神經網路的引數數量、執行時間和訓練所需的GPU記憶體都將大幅增長;其次,隨機初始化的三維卷積核需要大量精細標註的視訊資料來進行訓練。受困於以上兩點,近些年關於三維卷積神經網路的發展十分緩慢,其中最著名的C3D[2] 網路只有11層,模型大小卻達到321MB,甚至大於152層ResNet[3] 的235MB模型。


深度偽三維卷積神經網路設計

為了解決以上的侷限性,我們提出了一系列基於偽三維卷積和殘差學習(Residual Learning)的神經網路模組,用以同時在時間和空間上進行卷積操作。其中,偽三維卷積是這個網路結構的核心操作,基本思想是利用一個1*3*3的二維空間卷積和3*1*1的一維時域卷積來模擬常用的3*3*3三維卷積。通過簡化,偽三維卷積神經網路相比於同樣深度的二維卷積神經網路僅僅增添了一定數量的一維卷積,在引數數量、執行速度等方面並不會產生過度的增長。與此同時,由於其中的二維卷積核可以使用影象資料進行預訓練,對於已標註視訊資料的需求也會大大減少。結合殘差學習的思想,該論文提出三種不同的偽三維卷積殘差單元(P3D-A,P3D-B,P3D-C)分別使用序列、並行和帶捷徑(shortcut)的序列三種方式來確定空間卷積和時域卷積之間的關係。


深度三維殘差神經網路:視訊理解新突破


通過使用以上三種偽三維殘差單元替代152層ResNet中的二維殘差單元,該工作得到了目前最深的199層三維卷積網路結構。最終經過ImageNet資料集中的圖片資料和Sports-1M(包含了487個類別的百萬級視訊片段)[4] 視訊資料的訓練,該網路在視訊動作識別(Action Recognition)、視訊相似度分析(Video Similarity)和視訊場景識別(Scene Recognition)三個不同的視訊理解任務上均獲得了穩定的效能提升,並且在CVPR 2017的Activity Net Challenge的Dense-Captioning任務中獲得第一名。


深度三維殘差神經網路:視訊理解新突破


除了利用偽三維卷積網路提取特徵外,該網路還可以作為其它方法的基本網路結構,從而提升其它基於神經網路方法的視訊識別效能。以雙流(Two-stream)方法為例,在UCF101的視訊動作識別任務上,如果使用偽三維卷積網路作為基本網路結構,實現的Two-stream框架無論是單個幀分支(Frame)與光流分支(Flow),或者是最終兩個分支合併的結果,都超過了其它網路結構。



以上的實驗結果驗證了偽三維卷積殘差網路可以有效學習來自大量影象和視訊訓練資料中的類別資訊。在與二維卷積殘差網路和傳統三維卷積網路的對比中,該結構成功地提升了在不同視訊識別任務上的效能。關於偽三維殘差網路相關的程式碼和模型詳見https://github.com/ZhaofanQiu/pseudo-3d-residual-networks。


神經專用神經網路的發展方向

該工作基於偽三維卷積和殘差結構給出了訓練超深度三維卷積網路的可能性,然而本文中提到的神經網路目前主要針對視訊分類問題。面對紛繁複雜的視訊內容與視訊應用需求,單一的神經網路很難滿足。針對不同的應用,視訊專用神經網路有以下三個具有潛力的發展方向:


第一,視訊檢索(Video Search)專用神經網路。視訊檢索、視訊推薦是大型視訊分享網站所要面對的首要問題,給予使用者良好的檢索體驗,並適當地推薦使用者需要的視訊內容,幫助使用者快速地找到自己感興趣的視訊。


第二,視訊分割(Semantic Video Segmentation)專用神經網路。視訊分割的目標在於畫素級別地分割出視訊中的人、車等常見物體。而隨著AR/VR技術的發展,畫素級別的目標識別可以輔助許多不同的AR/VR相關應用,這也促進了視訊分割的發展。


第三,視訊生成(Video Generation)專用神經網路。隨著使用者越來越容易地在不同裝置上進行視訊拍攝,非專業使用者對視訊的自動/半自動編輯、美化也逐漸有了更多的需求。因此,視訊生成神經網路便可以幫助使用者編輯創作自己的視訊作品。


隨著卷積神經網路的發展,人工智慧在很多影象相關任務上的效能都產生了飛躍,也有大量相關技術從學術圈慢慢地走進了我們的生活。但是由於視訊包含資訊太過複雜,大資料的獲取、儲存、處理均存在一定困難,導致視訊相關技術在很多方面仍然進步緩慢,相信隨著視訊專用卷積神經網路的發展,這部分的不足也會逐漸被彌補。


無論是文字、影象還是視訊,人工智慧的發展在滿足網際網路使用者需求的同時也始終推動著使用者習慣的變遷。有了合理的演算法對視訊進行分析、推薦,可以幫助網際網路使用者獲得更好的瀏覽體驗;有了使用者更好的反饋及更大的點選量,可以讓視訊產業規模進一步擴大;更大規模的視訊資料會進一步對視訊相關演算法提出更高的要求。在這樣的迴圈之下,視訊產業本身必將伴隨著視訊相關演算法快速地發展,迎接更美好的未來。


參考文獻

[1] Z. Qiu, T. Yao, T. Mei.Learning Spatio-Temporal Representation with Pseudo-3D Residual Networks. InICCV, 2017.

[2] D. Tran, L. Bourdev, R. Fergus, L. Torresani, and M.Paluri. Learning spatiotemporal features with 3d convolutional networks. InICCV, 2015.

[3] K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning for image recognition. In CVPR, 2016.

[4] A. Karpathy, G. Toderici, S. Shetty, T. Leung, R.Sukthankar, and L. Fei-Fei. Large-scale video classification with convolutional neural networks. In CVPR, 2014.

 

作者介紹

深度三維殘差神經網路:視訊理解新突破


邱釗凡,微軟亞洲研究院和中國科學技術大學聯合培養博士生,導師為梅濤研究員和田新梅副教授。主要研究方向包括視訊特徵學習、視訊動作識別和多媒體內容分析。他曾於2015年在中國科學技術大學獲得學士學位,並於2017年獲得微軟學者獎學金。


深度三維殘差神經網路:視訊理解新突破


姚霆博士,微軟亞洲研究院多媒體搜尋與挖掘組研究員,主要研究興趣為視訊理解、大規模多媒體搜尋和深度學習。他帶領研究團隊在COCO影象描述自動生成、2017年VISDA視覺領域自適應語義分割任務、2016&2017年ActivityNet視訊行為識別等多個國際級比賽中取得了世界領先的成績。他於2014年在香港城市大學獲得電腦科學博士學位並於2015年榮獲SIGMM Outstanding Ph.D. Thesis Award。


深度三維殘差神經網路:視訊理解新突破


梅濤博士,微軟亞洲研究院資深研究員,主要研究興趣為多媒體分析、計算機視覺和機器學習。他的研究團隊目前致力於視訊和影象的深度理解、分析和應用。他同時擔任IEEE 和 ACM 多媒體彙刊(IEEE TMM 和 ACM TOMM)以及模式識別(Pattern Recognition)等學術期刊的編委,並且是多個國際多媒體會議的大會主席和程式委員會主席。他是國際模式識別學會會士,美國計算機協會傑出科學家,中國科學技術大學和中山大學兼職教授。



相關文章