44篇論文強勢進擊 CVPR 2018,商湯科技的研究員都在做哪些研究?

機器之心發表於2018-06-22

6 月,計算機視覺領域重要會議之一 CVPR 2018 正在美國鹽湖城火熱舉辦,目前會議日程已接近尾聲。近年來,隨著計算機視覺演算法從實驗室走向商用,這朵「高嶺之花」逐漸走進「尋常百姓家」,我們毫不意外地看到越來越多的商業公司出現在學術會議上。國外,我們能看到谷歌、Facebook 的大批論文;國內,我們能看到騰訊、阿里巴巴、商湯等巨頭與創業公司在論文接收量與挑戰賽成績上不輸於國外巨頭,其中商湯科技的論文接收數量達到創紀錄的 44 篇。

值此大會期間,機器之心走進商湯,嘗試從 44 篇接收論文中找出商湯近期的主攻方向,分析公司為 3-5 年乃至更長期的發展進行了哪些戰略技術儲備,也觀照 CVPR 會議,乃至視覺領域的關注點遷移趨勢。同時我們採訪了三位來自商湯入選本屆 CVPR oral / spotlight 環節的論文作者,與他們談了自己的研究,如何進行開發,以及對 CVPR 乃至 CVPR 之外整個視覺領域研究現狀的看法。

自 2012 年以來,經過視覺領域諸多學者們的不懈努力,「物體識別」、「人臉檢測」等傳統任務的效能在一定程度上達到飽和,因此縱觀本屆 979 篇入選論文,我們會看到研究者們紛紛將目光轉向近年來的一些新興問題。在今年,商湯的研究者們就大規模分散式訓練、人體理解與行人再識別、三維場景理解與分析、底層視覺演算法、物體檢測、識別與跟蹤、深度生成式模型、視訊與行為理解等多個問題展示了自己的最新工作。

而縱觀 CVPR,已經有一批從實際應用場景出發的、有針對性的新問題受到了廣泛關注,一些資料模態和模型結構設計已經形成了聲勢浩大的熱門子領域。

例如,CVPR 2018 總共有超過 30 篇論文探討如何解決行人再識別問題,其中 7 篇來自商湯。行人識別問題的難度某種程度上勝於人臉識別這個視覺領域的傳統研究熱點:大多數情況下,行人屬於非合作狀態,視角比人臉更多樣;同時因為人體關節的活動範圍遠大於面部肌肉的活動範圍,即使視角相同,不同動作的同一行人差異也會非常大。行人再識別無疑是繼人臉識別之後,另一個有著廣闊應用場景的研究課題,在智慧城市中,其可以應用於多攝像頭聯動的行人追蹤;在智慧零售行業裡,也可以用於調研使用者的行為軌跡,為分析顧客購物需求與商品關注度提供寶貴的資料。

本屆行人再識別領域唯一一篇 oral 論文就來自商湯,第一作者 Dapeng Chen 近三年都在從事行人再識別中相似性測度部分的研究,在後文的採訪中,他也提到,自己的研究逐漸從非深度學習方法轉向深度學習方法,從小資料集延伸到大規模資料集。

除了行人再識別之外,商湯入選論文中也有 4 篇涉及三維場景理解與分析。在 CVPR 收錄的論文中,有高達 83 篇以「3D」為名,涉及三維視覺的工作則超過 90 篇,佔據了全體收錄論文的近 1/10。

三維視覺研究的再度火熱一方面歸功於三維感測器的快速發展,另一方面也來自於自動駕駛等三維應用場景快速發展衍生的強烈需求。能夠處理無序三維點雲資料的新演算法不斷湧現,三維檢測、三維分割等問題的精度與效率均在快速提升中。面向傳統的三維視覺問題,如運動恢復結構(Sturcture from Motion)、同步定位與地圖構建(SLAM)、基於單目影像的三維結構恢復等問題,研究人員也基於深度學習技術提出眾多新穎演算法,不斷突破原有演算法的效能瓶頸。

商湯的 spotlight 論文 Single View Stereo Matching 就關注自動駕駛場景下基於單目影像的深度估計。基於視覺的自動輔助駕駛系統通常使用單目攝像頭獲取影像,判斷當前車輛與周圍車輛、行人和障礙物的距離,該論文提出了一種能夠大幅度提升單目影像深度估計精度的演算法。

此外,商湯科技還有 3 篇文章基於對抗生成網路提出了新穎演算法,而 CVPR 共有 81 篇文章使用了對抗生成網路。影像生成是經典的視覺問題,而對抗式方法的引入讓研究者得以生成解析度更高、與真實影像更接近的影像。基於對抗式生成網路的影像生成已經成為資料增強的有效手段之一,資料生成的進步意味著研究者在一定程度上可以擺脫深度學習模型對巨型資料集的需求這一制約條件。對抗性損失函式也可以幫助其他視覺問題(如檢測、分割、識別等)增強效能與魯棒性。

這些與實踐緊密結合的工作反映了商湯如何把實踐中遇到的問題抽象為研究問題,以及如何利用研究推動自身的商業邊界。

而除了自身應用息息相關的相關問題之外,當商業公司趨向成熟,也會以支援基礎研究的形式吸引最優秀的研究者來到公司,進行前沿的基礎研究也是公司「秀技術肌肉」的好方法。

當前深度神經網路的結構往往對最終結果有著重要影響,神經網路自動設計演算法因此在近年引發大量關注。商湯科技本次 CVPR 三篇 oral 論文之一,Practical Block-wise Neural Network Architecture Generation 就致力於解決面向自動設計網路結構的難題。論文第一作者 Zhao Zhong 在採訪中特別強調了商湯為研究提供的大量計算資源:這是商業公司相比於實驗室在基礎研究方面的一個重要優勢。

除了從巨集觀的角度對商湯的全體論文進行解讀之外,機器之心向三位來自商湯、主攻不同研究方向的本屆 CVPR oral/spotlight 環節入選論文作者提出了 幾個問題,呈現一線研究者視角下的 CVPR。

三位研究者分別是:

  • Zhao Zhong:Practical Block-wise Neural Network Architecture Generation 第一作者,自動化網路設計方向

  • Dapeng Chen:Group Consistent Similarity Learning via Deep CRFs for Person Re-Identification 第一作者,行人再識別方向

  • Chao Dong:Crafting a Toolchain for Image Restoration by Deep Reinforcement Learning 第二作者,底層計算機視覺與強化學習方向

能否用一句話概括一下你本次 CVPR 的文章主題,並用一段話簡述一下文章內容。

Zhao Zhong(簡稱 Z):自動設計網路結構的演算法框架 BlockQNN。

本次我作為第一作者發表的論文提出了一種基於強化學習的網路結構自動設計演算法,通過「網路塊」的設計思想,讓搜尋空間大大降低,並且使設計的網路具有非常強的可遷移性。同時,我們使用了「提前停止」和分散式架構來加速整個網路結構學習過程,達到了百倍於之前演算法的速度(32 塊 GPU,3 天的訓練)。實驗表面,其生成的網路結構在 CIFAR 資料集上達到並且超越人類設計的網路結構的精度,並且結構可以遷移到大規模的 ImageNet 資料上,取得優異的分類效能。

Dapeng Chen(簡稱 D):引入組一致性約束條件的高精度行人再識別。

行人再識別是新一代智慧城市系統中的重要元件之一。給定一幅行人影像,行人再識別要求跨不同攝像頭,對同一行人基於其視覺外觀進行準確匹配和識別。現有深度學習演算法通常使用過於區域性的約束損失函式進行行人特徵學習,因而不能精確的學習行人影像之間的視覺相似度。

本次我們的這篇論文針對該問題提出一種新穎的組一致性約束條件,並通過連續條件隨機場對該約束條件進行建模。將該隨機場加入深度神經網路,實現了該深度模型的端對端訓練。實驗結果表明提出的一致性條件在訓練與測試中均能夠大幅度提升最終視覺特徵的魯棒性與判別性,實現高精度的行人再識別。該論文是本次 CVPR 大會在行人再識別方向唯一的一篇 oral 論文。

Chao Dong(簡稱 C):使用多個小型 CNN 專家以協作方式解決困難的真實影像復原任務。

在底層視覺演算法領域,卷積神經網路(CNN)近年取得了巨大的進展,在諸如去模糊、去噪、去 JPEG 失真、超解析度等影像復原任務上已經達到了優異的效能。但是現實影像中的失真往往更加複雜,例如,經過多個影像降質過程後,影像可能包含模糊、噪聲、JPEG 壓縮的混合失真。這類混合失真影像對目前的影像復原演算法仍然充滿挑戰性。

近期的一些影像復原工作(如 VDSR、DnCNN 等)證實了一個 CNN 網路可以處理多種失真型別或不同失真程度的降質影像,這為解決混合失真問題提供了新的思路。但是,這類演算法均選用了複雜度較高的網路模型,帶來了較大的計算開銷。另外,這些演算法的網路均使用同一結構處理所有影像,未考慮一些降質程度較低的影像可以使用更小的網路進行復原。

針對現有影像復原 CNN 演算法模型複雜,計算複雜度高的問題,這篇論文我提出的 RL-Restore 演算法彌補了這些不足,以更加高效靈活的方式解決了複雜的影像復原問題。

你的研究方向是什麼?本次 CVPR 投稿論文在你的研究方向上處於什麼位置?

Z:我的研究方向是自動化網路設計。

這篇文章在投稿時是效能先進的自動網路結構設計演算法。但過了半年多,後續又出現了很多新的優秀工作,我們本身也在繼續迭代研究新的方法。

D:我的研究方向集中在視訊監控中的行人再識別問題。

近三年來我一直從事行人再識別問題中相似性測度學習的研究,之前的研究以非深度學習的方法對測度學習的形式和空間約束等進行研究(發表論文收錄於 CVPR'15、CVPR'16、IJCV'17),主要應用於小規模訓練資料。這次的投稿是將深度神經網路與傳統概率圖模型相結合,以樣本之間的相似性為物件構建條件隨機場,約束行人特徵的學習過程。

C:我的研究方向是底層計算機視覺,包括影像和視訊等畫質增強,超分率,去噪等。

本次投稿論文對我來講是非常重要的一篇工作,我們首次利用增強學習的方法解決影像處理問題,是用一種全新的思路解決,更加貼近真實場景的實際問題,也是一次大膽的嘗試,我們希望它能夠激發更多人的靈感,帶來更多優秀的成果。

如果讓你對今年 CVPR 的近一千篇論文進行分類,你會以什麼為標準進行分類?分成哪些類別?

Z:我會按照題目和方法的創新度來分類:1)提出新問題用老方法解;2)在老問題上提出新方法;3)在別人的已有方法基礎上做修改;4)發現新問題提出新方法解決。

D:根據不同方法解決問題的資料模態,我將方法進行了分類,這是因為不同資料型別所包含的資訊有各自的特點,因此處理的方式很有很大的不同。不同資料的模態包括:影像資料、視訊資料、點雲資料、文字資料以及音訊資料  

C:我可以簡單的把 CVPR 論文分成三類,一類是理論性較強的論證性論文,一類是偏重應用但關注的仍是傳統問題或資料集的論文,最後一類是提出並嘗試解決一些真實問題的論文,這些論文在今年越來越多,人們開始關注那些真實的場景,比如去噪方面已經不再侷限在高斯噪聲,而是關注拍照應用場景中的實際噪聲,並有新的資料集出現。

在你的研究中,除了深度學習之外,還引入了哪些機器學習/數學/物理學概念?為什麼考慮結合深度學習與這個特定概念?

Z:我還引入了強化學習,其能夠自動設計網路結構而沒有確定的優化方式,所以基於試錯的強化學習是一種比較合理的解決方案。

D:我引入了經典圖模型中的條件隨機場模型。條件隨機場是一種能夠描述變數之間依賴關係的數學工具,與深度學習結合在影像語義分割等問題中已經得到了一定的應用。這次投稿的論文中,深度條件隨機場的用法與眾不同: 之前深度條件隨機場通常將畫素值建模為模型中的隨機變數,建立一張影像中畫素與畫素之間的依賴關係。而這篇論文提出的方法以不同影像之間的相似性作為隨機變數,建立了不同樣本之間相似性的依賴關係進行特徵學習。

C:我這兩年在關注增強學習,並嘗試結合增強學習與深度學習,解決一些單一深度學習框架不能解決的問題。深度學習對於動態規劃決策一類的問題無法很好的解決,而增強學習可以彌補這個缺陷,將深度學習的模型融入增強學習的框架中,可以延伸深度學習解決問題的範疇,發揮更大的力量。

你在與同行交流你的這篇工作時被問到最多的問題是什麼?

Z:該工作用了多少 GPU 卡?自動設計的網路以後真的能取代調參俠麼?

我們在工作中使用了 32 塊 GPU,從目前該方向的發展趨勢來看,自動設計的網路架構能夠在 1-2 年內替代人類的手工設計。

D:為什麼在這篇論文中要提出群組相似性的概念而使用 CRF 建模?

因為影像之間的相似性本身很難定義。兩張圖片是否相似往往能夠通過與更多的圖片比較獲得,因此建立利用更多圖片並建立它們之間的依賴關係能夠建立更加合理的相似性描述。

C:增強學習的框架是否很難訓練,初學者如何上手?

我們的論文網頁上提供相應的訓練和測試程式碼,會幫助想學習的人快速起步,掌握要領。

除了自己的研究方向外,本屆 CVPR 你最感興趣的方向是什麼?為什麼?

Z:深度學習的可解釋性,深度學習火了這麼多年還是沒有在原理上解釋的突破,而且學界也非常想從原理上來指導設計網路結構。

D:3D 視覺方向。首先,3D 資訊能夠展示與影像不同維度的資訊,是對影像資訊的進一步補充,與影像結合具有更加廣闊的研究空間。此外,在目前自動駕駛和機器人研究火熱的氛圍中,3D 視覺領域的應用有著強烈的應用需求,更有可能將研究的成果應用到實際的產品中,實現研究對社會的價值。

C:我開始關注人臉編輯這個方向,比如美妝,美顏,人臉老化等。主要原因是這個方向的產品開始逐漸增多,也越來越受到大眾的喜愛。

商湯為你的研究帶來了哪些幫助?自己有哪些提升和感受?

Z:感謝商湯給我的研究提供了大量的計算資源,沒有這些 GPU,這個工作單單在高校實驗室是不可能完成的。還有就是和商湯研究院裡研究員們的討論氛圍非常濃,容易產生更多的研究想法。

D:商湯科技有著天然的應用需求,強大的深度學習平臺和硬體支援,鼓勵創新的氛圍以及一起奮鬥的小夥伴。

C:商湯提供了一個非常廣闊的平臺,我們可以和客戶面對面的交流互動,深入瞭解客戶的需求,清楚實際問題和論文的差距。同時商湯有非常多優秀的員工和實習生,與他們在一起工作是很開心的事情。當然,商湯的工作也是非常緊張快節奏的。

相關文章