盤點曠視14篇CVPR 2019論文,都有哪些亮點?

运筹OR帷幄發表於2019-03-11

盤點曠視14篇CVPR 2019論文,都有哪些亮點?編者按

回顧 CVPR 2018 ,曠視科技有 8 篇論文被收錄,如高效的移動端卷積神經網路 ShuffleNet、語義分割的判別特徵網路 DFN、優化解決人群密集遮擋問題的 RepLose、通過角點定位和區域分割優化場景文字檢測的一種新型場景文字檢測器、率先提出的可復原扭曲的文件影像等等。今年,曠視科技在 CVPR 2019 上共有 14 篇論文被接收。今天小編與大家一起學習一下這14 篇論文。

行人重識別

1、《Perceive Where to Focus: Learning Visibility-aware Part-level Features for Partial Person Re-identification》:提出了區域性可見感知模型——VPM。

論文摘要:

論文中考慮了行人重新識別 (re-ID) 的一個現實問題,即區域性行人重識別問題。在區域性行人重識別場景下,需要探索資料庫影像中包含整體人物的比例大小。如果直接將區域性行人影像與整體行人影像進行比較,則極端空間錯位問題將顯著地損害特徵表徵學習的判別能力。針對這個問題,本文提出了一個區域性可見感知模型 (VPM),通過自監督學習感知可見區域內的特徵,來解決區域性行人重識別問題。該模型利用可見感知的特性,能夠提取區域特徵並比較兩張影像的共享區域 (共享區域在兩張影像上都是可見區域),從而區域性行人重識別問題上取得更好的表現。總的來說,VPM 有兩大優勢:一方面,與學習全域性特徵的模型相比,VPM 模型通過學習影像區域特徵,能夠更好地提取一些細粒度特徵資訊。另一方面,利用可見感知特徵,VPM 能夠估計兩個影像之間的共享區域,從而抑制空間錯位問題。通過大量的實驗結果驗證,VPM 模型能夠顯著地改善特徵表徵的學習能力,並且在區域性和整體行人重識別場景中,均可獲得與當前最先進方法相當的效能。

影像 3D 紋理生成

2、《Re-Identification Supervised 3D Texture Generation》:在研究欠缺領域——影像 3D 紋理生成領域中,提出一種端到端的學習策略。

論文摘要:

近年來,對單張影像中人體 3D 姿態和形狀估計的研究得到了廣泛關注。然而,在影像 3D 紋理生成領域的研究卻相當的欠缺。針對這個問題,本文提出一種端到端的學習策略,利用行人重識別的監督資訊,來解決影像中人體紋理生成問題。該方法的核心思想是,利用輸入的影像渲染影像中行人紋理,並將行人重識別網路作為一種感知標準,來最大化渲染影像和輸入原影像之間的相似性。本文在行人影像上進行了大量的實驗,結果表明所提出的方法能夠從單張影像輸入中生成紋理,其質量明顯優於其他方法所生成的紋理。此外,本文將此應用擴充套件到其他方面,並探索所生成紋理的可使用性。

3D 點雲

3、《Modeling Local Geometric Structure of 3D Point Clouds using Geo-CNN》:提出 Geo-CNN 模型,將深度卷積神經網路應用於 3D 點雲資料區域性區域中點的幾何結構建模。

論文摘要:

得益於深度卷積神經網路 (CNN) 的近期的應用和發展,許多研究人員將其直接用於 3D 點雲的資料建模。一些研究已證明,卷積結構對於點雲資料的區域性結構建模是非常有效的,因此研究者將其用於層級特徵中的區域性點集建模的研究。然而,對於區域性區域中點的幾何結構建模研究的關注卻相當有限。為了解決這個問題,本文提出一種 Geo-CNN 模型,將一個名為 GeoConv 的通用卷積式操作應用於區域中的每個點及其區域性鄰域。當提取區域中心點與其相鄰點之間的邊緣特徵時,該模型能夠捕獲點之間的區域性幾何關係。具體來說,首先將邊緣特徵的提取過程分解為三個正交基礎,接著基於邊緣向量和基礎向量之間的角度,聚合所提取的特徵,通過層級特徵的提取,能夠使得網路特徵提取過程中保留歐式空間點的幾何結構。作為一種通用而高效的卷積操作,GeoConv 能夠輕鬆地將 3D 點雲分析過程整合到多個應用中,而以 GeoConv 為結構的 Geo-CNN 模型在 ModelNet40 和 KITTI 資料集的點雲資料建模任務上都實現了當前最先進的效能。

場景文字檢測

4、《Shape Robust Text Detection with Progressive Scale Expansion Network 》:提出 PSENet 模型,一種新穎的漸進式尺度可擴充網路,針對場景文字檢測中任意形狀文字問題。此研究後續會開源,大家可以繼續關注。

論文摘要:

得益於深度卷積神經網路的發展,場景文字檢測領域近來取得了快速發展。然而,對於其在工業界是的實際應用而言,仍存在兩大挑戰:一方面,大多數現有的方法都需要採用四邊形的邊界框,這種邊界框在定位任意形狀的文字時的效能很差,精確度很低。另一方面,對於場景中兩個彼此接近、互相干擾的文字,現有技術可能會產生誤檢,結果會包含兩個例項。傳統的方法採用分段式的技術可以緩解四邊形邊界框的效能問題,但通常無法解決誤檢問題。因此,為了解決上述兩個問題,本文提出了一種新穎的漸進式尺度可擴充套件網路 (PSENet),它可以精確魯棒地檢測場景中任意形狀的文字例項。具體地說,PSENet 模型能夠為每個文字例項生成不同比例的核 (kernel),並將最小比例的 kernel 逐步擴充套件生成完整形狀比例的 kernel,以適應不同大小的文字例項。此外,由於最小尺度的 kernel 之間存在較大的幾何邊距,因此 PASNet 能夠有效地分割場景中一些緊密的文字例項,從而更容易地使用分段方法來檢測任意形狀的文字例項。大量的實驗結果表明,PSENet 模型在 CTW1500,Total-Text,ICDAR 2015 和 ICDAR 2017 MLT等資料集上都能實現非常有效、魯棒的檢測效能。值得注意的是,在包含長曲線的 CTW1500 資料集上,PSENet 模型在 27 FPS 的速度下能夠實現74.3%的F-measure,而最高的F-measure 可達82.2%,超過當前最先進的方法 6.6%。

全景分割

5、《An End-to-end Network for Panoptic Segmentation》:在全景分割研究領域中,曠視提出了一種新穎的端到端的全景分割模型。

論文摘要:

全景分割,是需要為影像中每個畫素分配類別標籤的同時,分割每個目標例項的一種分割任務。這是一個具有挑戰性的研究領域,傳統的方法使用兩個獨立的模型但二者之間不共享目標特徵,這將導致模型實現的效率很低。此外,傳統方法通過一種啟發式方法來合成兩種模型的結果,在合併過程期間無法利用足夠的特徵上下文資訊,這就導致模型難以確定每個目標例項之間的重疊關係。為了解決這些問題,本文提出了一種新穎的端到端全景分割模型,能夠有效地、高效地預測單個網路中每個目標例項及其分割結果。此外,還引入了一種新穎的空間排序模組來處理所預測的例項之間的重疊關係問題。大量的實驗結果表明,所提出的方法能夠在 COCO Panoptic 基準上取得了非常有前景的結果。 

時空動作檢測

6、《TACNet: Transition-Aware Context Network for Spatio-Temporal Action Detection》:曠視在時空動作檢測研究領域針對時間維度問題提出了網路——TACNet(上下文轉換感知網路),改善時空動作檢測效能。

論文摘要:

當前,時空動作檢測領域最先進的方法已經取得了令人印象深刻的結果,但對於時間維度的檢測結果仍然不能令人滿意,其主要原因在於模型會將一些類似於真實行為的模糊狀態識別為目標行為,即使是當前效能最佳的網路也是如此。因此,為了解決這個問題,本文將這些模糊狀態樣本定義為“轉換狀態 (transitional states)”,並提出一種上下文轉換感知網路 (TACNet) 來識別這種轉換狀態。TACNet 網路主要包括兩個關鍵部分,即時間上下文檢測器和轉換感知分類器。其中,時間上下文檢測器可以通過構造一個迴圈檢測器來提取具有恆定時間複雜度的長期上下文資訊,而轉換感知分類器則是通過同時對行動和轉換狀態進行分類來進一步識別轉換狀態。因此,TACNet 模型可以顯著地改善時空動作檢測的效能,並在 UCF101-24 和 J-HMDB 資料集實現非常有效的檢測效能。其中, TACNe 在 JHMDB 資料集上取得了非常有競爭力的表現,並在 frame-mAP 和 video-mAP 兩個指標上明顯優於 UCF101-24 資料集中最先進的方法。

影像超解析度

7、《Zoom in with Meta-SR: A Magnification-Arbitrary Network for Super-Resolution》:近年來,影像超解析度研究已經取得了很大的成功,但在這篇論文中,曠視將研究重點放在其一個被忽視的方向:任意縮放因子的超解析度研究。論文中對此問題提出了一個新方法—— Meta-SR(任意放大網路)

論文摘要:

得益於深度卷積神經網路 (DCNNs) 的發展,近期影像超解析度領域的研究取得了巨大的成功。然而,對於任意縮放因子的超解析度研究一直以來都是被忽視的一個方向。先前的研究中,大多數都是將不同縮放因子的超解析度視為獨立任務,且只考慮幾種整數因子的情況,為每個因子訓練特定的模型,這嚴重影響了整體模型的效率。因此,為了解決這個問題,本文提出了一種稱為 Meta-SR 的新方法。具體來說,首先通過單一模型來求解任意縮放因子 (包括非整數比例因子) 的超解析度情況。接著,在 Meta-SR 中,使用 Meta-upscale 模組替代傳統方法中的 upscale 模組。對於任意縮放因子,Meta-upscale 模組通過將縮放因子作為輸入來動態地預測每個 upscale 濾波器的權重,並使用這些權重來生成其他任意大小的高解析度影像 (HR)。而對於任意的低解析度影像,Meta-SR 可以通過單個模型,以任意縮放因子進行連續地放大。最後,對於所提出的方法,在一些廣泛使用的基準資料集上進行效能評估,結果展示了 Meta-Upscale 的有效性和優越性。

目標檢測

8、《Bounding Box Regression with Uncertainty for Accurate Object Detection》:目標檢測中不確定性邊界框問題,在這篇論文中提出了一中新的邊界框迴歸損失演算法,提高了各種檢測體系的目標定位精度。

該研究相關的程式碼和模型已開源,地址:

https://github.com/yihui-he/KL-Loss

論文摘要:

諸如 MS-COCO 在內大規模目標檢測資料集,都旨在儘可能清楚地定義目標真實的邊界框標註。然而,事實上在標註邊界框時經常會產生歧義。因此,為了解決這個問題,本文提出了一種新的邊界框迴歸損失 (bounding box regression loss) 演算法,用於學習邊界框變換和區域性方差。這種損失演算法提高了各種檢測體系的目標定位精度,且幾乎不需要額外的計算成本。此外,該演算法的另一大優勢在於它能夠學習目標的定位方差,這允許模型在非最大抑制 (NMS) 計算階段合併相鄰的邊界框,以便進一步改善了定位的效能。在 MS-COCO 資料集上,該損失演算法能夠將 Faster R-CNN (VGG-16) 的平均精度 AP 從23.6%提高到29.1%。更重要的是,對於 Mask R-CNN (ResNet-50-FPN),該演算法將 AP 和 AP 90 分別提高了1.8%和6.2%,這明顯優於當前最先進的邊界框細化 (bounding box refinement) 方法。

語義分割

9、《DFANet: Deep Feature Aggregation for Real-Time Semantic Segmentation》:今年唉語義分割研究方向,曠視提出一種非常有效的 CNN 架構——DFANet,一種在有限資源下,用於實時語義分割的深度特徵聚合演算法。

論文摘要:

本文提出一種在有限資源條件下的語義分割模型 DFANet,這是一種非常有效的 CNN 架構。DFANet 從單個輕量級骨幹網路開始,分別通過子網和子級聯的方式聚合判別性特徵。基於多尺度特徵的傳播,DFANet 網路在獲得足夠感受野的同時下,大大減少了模型的引數量,提高了模型的學習能力,並在分割速度和分割效能之間取得了很好的平衡。通過在 Cityscapes 和 CamVid 資料集上的大量實驗評估,驗證了 DFANet 網路的優越效能:相比於最先進的實時語義分割方法,DFANet 網路的分割速度快了3倍,而只使用七分之一的 FLOP,同時保持相當的分割準確性。具體來說,在一塊NVIDIA Titan X卡上,對於1024×1024輸入,DFANet 在 Cityscapes 測試資料集上實現了71%的平均 IOU (Mean IOU),分割速度為170FPS,而僅有3.4 GFLOP。同時,當使用較小的骨幹模型時,它能夠取得67%的平均IOU (Mean IOU),250 FPS 的分割速度和2.1 GFLOP。

多標籤影像識別

10、《Multi-Label Image Recognition with graph convolutional Networks》:為了構建影像中同時出現的不同目標標籤的依賴關係模型,來提高模型的識別效能,在這篇論文中提出了一種基於圖卷積網路模型——GCN。

論文摘要:

多標籤的影像識別任務,旨在預測影像中所有存在的目標標籤。由於影像中的目標通常是同時出現的,因此理想狀態下,我們希望對不同目標標籤的依賴性進行建模以便提高模型的識別效能。為了捕獲和利用這種重要的依賴關係,本文提出了一種基於圖卷積網路的模型 (GCN)。該模型能夠在目標標籤之間構建有向圖,其中每個節點 (標籤) 由詞嵌入 (word embedding) 表示,而 GCN 網路用於將該標籤圖對映到一組相互依賴的目標分類器。這些分類器使用另一個子網路提取的影像描述器,實現整個網路的端到端訓練。此外,通過設計不同型別的相關矩陣並將它們整合到圖卷積網路中訓練,來深入研究圖構建問題。通過在兩個多標籤影像識別資料集基準的試驗評估,結果表明所提出的方法明顯優於當前最先進的方法。此外,視覺化分析結果表明圖卷積網路模型所學習的分類器能夠保持有意義的語義結構資訊。

關於提高 GIF 視覺質量

11、《GIF2Video: Color Dequantization and Temporal Interpolation of GIF images》:GIF 影像中視覺偽像問題如何解決?這篇論文中提出一種 GIF2Video 方法,通過顏色去量化 CNN 模型和時序插值演算法 SuperSlomo 網路,來提高自然條件下 GIF 視覺質量。

論文摘要:

GIF 是一種高度可移植的圖形格式,在網路上無處不在。儘管 GIF 影像的尺寸小,但它們通常包含一些視覺偽像,如平面顏色區域,偽輪廓,顏色便移和點狀圖案。本文提出一種 GIF2Video 方法,這是第一種基於學習來提高自然條件下 GIF 視覺質量的方法。具體來說,該方法通過恢復 GIF 建立時三個步驟中丟失的資訊來實現 GIF 的恢復任務:即幀取樣,顏色量化和顏色抖動。首先,提出了一種用於顏色去量化的新型 CNN 架構,它是一種多步驟的顏色校正組合架構,並設計一種綜合的損失函式用於衡量大量化誤差。接著,採用 SuperSlomo 網路對 GIF 幀進行時間插值。最後,在 GIF-Faces 和 GIF-Moments 兩個大型資料集上進行實驗評估,結果表明所提出的方法能夠顯著地提高 GIF 影像的視覺質量,並優於基準和當前最先進的方法。

點雲資料分析

12、《GeoNet: Deep Geodesic Networks for Point Cloud Analysis》:曠視在這篇論文中提出了 GeoNet 模型,這是第一個用於模擬點雲資料表面結構的深度學習方法。

論文摘要:

基於表面的測量拓撲理論為目標的語義分析和幾何建模研究提供了強有力的線索。但是,對於點雲資料而言,這種關聯資訊往往會丟失。因此,本文提出一種 GeoNet 模型,這是第一個用於模擬點雲資料表面結構的深度學習方法。此外,為了證明模型所學習的資訊表示的適用性,本文進一步提出了一種融合方案,用於將 GeoNet 網路與其他基線或骨幹網路 (如 PU-Net 和 PointNet ++) 結合使用,用於點雲資料的 down-stream 分析。大量的實驗結果表明,所提出的方法能夠在多個代表性的任務 (這些任務受益於底層的表面拓撲資訊的理解) 上改進當前最先進方法的效能,包括點上取樣,正常估計,網格重建和非剛性形狀分類等。

室外場景深度估計

13、《DeepLiDAR: Deep Surface Normal Guided Depth Prediction for Outdoor Scene from Sparse LiDAR Data and Single Color Image》:這篇論文提出的深度學習架構——DeepLiDAR 主要應用與單色影像和稀疏深度影像的室外場景深度估計,實現端到端的影像密集深度估計。

論文摘要:

本文提出一種深度學習架構,用於為單色影像和稀疏深度影像中室外場景生成精確的密集深度估計。受室內場景深度估計方法的啟發,所提出的網路將曲面法線估計作為一種中間表示,實現端到端的影像密集深度估計。具體來說,通過改進的編解碼器結構,網路能夠有效地融合密集的單色影像和稀疏 LiDAR 資料的深度。為了解決室外場景的特定挑戰,該網路還預測了一個置信掩模 (confidence mask),用於處理由於遮擋而出現在前景邊界附近的混合 LiDAR 資料訊號,並將單色影像和曲面法線的估計結果與所學習的注意力對映圖相結合,以便提高深度估計的精度,這對於遠距離的區域而言尤其重要。通過大量的實驗評估,結果表明所提出的模型能夠改進了 KITTI 資料集深度估計任務上最先進方法的效能。此外,通過消融研究進一步分析模型每個元件對最終估計效能的影響,結果表明模型具有良好的泛化能力和應用前景,能夠推廣到稀疏度更高的室外或室內場景。

緊湊、有效的深度學習模型

14、《C3AE: Exploring the Limits of Compact Model for Age Estimation》: 全年曠視的論文中提出了 ShuffleNets 網路,一種可應用與移動端的輕量級模型,但是在減少引數數量的情況下,模型的表達能力肯定會受削弱影響。因此,在今年曠視的這篇論文中提出了這個緊湊而有效的深度學習模型——C3AE,一種基於級聯上下文資訊的模型用於年齡估計問題。

論文摘要:

年齡估計是計算機視覺中一個經典的學習問題。諸如 AlexNet,VggNet,GoogLeNet 和 ResNet 等更大更深的 CNN 模型已經能夠取得很好的效能。然而,這些模型無法應用於嵌入式/移動裝置。最近所提出的 MobileNets 和 ShuffleNets 網路主要是通過減少引數的數量來實現輕量級模型,以便應用於移動端裝置。然而,由於採用了深度可分的卷積,這些模型的表達能力被嚴重削弱。因此,針對這些問題,本文研究緊湊模型在小尺度影像方面的侷限性,並提出一種基於級聯上下文資訊的年齡估計模型 C3AE,這是一種極其緊湊而有效深度學習模型。與 MobileNets/ShuffleNets 和 VggNet 等模型相比,C3AE 模型僅具有1/9和1/2000引數,同時實現了與其相當的效能。特別是,通過級聯模型能夠只使用兩點表徵的資訊來重新定義年齡估計問題。此外,為了充分利用人臉上下文資訊,本文還提出了多分支的 CNN 網路來聚合多尺度上下文資訊。C3AE 模型在三個年齡估計資料集上取得了遠超當前最先進方法的效能表現,並證明這種緊湊模型的優越性。

相關文章