曠視科技提出統一感知解析網路UPerNet，最佳化場景理解

論文名稱：《Unified Perceptual Parsing for Scene Understanding》

論文連結：https://arxiv.org/abs/1807.10221
程式碼連結：https://github.com/CSAILVision/unifiedparsing

導語
背景
設計思想
定義 UPP
Broden+
指標
UPerNet
背景
架構
實驗
結果
視覺知識
結論
參考文獻

導語

人類對世界的視覺理解是多層次的，可以輕鬆分類場景，檢測其中的物體，乃至識別物體的部分、紋理和材質。在本文中，曠視科技提出一種稱之為統一感知解析（Unified Perceptual Parsing/UPP）的新任務，要求機器視覺系統從一張影像中識別出盡可能多的視覺概念。同時，多工框架 UPerNet 被提出，訓練策略被開發以學習混雜標註（heterogeneous annotations）。曠視科技在 UPP 上對 UPerNet 做了基準測試，結果表明其可有效分割大量的影像概念。這一已訓練網路進一步用於發現自然場景中的視覺知識。

背景

人類視覺系統一眼即可從一張影像中提取大量語義資訊。人類不僅可以立即解析其中的物體，還能識別細節屬性，比如其部分、紋理和材質。如圖 1 所示，這是一間起居室，有著很多不同物體，比如一張咖啡桌，一幅畫，以及牆面。同時，我們還看到，這是一張四腿咖啡桌，桌面之上有一塊桌墊，以及桌子是木質的，沙發表層是針織的。可見，從材質、紋理的視覺感知到物體及其部分的語義感知，我們對這一視覺場景的描述是多層次的。

曠視科技提出統一感知解析網路UPerNet，最佳化場景理解

圖 1：針對 UPP 訓練的神經網路可一次性解析不同感知層次的視覺概念，比如場景、物體、部分、紋理、材質等。

近年來，由於深度神經網路和大型資料集的發展，計算機視覺識別能力取得重大進步，不斷逼近甚至超越人類水準。但是，視覺識別任務不同，其研究也各不相同。比如，物體檢測和場景識別已達到人類水平，解析和分割的精確度可至畫素級；紋理和材質的感知與識別同樣有著充分的研究。

設計思想

在人類視覺系統中，上述任務的完成是一步到位的，這就拋給計算機視覺模型一個問題：一個神經網路是否可以同時解決若干個不同的視覺任務。本文把這個問題以一項新任務的形式提出，稱之為統一感知解析（Unified Perceptual Parsing/UPP），並給出一種全新的學習方法解決它。

UPP 有若干個挑戰。首先，沒有一個涵蓋所有層面視覺資訊的標註資料集。不同的資料集是針對一項項特定任務而打造的。比如 ADE20K 資料集用於場景解析，DTD 資料集用於紋理識別，OpenSurfaces 資料集用於材質和表面識別。其次，不同感知層面的註解也是混雜的。比如，ADE20K 資料集的註解是畫素級的，而 DTD 資料集則是影像級的。

為解決上述挑戰，本文提出一個新框架，整合不同資料集之間的差異性，並學習聯合檢測不同視覺概念。一方面，本文從每次迭代中隨機取樣一個資料來源，並只更新相關層，以從資料來源中推理概念。這樣的設計會規避不穩定行為，比如某一特定概念註解的梯度帶有噪音。

另一方面，該框架藉助單一網路特徵的分層屬性，即，對於高層語義概念比如場景分類，分類器只基於帶有較高階語義資訊的特徵圖而構建；對於較低階語義資訊，比如物體和材質分割，分類器只基於所有階段的或者帶有低階語義資訊的特徵圖而構建。進而，本文提出一種訓練方法，可使網路只使用影像級的註解即可預測畫素級的紋理標籤。

本文貢獻可歸納為如下 3 個方面：1）提出一種新解析任務——統一感知解析（UPP），它需要系統一次性解析多層次視覺概念；2）提出一種帶有層級結構的全新網路——UPerNet，可學習不同影像資料集中的差異化資料；3）該網路可實現聯合推理，併發掘影像之中豐富的視覺知識。

定義 UPP

UPP 任務是指從一張給定影像中識別出盡可能多的視覺概念，從場景標籤，物體，到其部分、紋理和材質，視覺概念是多層次的。該任務依賴於不同訓練資料的可用性。由於沒有一個現有資料集可滿足條件，本文透過整合若干個影像標註源而成一個新資料集——Broden+。

資料集

新資料集構建的基礎是 Broadly Densely Labeled Dataset（Broden），這是一個包含不同視覺概念的混雜資料集。但是由於其設計初衷，Broden 並不適用於分割網路的訓練。為此本文從 4 個方面做出最佳化，得到了 Broden+ 資料集：

去掉不同資料集的相似概念；
只保留至少出現在 50 張影像以上、在整個資料集中至少包含 50000 畫素的物體類別；
手動去掉 OpenSurfaces 資料集中的下采樣標籤；
把 ADE20K 資料集中 400+ 個場景標籤對映到 Places 資料集中的 365 個標籤。

這樣，經過標準化工作而得到的新資料集共包含 57095 張影像，其中 22210 張來自 ADE20K，10103 張來自 Pascal-Context 和 Pascal-Part，19142 張來自 OpenSurfaces，5640 張來自 DTD，如表 1 所示。圖 3 是一些例項。

曠視科技提出統一感知解析網路UPerNet，最佳化場景理解

表 1：Broden+ 資料集中每一標籤型別的統計資訊，其評估指標也已給出。

曠視科技提出統一感知解析網路UPerNet，最佳化場景理解

圖 3：Broden+ 資料集例項。

指標

一般來講，分割任務的衡量指標是 P.A. 和 mIoU。為了解決 mIoU 不計數未標註區域的預測的問題，使其更適合部分分割等任務，本文在一些特定任務中使用 mIoU，但也計數背景區域的預測，這一新指標稱為 mIoU-bg。

具體而言，對於藉助 ADE20K，Pascal-Context，OpenSurfaces 資料集的物體和材質解析任務，使用評估標準 P.A. 和 mIoU；對於物體部分，則使用 P.A. 和 mIoU-bg；對於場景和紋理分類，則使用 top-1 精度。

UPerNet

背景

當前最優的分割網路主要基於全卷積網路（FCN）。由於缺乏足夠的訓練樣本，分割網路通常初始化自針對影像分類任務的預訓練網路。為使語義分割實現高解析度預測，dilated conv 技術被提出，在緩解下采樣副作用的同時，保證了感受野的擴充率；使用這一技術的網路也成為了語義分割任務的標準正規化。但是針對本文提出的 UPP 任務，這一方法有 2 個缺陷：

最近提出的深度卷積網路雖在影像分類和語義分割任務中大獲成功，但層數往往達到數十、數百層；其設計結構如此複雜，以至於在網路早期階段由於感受野較大和計算複雜度較低的原因，下采樣率快速增長。
這種網路只利用了其中最深的特徵圖。使用高階語義特徵分割高階概念（比如物體）是合理的，但是並不適合分割多層次的感知屬性，尤其是低階概念（比如紋理、材質）。

有鑑於此，本文提出了多工新框架 UPerNet。

架構

曠視科技提出統一感知解析網路UPerNet，最佳化場景理解

圖 4：UPerNet 架構圖。

UPerNet（Unified Perceptual Parsing Network）網路架構如圖 4 所示，它基於特徵金字塔網路（FPN）。儘管理論上講，深度卷積網路的感受野足夠大，但實際可用的要小很多。為克服這一問題，本文把 PSPNet 中的金字塔池化模組（PPM）用於骨幹網路的最後一層，在其被饋送至 FPN 自上而下的分支之前。結果實驗證明，在帶來有效的全域性先驗表徵方面，PPM 和 FPN 架構是高度一致的。

本文使用多個語義層次的特徵。由於影像級資訊更適合場景分類，Scene head 直接被附加到 PPM 模組之後的特徵圖。Object head 和 Part head 被附加到與來自 FPN 的所有層相融合的特徵圖。Material head 被附加到 FPN 中帶有最高解析度的特徵圖。Texture 被附加到 ResNet 中的 Res-2 模組，並在整個網路完成其他任務的訓練之後進行最佳化，這一設計背後的原因有 3 個：

紋理是最低階的感知屬性，因此它純粹基於明顯的特徵，無需任何高階的資訊；
正確預測紋理的核心特徵是在訓練其他任務時被隱式學習的；
這一分支的感受野需要足夠小，因此當一張正常大小的影像輸入網路，它可以預測不同區域的不同標籤。

實驗

本節首先給出了 UPerNet 在原始語義分割任務和 UPP 任務上的量化研究，接著將這一框架用於發掘場景理解背後的視覺常識知識。

結果

整體架構。為證明 UPerNet 在語義分割上的有效性，本文給出了不同設定下藉助物體標註在 ADE20K 資料集上的結果，如表 2 所示。

曠視科技提出統一感知解析網路UPerNet，最佳化場景理解

表 2：ADE20K 資料集上該方法（基於 ResNet-50）與當前最優方法的對比分析。

混雜標註的多工學習。本文給出了在分離或融合的不同標註集上的訓練結果。

曠視科技提出統一感知解析網路UPerNet，最佳化場景理解

表 3：UPerNet 在 Broden+ 資料集上的結果。

量化結果。本文給出了 UPerNet 的量化結果。如圖 5 所示。UPerNet 可統一結構性視覺知識，同時有效預測層級輸出。

曠視科技提出統一感知解析網路UPerNet，最佳化場景理解

圖 5：UPerNet（ResNet-50）在驗證集上的預測。

視覺知識

UPP 要求模型從一張影像之中識別儘可能多的視覺概念，如果模型成功做到這一點，就可以發現隱藏在現實世界之下的豐富視覺知識，回答諸如「這個杯子的材質是什麼」的問題，有助於機器視覺系統更好理解周遭世界。

本節證明，在 Broden+ 資料集上訓練的 UPerNet 可發現多層次的結構性知識。研究者以分層的方式定義了若干類關係，如表 4 所示。

曠視科技提出統一感知解析網路UPerNet，最佳化場景理解

表 4：UPerNet 發掘的視覺知識。

結論

本文定義了名為統一感知解析（UPP）的識別任務，從場景、物體、部分、材質到紋理，其試圖一次性解析影像的多層次視覺概念。一個多工網路和處理混雜標註的訓練策略被開發和測試。本文進而利用已訓練的網路發現場景之中的視覺知識。

參考文獻

Peng, C., Xiao, T., Li, Z., Jiang, Y., Zhang, X., Jia, K., Yu, G., Sun, J.: Megdet:A large mini-batch object detector. arXiv preprint arXiv:1711.07240 (2017)
Zhao, H., Shi, J., Qi, X., Wang, X., Jia, J.: Pyramid scene parsing network. In:IEEE Conf. on Computer Vision and Pattern Recognition (CVPR). (2017) 2881–2890
Chen, L.C., Papandreou, G., Kokkinos, I., Murphy, K., Yuille, A.L.: Deeplab:Semantic image segmentation with deep convolutional nets, atrous convolution,and fully connected crfs. arXiv preprint arXiv:1606.00915 (2016)
Kirillov, A., He, K., Girshick, R., Dollr, P.: Mscoco challenge 2017: stuff segmentation,team fair. (2017)
Zhou, B., Lapedriza, A., Xiao, J., Torralba, A., Oliva, A.: Learning deep features for scene recognition using places database. In: Advances in neural information processing systems. (2014) 487-495

相關文章