曠視科技提出統一感知解析網路UPerNet,優化場景理解

機器之心發表於2018-08-25

論文名稱:《Unified Perceptual Parsing for Scene Understanding》

曠視科技提出統一感知解析網路UPerNet,優化場景理解

  •  論文連結:https://arxiv.org/abs/1807.10221

  •  程式碼連結:https://github.com/CSAILVision/unifiedparsing 

目錄

  • 導語

  • 背景

  • 設計思想

  • 定義 UPP

  • Broden+

  • 指標

  • UPerNet

  • 背景

  • 架構

  • 實驗

  • 結果

  • 視覺知識

  • 結論

  • 參考文獻

導語

人類對世界的視覺理解是多層次的,可以輕鬆分類場景,檢測其中的物體,乃至識別物體的部分、紋理和材質。在本文中,曠視科技提出一種稱之為統一感知解析(Unified Perceptual Parsing/UPP)的新任務,要求機器視覺系統從一張影像中識別出盡可能多的視覺概念。同時,多工框架 UPerNet 被提出,訓練策略被開發以學習混雜標註(heterogeneous annotations)。曠視科技在 UPP 上對 UPerNet 做了基準測試,結果表明其可有效分割大量的影像概念。這一已訓練網路進一步用於發現自然場景中的視覺知識。

背景

人類視覺系統一眼即可從一張影像中提取大量語義資訊。人類不僅可以立即解析其中的物體,還能識別細節屬性,比如其部分、紋理和材質。如圖 1 所示,這是一間起居室,有著很多不同物體,比如一張咖啡桌,一幅畫,以及牆面。同時,我們還看到,這是一張四腿咖啡桌,桌面之上有一塊桌墊,以及桌子是木質的,沙發表層是針織的。可見,從材質、紋理的視覺感知到物體及其部分的語義感知,我們對這一視覺場景的描述是多層次的。

曠視科技提出統一感知解析網路UPerNet,優化場景理解

圖 1:針對 UPP 訓練的神經網路可一次性解析不同感知層次的視覺概念,比如場景、物體、部分、紋理、材質等。

近年來,由於深度神經網路和大型資料集的發展,計算機視覺識別能力取得重大進步,不斷逼近甚至超越人類水準。但是,視覺識別任務不同,其研究也各不相同。比如,物體檢測和場景識別已達到人類水平,解析和分割的精確度可至畫素級;紋理和材質的感知與識別同樣有著充分的研究。

設計思想

在人類視覺系統中,上述任務的完成是一步到位的,這就拋給計算機視覺模型一個問題:一個神經網路是否可以同時解決若干個不同的視覺任務。本文把這個問題以一項新任務的形式提出,稱之為統一感知解析(Unified Perceptual Parsing/UPP),並給出一種全新的學習方法解決它。

UPP 有若干個挑戰。首先,沒有一個涵蓋所有層面視覺資訊的標註資料集。不同的資料集是針對一項項特定任務而打造的。比如 ADE20K 資料集用於場景解析,DTD 資料集用於紋理識別,OpenSurfaces 資料集用於材質和表面識別。其次,不同感知層面的註解也是混雜的。比如,ADE20K 資料集的註解是畫素級的,而 DTD 資料集則是影像級的。

為解決上述挑戰,本文提出一個新框架,整合不同資料集之間的差異性,並學習聯合檢測不同視覺概念。一方面,本文從每次迭代中隨機取樣一個資料來源,並只更新相關層,以從資料來源中推理概念。這樣的設計會規避不穩定行為,比如某一特定概念註解的梯度帶有噪音

另一方面,該框架藉助單一網路特徵的分層屬性,即,對於高層語義概念比如場景分類,分類器只基於帶有較高階語義資訊的特徵圖而構建;對於較低階語義資訊,比如物體和材質分割,分類器只基於所有階段的或者帶有低階語義資訊的特徵圖而構建。進而,本文提出一種訓練方法,可使網路只使用影像級的註解即可預測畫素級的紋理標籤。

本文貢獻可歸納為如下 3 個方面:1)提出一種新解析任務——統一感知解析(UPP),它需要系統一次性解析多層次視覺概念;2)提出一種帶有層級結構的全新網路——UPerNet,可學習不同影像資料集中的差異化資料;3)該網路可實現聯合推理,併發掘影像之中豐富的視覺知識。

定義 UPP

UPP 任務是指從一張給定影像中識別出盡可能多的視覺概念,從場景標籤,物體,到其部分、紋理和材質,視覺概念是多層次的。該任務依賴於不同訓練資料的可用性。由於沒有一個現有資料集可滿足條件,本文通過整合若干個影像標註源而成一個新資料集——Broden+。

資料集

新資料集構建的基礎是 Broadly Densely Labeled Dataset(Broden),這是一個包含不同視覺概念的混雜資料集。但是由於其設計初衷,Broden 並不適用於分割網路的訓練。為此本文從 4 個方面做出優化,得到了 Broden+ 資料集:

  1. 去掉不同資料集的相似概念;

  2. 只保留至少出現在 50 張影像以上、在整個資料集中至少包含 50000 畫素的物體類別;

  3. 手動去掉 OpenSurfaces 資料集中的下采樣標籤;

  4. 把 ADE20K 資料集中 400+ 個場景標籤對映到 Places 資料集中的 365 個標籤。

這樣,經過標準化工作而得到的新資料集共包含 57095 張影像,其中 22210 張來自 ADE20K,10103 張來自 Pascal-Context 和 Pascal-Part,19142 張來自 OpenSurfaces,5640 張來自 DTD,如表 1 所示。圖 3 是一些例項。 

曠視科技提出統一感知解析網路UPerNet,優化場景理解

表 1:Broden+ 資料集中每一標籤型別的統計資訊,其評估指標也已給出。

曠視科技提出統一感知解析網路UPerNet,優化場景理解

圖 3:Broden+ 資料集例項。

指標

一般來講,分割任務的衡量指標是 P.A. 和 mIoU。為了解決 mIoU 不計數未標註區域的預測的問題,使其更適合部分分割等任務,本文在一些特定任務中使用 mIoU,但也計數背景區域的預測,這一新指標稱為 mIoU-bg。

具體而言,對於藉助 ADE20K,Pascal-Context,OpenSurfaces 資料集的物體和材質解析任務,使用評估標準 P.A. 和 mIoU;對於物體部分,則使用 P.A. 和 mIoU-bg;對於場景和紋理分類,則使用 top-1 精度。

UPerNet

背景

當前最優的分割網路主要基於全卷積網路(FCN)。由於缺乏足夠的訓練樣本,分割網路通常初始化自針對影像分類任務的預訓練網路。為使語義分割實現高解析度預測,dilated conv 技術被提出,在緩解下采樣副作用的同時,保證了感受野的擴充率;使用這一技術的網路也成為了語義分割任務的標準正規化。但是針對本文提出的 UPP 任務,這一方法有 2 個缺陷:

  1. 最近提出的深度卷積網路雖在影像分類和語義分割任務中大獲成功,但層數往往達到數十、數百層;其設計結構如此複雜,以至於在網路早期階段由於感受野較大和計算複雜度較低的原因,下采樣率快速增長。

  2. 這種網路只利用了其中最深的特徵圖。使用高階語義特徵分割高階概念(比如物體)是合理的,但是並不適合分割多層次的感知屬性,尤其是低階概念(比如紋理、材質)。

有鑑於此,本文提出了多工新框架 UPerNet。

架構

曠視科技提出統一感知解析網路UPerNet,優化場景理解

圖 4:UPerNet 架構圖。

UPerNet(Unified Perceptual Parsing Network)網路架構如圖 4 所示,它基於特徵金字塔網路(FPN)。儘管理論上講,深度卷積網路的感受野足夠大,但實際可用的要小很多。為克服這一問題,本文把 PSPNet 中的金字塔池化模組(PPM)用於骨幹網路的最後一層,在其被饋送至 FPN 自上而下的分支之前。結果實驗證明,在帶來有效的全域性先驗表徵方面,PPM 和 FPN 架構是高度一致的。

本文使用多個語義層次的特徵。由於影像級資訊更適合場景分類,Scene head 直接被附加到 PPM 模組之後的特徵圖。Object head 和 Part head 被附加到與來自 FPN 的所有層相融合的特徵圖。Material head 被附加到 FPN 中帶有最高解析度的特徵圖。Texture 被附加到 ResNet 中的 Res-2 模組,並在整個網路完成其他任務的訓練之後進行優化,這一設計背後的原因有 3 個: 

  1. 紋理是最低階的感知屬性,因此它純粹基於明顯的特徵,無需任何高階的資訊;

  2. 正確預測紋理的核心特徵是在訓練其他任務時被隱式學習的;

  3. 這一分支的感受野需要足夠小,因此當一張正常大小的影像輸入網路,它可以預測不同區域的不同標籤。

實驗

本節首先給出了 UPerNet 在原始語義分割任務和 UPP 任務上的量化研究,接著將這一框架用於發掘場景理解背後的視覺常識知識。

結果

整體架構。為證明 UPerNet 在語義分割上的有效性,本文給出了不同設定下藉助物體標註在 ADE20K 資料集上的結果,如表 2 所示。

曠視科技提出統一感知解析網路UPerNet,優化場景理解

表 2:ADE20K 資料集上該方法(基於 ResNet-50)與當前最優方法的對比分析。

混雜標註的多工學習。本文給出了在分離或融合的不同標註集上的訓練結果。

曠視科技提出統一感知解析網路UPerNet,優化場景理解

表 3:UPerNet 在 Broden+ 資料集上的結果。

量化結果。本文給出了 UPerNet 的量化結果。如圖 5 所示。UPerNet 可統一結構性視覺知識,同時有效預測層級輸出。

曠視科技提出統一感知解析網路UPerNet,優化場景理解

圖 5:UPerNet(ResNet-50)在驗證集上的預測。

視覺知識

UPP 要求模型從一張影像之中識別儘可能多的視覺概念,如果模型成功做到這一點,就可以發現隱藏在現實世界之下的豐富視覺知識,回答諸如「這個杯子的材質是什麼」的問題,有助於機器視覺系統更好理解周遭世界。

本節證明,在 Broden+ 資料集上訓練的 UPerNet 可發現多層次的結構性知識。研究者以分層的方式定義了若干類關係,如表 4 所示。

曠視科技提出統一感知解析網路UPerNet,優化場景理解

表 4:UPerNet 發掘的視覺知識。

結論

本文定義了名為統一感知解析(UPP)的識別任務,從場景、物體、部分、材質到紋理,其試圖一次性解析影像的多層次視覺概念。一個多工網路和處理混雜標註的訓練策略被開發和測試。本文進而利用已訓練的網路發現場景之中的視覺知識。

參考文獻

  • Peng, C., Xiao, T., Li, Z., Jiang, Y., Zhang, X., Jia, K., Yu, G., Sun, J.: Megdet:A large mini-batch object detector. arXiv preprint arXiv:1711.07240 (2017)

  • Zhao, H., Shi, J., Qi, X., Wang, X., Jia, J.: Pyramid scene parsing network. In:IEEE Conf. on Computer Vision and Pattern Recognition (CVPR). (2017) 2881–2890

  • Chen, L.C., Papandreou, G., Kokkinos, I., Murphy, K., Yuille, A.L.: Deeplab:Semantic image segmentation with deep convolutional nets, atrous convolution,and fully connected crfs. arXiv preprint arXiv:1606.00915 (2016)

  • Kirillov, A., He, K., Girshick, R., Dollr, P.: Mscoco challenge 2017: stuff segmentation,team fair. (2017)

  • Zhou, B., Lapedriza, A., Xiao, J., Torralba, A., Oliva, A.: Learning deep features for scene recognition using places database. In: Advances in neural information processing systems. (2014) 487-495

相關文章