論文名稱:《Unified Perceptual Parsing for Scene Understanding》
論文連結:https://arxiv.org/abs/1807.10221
程式碼連結:https://github.com/CSAILVision/unifiedparsing
目錄
導語
背景
設計思想
定義 UPP
Broden+
指標
UPerNet
背景
架構
實驗
結果
視覺知識
結論
參考文獻
導語
人類對世界的視覺理解是多層次的,可以輕鬆分類場景,檢測其中的物體,乃至識別物體的部分、紋理和材質。在本文中,曠視科技提出一種稱之為統一感知解析(Unified Perceptual Parsing/UPP)的新任務,要求機器視覺系統從一張影像中識別出盡可能多的視覺概念。同時,多工框架 UPerNet 被提出,訓練策略被開發以學習混雜標註(heterogeneous annotations)。曠視科技在 UPP 上對 UPerNet 做了基準測試,結果表明其可有效分割大量的影像概念。這一已訓練網路進一步用於發現自然場景中的視覺知識。
背景
人類視覺系統一眼即可從一張影像中提取大量語義資訊。人類不僅可以立即解析其中的物體,還能識別細節屬性,比如其部分、紋理和材質。如圖 1 所示,這是一間起居室,有著很多不同物體,比如一張咖啡桌,一幅畫,以及牆面。同時,我們還看到,這是一張四腿咖啡桌,桌面之上有一塊桌墊,以及桌子是木質的,沙發表層是針織的。可見,從材質、紋理的視覺感知到物體及其部分的語義感知,我們對這一視覺場景的描述是多層次的。
圖 1:針對 UPP 訓練的神經網路可一次性解析不同感知層次的視覺概念,比如場景、物體、部分、紋理、材質等。
近年來,由於深度神經網路和大型資料集的發展,計算機視覺識別能力取得重大進步,不斷逼近甚至超越人類水準。但是,視覺識別任務不同,其研究也各不相同。比如,物體檢測和場景識別已達到人類水平,解析和分割的精確度可至畫素級;紋理和材質的感知與識別同樣有著充分的研究。
設計思想
在人類視覺系統中,上述任務的完成是一步到位的,這就拋給計算機視覺模型一個問題:一個神經網路是否可以同時解決若干個不同的視覺任務。本文把這個問題以一項新任務的形式提出,稱之為統一感知解析(Unified Perceptual Parsing/UPP),並給出一種全新的學習方法解決它。
UPP 有若干個挑戰。首先,沒有一個涵蓋所有層面視覺資訊的標註資料集。不同的資料集是針對一項項特定任務而打造的。比如 ADE20K 資料集用於場景解析,DTD 資料集用於紋理識別,OpenSurfaces 資料集用於材質和表面識別。其次,不同感知層面的註解也是混雜的。比如,ADE20K 資料集的註解是畫素級的,而 DTD 資料集則是影像級的。
為解決上述挑戰,本文提出一個新框架,整合不同資料集之間的差異性,並學習聯合檢測不同視覺概念。一方面,本文從每次迭代中隨機取樣一個資料來源,並只更新相關層,以從資料來源中推理概念。這樣的設計會規避不穩定行為,比如某一特定概念註解的梯度帶有噪音。
另一方面,該框架藉助單一網路特徵的分層屬性,即,對於高層語義概念比如場景分類,分類器只基於帶有較高階語義資訊的特徵圖而構建;對於較低階語義資訊,比如物體和材質分割,分類器只基於所有階段的或者帶有低階語義資訊的特徵圖而構建。進而,本文提出一種訓練方法,可使網路只使用影像級的註解即可預測畫素級的紋理標籤。
本文貢獻可歸納為如下 3 個方面:1)提出一種新解析任務——統一感知解析(UPP),它需要系統一次性解析多層次視覺概念;2)提出一種帶有層級結構的全新網路——UPerNet,可學習不同影像資料集中的差異化資料;3)該網路可實現聯合推理,併發掘影像之中豐富的視覺知識。
定義 UPP
UPP 任務是指從一張給定影像中識別出盡可能多的視覺概念,從場景標籤,物體,到其部分、紋理和材質,視覺概念是多層次的。該任務依賴於不同訓練資料的可用性。由於沒有一個現有資料集可滿足條件,本文通過整合若干個影像標註源而成一個新資料集——Broden+。
資料集
新資料集構建的基礎是 Broadly Densely Labeled Dataset(Broden),這是一個包含不同視覺概念的混雜資料集。但是由於其設計初衷,Broden 並不適用於分割網路的訓練。為此本文從 4 個方面做出優化,得到了 Broden+ 資料集:
去掉不同資料集的相似概念;
只保留至少出現在 50 張影像以上、在整個資料集中至少包含 50000 畫素的物體類別;
手動去掉 OpenSurfaces 資料集中的下采樣標籤;
把 ADE20K 資料集中 400+ 個場景標籤對映到 Places 資料集中的 365 個標籤。
這樣,經過標準化工作而得到的新資料集共包含 57095 張影像,其中 22210 張來自 ADE20K,10103 張來自 Pascal-Context 和 Pascal-Part,19142 張來自 OpenSurfaces,5640 張來自 DTD,如表 1 所示。圖 3 是一些例項。
表 1:Broden+ 資料集中每一標籤型別的統計資訊,其評估指標也已給出。
圖 3:Broden+ 資料集例項。
指標
一般來講,分割任務的衡量指標是 P.A. 和 mIoU。為了解決 mIoU 不計數未標註區域的預測的問題,使其更適合部分分割等任務,本文在一些特定任務中使用 mIoU,但也計數背景區域的預測,這一新指標稱為 mIoU-bg。
具體而言,對於藉助 ADE20K,Pascal-Context,OpenSurfaces 資料集的物體和材質解析任務,使用評估標準 P.A. 和 mIoU;對於物體部分,則使用 P.A. 和 mIoU-bg;對於場景和紋理分類,則使用 top-1 精度。
UPerNet
背景
當前最優的分割網路主要基於全卷積網路(FCN)。由於缺乏足夠的訓練樣本,分割網路通常初始化自針對影像分類任務的預訓練網路。為使語義分割實現高解析度預測,dilated conv 技術被提出,在緩解下采樣副作用的同時,保證了感受野的擴充率;使用這一技術的網路也成為了語義分割任務的標準正規化。但是針對本文提出的 UPP 任務,這一方法有 2 個缺陷:
最近提出的深度卷積網路雖在影像分類和語義分割任務中大獲成功,但層數往往達到數十、數百層;其設計結構如此複雜,以至於在網路早期階段由於感受野較大和計算複雜度較低的原因,下采樣率快速增長。
這種網路只利用了其中最深的特徵圖。使用高階語義特徵分割高階概念(比如物體)是合理的,但是並不適合分割多層次的感知屬性,尤其是低階概念(比如紋理、材質)。
有鑑於此,本文提出了多工新框架 UPerNet。
架構
圖 4:UPerNet 架構圖。
UPerNet(Unified Perceptual Parsing Network)網路架構如圖 4 所示,它基於特徵金字塔網路(FPN)。儘管理論上講,深度卷積網路的感受野足夠大,但實際可用的要小很多。為克服這一問題,本文把 PSPNet 中的金字塔池化模組(PPM)用於骨幹網路的最後一層,在其被饋送至 FPN 自上而下的分支之前。結果實驗證明,在帶來有效的全域性先驗表徵方面,PPM 和 FPN 架構是高度一致的。
本文使用多個語義層次的特徵。由於影像級資訊更適合場景分類,Scene head 直接被附加到 PPM 模組之後的特徵圖。Object head 和 Part head 被附加到與來自 FPN 的所有層相融合的特徵圖。Material head 被附加到 FPN 中帶有最高解析度的特徵圖。Texture 被附加到 ResNet 中的 Res-2 模組,並在整個網路完成其他任務的訓練之後進行優化,這一設計背後的原因有 3 個:
紋理是最低階的感知屬性,因此它純粹基於明顯的特徵,無需任何高階的資訊;
正確預測紋理的核心特徵是在訓練其他任務時被隱式學習的;
這一分支的感受野需要足夠小,因此當一張正常大小的影像輸入網路,它可以預測不同區域的不同標籤。
實驗
本節首先給出了 UPerNet 在原始語義分割任務和 UPP 任務上的量化研究,接著將這一框架用於發掘場景理解背後的視覺常識知識。
結果
整體架構。為證明 UPerNet 在語義分割上的有效性,本文給出了不同設定下藉助物體標註在 ADE20K 資料集上的結果,如表 2 所示。
表 2:ADE20K 資料集上該方法(基於 ResNet-50)與當前最優方法的對比分析。
混雜標註的多工學習。本文給出了在分離或融合的不同標註集上的訓練結果。
表 3:UPerNet 在 Broden+ 資料集上的結果。
量化結果。本文給出了 UPerNet 的量化結果。如圖 5 所示。UPerNet 可統一結構性視覺知識,同時有效預測層級輸出。
圖 5:UPerNet(ResNet-50)在驗證集上的預測。
視覺知識
UPP 要求模型從一張影像之中識別儘可能多的視覺概念,如果模型成功做到這一點,就可以發現隱藏在現實世界之下的豐富視覺知識,回答諸如「這個杯子的材質是什麼」的問題,有助於機器視覺系統更好理解周遭世界。
本節證明,在 Broden+ 資料集上訓練的 UPerNet 可發現多層次的結構性知識。研究者以分層的方式定義了若干類關係,如表 4 所示。
表 4:UPerNet 發掘的視覺知識。
結論
本文定義了名為統一感知解析(UPP)的識別任務,從場景、物體、部分、材質到紋理,其試圖一次性解析影像的多層次視覺概念。一個多工網路和處理混雜標註的訓練策略被開發和測試。本文進而利用已訓練的網路發現場景之中的視覺知識。
參考文獻
Peng, C., Xiao, T., Li, Z., Jiang, Y., Zhang, X., Jia, K., Yu, G., Sun, J.: Megdet:A large mini-batch object detector. arXiv preprint arXiv:1711.07240 (2017)
Zhao, H., Shi, J., Qi, X., Wang, X., Jia, J.: Pyramid scene parsing network. In:IEEE Conf. on Computer Vision and Pattern Recognition (CVPR). (2017) 2881–2890
Chen, L.C., Papandreou, G., Kokkinos, I., Murphy, K., Yuille, A.L.: Deeplab:Semantic image segmentation with deep convolutional nets, atrous convolution,and fully connected crfs. arXiv preprint arXiv:1606.00915 (2016)
Kirillov, A., He, K., Girshick, R., Dollr, P.: Mscoco challenge 2017: stuff segmentation,team fair. (2017)
Zhou, B., Lapedriza, A., Xiao, J., Torralba, A., Oliva, A.: Learning deep features for scene recognition using places database. In: Advances in neural information processing systems. (2014) 487-495