全球計算機視覺三大頂會之一 ECCV 2018 (European Conference on Computer Vision)即將於9月8 -14日在德國慕尼黑拉開帷幕。屆時,曠視首席科學家孫劍博士將帶領團隊遠赴盛會,助力計算機視覺技術的交流與落地。而在此之前,曠視科技將陸續推出 ECCV 2018 接受論文系列解讀。本文是第 2 篇解讀,一個最佳化解決語義分割特徵融合問題的新型框架——ExFuse。
論文名稱:ExFuse: Enhancing Feature Fusion for Semantic Segmentation
論文連結:https://arxiv.org/abs/1804.03821
導語
計算機視覺領域有著三項最為基本的任務——分類,檢測和分割,其中分割是指從畫素層面識別出一張影像上所有物體的位置和分類,使得機器之眼對一張影像達到精確和充分的感知,這也是後續影像認知技術的重要一環。分割分為語義分割、例項分割和全景分割,其中語義分割最為基礎,它為影像之中的每個畫素做分類,而不涉及例項或背景的區分。
本文發現,當前語義分割方法直接融合高、低特徵並不奏效,繼而提出新架構 ExFuse,轉而在低階特徵引入語義資訊,在高階特徵嵌入空間資訊,其效能超越 DeepLabv3,在 PASCAL VOC 2012 分割任務中奪得當前最優。
這一底層突破將在分割技術的適用領域帶來新進展,比如自動駕駛,無人機,倉儲機器人,醫療影像,無人超市、地理資訊系統等。比如,曠視科技基於這一自身原創技術,進一步提升和完善了手機影像產品線,在人體扣像、手機打光、背景虛化等具體應用中不斷提升使用者體驗,這也恰恰是曠視科技一直踐行人工智慧驅動的行業物聯網構建者(AI+IoT)戰略定位的證明。
背景
絕大多數當前最優的語義分割框架基於全卷積網路(Fully Convolutional Network/FCN)而設計。FCN 有一個典型的編碼器-解碼器結構——語義資訊首先透過編碼器嵌入特徵圖,接著解碼器負責生成分割結果。
通常,編碼器是一個預訓練的卷積模型,提取影像特徵;解碼器包含多個上取樣元件,復原解析度。儘管編碼器最頂層的特徵圖可以是高度語義的,其重建分割圖精確細節的能力卻因解析度不足而受限,這在現代 backbone 模型中很常見。
為此,U-Net 被提出,並獲得廣泛應用,其核心思想是逐漸融合頂層的高階、低解析度特徵和底層的低階、高解析度特徵,這被認為有助於解碼器生成高解析度語義特徵。雖然 U-Net 很成功,但是它的工作機制依然未知,有必要進一步探究。
設計思想
一般而言,低階特徵和高階特徵相鋪相成。低階特徵空間資訊豐富,但是缺乏語義資訊;高階特徵則與之相反。假定存在一個極端例項,“純”低階特徵只編碼低階概念比如點、線或者邊緣。直觀講,高階特徵與這些“純”低階特徵的融合意義不大,因為後者噪音太多,無法提供高解析度的語義資訊。
相反,如果低階特徵包含更多的語義資訊,比如,編碼相對明確的語義框,接著融合會簡單不少——良好的分割結果可透過對齊高階特徵圖和語義框而獲得。
相似地,“純”高階特徵的空間資訊也很少,不能充分利用低階特徵;但是,透過嵌入額外的高解析度特徵,高階特徵從而有機會透過對齊最近的低階語義框來實現自我最佳化。上述概念的圖示請參見圖 1。
圖 1:低階特徵與高階特徵之間的融合
根據經驗,低階特徵與高階特徵之間的語義和解析度的重疊(overlap)對特徵融合的效率而言至關重要。換言之,特徵融合可透過把更多的語義資訊引入低階特徵,或者在高階特徵中嵌入更多的空間資訊而實現提升。
出於上述發現,本文提出一種新框架 ExFuse,試圖透過彌補低階與高階特徵圖之間的語義與解析度的差距來完善特徵融合,其策略主要包含以下兩個方面:
1)低階特徵中引入更多語義資訊,為此本文給出 3 個方法——卷積重排列(Layer Rearrangement/LR),多層語義監督(Semantic Supervision/SS) 和高階語義嵌入(Semantic Embedding Branch/SEB);
2)高階特徵嵌入更多空間資訊,為此本文給出 2 個全新方法——顯式通道內嵌空間資訊
(Explicit Channel Resolution Embedding/ECRE)和密集鄰域預測(Densely Adjacent Prediction/DAP)。
上述每一方法都帶來了顯著提升,組合使用漲點高達 4%。本文在 PASCAL VOC 2012 語義分割任務上對 ExFuse 進行了評估,在 test set 中,mean IoU 值高達 87.9%,超過所有當前最佳方法。
方法
本文工作主要聚焦於 U-Net 分割架構的特徵融合問題,並選擇當前最優的 U-Net 架構之一——全域性卷積網路(Global Convolutional Network/GCN)——作為主要的 backbone 分割架構(細節請見圖 2)。
圖 2:ExFuse 整體架構。實線框屬於 GCN 元件,虛線框屬於 ExFuse 元件。SS – semantic supervision。ECRE – explicit channel resolution embedding。SEB – semantic embedding branch。DAP – densely adjacent prediction。
本文對 GCN 特徵融合的有效性作了評估,結果如表 1 所示。很明顯,分割質量並沒有隨著不同層級特徵的融合而提升,反而是快速達到飽和,這意味著高、低特徵的融合在 GCN 中並不奏效。而 ExFuse 可以補足這一短板。
表 1:給定特徵層級下的 GCN 分割結果,效能指標是 PASCAL VOC 2012 validation set mean IoU。
低階特徵引入更多語義資訊
該策略啟發於這一事實:對於卷積神經網路來說,特徵圖與語義監督相似,傾向於編碼更多語義資訊,這已被一些視覺化工作所證實。本文提出如下 3 個方法:
卷積重排列(LR)
為使低階特徵(res-2 或者 res-3)“更接近於”監督,一個直接的辦法是在早期而不是後期階段(stage)安排更多的層。
實驗表明,儘管新設計模型的 ImageNet 分類分值幾乎沒有變化,其分割效能卻漲點 0.8%,這說明低階特徵的質量也可提升。
多層語義監督(SS)
多層語義監督是指把輔助監督直接指派到編碼器的早期階段(見圖 2),它主要專注於完善低階特徵的質量,而不是提升 backbone 模型本身。圖 3 展示了 SS 模組的架構細節。
圖 3:SS 元件細節
實驗表明,該方法可使分割結果漲點 1.1%,並且,本文發現,如果特徵提取自輔助模組的第二個卷積層(圖 3),還會獲得更多提升(1.5%)(見表 3,對比 #1 與 #2),這論證了本文的直觀觀點:更接近於監督的特徵圖傾向於編碼更多的語義資訊。
高階語義嵌入(SEB)
如上所述,很多 U-Net 架構把低階特徵作為上取樣的高階特徵的殘差。但是,如果低階特徵包含很少的語義資訊,則並不足以復原語義解析度。
圖 4:SEB 設計圖示。“×” 表示逐元素乘法
為克服這一問題,高階語義嵌入應運而生,其設計細節圖 4 所示。SEB 用於 level 1-3 的特徵,在實驗中 SEB 帶來了 0.7% 的漲點(表 3,對比 #3 和 #5)。
高階特徵嵌入更多空間資訊
在大多數特徵提取網路中,高階特徵往往包含較少空間資訊,一個常用的解決方案是 dilated strategy,可以增大解析度而無需再訓練 backbone,但弊端是加大了網路的計算量。
本文擯棄這種“物理式”方法,轉個方向,試圖在通道之中編碼更多的解析度資訊,具體有如下 2 個方法:
顯式通道內嵌空間資訊(ECRE)
一開始,本文嘗試在第一個解卷積模組中新增額外的分割損失(見圖 2 淺藍色元件),但是效能並未出現任何提升。為此,本文采用一種無需調參的上取樣方法——Sub-pixel Upsample——以替代原先的解卷積。
圖 5:ECRE 設計圖示
由於子畫素上取樣僅透過重塑空間和通道維度即可擴大特徵圖,輔助監督從而可以明確地影像特徵。實驗表明它可以帶來 0.5% 的漲點(mIoU)。
密集鄰域預測(DAP)
在圖 2 中,空間定位 (i,j) 上的特徵點主要負責相同位置的語義資訊。為儘可能多地把空間資訊編碼進通道,本文提出一種全新的機制——密集鄰域預測,可以預測鄰近位置的結果,比如 (i-1,j+1) 。
圖 6:DAP 設計圖示
接著,為了獲得最後的分割圖, (i,j) 位置上的結果可透過平均相關值而獲得。DAP 用於解碼器的輸出預測(見圖 2)。實驗結果表明,其為效能提升(mIoU)帶來了 0.6% 的漲點。
實驗結果
在沒有藉助任何 DenceCRF 後處理的情況下,ExFuse 框架最終在 PASCAL VOC 2012 test set 上的 mIoU 值為 87.9%,超越了當前所有最佳結果(見表 8)。公平起見,本文也使用標準 ResNet-101 做了評估,依然取得了 86.2% mIoU,優於相同條件下的 DeepLabv3。
表 8:ExFuse 在 PASCAL VOC 2012 test set 上的結果
圖 7 視覺化了基線 GCN 和 ExFuse 的一些代表性結果。很明顯本文方法要優於基線。
圖 7:ExFuse 在 PASCAL VOC 2012 validation set 上的分割結果例項。(b) 是 GCN(81.0% mIoU),(c) 是 ExFuse(85.4% mIoU)。
結論
在本文的工作中,作者首先指出當前的 U-Net 架構普遍存在特徵融合低效的問題;接著,本文提出 ExFuse 框架,透過彌補高階的低解析度特徵與低階的高解析度特徵之間的差距以克服這一問題;最後,大幅的分割效能的提升證實存在更好的特徵融合。另外,ExFuse 還在 PASCAL VOC 2012 test set 上取得了當前最優效能。
參考文獻
1.Peng, C., Zhang, X., Yu, G., Luo, G., Sun, J.: Large kernel matters – improve semantic segmentation by global convolutional network. (2017)
2.Long, J., Shelhamer, E., Darrell, T.: Fully convolutional networks for semantic segmentation. In: Computer Vision and Pattern Recognition. (2015) 3431–3440