ETH Zurich提出新型網路「ROAD-Net」，解決語義分割域適配問題

PaperWeekly發表於2018-05-03

原文網址 : https://www.jiqizhixin.com/articles/2018-05-09-8

本期推薦的論文筆記來自 PaperWeekly 社群使用者 @duinodo。本文是 ETH Zurich 發表於 CVPR 2018 的工作，論文提出了兩個網路策略，用於處理語義分割任務中使用合成資料訓練的域適配問題。

關於作者：杜敏，華中科技大學碩士生，研究方向為模式識別與智慧系統。

■ 論文 | ROAD: Reality Oriented Adaptation for Semantic Segmentation of Urban Scenes

■ 連結 | https://www.paperweekly.site/papers/1828

■ 作者 | Yuhua Chen / Wen Li / Luc Van Gool

問題背景

本文研究的是無人駕駛場景中的語義分割問題。語義分割的樣本標記成本很高，使用合成資料能幫助解決樣本不足問題。但是合成的資料和真實的資料之間存在差異，這種差異會極大影響使用合成資料訓練的模型在真實資料上的表現。

本文研究難點在於如何處理合成資料和真實資料之間的差異，該問題存在兩方面原因：

用合成資料訓練的模型，很容易對合成資料過擬合，對合成資料可以提取很好的特徵，而對真實資料就提取不到特徵了；
合成資料和真實資料的分佈存在明顯的差異，而模型對合成資料存在偏好。

其實以上兩點說的是一點，只不過從兩個角度說，這兩點分別對應本文設計的兩個子模型。

解決思路

本文的主要貢獻在於提出了兩個網路策略，用於處理語義分割任務中使用合成資料訓練的域適配問題。

為了避免模型對合成資料的過擬合，本文使用 Target Guided Distillation Module，讓模型模模擬實圖片的訓練的特徵。

為了解決資料分佈不一的問題，使用 Spatial-aware Adaption Module，充分考慮兩種資料在空間分佈上的差異，使得模型在兩種資料上能夠得到相似的特徵。

論文模型

1. Target Guided Distillation

ETH Zurich提出新型網路「ROAD-Net」，解決語義分割域適配問題

用 ImageNet 訓練好的特徵提取網路（圖中灰色部分）作為 target，讓分割模型提取的特徵儘可能的像 target 提取的特徵，distillation loss 採用尤拉距離計算方法。訓練的時候，當輸入是真實圖片，計算 distillation loss；當輸入是合成圖片，輸出分割的損失。

2. Spatial-Aware Adaption

ETH Zurich提出新型網路「ROAD-Net」，解決語義分割域適配問題

使用 max-min loss（對抗訓練）的方式完成適配（domain distribution adaption）任務。適配任務的目的是，讓特徵提取網路，對不同分佈域的資料，提取到類似的特徵，而不影響後續的任務處理。

該問題的關鍵在於“類似的特徵”如何表達。來自不同分佈域的資料，內容存在差異，肯定無法直接用 mseloss 這種形式的損失來處理，所以，使用判別器損失，是比較合適的。

圖中綠色框中的 domain classifier 就是這個判別器。紅框同時也是上上圖中分割網路所使用的卷積特徵提取網路，而中間的藍色框，表示的是標題中的“Spatial-Aware”，也就是把對用整張圖的特徵，分成 3x3 個區域，分別對每個區域計算判別損失。

3. 整個模型

整個網路連起來，如下圖所示。測試的時候，只使用用圖中黃色框的部分。

ETH Zurich提出新型網路「ROAD-Net」，解決語義分割域適配問題

實驗

真實資料集 Cityscapes [1]，合成資料集 GTAV [2]，分割網路使用 PSPnet 和 Deeplab。其中，Cityscapes 僅使用圖片，未使用標籤（本文要處理的是儘可能不使用人工標記的樣本）。

訓練時，一個 batch 中有 10 張圖片，5 張來自 Cityscapes，5 張來自 GTAV。使用真實圖片進行測試，計算 mIOU，實驗結果如下。

ETH Zurich提出新型網路「ROAD-Net」，解決語義分割域適配問題

適配能提升 14 個百分點，但是相比於使用人工標記的訓練結果 [3]，還是要差很多很多。

本文提出的適配方法，相比於其他適配方法，效果也是最好的。

ETH Zurich提出新型網路「ROAD-Net」，解決語義分割域適配問題

評價

本文研究的問題（使用合成資料減少對人工標註資料的依賴）很有實際意義，但是目前的效果還是差一些，似乎只能充當 boosting，離目標還有一段距離。很多視覺任務，都可以嘗試這種方法，以減少對實際標註樣本量的需求。

另外，是否可以研究，在使用合成資料的情況下，檢測結果（在真實資料下測試的指標）隨真實標記樣本量的變化情況，定性地瞭解，到底合成資料能在多大程度上，減少手工標註量。比如，可能畫出如下曲線：

ETH Zurich提出新型網路「ROAD-Net」，解決語義分割域適配問題

如果能做到這個地步，那在實際應用中，使用合成資料進行訓練這種方法，可能會廣泛使用，畢竟目前還僅僅停留在學術論文的地步。

ETH Zurich提出新型網路「ROAD-Net」，解決語義分割域適配問題

問題背景

解決思路

論文模型

實驗

評價

相關連結

相關文章