精度高、模型小、速度快!梯形DenseNets結構實現語義分割新高度!

我爱计算机视觉發表於2019-05-16

今天上午arXiv出現一篇非常值得參考的語義分割文章《Efficient Ladder-style DenseNets for Semantic Segmentation of Large Images》,來自克羅埃西亞的研究人員提出了一種基於DenseNets構建的形狀像梯子的語義分割架構,其不僅精度達到目前最高(超越DeepLabV3+),而且引數量少,計算速度快,可謂語義分割領域的新突破。

以下是作者資訊:


精度高、模型小、速度快!梯形DenseNets結構實現語義分割新高度!


作者來自克羅埃西亞的薩格勒布大學。

提出問題

作者指出,在深度學習領域影象分類任務驗證的有效網路結構,極大促進了計算機視覺其他方向的研究。

比如大放異彩的ResNet深度殘差網路,成名於ImageNet影象分類任務,其影響力卻席捲整個神經網路的所有應用領域。

但由於語義分割的計算量和引數量往往都很大,在現有硬體使用這些新出的網路結構進行新演算法訓練時,視訊記憶體的大小限制了更好地發揮其潛力,尤其是對那些大影象比如百萬畫素影象的語義分割

作者詳細比較了ResNets與DenseNets(此部分可參考論文原文),認為在擁有相近的網路表達能力的ResNets與DenseNets網路架構中,DenseNets所需要的引數和計算量都相對較小。對於語義分割任務,應以其為基礎模組。

網路架構

下圖是作者提出演算法的網路架構(請點選檢視大圖):

精度高、模型小、速度快!梯形DenseNets結構實現語義分割新高度!

圖中DB代表這Dense Blocks,TD為transition layers,TU為transition-up blocks,f為輸出特徵圖(後面的數字為特徵圖個數),輸出特徵圖上的x4、x8...x32為下采樣倍數,SPP為spatial pyramid pooling module。

可以看出,其最明顯的特徵是有兩個資料路徑。

上面的為下采樣資料路徑,特徵圖不斷縮小。下面為上取樣資料路徑,並在此進行資料融合

整個結構宛如梯子,故稱梯形風格的(Ladder-style) DenseNets 。

實驗結果

作者在主流的語義分割資料庫上與基於ResNet的相同結構演算法進行了比較,也與其他state-of-the-art進行了比較,驗證了該演算法精度達到最高的同時,速度快一個數量級,引數也是高精度語義分割演算法中最小的(是在Cityscapes資料集上唯一的IoU上80的實時語義分割演算法)。

下圖為在Cityscapes資料集驗證集上使用與ResNet Blocks的演算法的比較,可見在使用Dense Blocks時不僅引數少,計算速度快,而且精度也更高。

精度高、模型小、速度快!梯形DenseNets結構實現語義分割新高度!

下圖為該演算法的兩個最好模型與state-of-the-art語義分割演算法在 Cityscapes 驗證集與測試集的結果比較。

可見該文演算法精度最高,計算量也接近最低水平!!


精度高、模型小、速度快!梯形DenseNets結構實現語義分割新高度!

下圖上述結果的散點圖,該文提出的演算法LDN是目前唯一的在Cityscapes資料集上IoU精度超過80的實時語義分割演算法!

精度高、模型小、速度快!梯形DenseNets結構實現語義分割新高度!

下圖是在CamVid 測試集上與基於ResNet結構的演算法結果比較,LDN121依然是精度高、模型小、速度快。

精度高、模型小、速度快!梯形DenseNets結構實現語義分割新高度!

下圖是與CamVid測試集上的其他state-of-the-art演算法的結果比較,精度依舊是最優秀的。

精度高、模型小、速度快!梯形DenseNets結構實現語義分割新高度!

下圖是在Pascal VOC 2012 驗證集與測試集上的與其他state-of-the-art演算法相比的分割結果,依然取得了精度的新突破。

精度高、模型小、速度快!梯形DenseNets結構實現語義分割新高度!

分割結果示例:

精度高、模型小、速度快!梯形DenseNets結構實現語義分割新高度!

論文地址:

https://arxiv.org/abs/1905.05661v1

相關文章