G-FRNet論文閱讀

JLU-C++發表於2020-10-11

在這裡插入圖片描述
主要參考這篇部落格

題目:用於密集影像標記的門控反饋優化網路
G-FRNet:門控反饋優化網路
Refinement:細化,優化

在這裡插入圖片描述
在這裡插入圖片描述

所以要解決的問題:模糊資訊的前向傳遞會限制後面的精準識別。

下面給出論文中的示例:如PPT圖所示
例如,雖然網路中較深的卷積層可以在牛和馬之間提供強大的區分力,但來自較早層的表示可能特定於動物

圖:跨層的接收場大小與可能出現的歧義之間關係的圖示。在這種情況下,較大的(和更具區分性的)接收場(藍色)位於網路的較深層,
並且可能對於改進較早層(橙色)所承載的表示形式具有重要意義,以解決歧義並改善標記效能

在這裡插入圖片描述

效果:
在三個具有挑戰性的密集標籤資料集CamVid, PASCAL VOC 2012, Horse-Cow Parsing馬牛
注:CamVid:資料是從駕駛汽車的角度拍攝的,駕駛場景增加了觀察目標的數量和異質性 
在CamVid和Horse-Cow Parsing取得了最佳, 在PASCAL VOC 2012上效果比較好。

在這裡插入圖片描述

結構:主幹是VGG16

我們使用編碼器產生的具有不同空間尺寸的特徵圖(f1,f2,...,f7)來重建一個小的(即粗糙的)標籤圖P mG。
解碼器通過在編碼器網路中新增來自特徵圖的細節來逐步完善標籤圖。在解碼的每個階段,細化單元(RU1,RU2,...,RU5)通過將來自先前標籤圖和編碼器層的資訊作為輸入來生成具有較大空間尺寸的新標籤圖(由連線Gi和RUi的邊表示)。
該模型的主要新穎之處在於,來自較早編碼器層的資訊在轉發給解碼器之前先經過門單元。
在將每個等級評分圖傳遞到下一階段的優化模組之前,我們使用標準的2x(兩倍)雙線性上取樣。我們還使用下采樣的地面真相標籤圖在每個解碼階段提供監視(l1,l2,...,l6)

在這裡插入圖片描述

這裡門控的設計使用深層的特徵來控制淺層的特徵,得到處理後的特徵送入解碼器。

其中Tf表示由上述操作序列組成的變換函式,⊙表示元素乘積。

在這裡插入圖片描述

3.門細化單元的詳細概述。模組由卷積,批量歸一化,串聯和上取樣操作組成。

在這裡插入圖片描述
在這裡插入圖片描述

1. CamVid資料集上的定量結果。我們報告每個類的IoU(交併比)和每種方法的平均IoU。
我們的方法在該資料集上獲得了最新的結果。請注意,對於較小和較細的物件,改進對於我們的模型尤為明顯。

在這裡插入圖片描述

5. CamVid資料集上的定性結果。與FSO相比,G-FRNet能夠準確地保留較小和較精細的物件類別(例如,立柱,人行道,自行車和符號符號)的形狀。

FSO:Feature space optimization for semantic video segmentation. In CVPR, 2016
用於語義視訊分割的特徵空間優化。2016年CVPR

表2. PASCAL VOC 2012驗證集上不同方法的比較。

[3]Semantic image segmentation with deep convolutional nets and fully connected CRFs. In ICLR, 2015
具有深度卷積網路和完全連線的CRF的語義影像分割。在ICLR中,2015[31] Objectness-aware semantic segmentation. In ACMMM, 2016. 6
物件導向的語義分割。在ACMMM中,2016年。6

[22] Learning deconvolution network for semantic segmentation. In ICCV, 2015
學習反摺積網路進行語義分割。在ICCV中,2015[4] Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected crfs. arXiv:1606.00915, 2016
深度卷積網路,無規則卷積和完全連線的crfs的語義影像分割。arXiv:1606.009152016

在這裡插入圖片描述
在這裡插入圖片描述

相關文章