基於深度敏感空間金字塔池化的 RGBD 語義分割

浪子私房菜發表於2020-12-25

論文題目:基於深度敏感空間金字塔池化的RGBD語義分割

摘要

標準的2D卷積核的RGBD語義分割模型多是將深度圖作為一個單獨的通道,這種特性無法充分挖掘深度資訊帶來的幾何結構資訊。 針對這一缺陷,提出了構建深度敏感卷積核和池化層來實現對深度資訊的充分挖掘; 並使用深度敏感空間金字塔模組對多尺度資訊提取,從而實現對不同尺度物體分割的效果。 採用的資料集為NYU v2 和 SUN RGB-D。

正文

之前基於傳統卷積神經網路的RGBD語義分割對深度資訊的利用方式大致可以分為兩類:第一類為將深度資訊編碼為HHA 三個通道的灰度圖, 然後將HAA三個通道的灰度圖與RGB三個通道的影像傳送到兩個獨立的深度卷積神經網路中處理,在輸出端對兩個網路的輸出結果進行融合。 這種方法使得網路引數量增加了一倍,而且不能充分挖掘深度資訊帶來的幾何結構資訊 。第二類為使用3D神經網路進行幾何資訊的挖掘,有學者使用基於點雲的圖神經網路嘗試從深度資訊中挖掘幾何資訊輔助語義分割,其首先基於深度資訊得到3D點雲,然後利用3D點雲基於 K 近鄰的圖(graph),將此圖嵌入到 2D 的卷積神經網路中去,即將卷積層的特徵輸出到此圖中去,利用基於時間的反向傳播演算法(BPTT)對整個網路進行更新,從而形成一個端到端的 3D 圖神經網路。
實驗表明此方法取得了很不錯的實驗效果[2],以上的這兩種 3D神經網路雖然對幾何資訊進行了有效挖掘,但是其運算量和視訊記憶體使用量都很大。

一種全新的對幾何資訊進行充分挖掘的方式: 利用區域性畫素間深度相似性對卷積操作和池化操作進行加權處理, 想法是認為:相同語義標籤應該有著相似的深度值。 提出了深度敏感卷積神經網路,這個網路包括深度敏感卷積模組和深度敏感池化模組, 在這種網路可以對大物體分割效果好,對小目標提升相對比較少。 基於這種思想提出了基於空間金字塔池化的思想,使用空洞空間金字塔池化模組對多尺度特徵進行捕捉, 這種方式將原始影像進行多尺度的變換之後輸入到幾個獨立的深度網路進行處理並在輸出端進行融合,減少了計算量。 在這種網路的基礎上再次提出了空洞空間金字塔池化模組(DAPP)實現對RGBD影像進行多尺度資訊捕捉。

貢獻

1) 引入深度敏感卷積網路對 RGBD 影像中的幾何資訊進行充分挖掘,改善整體語義分
割的效果。
2) 提出深度敏感空間金字塔池化模組(depth-aware spatial pyramid pooling,DSPP) 對 RGBD 影像中的多尺度資訊進行捕捉,改善各尺度物體的語義分割效果。

基於深度敏感空間金字塔池化的 RGBD 語義分割

這種網路可以將RBGD影像中的幾何資訊無縫的融入到二維卷積中去。

1、深度敏感卷積神經網路

深度敏感卷積網路將語義標籤相同的畫素點其對應的深度應該 相近,則與影像區域性影像相似的畫素點相近的畫素點對於在此區域性位置卷積的輸出貢獻比較大。此做法相當於使用深度相似性對卷積核進行了增強,對標準卷積核了空間變換,與空洞卷積(atrous convolution)和可變形卷積(deformable convolution)[10]有相似的思想。

深度敏感卷積神經網路的具體實現是利用深度相似性矩陣對標準卷積核進行加權處理。深度 敏感卷積神經網路包括兩個模組:深度敏感卷積和深度敏感池化,其中深度敏感卷積使用深度相似性矩陣對原標準卷積核進行加權,而深度敏感平均池化模組使用深度相似性矩陣對特徵圖進行對應位置加權 後在進行標準的池化操作。 具體操作如下圖所示:

在這裡插入圖片描述
深度敏感卷積

標準的卷積操作公式:

在這裡插入圖片描述
深度敏感卷積操作公式:

在這裡插入圖片描述
其中@為常數,D(pi)為畫素點Pi上的深度值, 從公式可以看出深度值相似越小,則對應 的 相似度函式輸出越大。

式(2)定義的深度敏感卷積在 和 的梯度更新過程中僅比標準的卷積操作多了使用深度相似度函式 進行乘法加權而已,並沒有額外帶來需要訓練的網路引數,計算很高效,無縫地將深度資訊嵌入待了卷積網路的梯度傳播中去。

2、深度敏感平均池化

標準的平均池化公式:

在這裡插入圖片描述
其中X為特徵圖,y為輸出特徵圖,R是以點P0為中心的網格區域,有公式可以看出平均池化操作平等的對待特徵圖上的每一個點,使得輸出比較平滑, 這對於保持邊緣特徵位置精度是有傷害的,而深度敏感平均池化操作強制與中心畫素深度相似性大的畫素點對於特徵圖的輸出的貢獻更大。

在這裡插入圖片描述
3、深度敏感空間金字塔池化

基於深度敏感空間金字塔池化模組的多尺度特徵融合示意圖如圖 2 所示,其中使用金色虛線框框起來的模組就是深度敏感空間金字塔池化模組(DSPP),深度敏感空間金字塔池化模組使用的是四個不同取樣率的深度敏感空洞卷積核(dconv)對第五個池化層(pool5)輸出的特徵圖進行不同稀疏程度的取樣,這樣以捕捉不多尺度目標的特徵與上下文資訊,借鑑文獻[2]中的思想,對第七個卷積層(conv7)生成的 C 個通道(channel)的特徵圖進行全域性池化操作(global pooling,GP),全域性池化操作可以生成 C 維的向量,將此 C 維向量的每一個元素加到對應的特徵圖的每一個位置上,從而形成一個含有 2C 個通道(channel)的 3D 張量(3D tensor),隨後利用 1×1 的卷積核進行降維,四個多尺度通道都進行上述相同的處理,然後採取求和融合的方式對四個多尺度通道的結果進行融合,最後利用雙線性插值上取樣到和原圖同樣尺寸的語義標籤圖。

在這裡插入圖片描述
基於深度敏感空間金字塔池化模組優化的卷積網路的架構示意圖如圖所示,整個網路的輸入是 RGB 影像和深度圖,經過五個卷積組的輸出後,接入基於深度敏感空間金字塔池化的多尺度特徵融合模組(DSPP-Fusion),最後將輸出的特徵圖經過雙線性插值到和原輸入一樣的尺寸,即得到語義分割預測特徵圖(predict label)。

在這裡插入圖片描述

實驗結果與分析

本文提出的方法在主流的 RGBD 影像語義分割資料集—NYU v2和 SUN RGB-D 資料集上都取得了很不錯的效果。

這一塊見論文詳情!!!!!!

結論

本文針對原始的深度敏感卷積神經網路(DACNN)在複雜場景對上下文資訊的捕獲能力的不足問題,提出引入深度敏感的空間金字塔池化模組DSPP對原始演算法進行改進。

經改進的基於深度敏感空間金字塔池化的卷積神經網路模(DACNN-DSPP)融合了DACNN 在捕獲幾何資訊能力上的優點DSPP 在捕獲上下文資訊的優點,且基於深度敏感空間金字塔池化的卷積神經網路模型並沒有帶來太多的訓練引數,模型的複雜度和原始模型在同一量級。DACNN-DSPP 演算法在兩個一小一大 RGBD 語義分割資料集(NYU v2和SUNRGB-D)上的表現均優於 DACNN 模型,從而驗證了本文演算法的有效性,具有更強的語義推斷能力。

相關文章