Beyond Fixed Grid: Learning Geometric Image Representation with a Deformable Grid——論文閱讀

Nick Blog發表於2020-10-09
TitleBeyond Fixed Grid: Learning Geometric Image Representation with a Deformable Grid
題目超越固定網格:基於可變形網格學習幾何影像表示
地址http://xxx.itp.ac.cn/abs/2008.09269
程式碼https://github.com/fidler-lab/deformable-grid-release

摘要

在現代計算機視覺中,影像通常表示為具有一定步幅的固定均勻網格,並通過深度卷積神經網路進行處理。我們認為使網格變形以更好地與高頻影像內容對齊是一種更有效的策略。我們介紹了可變形網格(DefGrid),這是一種可學習的神經網路模組,可預測二維三角形網格的頂點位置偏移,以使變形網格的邊緣與影像邊界對齊。我們在各種用例中展示了DefGrid,即通過將其作為模組插入各種處理級別。我們將DefGrid用作端到端可學習的幾何降取樣層,該層取代了標準池化方法,可在將影像饋入深層CNN時降低特徵解析度。與在均勻網格上使用CNN進行語義分割的任務相比,我們在相同的網格解析度下顯示出顯著改善的結果。我們還在輸出層使用DefGrid來完成物件蒙版註釋的任務,並表明在我們預測的多邊形網格上對物件邊界進行推理可以比現有的基於畫素和基於曲線的方法產生更準確的結果。最後,我們將DefGrid展示為一個獨立的模組,用於無監督的影像劃分,顯示了優於現有方法的效能。

1.簡介

在現代計算機視覺方法中,影像被視為具有固定步幅的固定均勻網格,並通過深度卷積神經網路進行處理。通常以較低的解析度處理非常高解析度的影像以提高效率,從而使影像實質上模糊並進行二次取樣。當饋送到神經網路時,每個畫素因此包含來自前景和背景的原始訊號混合資訊的模糊版本,可能導致網路對物件及其上下文的敏感度和依賴性更高。相反,在許多傳統的計算機視覺流水線中,高解析度影像被分成符合影像邊界的一小組較小的超畫素,從而導致在下游任務中進行更有效的推理。我們遵循這種思路,認為使網格變形以更好地與輸入中的高頻資訊內容對齊是一種更有效的表示策略。**從概念上講,這類似於超畫素,但符合具有幾何約束的規則拓撲,**因此仍很容易與深度卷積網路一起用於下游任務。

此外,諸如物件蒙版註釋之類的任務自然要求輸出為多邊形的形式,並帶有可管理數量的控制點,人類註釋者可以編輯這些控制點。先前的工作要麼將輸出引數化為具有固定數量的控制點的閉合曲線[27],要麼執行畫素化標記,然後執行(不可微分)多邊形化步驟[26,39,29]。在前一種方法中,預測曲線通常更好地利用形狀先驗來導致“表現良好”的預測,但是,輸出固有地受限於其能夠表示的形狀的種類和複雜性相反,逐畫素方法可以表示任意屬的形狀,但是,通常需要較大的輸入/輸出解析度才能在物件邊界周圍產生準確的標記。我們認為,在與影像邊界很好地對齊的低解析度多邊形網格上的推理結合了兩種方法的優點。

我們介紹了可變形網格(DefGrid),這是一種神經網路模組,用於表示具有二維三角形網格的影像。網格的基本元素是一個三角形單元,其頂點將三角形放置在影像平面中。 DefGrid使用統一的網格初始化,並利用神經網路預測三角形頂點的位置偏移,以使變形網格的邊緣和頂點與影像邊界對齊(圖1)。我們提出了一些精心設計的損失函式來鼓勵這種行為。由於變形操作的差異性,DefGrid可以使用下游神經網路作為即插即用模組在各種深度處理級別上進行端到端訓練。我們在各種用例中展示DefGrid:這是一個可學習的幾何影像降取樣層,可在顯著降低的網格解析度下提供高精度的語義分割。此外,當用於對輸出進行引數化時,我們證明它可以為互動式物件蒙版註釋的任務帶來更有效和準確的結果。我們的DefGrid也可以用作獨立模組進行無監督的影像劃分,並且與現有的基於超畫素的方法相比,我們顯示出更高的效能。

在這裡插入圖片描述
圖1:DefGrid是一個神經模組,用三角形網格表示影像。 DefGrid初始化時使用統一的網格,使網格的頂點變形,以使網格的邊緣與影像邊界對齊,同時保持拓撲固定。

3. 可變形網格

我們的DefGrid是在影像平面上定義的二維三角形網格。網格中的基本單元是一個具有三個頂點的三角形,每個頂點的位置都將三角形放置在影像中。因此,三角形的邊緣代表線段,並且預計不會在三角形之間自相交。網格的拓撲是固定的,並且不依賴於輸入影像。因此,幾何網格自然地將影像劃分為規則塊,如圖1所示。

我們的方法為,讓具有統一初始化的頂點位置的三角形網格變形,以更好地與影像邊界對齊。網格通過神經網路變形,該神經網路可預測每個頂點的位置偏移,同時確保拓撲結構不變(不會發生自相交)。

我們的主要直覺是,當網格的邊緣與影像邊界對齊時,每個網格單元內的畫素的RGB值變化最小,反之亦然。我們旨在以可微分的方式最小化方差依據頂點位置,以使其適合深度學習。接下來,我們將詳細介紹DefGrid公式及其訓練方法。在第4節中,我們將展示針對不同下游任務的應用程式。

3.1 網格引數化

3.1.1 網格拓撲

選擇正確的網格拓撲是我們工作的重要方面。 由於物件(及其部分)可以在影像中以不同的比例出現,因此理想情況下,我們需要一種可以輕鬆再分的拓撲以適應這種多樣性。 此外,可以在任何方向上找到邊界,因此,網格邊緣應具有足夠的柔韌性以很好地與任何實際邊緣對齊。 我們通過實驗嘗試了四種不同的拓撲結構,這些拓撲結構如圖2所示。我們在最後一欄中發現該拓撲結構在表示不同邊緣方向方面的靈活性優於其他方法。 請注意,我們的方法與拓撲的選擇無關,我們在附錄中提供了詳細的比較。
在這裡插入圖片描述
圖2:不同的網格拓撲。 我們選擇最後一列是因為它可以靈活地表示各種不同的邊緣方向。

3.1.2 網格表示

I I I 作為輸入影像。 我們將像平面中網格的每個頂點表示為 v i = [ x i , y i ] T v_i = [x_i,y_i]^T vi=[xiyi]T,其中 i ∈ { 1 , ⋅ ⋅ ⋅ , n } i \in \{1,···,n\} i{1,,n} n n n是網格中頂點的總數。 由於網格拓撲是固定的,因此影像中的網格完全由其頂點 v v v的位置指定。我們用三個頂點表示網格中的每個三角形像元,分別為 C k = [ v a k , v b k , v c k ] C_k = [v_{a_k},v_{b_k},v_{c_k}] Ck=[vakvbkvck],其中 k ∈ { 1 , . . . , K } k \in \{1 ,...,K\} k{1,...,K}為網格單元編制索引。 我們統一初始化2D影像平面上的頂點,並將DefGrid定義為可預測每個頂點的相對偏移的神經網路 h h h:
在這裡插入圖片描述
我們將在第4節中討論 h h h的選擇。因此,變形後的頂點為:
在這裡插入圖片描述

3.2 DefGrid的訓練

現在我們討論使用各種無監督損失函式對網格變形網路 h h h的訓練。 我們希望所有損失相對於頂點位置都是可微的,以允許梯度通過分析反向傳播。

3.2.1 可微分方差

隨著柵格變形(其頂點移動),柵格單元將覆蓋影像中的不同畫素區域。 我們的第一個損失旨在最小化每個網格單元中畫素特徵的方差。 每個畫素 p i p_i pi都有一個特徵向量 f i f_i fi,在我們的情況下選擇為RGB值。 如果可以使用分割掩碼的形式進行監督,則可以選擇附加一個代表掩碼類別的one hoy向量。 影像中畫素的位置用 p i = [ p i x , p i y ] T p_i = [p^x_i,p^y_i]^T pi=[pixpiy]T i ∈ 1 , . . . , N i \in {1,...,N} i1,...,N表示,其中N表示影像中畫素的總數。 單元 C k C_k Ck的方差定義為:
在這裡插入圖片描述
其中 S k S_k Sk表示 C k C_k Ck內的一組畫素,而 f ‾ k \overline f_k fk C k C_k Ck的平均特徵。 請注意,方差的定義相對於頂點位置不是自然地可區分的。 因此,我們將每個畫素 p i p_i pi軟分配給每個網格單元 C k C_k Ck來重新構造方差函式:
在這裡插入圖片描述
其中 D ( p i , v i , v j ) D(p_i, v_i, v_j) D(pi,vi,vj)是畫素與線段 v i v j v_iv_j vivj之間的L1距離,而 δ δ δ是控制鬆弛度的超引數。 我們使用 P i → k ( V ) P_{i \to k}(V) Pik(V)來指示從屬概率取決於網格的頂點位置,並且在我們的情況下是可微函式。 直觀地,如果畫素非常接近或位於像元內部,則 P i → k ( V ) P_{i \to k}(V) Pik(V)接近1,否則接近0。 為了檢查畫素是否在單元格內,我們計算該畫素相對於單元格三個頂點的重心權重。 如果所有重心權重都在0和1之間,則該畫素在內部,否則它將落在三角形的外部(參考判斷點是否在三角形內。 現在,我們重新定義單元格的方差,如下所示:
在這裡插入圖片描述
因此,這是網格頂點位置的微分函式。 我們基於方差的損失函式旨在使所有網格單元的差異總和最小化:

在這裡插入圖片描述

3.2.2 可微分重構

受SSN [24]的啟發,我們進一步使用變形的網格可微地重建影像,通過考慮從屬概率 P i → k ( V ) P_{i \to k}(V) Pik(V)。 直觀地,我們使用其平均特徵 f ‾ k \overline f_k fk表示每個像元,然後根據像元變形頂點的位置將其“貼上”到影像平面中。具體而言,我們重建影像中的每個畫素通過使用 P i → k ( V ) P_{i \to k}(V) Pik(V)

在這裡插入圖片描述
重建損失是重建畫素特徵與原始畫素特徵之間的距離:
在這裡插入圖片描述
我們通過實驗發現L1距離比L2更好.

3.2.3 正則化

為了規範化網格的形狀並防止自相交,我們引入了兩個正則器。 我們使用面積平衡損失函式來鼓勵單元格的面積相似,從而通過最小化面積的方差來避免自相交:
在這裡插入圖片描述

其中 a ‾ \overline a a是平均面積, a k a_k ak是單元格 C k C_k Ck的面積。 在3D網格預測[38,8]上,我們還利用Laplacian正則化。 特別是,這種損失會促使相鄰頂點相對於中心頂點沿相似方向移動:
在這裡插入圖片描述

其中 Δ i = [ Δ x i , Δ y i ] T \Delta_i = [\Delta_{x_i}, \Delta_{y_i}]^T Δi=[Δxi,Δyi]T是頂點 v i v_i vi的預測偏移,而 N ( i ) N(i) N(i)是頂點 v i v_i vi的相鄰頂點的集合。

訓練我們的網路 h h h的最終損失是上述所有條件的加權和:
在這裡插入圖片描述

4. 應用

我們的DefGrid支援當今在固定影像網格上完成的許多計算機視覺任務。我們在本節中討論三種可能的用例。 DefGrid可以作為即插即用模組插入多個處理級別。通過將其插入輸入級別,我們將DefGrid用作可學習的幾何下采樣層,以替代標準的池化方法。我們將在4.1節中通過應用到語義分割來展示其有效性。我們在第4.2節中進一步展示了物件蒙版註釋的應用,其中我們提出了一個模型,該模型基於深度DefGrid輸出的邊界對齊網格來生成物件多邊形。最後,在第4.3節中,我們將DefGrid展示為用於無監督影像劃分的獨立模組。

4.1 可學習的幾何下采樣

在這裡插入圖片描述

複雜場景的語義分割通常需要高解析度影像作為輸入,因此會產生計算量大的高解析度特徵圖。現有的深層CNN通常將降取樣後的影像作為輸入,並使用特徵池和Bottleneck結構來減輕記憶體使用量[18,19,42]。我們認為,使用DefGrid對特徵進行下采樣可以保留更好的幾何資訊。給定任意深度的CNN架構,我們建議使用淺層CNN編碼器插入DefGrid來預測變形的網格。預測的保留邊界的網格可用於感知幾何的特徵池化。具體來說,為了表示每個像元,我們可以通過平均或選擇每個三角形像元中的最大特徵值來應用均值或最大池化。由於規則的網格拓撲,這些特徵可以直接傳遞到標準CNN。請注意,網格池化操作會將原始特徵圖從影像座標扭曲為網格座標。因此,通過檢查畫素位於哪個網格單元格中,將最終輸出(預測的語義分割)貼上回影像平面。完整的pipeline是端到端可微分的。我們可以以多工的方式聯合訓練模型,其中包含語義分割分支的交叉熵損失和上述網格變形損失。 DefGrid模組是輕量級的,因此具有最小的計算開銷。該架構如圖3所示。

4.2 物件蒙版註釋

在這裡插入圖片描述

給定使用者提供的邊界框,物件蒙版註釋是描繪前景物件輪廓的問題[7,3,27,29,39]。已經提出了兩種主要方法來解決該任務。第一種方法利用深度神經網路來預測畫素級蒙版[29,39,26]。第二種方法試圖用多邊形/樣條線[20,14,7,3,27]勾勒出邊界。我們的DefGrid支援這兩種方法,並通過基於多邊形網格的推理對其進行了改進(圖4)。

4.2.1 基於邊界的分割

我們將基於邊界的分割公式化為最小能量路徑搜尋問題。我們沿著網格邊緣搜尋距離變換能量最小的閉合路徑:

在這裡插入圖片描述

其中Q表示網格上所有可能路徑的集合,M表示路徑Q的長度。我們首先使用經過L2損失訓練的深層網路預測物件的距離變換能量圖。然後,我們通過雙線性取樣計算每個網格頂點中的能量。我們通過平均沿兩個頂點定義的直線上的點的能量值來獲得每個網格邊緣的能量。請注意,直接在網格上搜尋可能會導致許多區域性最小值。我們使用Curve-GCN [27]來預測40個種子點,並將這些點中的每一個捕捉到在其前k個最接近頂點中能量最小的網格頂點。然後,對於每個相鄰的種子點對,我們使用Dijkstra演算法找到它們之間的最小能量路徑。我們在附錄中提供了演算法的詳細資訊。我們的方法在兩個方面對Curve-GCN進行了改進:1)由於它在邊界對齊的網格上明確地說明了原因,因此可以更好地與影像邊界對齊; 2)由於我們在Curve-GCN輸出的相鄰點之間尋找最小的能量路徑,因此這種方法可以處理邊界更復雜的物件,而這些邊界只能用40個點來表示。

4.2.2 逐畫素分割

我們不會生成逐畫素蒙版,而是預測每個網格單元的類標籤。具體來說,我們首先使用深度神經網路從影像中獲取特徵圖。然後,對於每個網格單元,我們平均合併該單元內所有畫素的特徵,並使用MLP網路預測每個單元的類別標籤。用交叉熵損失訓練模型。由於網格邊界與物件邊界很好地對齊,因此將特徵合併到網格內對於學習而言更加有效。

4.3 無監督影像劃分

我們已經可以將變形的三角形單元視為“超畫素”,並通過無監督的損失函式進行訓練。我們可以進一步利用它們之間的親和力對單元進行聚類。特別是,我們將變形的網格視為無向加權圖,其中每個網格單元是一個節點,如果兩個邊共享網格中的一條邊,則一條邊連線兩個邊,每個邊的權重是兩個像元之間的親和力,可以使用像元內部畫素的RGB值進行計算。

可以使用不同的聚類技術,並且探索所有內容超出了本文的範圍。為了展示DefGrid作為無監督影像分割方法的有效性,我們在這裡利用簡單的貪婪凝聚聚類。我們將合併後的平均親和度表示一個新節點。當我們達到所需的超畫素數量或親和力低於閾值時,聚類停止。請注意,根據設計,我們的超畫素是多邊形。請注意,我們的框架自然支援監督損失函式,但是在本文中我們不對其進行探討。

5. 實驗

我們在下游任務中來評估DefGrid。我們首先展示了在可學習的下采樣中進行語義分割的應用。然後,我們使用基於邊界的方法和按畫素的方法評估物件註釋任務。最後,我們展示了DefGrid在無監督影像分割槽中的有效性。

5.1 可學習的幾何下采樣

為了驗證DefGrid作為有效的下采樣方法的有效性,我們將(固定)影像網格特徵池化方法作為基準,即Cityscapes [9]語義分割基準上的最大/平均池化和步長卷積作為基準。基線方法在淺層特徵圖上執行最大/平均池化或步幅卷積,而我們的網格池化方法在變形的三角形像元上應用最大/平均池化。當特徵圖的高度和寬度被下采樣到原始影像尺寸的1/4、1/8、1/16和1/32時,我們將網格池化與基線進行比較。我們使用改良的ResNet50 [18],它比SOTA模型[35]更輕便。

評估指標:與[39,26,27]相同,我們使用mIoU和邊界F分數(在完整影像上閾值為4和16畫素)評估效能。所有指標均在所有類別中平均。

結果:表1中報告了效能(mIoU和邊界F分數)。我們的DefGrid合併方法始終優於基線,尤其是在邊界分數上。我們受益於DefGrid座標的edge-aligned屬性。從1/4的下采樣到1/8,由於缺少小目標例項,基準效能顯著下降,而我們的DefGrid池化方法可以更優雅地應對此問題。當下取樣率較小時,我們也優於基線,這表明有限空間容量的有效利用。我們在圖5中視覺化了預測網格的定性結果。我們的DefGrid更好地與邊界對齊,因此,下游網路“看到”的內容比固定的統一網格更具資訊性。
在這裡插入圖片描述
在這裡插入圖片描述

相關文章