DBAF-Net:多解析度遙感影像的雙分支注意力融合分割網路

Change_ZH發表於2020-10-10

?論文下載地址

  [論文地址]

?‍?論文作者

Hao Zhu,Wenping Ma,Lingling Li,Licheng Jiao,Shuyuan Yang,Biao Hou

?模型講解

[背景介紹]

  如今,隨著地球空間資訊科技的發展和先進裝備技術的支援,可以同時獲取同一場景中不同解析度的影像。自這一目標無法實現由單一感測器同時獲取,而是當前的星載被動地球觀測系統可以共同獲得同一場景的兩幅影像,一個高空間解析度的全色(PAN)影像但包含較少的光譜資訊,一個低空間解析度的多光譜(MS)影像,但包含更多的光譜資訊。與原始的單一解析度影像相比,這些不同解析度的多解析度影像的融合,能夠同時獲得更高的空間和光譜資訊。MS影像有助於土地植被的識別,而PAN影像對於準確描述影像中物體的形狀有很大貢獻。因此,PAN和MS影像之間的內在互補性為多解析度影像分割任務提供了重要的潛力。

[模型解讀]

  作者設計了一種用於多解析度分類的雙分支注意融合深度網路(DBAF-Net)。其目的是將特徵級融合和分割整合到端到端網路中。在建立訓練樣本庫的過程中,傳統的切片大小是固定、以畫素為中心的取樣策略不同,作者提出了一種自適應中心偏移取樣策略(ACO-SS),該策略允許每個切片通過尋找待分類畫素的紋理結構自適應地確定其鄰域範圍。而鄰域範圍與該畫素不對稱,希望捕捉到更有利於其分割的鄰域資訊。在網路結構上,以ACO-SS捕獲的切片為基礎,對PAN影像設計了空間注意模組(SA-module),對MS影像設計了通道注意模組(CA-module),分別突出了PAN影像的空間解析度優勢和MS資料的多通道優勢。

[ACO-SS:自適應中心偏移取樣策略]

  訓練樣本集的質量是非常重要的,它直接影響網路模型的效能,因此,如何獲得有效的樣本是首先要解決的問題。在遙感像畫素級分類分類任務中,訓練樣本一般是以畫素為中心的影像切片。切片為中心畫素提供鄰域資訊來確定該中心畫素的類別。與自然影像不同,大場景的遙感影像通常有許多不同尺度,因此將切片設定為固定大小來提取特徵是不合理的。
  作者提出了一種自適應中心-偏移取樣策略(ACO-SS),可以根據要分類畫素的紋理結構自適應地確定每個切片的範圍。該策略將原始切片畫素中心(即要分類的畫素)移動到紋理結構上,以形成具有均勻性的相鄰畫素,從而為該畫素提供更多正反饋,從而為分類器提供了更多的正反饋相鄰畫素資訊。

[檢測紋理,確定其有效區域]

  這裡作者選擇紋理結構主要是因為容易獲得和穩定。最穩定的紋理結構可以通過高斯空間的歸一化拉普拉斯運算元( s − L o G : σ 2 ▽ 2 G s-LoG: \sigma^2\triangledown^2G sLoG:σ22G)檢測。但在本文中,由於 D o G DoG DoG s − L o G s-LoG sLoG D o G ≈ ( k − 1 ) σ 2 ▽ 2 G DoG\approx(k-1)\sigma^2\triangledown^2G DoG(k1)σ22G)的近似,易於計算,所以作者使用高斯( D o G DoG DoG)尺度空間來捕獲紋理結構。 D o G DoG DoG函式可以表示為:
D o G = G ( x , y , σ 1 ) − G ( x , y , σ 2 ) = 1 2 π σ 1 2 e − x 2 + y 2 2 σ 1 2 − 1 2 π σ 2 2 e − x 2 + y 2 2 σ 2 2 \begin{aligned}DoG &=G\left(x, y, \sigma_{1}\right)-G\left(x, y, \sigma_{2}\right) \\ &=\frac{1}{2 \pi \sigma_{1}^{2}} e^{-\frac{x^{2}+y^{2}}{2 \sigma_{1}^{2}}}-\frac{1}{2 \pi \sigma_{2}^{2}} e^{-\frac{x^{2}+y^{2}}{2 \sigma_{2}^{2}}} \end{aligned} DoG=G(x,y,σ1)G(x,y,σ2)=2πσ121e2σ12x2+y22πσ221e2σ22x2+y2
  其中 σ 1 \sigma_1 σ1是當前尺度空間的尺度, σ 2 = k σ 1 \sigma_2=k\sigma_1 σ2=kσ1,表示領域尺度空間的尺度。
   D o G DoG DoG s − L o G s-LoG sLoG的橫截面如下圖左側所示。可以看出,通過計算兩個最大點之間的歐式距離,可以捕獲該漏斗形紋理結構的大小(表示為 D E D_E DE)。因此,對 D o G DoG DoG求導得到 D E D_E DE的表示:
{ D E = 2 x 2 + y 2 ∂ D o G ∂ D E ≜ 0 → D E = 32 k 2 σ 1 2 ln ⁡ k k 2 − 1 \left\{\begin{array}{l} D_{E}=2 \sqrt{x^{2}+y^{2}} \\ \frac{\partial DoG}{\partial D_{E}} \triangleq 0 \\ \rightarrow D_{E}=\sqrt{\frac{32 k^{2} \sigma_{1}^{2} \ln k}{k^{2}-1}} \end{array}\right. DE=2x2+y2 DEDoG0DE=k2132k2σ12lnk
  在本文中,作者設定 k = 2 1 3 k=2^{\frac{1}{3}} k=231 D E = 9.5 σ 1 D_E=9.5\sigma_1 DE=9.5σ1。可以通過檢測其中心極點來捕獲 D o G DoG DoG尺度空間中的紋理結構,因為它可以提供有關位置和當前尺度 σ 1 \sigma_1 σ1的資訊來確定相應的 D E D_E DE
  

DBAF-Net:多解析度遙感影像的雙分支注意力融合分割網路
[根據不同比例的紋理,確定每個畫素的鄰域範圍]

  對於某個畫素,其周圍可能有多個候選紋理,所選紋理結構在空間距離上應該最接近該畫素,並確保與該畫素處於同一區域。因此,作者用泰森多邊形法分割槽所有極值點,每個泰森多邊形中只有一個極值點。任何一個泰森多邊形的最近紋理為改區域畫素的紋理。
  確定鄰域範圍和中心位置的整體過程如上圖右側所示。假設 K K K K 2 K_2 K2為歐氏距離非常近但屬於不同類別的兩個畫素點, E E E E 2 E_2 E2分別為對應紋理的中心極值點。通過空間關係的轉換,可以計算出新的中心位置 F F F F 2 F_2 F2,以及對應的鄰域範圍(兩個具有自適應鄰域範圍的藍色斑塊)。與以畫素為中心的取樣策略相比,採用該策略的兩個藍色切片沒有過多地重複鄰域資訊。
  以點K為例,空間關係的具體計算如下:
 s.t.  { ∣ K y − E y ∣ ≥ ∣ K x − E x ∣ ; K ∈ ⊙ E ; F ∈ E K ∣ E y − L y ∣ ≜ ∣ K y − E y ∣ ≜ d ∣ R y − E y ∣ = 0.5 D E ∣ F y − L y ∣ = ∣ R y − F y ∣ = ∣ R y − L y ∣ 2 \text { s.t. }\left\{\begin{array}{l} \left|K_{y}-E_{y}\right| \geq\left|K_{x}-E_{x}\right| ; K \in \odot E ; F \in E K \\ \left|E_{y}-L_{y}\right| \triangleq\left|K_{y}-E_{y}\right| \triangleq d \\ \left|R_{y}-E_{y}\right|=0.5 D_{E} \\ \left|F_{y}-L_{y}\right|=\left|R_{y}-F_{y}\right|=\frac{\left|R_{y}-L_{y}\right|}{2} \end{array}\right.  s.t. KyEyKxEx;KE;FEKEyLyKyEydRyEy=0.5DEFyLy=RyFy=2RyLy → ∣ R y − L y ∣ = ∣ R y − E y ∣ + ∣ E y − L y ∣ = 0.5 D E + d ∣ F y − E y ∣ = ∣ F y − L y ∣ − ∣ E y − L y ∣ = 0.5 D E − d 2 → F y = 3 E y − K y + K y − E y ∣ K y − E y ∣ 0.5 D E 2 → F x = K x − E x K y − E y ( F y − E y ) + E x \begin{array}{c} \rightarrow\left|R_{y}-L_{y}\right|=\left|R_{y}-E_{y}\right|+\left|E_{y}-L_{y}\right|=0.5 D_{E}+d \\ \left|F_{y}-E_{y}\right|=\left|F_{y}-L_{y}\right|-\left|E_{y}-L_{y}\right|=\frac{0.5 D_{E}-d}{2} \\ \rightarrow F_{y}=\frac{3 E_{y}-K_{y}+\frac{K_{y}-E_{y}}{\left|K_{y}-E_{y}\right|} 0.5 D_{E}}{2} \\ \rightarrow F_{x}=\frac{K_{x}-E_{x}}{K_{y}-E_{y}}\left(F_{y}-E_{y}\right)+E_{x} \end{array} RyLy=RyEy+EyLy=0.5DE+dFyEy=FyLyEyLy=20.5DEdFy=23EyKy+KyEyKyEy0.5DEFx=KyEyKxEx(FyEy)+Ex
其中 L y L_y Ly R y R_y Ry是所選切片的邊界,所以切片的大小 S q = ∣ R y − L y ∣ S_q=| R_y-L_y| Sq=RyLy。這裡,如果 ∣ K y − E y ∣ < ∣ K x − E x ∣ |K_y-E_y|<|K_x- E_x| KyEy<KxEx,則交換 x x x y y y,如果 K ∉ ⊙ E K\notin \odot E K/E,則認為 K K K周圍沒有明顯的紋理結構,因此遵循傳統的以畫素為中心的取樣策略,為 K K K設定一個固定的鄰域大小 S f i x S_{fix} Sfix。從上式可以看出,確定的畫素 K K K,切片的大小 S q S_q Sq取決於其紋理結構的規模( D E D_E DE)和極值畫素點到紋理結構的歐氏距離( d d d),這鄰域資訊可以根據不同大小的物件自適應捕獲的範圍。此外,在保留其部分獨特的鄰域資訊的同時,作者將原始切片中心偏移到紋理結構的中心,以捕獲更多與原始中心畫素同質的鄰域資訊,有利於特徵提取。

[割成三種固定大小切片]

  在進入網路之前,為了有效地訓練網路,我們最終將所有的切片切割成三個固定大小,為:
S = { S 1 , S p ≤ S 1 S f i x , S 1 < S p ≤ S f i x S 3 , S 2 < S p ≤ S 3 S ~ 3 , S p > S 3 S=\left\{\begin{array}{ll} S_{1}, & S_{p} \leq S_{1} \\ S_{f i x}, & S_{1}<S_{p} \leq S_{f i x} \\ S_{3}, & S_{2}<S_{p} \leq S_{3} \\ \widetilde S_{3}, & S_{p}>S_{3} \end{array}\right. S=S1,Sfix,S3,S 3,SpS1S1<SpSfixS2<SpS3Sp>S3
其中 S x S_x Sx S f i x S_{fix} Sfix S 3 S_3 S3三個閾值為常數, S ~ 3 \widetilde S_{3} S 3意味著對 S p S_p Sp的切片resize為 S 3 S_3 S3,而不是直接設定為 S 3 S_3 S3,以確保原始鄰域資訊的完整性,然後這些切片用作後續網路的輸入。

[DBAF-Net:雙分支注意力融合網路]

[SA空間注意力模組、CA通道注意力模組]

  PAN影像的空間解析度高於MS影像,因此作者希望設計一個基於空間的注意模組,為PAN影像的特徵圖新增權重。MS影像有更多的通道資訊,作者設計一個通道注意模組。

DBAF-Net:多解析度遙感影像的雙分支注意力融合分割網路

  上圖中,兩種不同型別的注意機制模組。其中,P為最大池化操作,P(G)為全域性平均池化操作,R為卷積、批處理歸一化(BN)、ReLU等多個非線性結構的組合。除最後的啟用函式為Sigmoid外,其他都是ReLU。 F r F_r Fr表示降維的全連線層FC與ReLU, F s F_s Fs表示增維全連線層與Sigmoid。⊗是逐元素相乘。(a)自下而上自上而下的注意模組(b)SE注意模組。

DBAF-Net:多解析度遙感影像的雙分支注意力融合分割網路

  [①SA空間注意力]
  在一個注意力模組中,每次上取樣後的特徵圖都與下采樣過程中的特徵圖進行逐畫素相加,保持原有的特徵,減弱過度注意力的情況發生,同時可以防止梯度爆炸。更好的反向傳播。
假設 x t x_t xt為第 t t t層的輸入, y T y_T yT為第 T T T層的輸出 ( T > t ) (T>t) (T>t) F i ( ⋅ ) F_i(\sdot) Fi()是第 i i i層的特徵函式,包含池化、卷積、BN、ReLU等操作。 w i w_i wi表示第 i i i層的權重。因此,此過程可以表示為:
y T = F T ( ( x t + ∏ i = t T − 1 F i ( x i , w i ) ) , w T ) y_T=F_T((x_t+\prod _{i=t}^{T-1}F_i(x_i,w_i)),w_T) yT=FT((xt+i=tT1Fi(xi,wi)),wT)
在反向傳播過程中,按照以下步驟計算從第 T T T層到第 t t t層的梯度誤差 E E E
∂ E ∂ x t = ∂ E ∂ y T ⋅ ∂ y T ∂ x t = ∂ E ∂ y T ⋅ ∂ F ∂ x t ( 1 + ∂ ∂ x t ∏ i = t T − 1 F ( x i , w i ) ) \frac{\partial E}{\partial x_{t}}=\frac{\partial E}{\partial y_{T}} \cdot \frac{\partial y_{T}}{\partial x_{t}}=\frac{\partial E}{\partial y_{T}} \cdot \frac{\partial F}{\partial x_{t}}\left(1+\frac{\partial}{\partial x_{t}} \prod_{i=t}^{T-1} F\left(x_{i}, w_{i}\right)\right) xtE=yTExtyT=yTExtF(1+xti=tT1F(xi,wi))
  [②CA通道注意力]
  與上面的SA同理,CA主要在於通道的注意力,每次都會將獲得的特徵圖與輸入特徵圖及進行通道疊加,使得最初的特徵保留。
y T = f s ( x t ) + ∏ i = t T − 1 F i ( x i , w i ) y_T=f_s(x_t)+\prod _{i=t}^{T-1}F_i(x_i,w_i) yT=fs(xt)+i=tT1Fi(xi,wi)
  個人認為這裡作者的表示式比較混亂,但是流程圖是十分清楚的,搞懂流程圖就基本可以了。

[雙分支注意力融合深層網路]

  [①預處理]
  PAN影像與MS影像的尺寸之比為4:1,輸入網路之前都會經過一個R的操作,包括卷積、BN、ReLU。

  [②基於注意力的特徵提取]
  如下圖所示,我們使用三個SA模組在PAN分支上形成堆疊的SA網路,使用三個CA模組在MS分支上形成堆疊的CA網路。在這個過程中,兩個分支的權重不共享。所提取的特徵進一步增強了各影像資料型別的原始資訊優勢。注意力的結果主要抑制影像背景等不重要的資訊,隨著網路的深化,逐漸增強感興趣的重要資訊。

DBAF-Net:多解析度遙感影像的雙分支注意力融合分割網路

  [③特徵融合與分類]
  為了有效地融合兩個分支的特徵,作者將按照以下操作進行第三模組的輸出。假設第三模組的輸入PAN影像為 A i , c a A^a_{i,c} Ai,ca,輸出的注意力影像為相同大小的 α i , c \alpha_{i,c} αi,c,對準的MS影像輸入為 B i , c b B_{i,c}^b Bi,cb,對應相同大小的注意力輸出為 β i , c \beta_{i,c} βi,c c c c表示通道 i i i表示空間位置。融合後的特徵為 Y i , c f Y_{i,c}^f Yi,cf可以表示為:
Y i , c f = f s ( F ( B i , c b ) ) + F ( N ( α i , c ⋅ A i , c a + F ( β i , c ⋅ B i , c b ) ) + A i , c a ) Y_{i,c}^f=f_s(F(B_{i,c}^b))+F(N(\alpha_{i,c}\sdot A_{i,c}^a+F(\beta_{i,c}\sdot B_{i,c}^b))+A_{i,c}^a) Yi,cf=fs(F(Bi,cb))+F(N(αi,cAi,ca+F(βi,cBi,cb))+Ai,ca)
其中 N ( ⋅ ) N(·) N()表示歸一化函式, F ( ⋅ ) F(·) F() f s ( ⋅ ) f_s(·) fs()表示與上述公式相同的含義。

  由於ACO-SS的輸入切片有三種不同的大小,作者在全連線層之前插入一個空間金字塔池化層(SPP),從而得到固定維數的向量。本文利用1x1、2x2、4x4池化建立了三層的金字塔池化。因此,圖4中帶有 S × S × 4 C S\times S\times 4C S×S×4C的特徵應轉化為 ( 1 × 1 × 4 C + 2 × 2 × 4 C + 4 × 4 × 4 C ) (1\times 1\times 4C+2\times 2\times 4C+4\times 4\times 4C) (1×1×4C+2×2×4C+4×4×4C)維向量。將所有特徵串聯並通過幾個完全連通的層後,最終估計出這對切片的分類概率。本文采用交叉熵誤差作為最終損失函式,定義如下:
E = − 1 n b ∑ i = 1 n b [ y i log ⁡ ( y ^ i ) + ( 1 − y i ) log ⁡ ( 1 − y ^ i ) ] E=-\frac{1}{n_{b}} \sum_{i=1}^{n_{b}}\left[y_{i} \log \left(\hat{y}_{i}\right)+\left(1-y_{i}\right) \log \left(1-\hat{y}_{i}\right)\right] E=nb1i=1nb[yilog(y^i)+(1yi)log(1y^i)]

[結果分析]

[資料集]

  在本節中,作者使用四個資料集來驗證所提方法的魯棒性和有效性。前兩個資料集由2016年IEEE GRSS資料融合競賽官方提供。資料集分別於2015年3月31日和2015年5月30日從加拿大溫哥華的DEIMOS-2衛星採集。包括1 m解析度的平移影像和4 m解析度的MS影像(RGB,NIR),如下圖所示,其中資料是經過校準和放射測量校正的。MS影像為3249x 2928x4畫素,PAN影像為12996 x 11712畫素。資料分為11類,包括植被、四類建築、船隻、道路、港口、橋樑、樹木和水。

DBAF-Net:多解析度遙感影像的雙分支注意力融合分割網路

  如下圖所示,其中資料是經過人工校正後再重新取樣的產品,並經過校準和輻射測量校正。MS影像包括1311 x873x4畫素,而PAN影像包括5244 x3492畫素。資料分為8類,包括植被、三種建築、船、路、樹和水域。

DBAF-Net:多解析度遙感影像的雙分支注意力融合分割網路

  接下來的兩組資料來自2008年5月30日在中國西安的Ouickbird衛星。每個資料集包括0.61 m解析度的PAN影像和2.44 m解析度的MS影像(RGB和近紅外),如下圖所示為西安市近郊區域,覆蓋西安市西南角。PAN影像由6600 x 6200畫素組成,MS影像由1650x 1550x 4畫素組成。將場景劃分為8類,包括兩種植被、四種建築區域、道路和土地。

DBAF-Net:多解析度遙感影像的雙分支注意力融合分割網路

  如下圖所示為西安市區,包括西安東部。PAN影像為3200 x 3320畫素,MS影像為800 x 830 x 4畫素。該場景被劃分為6類,分別是建築、道路、樹木、土壤、平地、水和陰影。平地代表除土壤以外的所有土地。對於溫哥華和西安的資料集,請注意實際上有四個相對獨立的影像資料集,只有兩個地方可以捕捉影像。因此,實驗中的訓練樣本和測試樣本屬於同一影像資料集。不同的資料集不會相互影響。

DBAF-Net:多解析度遙感影像的雙分支注意力融合分割網路

[引數設定]

DBAF-Net:多解析度遙感影像的雙分支注意力融合分割網路

[消融實驗]

DBAF-Net:多解析度遙感影像的雙分支注意力融合分割網路

相關文章