RFN-Nest_ An end-to-end residual fusion network for infrared and visible images 論文解讀

RFN-Nest 2021

研究

影像融合分為三步：特徵提取，融合策略，影像重建。

當前端到端的影像融合方法：基於GAN的、還有本文提出的

研究背景：當前設計的融合策略在為特定任務生成融合影像方面是比較困難的。

研究目的：提出一種基於可以學習的融合網路架構（RFN）來實現端到端的影像融合方法(RFN-Nest)。

研究方法：

使用基於殘差架構的殘差網路結構(RFN)來取代傳統融合方法。

使用一種新穎的細節保留損失函式和特徵增強損失函式來訓練RFN。

使用新穎的兩階段訓練策略來完成融合模型的學習。（第一階段訓練自編碼器（帶有Nest），第二階段使用損失函式來訓練RFN）

主要貢獻：

提出了一種可學習的融合網路來取代傳統手工設計融合策略，整體網路變成端到端。

設計了兩階段的訓練策略。先把自編碼器的特徵提取和特徵重建能力訓練好，然後再訓練提出的殘差融合網路結構RFN。

設計了新的損失函式（包括影像細節損失函式和特徵增強損失函式）來訓練RFN（可以保持更多的細節和特徵）。

本文提出的融合方法在公共資料集和上達到了更好的結果（相比於其他主流的融合方法）。

網路結構

整體結構

網路包含三個方面：編碼器、殘差融合網路RFN（用來提取某個尺度的融合特徵的深層次特徵）、解碼器（基於Nest連線）。

編碼-解碼器表現非常強大的特徵提取能力和特徵重建能力，由於RFN是可學習的結構。因此使用兩階段的訓練策略來訓練網路。

設計一種新的損失函式L（RFN）來訓練提出的RFN網路，可以有效保證可見光影像的細節資訊，同時保持紅外影像的顯著特徵。

整體流程：首先將紅外影像和可見影像作為輸入，編碼器可以提取多尺度特徵（淺層深層）。然後RFN會對每個尺度提供的特徵進行特徵融合並對融合特徵進行更深的提取。最後多個RFN將不同尺度的融合特徵送到解碼器中。基於Nest連線的解碼器充分利用多尺度結構的融合特徵來重建融合影像。

RFN（Residual fusion network）

RFN由6個卷積層組成，輸入是編碼器某一尺度(m=1，2，3，4）提取的紅外影像特徵和可見影像特徵。輸出是這一尺度的融合特徵。

經過conv1和conv2將兩種特徵串聯起來然後作為後面的輸入（深層RFN保留顯著特徵）。conv6直接將兩種特徵融合（淺層RFN保留影像細節）。

解碼器（Nest）

左邊是負責不同尺度的RFN產生的融合特徵。DCB是卷積塊，包含兩個卷積層。每一行都有短連線（類似密集連線）。不同行透過跨層連線（將解碼器中多尺度深層特徵連線起來）。

兩階段訓練策略

1.訓練一個自動編碼器網路來重建輸入影像。

編碼器提取輸入影像的多尺度深層特徵，基於Nest的解碼器根據多尺度深層特徵重建輸入影像。在自動編碼器的過程中，使用L(auto)損失函式。

L(auto) = L(pixel) + &L(ssim)

等式右邊分別是畫素損失和結構相似性損失。

L(pixel) = || O - I ||F ^2

(輸出影像畫素 - 輸入影像畫素) 進行範數操作（|| || F^2）。

L(ssim) = 1 - SSIM(O,I)

SSIM是計算輸出影像與輸入影像的結構相似性，SSIM值越大，L(ssim)值越小，代表輸入輸出影像越一致。

2.向自編碼器中加入RFN，固定自編碼器網路的引數等等，使用合適的損失函式訓練RFN。

第一階段訓練的編碼器網路去提取兩個源影像的多尺度深度特徵
一個RFN負責一個尺度的深度特徵，並將深度特徵融合。

設計一個新的損失函式L(RFN)去訓練RFN L(RFN) = & L(detail） + L(feather)

L(detail）表示背景細節保留損失函式，L(feather)表示目標特徵增強損失函式。

大多數背景資訊來自可見光影像。因此L(detail）是針對輸出影像和可見光影像。

L(detail）= 1 - SSIM（O, I(vi)） I(vi)表示輸入的可見光影像

L(feather)可以去約束融合的深度特徵來保留紅外影像顯著結構。 W(vi) 和W(ir)可以控制融合特徵與可見光特徵和紅外特徵的相關影響。透過調節W(vi) 和W(ir)來控制融合資訊中的顯著特徵。M(這裡是4)是不同尺度的數量。W1是一個向量，可以平衡損失幅度。

首先詳細介紹訓練階段和測試階段的實驗設定之後，進行消融實驗，對最後與其他方法進行定性比較。

訓練階段和測試階段，都是將資料集中的影像轉到灰度影像並reshape大小後，進行實驗。使用6個指標進行方法評估，熵（En）、標準偏差（SD）、互動資訊（MI）、融合偽影測量（Nabf）、差異相關性總和（SCD）、多尺度結構相似性（MS-SSIM）。

消融實驗

L（detail）和 L（feature) 的消融實驗：透過設定&=0 或者& = 700 來控制L（detail）是否存在，對實驗結果的影響。

透過實驗發現 & = 700時候 Wir = 6.0 和 Wvi = 3.0 時候實驗效果比較好。

&取值的消融實驗：由上一條可知& != 0 實驗效果更好，這個實驗來確定&具體取哪些值會更好。透過實驗發現 & = 700達到最好的實驗效果。

兩階段訓練策略的消融實驗

本文采取的是兩階段的訓練策略，透過消融實驗來說明為什麼採取兩階段的訓練策略。

一階段的訓練意味著編碼器、解碼器、RFN同時訓練。結構如下圖所示

兩階段訓練是先訓練編碼器-解碼器結構、再固定自編碼器來訓練RFN結構。如下圖所示。

一階段與兩階段除訓練步驟不同以外，採取所有相同的設定進行比較。

透過結果可以看到兩階段訓練達到的實驗效果比一階段實驗效果好。原因如下：

1.編碼器和解碼器在使用一階段訓練策略進行設計時可能不具有理想的特徵提取和重建能力。（自我感覺，應該是自編碼器與RFN一塊訓練可能不具有良好特徵提取和重建能力，要不兩階段訓練策略的第一階段為什麼是訓練自編碼器來獲取特徵提取和重建能力）

2.更重要的是，由於RFN是我們融合網路中的關鍵，因此應仔細訓練它以獲得良好的融合效能。所以採取兩階段訓練。

Nest connection的消融實驗

本文采用的是帶有Nest的解碼器，透過對Nest connection的消融實驗來對比有無Nest的實驗效果。除了有無Nest其它一切都相同。

由下表可知，帶有Nest的實驗效果比不帶Nest的實驗效果更好。

融合策略的消融實驗

本文采用的是基於RFN（基於殘差的可學習的融合網路）融合策略，透過和其他手工設計的融合策略進行比較。

“add”: 提取的源特徵進行相加得到融合特徵。（紅外源特徵與可見光影像特徵，下面也是）

"max": 源特徵中每個元素中選擇最大的值作為融合特徵。

"L1-norm": 根據L1範數計算權重，源影像特徵*權重相加得到融合特徵。

"L*-norm": 計算深度特徵的全域性池化操作中涉及的矩陣的奇異值之和，以獲得融合權值。

“SCA”：使用的空間/通道注意力融合策略。用 ? 1範數進行空間注意力融合，並使用平均池計算通道注意力。

各種融合策略的公式

實驗結果如下：

與其他方法的比較

跟其他方法相比展示比較好的結果。

物體跟蹤實驗

RGBD資料集: RGB影像與深度影像

RGBT資料集：RGB影像與紅外影像

將RFN用到物體追蹤的演算法上面，並且達到了不錯的效果。進一步證明了我們提出來的RFN-Nest的應用廣泛。

本階段沒看太懂。