Adobe提出新型超解析度方法：用神經網路遷移參照影像紋理

吳攀發表於2019-03-16

原文網址 : https://www.jiqizhixin.com/articles/2019-03-15-15

影像超解析度一直是計算機視覺領域一個熱門的研究主題，也是 Adobe 等公司開拓新型影像處理技術的重要方向。近日，Adobe 研究院與田納西大學的研究者提出了一種藉助神經紋理遷移實現的影像超分辨技術，還構建了一個用於訓練和評估超解析度方法的基準資料集。

論文：Image Super-Resolution by Neural Texture Transfer

論文連結：https://arxiv.org/abs/1903.00834
專案地址：https://github.com/ZZUTK/SRNTT

摘要：由於低解析度（LR）影像存在顯著的資訊損失，所以進一步推動當前最佳的單影像超解析度（SISR）技術實現進一步的提升已經變得極其困難。另一方面，基於參照的超解析度（RefSR）已被證明在給了與 LR 輸入有相似內容的參照（Ref）影像時有很好的恢復高解析度（HR）細節的潛力。但是，當 Ref 的相似程度更低時，RefSR 的效能會嚴重下降。這篇論文的目標是釋放 RefSR 的潛力，具體做法是利用有更強穩健性的 Ref 影像的更多紋理細節，即使此時提供了不相關的 Ref 影像。受近期在影像風格化方面的研究的啟發，我們將 RefSR 問題形式化為了神經紋理遷移問題。我們設計了一種端到端的深度模型，能夠根據與 Ref 影像的紋理相似性自適應地遷移 Ref 影像的紋理，從而豐富 HR 細節。除了像之前的工作那樣在原始畫素空間中匹配內容，我們的關鍵貢獻是在神經空間中執行的多層面匹配。這種匹配方案有助於多尺度神經遷移，能讓模型從那些形義相關的Ref 圖塊中獲得更多好處，並在最不相關的 Ref 輸入上優雅地降級到SISR效能。我們為 RefSR 的一般性研究構建了一個基準資料集，其中包含與LR 輸入配對的有不同層面相似度的 Ref 影像。我們進行了定量和定性評估，結果表明我們的方法優於之前最佳方法。

引言

傳統的單影像超解析度（SISR）問題被定義為：根據低解析度（LR）的觀察恢復出高解析度（HR）的影像。正如計算機視覺領域其它方向的研究一樣，卷積神經網路（CNN）的引入極大地推進了 SISR 的研究前沿。但是，由於 SISR 問題不適定的本質，大多數已有方法在上取樣倍數較大（比如4 倍）時仍然會得到模糊的結果，尤其是當涉及到原始 HR 影像中呈現出的但對應的 LR 影像中不具備的精細紋理時。近年來，與感知有關的約束（比如感知損失和對抗損失）已被引入到了 SISR問題的數學構建中，併為大倍數上取樣的視覺質量帶來了重大突破。但是，它們往往會產生幻覺式的假紋理，甚至會產生偽影。

不同於傳統 SISR，本論文探索了基於參照的超解析度（RefSR）。RefSR 是利用來自 HR 參照影像（Ref）的豐富紋理來補充 LR 影像中缺失的細節，從而緩解不適定問題並在參照影像的幫助下得到細節更豐富和更有真實感的紋理。注意，Ref 影像的獲取來源有很多，比如照片集、視訊幀、網路搜尋影像等。已有的 RefSR 方法是採用內部示例（self-example）或外部高頻資訊來增強紋理。但是，這些方法都假設參照影像與 LR 影像有相似的內容和/或有良好的對齊。否則，它們的表現會有顯著的下降，甚至會比SISR 方法更差。相對而言，Ref 影像在我們的設定中則發揮著不同的作用：無需與 LR 影像有良好的對齊或相似的內容。我們只希望將形義相關的紋理從 Ref 影像遷移到輸出的 SR 影像。理想情況下，在存在良好的 Ref 影像時，穩健的RefSR 演算法應當優於 SISR，並且在沒有提供 Ref 影像或完全不含相關紋理時也能得到與 SISR 相當的表現。注意，內容相似性可以推斷出紋理相似性，但反過來不成立。

受近期影像風格化研究的啟發，我們提出了一種新的 RefSR 演算法 Super Resolution by Neural Texture Transfer（神經紋理遷移超解析度/SRNTT），能夠自適應地將紋理從Ref 影像遷移到 SR影像。更具體而言，SRNTT 會通過一個深度模型在特徵空間中執行區域性特徵匹配以及將匹配的紋理遷移到最終輸出。這個紋理遷移模型會學習 LR 和 Ref 紋理之間的複雜的依賴關係，能夠在抑制不相似紋理的同時利用相似的紋理。圖 1 中的示例展示了我們提出的 SRNTT 相比於兩種之前最佳研究（SRGAN（SISR 方向）和 CrossNet（RefSR 方向））的優勢。如果使用的參照影像有相似的內容（即圖 1(a) 上），則 SRNTT 在合成更精細紋理方面顯著優於相比較的其它方法。即使使用的 Ref 影像的內容無關（即圖 1(a) 下），SRNTT 的表現也與 SRGAN 相當（視覺質量相近，但偽影更少），這體現了 SRNTT 在使用不同程度內容相似性的不同 Ref 影像時的適應性/穩健性。相對而言，CrossNet 會從無關的 Ref 影像引入我們不想要的紋理，表現很糟糕。

Adobe提出新型超解析度方法：用神經網路遷移參照影像紋理

圖 1：SRNTT（我們的方法）與 SRGAN（當前最佳的 SISR 方法）和CrossNet（當前最佳的 RefSR 方法）的比較。（a）兩張 Ref 影像。其中上圖（U）與 LR 輸入（b）的右下角有相似的內容，下圖（L）與 LR 輸入區別明顯或內容不相關。（c）SRGAN 的結果。(d)(e)CrossNet分別使用兩張 Ref 影像得到的結果。(f)(g) SRNTT 分別使用兩張Ref 影像得到的結果。

為了比較公平以及幫助推動對一般性 RefSR問題的研究，我們提出了一個新的資料集 CUFED5，其中提供了訓練集和測試集，並有在內容、紋理、顏色、光照條件、視角等方面不同相似度的參照。本論文的主要貢獻如下：

我們探索了更一般的 RefSR 問題，突破了 SISR 的效能瓶頸（即缺乏紋理細節）並放寬了已有 RefSR 方法的約束（即對齊假設）。
我們為 RefSR 問題提出了一種端到端的深度模型 SRNTT，可通過多尺度神經紋理遷移基於任意給定參照恢復 LR 影像。我們通過廣泛的實證研究展示了新提出 SRNTT 在視覺上的提升、有效性和適應性。
我們構建了一個基準資料集 CUFED5，可促進 RefSR 方法在處理與 LR 輸入影像有不同程度相似性的參照方面的進一步研究和效能評估。

方法

我們提出的 SRNTT 的目標是：給定參照影像，根據低解析度影像估計得到更高解析度的影像，使得到的超解析度影像能根據參照影像合成可信的紋理，同時在內容上保持與低解析度影像一致。圖2 給出了 SRNTT的概況。其中的主要思想是在特徵空間中搜尋與參照影像匹配的特徵，然後以多尺度的方式將匹配的特徵遷移到超解析度影像，因為特徵在面對顏色和光照條件變化時更為穩健。這種多尺度紋理遷移能同時考慮低解析度影像和參照影像在形義（高層面）和紋理（低層面）上的相似性，從而能在抑制不相關紋理的同時遷移相關的紋理。

Adobe提出新型超解析度方法：用神經網路遷移參照影像紋理

圖 2：我們提出的 SRNTT 框架，包含特徵交換和紋理遷移

除了和之前的 SR 方法一樣最小化輸出的超解析度影像和原始高解析度影像之間的畫素和/或感知距離，我們還會進一步規範在超解析度影像和參照影像的匹配紋理之間的紋理一致性，從而強制實現有效的紋理遷移。最終輸出的超解析度影像是以端到端形式得到的。

Adobe提出新型超解析度方法：用神經網路遷移參照影像紋理

圖 3：紋理遷移的網路結構

資料集

對於 RefSR 問題，LR 和 Ref 影像之間的相似性會顯著影響 SR 結果。一般而言，為了訓練和評估 RefSR 演算法，應該提供與LR 影像有不同程度的相似度的參照影像。就我們所知，目前還沒有一個公開可用的這樣的資料集。因此，我們基於CUFED 資料集（包含 1883 個拍攝了日常生活中不同事件的相簿）構建了一個這樣的資料集，其中有不同相似度水平的參照影像。每個相簿的大小在30 到 100 張影像之間。在每個相簿中，我們都基於 SIFT 特徵匹配收集了不同相似程度的影像對——SIFT 特徵匹配描述的是區域性紋理特徵，這與區域性紋理匹配的目標一致。

我們根據 SIFT 特徵的最佳匹配數從高到低定義了四個相似度層級，即 L1、L2、L3、L4。從每組配對影像中，我們都從一張影像隨機裁剪 160×160 的圖塊作為原 HR 影像，而對應的參照影像則裁剪自其它影像。通過這種方式，我們收集了13761 組配對的圖塊作為訓練集。對於測試資料集，每張 HR 影像都與所有四個層級的參照影像進行了配對，以便廣泛地評估基於參照的 SR 的方法的適應性。我們使用了與構建訓練資料集時相似的收集影像對的方法。總體而言，測試集包含126 組樣本。每一組都包含一張 HR 影像和四張分別為 L1、L2、L3、L4 層級的參照影像。圖 4 展示了兩組來自測試集的樣本。我們將收集到的訓練集和測試集稱為 CUFED5，這能很大程度地促進對RefSR 的研究以及提供一個公平比較的基準。

Adobe提出新型超解析度方法：用神經網路遷移參照影像紋理