超解析度分析(二)--深度學習方案綜述

Eason.wxd發表於2019-03-06

轉自:https://www.jiqizhixin.com/articles/19022403

影象超解析度(SR)是指從低解析度(LR)影象中恢復高解析度(HR)影象的過程,是計算機視覺和影象處理中一種重要的影象處理技術。它在現實世界中有著廣泛的應用,如醫學成像、監控和安全等。除了改善影象的感知質量,它還有助於改善其它計算機視覺任務。總的來說,由於單個 LR 影象通常對應多個 HR 影象,因此這個問題比較具有挑戰性。以往的文獻中提到了多種經典的 SR 方法,包括基於預測的方法、基於邊緣的方法、統計方法、基於 patch 的方法和稀疏表徵方法等。

隨著近年來深度學習技術的快速發展,研究人員積極地探索基於深度學習的 SR 模型,且該模型經常在各種 SR 基準測試上達到當前最佳水平。各種深度學習方法被用來解決 SR 問題,包括早期基於卷積神經網路的方法和近期使用生成對抗網路的 SR 方法。一般來說,使用深度學習技術的 SR 演算法在以下主要方面有所不同:不同的網路架構、不同的損失函式、不同的學習原則和策略等。

本文全面綜述了影象超解析度使用深度學習所取得的最新進展。雖然目前已有的文獻中有對超解析度的概述,但本文的概括有所不同:本文的重點在於基於深度學習的 SR 技術,而早期的概述重點在於傳統的 SR 演算法,或者有些概述是基於完全參考指標或人類視覺感知來提供定量評估。與現有的概述不同,本文以系統和全面的方式採取了一種基於深度學習的獨特視角來回顧 SR 技術的最新進展。

本文主要貢獻如下:

全面回顧了基於深度學習的影象超解析度技術,包括問題設定、基準資料集、效能度量、一系列基於深度學習的 SR 方法、特定領域的 SR 應用等。

以分層和結構化的方式系統回顧了基於深度學習的 SR 技術的最新進展,總結了有效 SR 方案每個部分的優勢和侷限性。

討論了當前的挑戰和開放性問題,確認了新的發展趨勢和未來方向,為該社群提供了見解和指導。

接下來本文將描述基於深度學習的影象超解析度最新進展的各個方面。圖 1 以分級結構的方式列出了本文的概況。第二部分討論了問題定義並回顧了主流的資料集和評估指標。第三部分模組化地分析了監督超解析度的主要組成部分。第四部分簡要介紹了無監督超解析度方法。第五部分介紹了特定領域流行的一些 SR 應用,第六部分討論了 SR 技術的未來發展方向和開放性問題。

圖 1:本綜述的結構圖

論文:Deep Learning for Image Super-resolution: A Survey

論文地址:https://arxiv.org/abs/1902.06068

摘要:影象超解析度(SR)是計算機視覺中增強影象和視訊解析度的一類重要影象處理技術。近幾年來,影象超解析度研究已經利用深度學習技術取得了重大進展。文字旨在系統性綜述影象超解析度技術利用深度學習技術所取得的最新進展。總體來看,現有的 SR 技術研究大體可以分為三大類:監督 SR、無監督 SR 以及特定領域的 SR。除此之外,本文還介紹了其他一些重要內容,如公共開源基準資料集和效能評估指標。最後,本文還指出了未來的幾個方向以及一些待解決的問題。

超解析度研究資料集

目前有很多用於影象超解析度研究的資料集,它們在影象數量、質量、解析度、多樣性等方面存在很大的差異。其中一些資料集提供 LR-HR 影象對,而有些僅提供 HR 影象,其中的 LR 影象通常由 MATLAB 中預設設定的 imresize 函式獲得。表 1 列出了 SR 社群常用的一些影象資料集,詳細地寫明瞭其包含的 HR 影象數量、平均解析度、畫素平均數、影象格式和分類關鍵詞等。

表 1:用於超解析度基準的公共影象資料集

監督超解析度

已有研究人員提出了很多利用深度學習的超解析度模型。這些模型主要關注監督超解析度,即同時利用 LR 影象和相對應的 ground truth HR 影象進行訓練。儘管這些模型之間的差別非常大,但它們本質上是一套元件的組合,如模型框架、上取樣方法、網路設計、學習策略等。從這個角度來看,研究人員組合了這些元件來構建一個整合的 SR 模型,以實現特定目的。本章將著重對基本元件進行模組化分析(見圖 1),而不是單獨介紹每個模型並總結它們的優缺點。

圖 2:基於深度學習的超解析度模型框架。這些四邊形顯示了上/下采樣運算(取決於它們的方向)。灰色四邊形表示預定義的上取樣運算,綠色和黃色四邊形分別表示可學習的上取樣或下采樣層。藍色框表示卷積層,虛線框內的部分表示可以堆疊在框架內的模組。

圖 3:網路設計策略

無監督超解析度

現有的超解析度研究重點是監督學習,即利用 LR-HR 影象對學習 LR 到 HR 影象的對映。然而,由於獲取同一個場景的不同解析度影象難度較大,SR 資料集中的 LR 影象往往是通過對 HR 影象進行預定義的降級來獲得的。因此,在這些資料集上訓練的 SR 模型更有可能學習預定義降級的可逆流程。為了避免預定義降級帶來的不良影響,研究人員越來越關注無監督超解析度,用於訓練的影象只有 HR 或 LR 的非配對影象,因此得到的模型更擅長解決實際應用中的 SR 問題。

特定領域的應用

1、深度圖超解析度

深度圖記錄了場景中視點和目標之間的距離,深度資訊在姿態估計 [150], [151], [152]、語義分割 [153], [154] 等許多工中發揮著重要作用。然而,由於生產力和成本方面的限制,由深度感測器生成的深度圖通常解析度較低,並飽受噪聲、量化、缺失值等方面的降級影響。為了提高深度圖的空間解析度,研究人員引入了超解析度。

2、人臉影象超解析度

人臉影象超解析度(又名 face hallucination,FH)通常有助於完成其它與人臉相關的任務 [6], [72], [73], [162]。與一般影象相比,人臉影象擁有更多與人臉相關的結構化資訊,因此將人臉先驗知識整合到 FH 中是一種非常流行且頗有前景的方法。

3、超光譜影象超解析度

與全色影象(panchromatic image,PAN)相比,超光譜影象(HSI)包含數百個波段的高光譜影象,能夠提供豐富的光譜特徵,幫助完成許多視覺任務 [174], [175], [176], [177]。然而,由於硬體限制,不僅是蒐集高質量 HSI 比蒐集 PAN 難度更大,蒐集到的 HSI 解析度也要更低。因此,該領域引入了超解析度,研究人員往往將 HR PAN 與 LR HSI 相結合來預測 HR HSI。

4、視訊超解析度

在視訊超解析度中,多個幀可以提供更多的場景資訊,該領域不僅有幀內空間依賴,還有幀間時間依賴(如運動、亮度和顏色變化)。因此,現有研究主要關注更好地利用時空依賴,包括明確的運動補償(如光流演算法、基於學習的方法)和迴圈方法等。

5、其它應用

基於深度學習的超解析度也被應用到其它特定領域的應用中,而且表現出色。尤其是,RACNN[197] 利用 SR 模型增強了用於細粒度分類的 LR 影象細節的可辨性。類似地,感知 GAN[198] 通過超分辨小目標的表徵解決了小目標檢測問題,實現了與大目標相似的特徵,檢測更具可辨性。FSR-GAN[199] 超分辨化了特徵空間而非畫素空間中的小影象,將質量較差的原始特徵轉換成了可辨性更高的特徵,這對影象檢索非常有利。此外,Dai 等人 [7] 驗證了 SR 技術在若干視覺應用中的有效性和有用性,包括邊緣檢測、語義分割、數字和場景識別。Huang 等人 [200] 開發了專門用於超解析度遙感影象的 RS-DRL。Jeon 等人 [201] 利用立體影象中的視差先驗來重建配準中具有亞畫素準確率的 HR 影象。

總結當下,放眼未來

1、網路設計

良好的網路設計不僅決定了具有很高效能上限的假設空間,還有助於在沒有過多空間和計算冗餘的情況下高效地學習資料表徵。下面我們將介紹一些有前景的網路改進方向:

結合區域性資訊和全域性資訊

結合低階和高階資訊

針對特定上下文的注意力

輕量級架構

上取樣層

2、學習策略

除了良好的假設空間,魯棒的學習策略也是實現令人滿意的結果所必需的。下面我們將介紹一些不錯的學習策略。

損失函式。現有的損失函式可視作在 LR/HR/SR 影象之間建立約束,並根據這些約束是否得到滿足來指導優化。實際上,這些損失函式通常是加權組合的,對 SR 來說最佳的損失函式仍然未明。因此,最有前景的方向之一是探索這些影象之間的潛在關聯並尋求更精確的損失函式。

歸一化。雖然 BN 被廣泛用於視覺任務中,大大加快了訓練並提高了模型效能,但它對於超解析度技術來說仍是次優策略。因此需要研究其它有效的 SR 歸一化技術。

3、評估指標

評估指標是機器學習最基本的組成部分之一。如果指標不能準確測量模型效能,研究者就很難驗證其進步。超解析度影象的評估指標同樣面臨這樣的挑戰,因此需要進行更多的探索。

更精確的指標。超解析度影象中使用最廣泛的指標是 PSNR 和 SSIM。然而,PSNR 往往會導致過度平滑,且結果在幾乎無法區分的影象之間差異很大。SSIM 在亮度、對比度和結構方面進行評估,但仍然無法準確測量影象的感知質量。此外,MOS 最接近人類視覺反應,但需要大量人力和精力,且不可複製。因此,迫切需要更精確的指標來評估重建影象的質量。

盲 IQA 方法。如今,用於 SR 的大多數指標都是完全參考(all-reference)方法,即假設我們已將 LR-HR 影象以完美的質量配對。但此類資料集難以獲取,因為用於評估的資料集通常是通過人工降級獲得的。在這種情況下,我們對其執行評估的任務實際上是預定義降級的逆過程。因此,開發盲 IQA 方法也有很大的需求。

4、無監督超解析度

如第四部分所述,在相同的場景中收集不同解析度的影象比較難,因此雙三插值被廣泛用於建立 SR 資料集。但是,在這些資料集上訓練的 SR 模型可能僅學習了預定義降級的可逆過程。因此,如何執行無監督超解析度(即在沒有配對 LR-HR 影象的資料集上訓練)是未來發展的一個可行方向。

5、實際應用方向

影象超解析度在實際應用中受到很大限制,如遭遇未知的降級因子,丟失配對 LR-HR 影象等。以下是 SR 在實際應用中的一些發展方向:

處理多種降級問題。實際應用中的影象往往會遭遇未知的降級問題,如噪聲增多、壓縮人為問題和模糊等。因此,在人為降級的資料集上訓練的模型在現實應用中往往表現不佳。研究人員已經提出了一些方法來解決這一問題,但這些方法有一些先天缺陷,如訓練難度大、過於完美的假設。這一問題亟待解決。

特定領域的應用。超解析度不僅可以直接應用於特定領域的資料和場景,還對其它視覺任務有很大幫助。因此,將 SR 應用於更多的特定領域也是一個有前景的方向,如視訊監控、人臉識別、目標跟蹤、醫學成像、場景渲染等。

多尺度超解析度。多數現有 SR 模型以固定的比例因子來執行 SR。但在實際應用中我們經常要以任意比例因子來執行官 SR,因此,開發多尺度超解析度的單個模型也是一個潛在的發展方向。

相關文章