1 超解析度重建技術的研究背景與意義
影象解析度是一組用於評估影象中蘊含細節資訊豐富程度的效能引數,包括時間解析度、空間解析度及色階解析度等,體現了成像系統實際所能反映物體細節資訊的能力。相較於低解析度影象,高解析度影象通常包含更大的畫素密度、更豐富的紋理細節及更高的可信賴度。
但在實際上中,受採集裝置與環境、網路傳輸介質與頻寬、影象退化模型本身等諸多因素的約束,我們通常並不能直接得到具有邊緣銳化、無成塊模糊的理想高解析度影象。
提升影象解析度的最直接的做法是對採集系統中的光學硬體進行改進,但這種做法受限於製造工藝難以大幅改進、製造成本十分高昂等約束。由此,從軟體和演算法的角度著手,實現影象超解析度重建的技術成為了影象處理和計算機視覺等多個領域的熱點研究課題。
1955年,Toraldo di Francia在光學成像領域首次明確定義了超解析度這一概念,主要是指利用光學相關的知識,恢復出衍射極限以外的資料資訊的過程。1964年左右,Harris和Goodman則首次提出了影象超解析度這一概念,主要是指利用外推頻譜的方法合成出細節資訊更豐富的單幀影象的過程。1984 年,在前人的基礎上,Tsai和 Huang 等首次提出使用多幀低解析度影象重建出高解析度影象的方法後, 超解析度重建技術開始受到了學術界和工業界廣泛的關注和研究。
具體來說,影象超解析度重建技術指的是利用數字影象處理、計算機視覺等領域的相關知識,藉由特定的演算法和處理流程,從給定的低解析度影象中復原出高解析度影象的過程。其旨在克服或補償由於影象採集系統或採集環境本身的限制,導致的成像影象模糊、質量低下、感興趣區域不顯著等問題。
影象超解析度重建技術在多個領域都有著廣泛的應用範圍和研究意義。主要包括:
(1) 影象壓縮領域
在視訊會議等實時性要求較高的場合,可以在傳輸前預先對圖片進行壓縮,等待傳輸完畢,再由接收端解碼後通過超解析度重建技術復原出原始影象序列,極大減少儲存所需的空間及傳輸所需的頻寬。
(2) 醫學成像領域
對醫學影象進行超解析度重建,可以在不增加高解析度成像技術成本的基礎上,降低對成像環境的要求,通過復原出的清晰醫學影像,實現對病變細胞的精準探測,有助於醫生對患者病情做出更好的診斷。
(3) 遙感成像領域
高解析度遙感衛星的研製具有耗時長、價格高、流程複雜等特點,由此研究者將影象超解析度重建技術引入了該領域,試圖解決高解析度的遙感成像難以獲取這一挑戰,使得能夠在不改變探測系統本身的前提下提高觀測影象的解析度。
(4) 公共安防領域
公共場合的監控裝置採集到的視訊往往受到天氣、距離等因素的影響,存在影象模糊、解析度低等問題。通過對採集到的視訊進行超解析度重建,可以為辦案人員恢復出車牌號碼、清晰人臉等重要資訊,為案件偵破提供必要線索。
(5) 視訊感知領域
通過影象超解析度重建技術,可以起到增強視訊畫質、改善視訊的質量,提升使用者的視覺體驗的作用。
2 影象超解析度重建技術概述
2.1 降質退化模型
低解析度影象在成像的過程中受到很多退化因素的影響,運動變換、成像模糊和降取樣是其中最主要的三個因素。如圖1所示,整個過程可以通過使圖示的線性變換模型來表徵。
圖1 影象的降質退化模型
上述退化模型可以由以下線性變換表示;
L=DBFH+N (1)
式中,L表示觀測影象,H表示輸入的高解析度影象,F表示運動變換矩陣,通常由運動、平移等因素造成,B表示模糊作用矩陣,通常由環境或成像系統本身引起,D表示降取樣矩陣,通常由成像系統的解析度決定,N表示加性噪聲,通常來自於成像環境或成像過程。
影象降質退化模型描述了自然界中的高解析度影象轉換成人眼觀測到的低解析度影象的整個過程,即高解析度影象成像逆過程,為影象超解析度技術提供了堅實的理論基礎。
2.2 重建影象的評估
為了衡量重建演算法優劣,需要引入一種評估指標來對重建後的影象進行評估。重建影象的評價方式一般分為兩大類,一是主觀評價,二是客觀評價。
主觀評價以人為評價主體,對重建後影象的視覺效果做出主觀和定性的評估。為保證影象的主觀評價具有一定的統計意義,此種評估方法需要選擇足夠多的評價主體,並保證評價主體中未受訓練的普通人和受過訓練的專業人員數量大致均衡。
客觀評價中,峰值訊雜比(Peak signal-to-noise ratio ,PSNR)和結構相似性(Structural Similarity, SSIM)是最常用的兩種影象質量評估指標。其中PSRN通過比較兩幅影象對應畫素點的灰度值差異來評估影象的好壞,SSIM則從亮度、對比度和結構這三個方面來評估兩幅影象的相似性。具體計算公式如下:
(2)
(3)
2.3 影象解析度重建技術分類
根據分類準則的不同,可以將影象超解析度重建技術劃分為不同的類別。從輸入的低解析度影象數量角度來看,可以分為單幀影象的超解析度重建和多幀影象(視訊)的超解析度重建;從變換空間角度來看,可以分為頻域超解析度重建、時域超解析度重建、色階超解析度重建等;從重建演算法角度來看,可以分為基於插值的重建、基於重構的重建和基於學習的超解析度重建。
本節主要從演算法內容出發,介紹幾類常見的超解析度重建技術。
(1) 基於插值的超解析度重建
基於插值的方法將每一張影象都看做是影象平面上的一個點,那麼對超解析度影象的估計可以看做是利用已知的畫素資訊為平面上未知的畫素資訊進行擬合的過程,這通常由一個預定義的變換函式或者插值核來完成。基於插值的方法計算簡單、易於理解,但是也存在著一些明顯的缺陷。
首先,它假設畫素灰度值的變化是一個連續的、平滑的過程,但實際上這種假設並不完全成立。其次,在重建過程中,僅根據一個事先定義的轉換函式來計算超解析度影象,不考慮影象的降質退化模型,往往會導致復原出的影象出現模糊、鋸齒等現象。常見的基於插值的方法包括最近鄰插值法、雙線性插值法和雙立方插值法等。
(2) 基於重構的超解析度重建
基於重構的方法則是從影象的降質退化模型出發,假定高解析度影象是經過了適當的運動變換、模糊及噪聲才得到低解析度影象。這種方法通過提取低解析度影象中的關鍵資訊,並結合對未知的超解析度影象的先驗知識來約束超解析度影象的生成。常見的基於重構的方法包括迭代反投影法、凸集投影法和最大後驗概率法等。
(3) 基於學習的超解析度重建
基於學習的方法則是利用大量的訓練資料,從中學習低解析度影象和高解析度影象之間某種對應關係,然後根據學習到的對映關係來預測低解析度影象所對應的高解析度影象,從而實現影象的超解析度重建過程。常見的基於學習的方法包括流形學習、稀疏編碼和深度學習方法。
3 基於深度學習的影象超解析度重建技術
機器學習是人工智慧的一個重要分支,而深度學習則是機器學習中最主要的一個演算法,其旨在通過多層非線性變換,提取資料的高層抽象特徵,學習資料潛在的分佈規律,從而獲取對新資料做出合理的判斷或者預測的能力。
隨著人工智慧和計算機硬體的不斷髮展,Hinton等人在2006年提出了深度學習這一概念,其旨在利用多層非線性變換提取資料的高層抽象特徵。憑藉著強大的擬合能力,深度學習開始在各個領域嶄露頭角,特別是在影象與視覺領域,卷積神經網路大放異,這也使得越來越多的研究者開始嘗試將深度學習引入到超解析度重建領域。2014年,Dong等人首次將深度學習應用到影象超解析度重建領域,他們使用一個三層的卷積神經網路學習低解析度影象與高解析度影象之間對映關係,自此,在超解析度重建率領域掀起了深度學習的浪潮。
基於深度學習的影象超解析度技術的重建流程主要包括以下幾個步驟:
(1) 特徵提取:首先對輸入的低解析度影象進行去噪、上取樣等預處理,然後將處理後的影象送入神經網路,擬合影象中的非線性特徵,提取代表影象細節的高頻資訊;
(2) 設計網路結構及損失函式:組合卷積神經網路及多個殘差塊,搭建網路模型,並根據先驗知識設計損失函式;
(3) 訓練模型:確定優化器及學習引數,使用反向傳播演算法更新網路引數,通過最小化損失函式提升模型的學習能力;’
(4) 驗證模型:根據訓練後的模型在驗證集上的表現,對現有網路模型做出評估,並據此對模型做出相應的調整。
以下是幾種常見的基於深度學習的超解析度重建技術及其對比。
(1) SRCNN
SRCNN(Super-Resolution Convolutional Neural Network)是首次在超解析度重建領域應用卷積神經網路的深度學習模型。對於輸入的一張低解析度影象,SRCNN首先使用雙立方插值將其放大至目標尺寸,然後利用一個三層的卷積神經網路去擬合低解析度影象與高解析度影象之間的非線性對映,最後將網路輸出的結果作為重建後的高解析度影象。SRCNN的網路結構如圖2所示。
圖2 SRCNN的網路結構
(2) ESPCN
與SRCNN不同,ESPCN (Real-Time Single Image and Video Super-Resolution Using an Efficient Sub-Pixel Convolutional Neural Network)在將低解析度影象送入神經網路之前,無需對給定的低解析度影象進行一個上取樣過程,得到與目標高解析度影象相同大小的低解析度影象。如圖3所示,ESPCN中引入一個亞畫素卷積層(Sub-pixel convolution layer),來間接實現影象的放大過程。這種做法極大降低了SRCNN的計算量,提高了重建效率。
圖3 ESPCN的網路結構
(3) SRGAN
與上述兩種方法類似,大部分基於深度學習的影象超解析度重建技術使用均方誤差作為其網路訓練過程中使用的損失函式,但是由於均方差本身的性質,往往會導致復原出的影象出現高頻資訊丟失的問題。而生成對抗網路(Generative Adversarial Networks, GAN)則通過其中的鑑別器網路很好的解決了這個問題,GAN的優勢就是生成符合視覺習慣的逼真影象,所以SRGAN (Photo-Realistic Single Image SuperResolution Using a Generative Adversarial Network)的作者就將GAN引入了影象超解析度重建領域。
如圖4所示,SRGAN也是由一個生成器和一個鑑別器組成。生成器負責合成高解析度影象,鑑別器用於判斷給定的影象是來自生成器還是真實樣本。通過一個二元零和博弈的對抗過程,使得生成器能夠將給定的低解析度影象復原為高解析度影象。
圖4 SRGAN的網路結構
4 總結與展望
深度學習在影象超解析度重建領域已經展現出了巨大的潛力,極大的推動了該領域的蓬勃發展發展。但距離重建出既保留原始影象各種細節資訊、又符合人的主觀評價的高解析度影象這一目標,深度學習的影象超解析度重建技術仍有很長的一段路要走。主要存在著以下幾個問題:
(1)深度學習的固有性的約束。深度學習存在著需要海量訓練資料、高計算效能的處理器以及過深的網路容易導致過擬合等問題。
(2)類似傳統的基於人工智慧的學習方法,深度學習預先假定測試樣本與訓練樣本來自同一分佈,但現實中二者的分佈並不一定相同,甚至可能沒有相交的部分。
(3)儘管當前基於深度學習的重建技術使得重建影象在主觀評價指標上取得了優異的成績,但重建後的影象通常過於平滑,丟失了高頻細節資訊。
因此進一步研究基於深度學習的影象超解析度技術仍有較大的現實意義和發展空間。
參考文獻
1. Park S C, Park M K, Kang M G. Super-resolution image reconstruction: a technical overview[J]. IEEE signal processing magazine, 2003, 20(3): 21-36.
2. Kim J, Kwon Lee J, Mu Lee K. Accurate image super-resolution using very deep convolutional networks[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 1646-1654.
3. Dong C, Loy C C, He K, et al. Image super-resolution using deep convolutional networks[J]. IEEE transactions on pattern analysis and machine intelligence, 2016, 38(2): 295-307.
4. Shi W, Caballero J, Huszár F, et al. Real-time single image and video super-resolution using an efficient sub-pixel convolutional neural network[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016: 1874-1883.
5. Ledig C, Theis L, Huszár F, et al. Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network[C]//CVPR. 2017, 2(3): 4.