2019-02-26 論文閱讀:Learning a Single Convolutional Super-Resolution Network for Multiple Degradations...

weixin_33807284發表於2019-02-26

這是CVPR2018年的論文。

論文有開源的程式碼:https://github.com/cszn/SRMD

同時機器之心有相應的中文版介紹:https://www.jiqizhixin.com/articles/051301

文章針對目前的用於超解析度重建的LR影象資料對主要是通過對HR的影象進行下采樣得到的,作者認為這樣不符合實際。利用這樣的訓練集訓練得到的網路僅適用這樣的degradation,如果實際的degradation不符合這樣的假設將會引入噪聲等,效果不好。同時這樣訓練得到的模型不能處理multiple degradations。

下面看文章吧吧!

摘要:

文章提出一種維度拉伸策略使得單個卷積超解析度網路能夠將SISR退化過程的兩個關鍵因素(模糊核和噪聲水平)作為網路輸入。【我認為這篇文章主要的創新點在於其考慮了下采樣這個問題與實際的符合度,要有一個好的模型首先要有合適的資料集吧吧。然後文章的維度拉伸策略就是作者提出的主要方法啦】

1.引言:

首先是LR和HR影象的關係啦:


10850273-15f06995f967054c.png

公式的意思是這樣的HR影象x經過模糊核k的作用下采樣後加上一定的噪聲得到LR影象y。

文章主要解決的問題:是否可以設計一個非盲超解析度(non-blind SISR)模型用以解決不同的影象退化型別?

2. 相關工作

就不說啦~

3.方法


10850273-91499dac4d51a542.png

首先分析了在最大後驗(MAP)下的SISR方法。

公式前半部分為似然(資料保真)項,後半部分權衡先驗。所以x的求解為:

10850273-cdf8e24e30f8e32c.png

通過上述分析可以得出非盲 SISR 應該將退化模型中的模糊核和噪聲水平也作為網路的輸入。然而 LR 影象、模糊核和噪聲水平三者的維度是不同的,因此不能直接作為 CNN 的輸入。為此本文提出了一種維度拉伸策略。假設LR影象大小為WxH,首先將向量化的模糊核 PCA 降維,然後和噪聲水平並在一起得到一個t+1維的向量 v,接著將v拉伸為WxHx(t+1)維的張量,我們將此張量稱之為退化圖(Degradation Maps),其中第i個圖的所有WxH元素均為vi。【我覺得就是向量v複製了WxH遍】


10850273-1305314db0e5e44e.png

至此,我們可以將退化圖和 LR 影象合併在一起作為 CNN 的輸入。為了證明此策略的有效性,選取了快速有效的 ESPCN 超分辨網路結構框架。值得注意的是為了加速訓練過程的收斂速度,同時考慮到 LR 影象中包含高斯噪聲,因此網路中加入了 Batch Normalization 層【在很多超分的深度網路結構中未來保持細節特徵等原因都不加BN層】。

網路結構:


10850273-738ddafb17ac4ad5.png

4.實驗

SRMD 比較了不同方法在同為 bicubic 降取樣退化下的 PSNR 和 SSIM 結果,可以看出雖然 SRMD 是用來處理各種不同的退化型別,但是仍然在 bicubic 降取樣退化下取得不錯的效果。需要指出的是 SRMD 在速度上也有很大的優勢。

同時,作者也做了不同退化型別下、非均勻退化、真實影象上的實驗。

5.總結

提出了一種簡單、有效、可擴充套件的超解析度模型,其不僅可以處理 bicubic降取樣退化模型,並且可以處理多個甚至是退化空間不均勻的退化型別,為 SISR 實際應用提供了一種解決方案。

提出了一種簡單有效的維度拉伸策略使得卷積神經網路可以處理維度不同的輸入,此策略可以擴充套件到其他應用。

通過實驗展示了用合成影象訓練得到的超分辨網路模型可以有效的處理真實影象複雜的退化型別。

我覺得疑惑的地方主要是維度拉伸策略中將v拉伸為WxHx(t+1)維這部分,希望有自己理解的小夥伴們可以評論討論呀~

最近要開始好好看paper了,大家一起加油呀~

文章若有不好的地方,歡迎留言。

相關文章