一鍵提升多媒體內容質量:漫談影像超解析度技術

微軟研究院AI頭條發表於2020-04-03

近年來,隨著高清裝置的普及,使用者端顯示裝置的解析度已經普遍提升到了 2K 甚至更高的水平。相對早期的遊戲或電影在上述裝置上往往無法得到很好的表現,這促使了很多經典遊戲和電影的高清重製工作被提上日程。在整個重製過程中,最核心的就是多媒體素材的高清重建工作,而該部分工作在過去往往只能通過聘請專業的設計師耗費大量的資源來完成。

近年來,影像超解析度技術的發展為上述問題提供了一個全新的解決思路。通過影像超解析度技術,無需耗費大量的資源即可完成多媒體內容的高清重建工作,在上述結果上,設計師僅需進行簡單少量的修改即可達到和人工設計相媲美的結果,大大簡化了工作的流程,降低了工作的成本。

另一方面,影像超解析度技術在相機拍攝過程中也有著廣泛的應用。近年來,隨著使用者對手機拍攝功能的重視,越來越多的廠商將手機的拍攝效能作為一個重要的賣點來進行宣傳。特別的,相機的變焦能力作為手機拍攝效能中的一個重要指標往往深受使用者的重視,其通常可以分為兩部分:光學變焦與數碼變焦。其中光學變焦通過調整鏡頭來對焦距進行調整,由於受限於裝置體積的大小,調整能力比較有限。相對的,數碼變焦則是通過演算法來對影像進行調整,以達到模擬光學變焦的目的,演算法的優劣很大程度上決定了數碼變焦的倍數以及其結果的好壞。影像超解析度技術相對於傳統的影像插值演算法,往往能夠提供更大的變焦倍數以及更好的影像質量,近年來廣泛被各大手機廠商所採用。如圖1所示,影像紅框內的區域性區域經過數碼變焦後的結果依然清晰。

一鍵提升多媒體內容質量:漫談影像超解析度技術

圖1:通過影像超解析度技術進行數碼變焦

(左:原始焦距影像,右:數碼變焦影像)

相對於上述領域,影像超解析度技術在很多專業領域也有應用 [1]。如醫療影像領域,高質量的醫療影像(如X射線影像、計算機斷層掃描影像、核磁共振影像)對於精確地診斷患者的病因起到了至關重要的作用,然而高解析度的醫療成像裝置往往非常昂貴。通過影像超解析度技術,可以在硬體有限的條件下得到更高質量的醫療影像,在便於醫生做出更加準確的診斷的同時,也進一步降低了患者的開銷。

什麼是影像超解析度?

影像超解析度是指從低解析度影像中恢復出自然、清晰的紋理,最終得到一張高解析度影像,是影像增強領域中一個非常重要的問題。近年來,得益於深度學習技術強大的學習能力,該問題有了顯著的進展。

低解析度影像一般通過一系列的退化操作得到,在損失了大量細節的同時,也引入了一系列的噪聲。基於深度學習的超解析度過程本質上就是通過網路模型採用成對的訓練資料進行有監督學習的訓練,進而擬合上述退化操作的逆操作,得到重建後的高清影像。不難想象,影像超解析度問題是一個病態問題,對於同樣一張低解析度影像,往往存在多張可行的高解析度影像。如圖2所示,對於同一張大猩猩毛髮的低解析度影像,存在多種合理的高解析度重建結果。

一鍵提升多媒體內容質量:漫談影像超解析度技術圖2:同一張低解析度影像可對應多張可行的高解析度重建結果 [2]基於深度學習的影像超解析度技術解析

目前主流的影像超解析度技術的解決方案可以分為基於單張影像的超解析度技術和基於參考影像的超解析度技術,下面將分別對其展開介紹。

基於單張影像的超解析度是指通過一張輸入影像對影像中的高解析度細節進行重建,最終得到影像超解析度的結果,是傳統影像超解析度問題中的主流方法。

在眾多方法中,SRCNN 模型 [3] 首次將卷積神經網路應用於影像超解析度技術,相對於傳統插值、優化演算法在重建質量上取得了極大的提升。如圖3所示,該模型使用一個三層的卷積神經網路來擬合從低解析度影像到高解析度影像的函式。特別地,該方法在 FSRCNN 模型 [4] 中被進一步優化,大大提升了其推理速度。

一鍵提升多媒體內容質量:漫談影像超解析度技術圖3:SRCNN 模型中的三層卷積結構[3]影像超解析度過程實際上是高頻紋理資訊的生成過程,對於低頻部分通常來源於輸入的低解析度影像。然而,SRCNN 模型的特徵學習過程不僅要學習生成高頻的資訊,還需要對低頻資訊進行重建,大大的降低了模型的使用效率。針對於此,VDSR 模型 [5] 首次提出了殘差學習的網路結構。如圖4所示,通過一個殘差連線(藍色箭頭)將輸入影像直接加到最終的重建高頻殘差上,可以顯著的提升模型的學習效率。
一鍵提升多媒體內容質量:漫談影像超解析度技術圖4:VDSR 模型中的殘差學習結構 [5]不難發現,上述方法均是先對輸入的低解析度影像進行上取樣,然後再將其送入模型行進行學習,這種做法在降低了模型的推理速度的同時也大大增加了記憶體的開銷。如圖5所示,EPSCN 模型 [6] 首次提出了子畫素卷積操作,在網路的最後才將學習得到的特徵進一步放大到目標大小,大大提升了模型的訓練效率,也使得更深卷積通道數更多的模型的訓練成為了可能。
一鍵提升多媒體內容質量:漫談影像超解析度技術圖5:ESPCN 模型中的子畫素卷積操作[6]為了進一步提升模型的表達能力,如圖6所示,SRResNet 模型 [2] 首次將被廣泛應用於影像分類任務中的殘差模組引入到了影像超解析度問題中,取得了很好的結果。此外,EDSR 模型 [7] 針對上述網路結構提出了進一步的優化,通過去掉殘差模組中的批量歸一化層和第二個啟用層,進一步提升了模型的效能。
一鍵提升多媒體內容質量:漫談影像超解析度技術圖6:SRResNet 模型中的殘差模組結構 [2]近年來,還有很多其他方法從模型的角度進行優化。如,SRDenseNet 模型 [8] 和 RDN 模型 [9] 引入了稠密卷積模組,RCAN 模型 [10] 引入了通道注意力機制,SAN 模型 [11] 引入了二階統計資訊等,上述方法均取得了非常好的結果。

如前文所述,影像超解析度問題是一個病態的問題,通過單純的使用平均平方誤差或平均絕對誤差損失函式進行訓練的模型往往會輸出模糊的影像。這是因為在整個訓練過程中,模型的優化得到的最優解實際上是所有可行解的一個平均值。

針對上述問題,被廣泛應用於影像風格遷移的感知損失函式和風格損失函式被分別引入影像超解析度問題中 [12, 13],某種程度上緩解了上述問題。另一方面,對抗生成損失函式影像生成模型中取得了很好的結果,SRGAN 模型 [2] 首次將其應用於影像超解析度問題,大大的提升了重建影像的真實感。

然而上述方法仍存在一定的問題,主要是由於生成對抗網路所依賴的模型能力有限,往往很難對自然界中的全部紋理進行表達,因此在某些紋理複雜的地方會生成錯誤的紋理(如圖7中的文字部分),帶來不好的觀感。

一鍵提升多媒體內容質量:漫談影像超解析度技術圖7:基於對抗生成損失函式的錯誤紋理生成問題 [2]針對單張影像超解析度技術中生成對抗損失函式引入的錯誤紋理生成問題,基於參考影像的超解析度技術為該領域指明瞭一個新的方向。基於參考影像的超解析度,顧名思義就是通過一張與輸入影像相似的高解析度影像,輔助整個超解析度的復原過程。高解析度參考影像的引入,將影像超解析度問題由較為困難的紋理恢復/生成轉化為了相對簡單的紋理搜尋與遷移,使得超解析度結果在視覺效果上有了顯著的提升。

Landmark 模型 [14] 通過影像檢索技術,從網路上爬取與輸入影像相似的高解析度影像,再進一步通過影像配準操作,最終合成得到對應的超解析度結果,其演算法流程如圖8所示。

一鍵提升多媒體內容質量:漫談影像超解析度技術圖8:Landmark 模型的演算法流程圖 [14]CrossNet 模型 [15] 進一步優化上述影像配準過程,提出了基於光流估計的模型結構。如圖9所示,該模型通過估計輸入低解析度影像與參考影像之間的光流來對超解析度影像進行重建。最終結果的優劣很大程度上依賴於光流計算的準確與否,而這要求輸入的低解析度影像與參考影像在視角上不能存在很大的偏差,大大限制了上述模型的適用性。
一鍵提升多媒體內容質量:漫談影像超解析度技術圖9:CrossNet 模型的光流估計與影像編解碼結構 [15]針對上述問題,最近發表的 SRNTT 模型 [16] 提出了基於影像塊的全域性搜尋與遷移模組,取得了非常不錯的結果。該模型通過在不同尺度上對輸入低解析度影像與高解析度參考影像中的相似影像塊進行全域性的搜尋與遷移,上述過程可以很好地通過高解析度的參考影像中的高頻紋理對輸入低解析度影像進行表達,進而得到非常真實的超解析度結果。

影像超解析度技術與 Microsoft 365

上文中提到的現有影像超解析度技術在實際應用中仍存在較大的問題,特別是在面對解析度較小的輸入影像時(如小於200x200的影像),其得到的結果很難令人滿意。另一方面,對於使用者日常從網路上收集得到的影像素材,低解析度的插圖是十分常見的。直接通過上述演算法得到的結果,其影像質量通常難以被使用者所接受,並不能在實際的生產場景中帶來很好的使用者體驗。

微軟亞洲研究院針對這一問題提出了一套全新的影像超解析度解決方案,在技術上全面領先的同時,該科研成果還將進一步整合進 Microsoft 365 中 PowerPoint 產品的 Design Ideas 模組中,該模組通過人工智慧技術,為使用者提供各種在幻燈片製作過程中的建議與幫助,提升使用者幻燈片製作的效率與最終成品的質量。如圖10所示,當使用者插入一張低解析度的影像時,會自動觸發 Design Ideas 模組,一旦使用者確認使用影像超解析度技術進行影像增強,原始的低解析度影像將立即被一張高解析度的影像所替代,整個過程耗時極低,實際效果卻有著很大的提升。

一鍵提升多媒體內容質量:漫談影像超解析度技術

圖10:通過 PowerPoint 中的 Design Ideas 模組提升使用者的影像質量

(上:使用者插入的低解析度影像放大結果,下:超解析度後影像放大結果)

很快,Microsoft 365 的使用者就可以體驗到這一新功能,背後的相關技術論文已經被 CVPR 2020 收錄,請大家關注我們的後續文章,會為大家一一揭曉。

參考文獻

[1] Oktay O , Bai W , Lee M , et al. Multi-Input Cardiac Image Super-Resolution using Convolutional Neural Networks[C]. MICCAI 2016.

[2] Ledig C , Theis L , Huszar F , et al. Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network[J]. CVPR 2017.

[3] Dong C , Loy C C , He K , et al. Image Super-Resolution Using Deep Convolutional Networks[J]. TPAMI 2016.

[4] Dong C , Loy C C , Tang X . Accelerating the Super-Resolution Convolutional Neural Network[C]. ECCV 2016.

[5] Kim J , Lee J K , Lee K M . Accurate Image Super-Resolution Using Very Deep Convolutional Networks[C]. CVPR 2016.

[6] Shi W , Caballero J , Huszár, Ferenc, et al. Real-Time Single Image and Video Super-Resolution Using an Efficient Sub-Pixel Convolutional Neural Network[C]. CVPR 2016.

[7] Lim B , Son S , Kim H , et al. Enhanced Deep Residual Networks for Single Image Super-Resolution[C]. CVPRW 2017.

[8] Tong T , Li G , Liu X , et al. Image Super-Resolution Using Dense Skip Connections[C]. ICCV 2017.

[9] Zhang Y , Tian Y , Kong Y , et al. Residual Dense Network for Image Super-Resolution[C]. CVPR 2018.

[10] Zhang Y , Li K , Li K , et al. Image Super-Resolution Using Very Deep Residual Channel Attention Networks[C]. CVPR 2018.

[11] Dai T , Cai J , Zhang Y, et al. Second-Order Attention Network for Single Image Super-Resolution[C]. CVPR 2019.

[12] Johnson J , Alahi A , Fei-Fei L . Perceptual Losses for Real-Time Style Transfer and Super-Resolution[C]. ECCV 2016.

[13] Sajjadi M S M , Schlkopf B , Hirsch M . EnhanceNet: Single Image Super-Resolution Through Automated Texture Synthesis[C]. ICCV 2017.

[14] Yue H , Sun X , Member S , et al. Landmark Image Super-Resolution by Retrieving Web Images[J]. TIP 2013.

[15] Zheng H , Ji M , Wang H , et al. CrossNet: An End-to-end Reference-based Super Resolution Network using Cross-scale Warping[C]. ECCV 2018.

[16] Zhang Z , Wang Z , Lin Z , et al. Image Super-Resolution by Neural Texture Transfer[C]. CVPR 2019.

相關文章