近年來,隨著高清裝置的普及,使用者端顯示裝置的解析度已經普遍提升到了 2K 甚至更高的水平。相對早期的遊戲或電影在上述裝置上往往無法得到很好的表現,這促使了很多經典遊戲和電影的高清重製工作被提上日程。在整個重製過程中,最核心的就是多媒體素材的高清重建工作,而該部分工作在過去往往只能通過聘請專業的設計師耗費大量的資源來完成。
近年來,影像超解析度技術的發展為上述問題提供了一個全新的解決思路。通過影像超解析度技術,無需耗費大量的資源即可完成多媒體內容的高清重建工作,在上述結果上,設計師僅需進行簡單少量的修改即可達到和人工設計相媲美的結果,大大簡化了工作的流程,降低了工作的成本。
另一方面,影像超解析度技術在相機拍攝過程中也有著廣泛的應用。近年來,隨著使用者對手機拍攝功能的重視,越來越多的廠商將手機的拍攝效能作為一個重要的賣點來進行宣傳。特別的,相機的變焦能力作為手機拍攝效能中的一個重要指標往往深受使用者的重視,其通常可以分為兩部分:光學變焦與數碼變焦。其中光學變焦通過調整鏡頭來對焦距進行調整,由於受限於裝置體積的大小,調整能力比較有限。相對的,數碼變焦則是通過演算法來對影像進行調整,以達到模擬光學變焦的目的,演算法的優劣很大程度上決定了數碼變焦的倍數以及其結果的好壞。影像超解析度技術相對於傳統的影像插值演算法,往往能夠提供更大的變焦倍數以及更好的影像質量,近年來廣泛被各大手機廠商所採用。如圖1所示,影像紅框內的區域性區域經過數碼變焦後的結果依然清晰。
影像超解析度是指從低解析度影像中恢復出自然、清晰的紋理,最終得到一張高解析度影像,是影像增強領域中一個非常重要的問題。近年來,得益於深度學習技術強大的學習能力,該問題有了顯著的進展。
低解析度影像一般通過一系列的退化操作得到,在損失了大量細節的同時,也引入了一系列的噪聲。基於深度學習的超解析度過程本質上就是通過網路模型採用成對的訓練資料進行有監督學習的訓練,進而擬合上述退化操作的逆操作,得到重建後的高清影像。不難想象,影像超解析度問題是一個病態問題,對於同樣一張低解析度影像,往往存在多張可行的高解析度影像。如圖2所示,對於同一張大猩猩毛髮的低解析度影像,存在多種合理的高解析度重建結果。
目前主流的影像超解析度技術的解決方案可以分為基於單張影像的超解析度技術和基於參考影像的超解析度技術,下面將分別對其展開介紹。
基於單張影像的超解析度是指通過一張輸入影像對影像中的高解析度細節進行重建,最終得到影像超解析度的結果,是傳統影像超解析度問題中的主流方法。
在眾多方法中,SRCNN 模型 [3] 首次將卷積神經網路應用於影像超解析度技術,相對於傳統插值、優化演算法在重建質量上取得了極大的提升。如圖3所示,該模型使用一個三層的卷積神經網路來擬合從低解析度影像到高解析度影像的函式。特別地,該方法在 FSRCNN 模型 [4] 中被進一步優化,大大提升了其推理速度。
如前文所述,影像超解析度問題是一個病態的問題,通過單純的使用平均平方誤差或平均絕對誤差損失函式進行訓練的模型往往會輸出模糊的影像。這是因為在整個訓練過程中,模型的優化得到的最優解實際上是所有可行解的一個平均值。
針對上述問題,被廣泛應用於影像風格遷移的感知損失函式和風格損失函式被分別引入影像超解析度問題中 [12, 13],某種程度上緩解了上述問題。另一方面,對抗生成損失函式在影像生成模型中取得了很好的結果,SRGAN 模型 [2] 首次將其應用於影像超解析度問題,大大的提升了重建影像的真實感。
然而上述方法仍存在一定的問題,主要是由於生成對抗網路所依賴的模型能力有限,往往很難對自然界中的全部紋理進行表達,因此在某些紋理複雜的地方會生成錯誤的紋理(如圖7中的文字部分),帶來不好的觀感。
Landmark 模型 [14] 通過影像檢索技術,從網路上爬取與輸入影像相似的高解析度影像,再進一步通過影像配準操作,最終合成得到對應的超解析度結果,其演算法流程如圖8所示。
上文中提到的現有影像超解析度技術在實際應用中仍存在較大的問題,特別是在面對解析度較小的輸入影像時(如小於200x200的影像),其得到的結果很難令人滿意。另一方面,對於使用者日常從網路上收集得到的影像素材,低解析度的插圖是十分常見的。直接通過上述演算法得到的結果,其影像質量通常難以被使用者所接受,並不能在實際的生產場景中帶來很好的使用者體驗。
微軟亞洲研究院針對這一問題提出了一套全新的影像超解析度解決方案,在技術上全面領先的同時,該科研成果還將進一步整合進 Microsoft 365 中 PowerPoint 產品的 Design Ideas 模組中,該模組通過人工智慧技術,為使用者提供各種在幻燈片製作過程中的建議與幫助,提升使用者幻燈片製作的效率與最終成品的質量。如圖10所示,當使用者插入一張低解析度的影像時,會自動觸發 Design Ideas 模組,一旦使用者確認使用影像超解析度技術進行影像增強,原始的低解析度影像將立即被一張高解析度的影像所替代,整個過程耗時極低,實際效果卻有著很大的提升。
參考文獻
[1] Oktay O , Bai W , Lee M , et al. Multi-Input Cardiac Image Super-Resolution using Convolutional Neural Networks[C]. MICCAI 2016.
[2] Ledig C , Theis L , Huszar F , et al. Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network[J]. CVPR 2017.
[3] Dong C , Loy C C , He K , et al. Image Super-Resolution Using Deep Convolutional Networks[J]. TPAMI 2016.
[4] Dong C , Loy C C , Tang X . Accelerating the Super-Resolution Convolutional Neural Network[C]. ECCV 2016.
[5] Kim J , Lee J K , Lee K M . Accurate Image Super-Resolution Using Very Deep Convolutional Networks[C]. CVPR 2016.
[6] Shi W , Caballero J , Huszár, Ferenc, et al. Real-Time Single Image and Video Super-Resolution Using an Efficient Sub-Pixel Convolutional Neural Network[C]. CVPR 2016.
[7] Lim B , Son S , Kim H , et al. Enhanced Deep Residual Networks for Single Image Super-Resolution[C]. CVPRW 2017.
[8] Tong T , Li G , Liu X , et al. Image Super-Resolution Using Dense Skip Connections[C]. ICCV 2017.
[9] Zhang Y , Tian Y , Kong Y , et al. Residual Dense Network for Image Super-Resolution[C]. CVPR 2018.
[10] Zhang Y , Li K , Li K , et al. Image Super-Resolution Using Very Deep Residual Channel Attention Networks[C]. CVPR 2018.
[11] Dai T , Cai J , Zhang Y, et al. Second-Order Attention Network for Single Image Super-Resolution[C]. CVPR 2019.
[12] Johnson J , Alahi A , Fei-Fei L . Perceptual Losses for Real-Time Style Transfer and Super-Resolution[C]. ECCV 2016.
[13] Sajjadi M S M , Schlkopf B , Hirsch M . EnhanceNet: Single Image Super-Resolution Through Automated Texture Synthesis[C]. ICCV 2017.
[14] Yue H , Sun X , Member S , et al. Landmark Image Super-Resolution by Retrieving Web Images[J]. TIP 2013.
[15] Zheng H , Ji M , Wang H , et al. CrossNet: An End-to-end Reference-based Super Resolution Network using Cross-scale Warping[C]. ECCV 2018.
[16] Zhang Z , Wang Z , Lin Z , et al. Image Super-Resolution by Neural Texture Transfer[C]. CVPR 2019.