目前最好的高動態範圍(HDR)成像方法通常是先利用光流將輸入影像對齊,隨後再合成 HDR 影像。然而由於輸入影像存在遮擋和較大運動,這種方法生成的影像仍然有很多缺陷。最近,騰訊優圖和香港科技大學的研究者提出了一種基於深度學習的非光流 HDR 成像方法,能夠克服動態場景下的大範圍前景運動。
論文:Deep High Dynamic Range Imaging with Large Foreground Motions
論文連結:https://arxiv.org/abs/1711.08937
摘要:本文章基於深度學習,提出了一種非光流的高動態範圍(HDR)成像方法,能夠克服動態場景下的大範圍前景運動。目前最好的 HDR 成像方法,例如 Kalantari 在 2017 年提出的方法,通常是先利用光流將輸入影像對齊,隨後再合成 HDR 影像。然而由於輸入影像存在遮擋和較大運動,這種方法生成的影像仍然有很多缺陷。與此相反,我們避免了光流,直接將 HDR 成像視為影像轉換的問題,這為 HDR 成像提供了重要啟示。而且,即使出現了完全遮擋、過曝、曝光不足等問題,簡單的翻譯網路也能夠生成逼真的細節,這也是傳統優化方法所做不到的。此外,這種方法還能根據不同的指定參照圖生成 HDR 影像。我們通過足量定性和定量的對比,展示了這種方法能夠生成高質量的 HDR 影像,與現有技術相比,生成結果的顏色缺陷和形狀畸變都大幅減少了,而且對於不同輸入具有魯棒性,甚至是未進行輻射校正過的影像。
貢獻: 現有的數位相機一般都不足以記錄整個場景的動態範圍,而一些用於拍攝 HDR 影像的特製裝置通常都過於昂貴或沉重,因此,合併多張在不同曝光拍攝的低動態範圍(LDR)影像是另一種比較現實的方法。如果這些 LDR 影像是完美對齊的,也就是說拍攝時相機以及物體都沒有移動,合併的問題已經基本被解決。但是在大範圍前景位移與輕度相機位移存在的情況下,前景與後景的錯位是不可避免的。後者很大程度上可以用單應性變換來解決,然而前景位移會讓合併過程變得困難。很多已有的方法很容易在最終生成的高動態圖中引入鬼影等缺陷。本文提出了一種用簡易的端到端的卷積神經網路,即使有較大範圍的前景位移的情況下也能學習如何把多張低動態圖合併成沒有鬼影的高動態圖。不像 Kalantari 的方法,我們的神經網路是在沒有光流對齊的情況下進行端到端的訓練,從而在本質上避免了錯誤光流造成扭曲等問題。而且,通常由於飽和以及阻擋,一些內容在所有的 LDR 影像中都沒有被拍攝到,神經網路同樣可以幻化出合理的細節,這是在處理大範圍的前景位移時是非常實用的。
網路結構:
我們利用翻譯網路去學習多張 LDR 到 HDR 影像的對映。網路主體是對稱的編碼器解碼器架構加以 Unet 與 ResNet 變化。Unet 是對映學習的常用工具。它主要是一個具有跳躍連線的編碼器解碼器的架構,編碼器的輸出的特徵圖直接與相應層的解碼器的輸入拼接。除了簡單的 Unet, 我們也嘗試了 ResNet,用殘差模組取代中間層。整體來看,網路結構可以分為 3 個部分,編碼器,合併器,解碼器,對於每個不同的曝光輸入,編碼器的前兩層是分立的,其餘層共享引數。在抽取特徵之後,合併器學習如何去合併他們,而解碼器則負責生成 HDR 影像。
定性比較:
在沒有物體位移的區域,所有的方法都生成了不錯的結果,但是當過曝區域出現較大的物體位移時,其他的方法會出現較明顯的顏色缺陷或幾何畸變。相比之下,我們提出的兩種網路都生成了很好的結果,ResNet 結構表現通常好於 Unet 結構。
定量比較:
我們用生成的影像與真實影像的 PSNR 和 SSIM 來比較。我們同時也計算了衡量 HDR 影像視覺效果的度量 HDR-VDP-2。儘管 Kalantari 的 PSNR 分數略微偏高,但我們的方法得到了相近的 SSIM 分數以及略微高一點的 HDR-VDP-2 分數。
幻化:
我們的方法能夠幻化出缺失的細節,這些細節對於傳統的優化方法是不可能恢復的。在 Fig.5 中,只輸入中等曝光的圖片,我們的網路可以合理地幻化出飽和區域裡草地的紋理。
如 Fig.6 所示,在過度曝光或者低度曝光的區域裡,有些細節通常會在所有的 LDR 影像中都缺失,因此這種幻化效果在動態範圍成像中顯得十分有用。
手機拍攝:
為了驗證實用性,我們在手機圖片上測試了我們的模型。值得注意的是,這些輸入影像都沒有經過輻射校正,這也驗證了我們模型的魯棒性。
執行時間:
由於傳統的優化方法是用 CPU 進行的,公平起見,我們在相同的 CPU 環境測試所有方法的執行時間。若在 GPU 環境下執行,我們的方法處理 896×1408 的影像則只需要 0.23 秒。