導讀:影象增強是一個歷久彌新的研究方向,大多數計算機視覺學習者最開始接觸的影象平滑、去噪、銳化是增強,現在研究比較多的去霧、去雨雪、暗光影象恢復也是增強。
影象增強往往是和應用場景強相關的,比如自動駕駛場景下的去雨雪,遙感影象的去雲霧,前幾天還有52CV的群友在討論水下影象增強。因為不同場景裡感測器、外在環境、退化模型不同,所使用的方法也不同。
隨著家用投影儀的普及,與之相關也出現了很多新問題,今天的文章為亮風臺公司投稿,讓我們一起來看看來自應用一線的工業界如何用深度學習解決光照補償問題。
近日,國內AR產品與服務提供商亮風臺公佈了投影AR演算法研究最新成果,主要用於解決投影儀光學補償問題,即當投影幕布不是理想的白色漫反射時,儘可能消除投影面上的圖案。
相關論文《End-to-end Projector Photometric Compensation》已經入選CVPR 2019的oral presentation環節,程式碼已開源。
以下為作者資訊:
與之前提出的傳統的方法相比,新成果在量化數值和視覺效果上都大幅提升,可以預見,該成果將成為投影AR技術應用落地提供重要的技術基礎。
《End-to-end Projector Photometric Compensation》的重要貢獻主要在以下幾點:
1. 首次將投影儀光學補償問題闡述為一個端到端的深度學習問題,然後構造一個新穎的名為CompenNet的卷積神經網路(CNN)來隱式的學習這個複雜的補償函式。
2. 首次提出一個獨立於裝置和實際投影的資料庫和評價基準,今後類似的工作可以在這個評價基準上統一比較,而不需要復現該研究中使用的裝置和實際投影,以前的工作是沒有這樣的評價基準的。
3. 提供了一個預訓練的方法,將預訓練好的CompenNet遷移到新的投影螢幕和硬體設定上,只需要拍攝少量的取樣圖片就可以媲美甚至超過從零開始訓練CompenNet和傳統方法,這樣可以大量的節省取樣圖拍攝時間和訓練時間。
4. 在亮風臺提出的評價基準上比較了CompenNet和其他傳統的方法,以及一個通用的圖到圖遷移的深度學習框架pix2pix,實驗結果顯示在數值和質量效果上新方法都大幅度優於其他參與比較的方法。
背景介紹
這篇工作主要解決投影儀光學補償問題,即當投影儀螢幕不是理想的白色漫反射時,螢幕的顏色和紋理會導致使用者看到失真的效果,如下圖1所示。
圖1. (a) 正常光照下的具有紋理和顏色的投影螢幕。(b) 投影儀投射的圖片(也是我們想要看到的效果)。(c) 相機拍攝到的,沒有補償的投影結果,即將(b)直接投影到(a)上。(d) 我們模型計算出的補償圖。(e) 相機拍到的補償後的效果,即將(d)投影到(a)上。比較(c)和(e),可以看到明顯提升的效果和細節。
為了解決投影儀光學補償問題,一般是用一個相機來拍攝大量的投影儀投射的圖片,然後從這些拍到的和投射的圖片對中擬合出一個光學補償函式,再將要投射的圖片經過這個光學補償函式補償,最後由投影儀投射,這樣投射的補償正好可以抵消非理想螢幕的顏色和紋理和投影儀本身的非線性光學特性。
但是以上的光學過程過於複雜,所以很多傳統方法以及目前效果較好的演算法,都是將這個過程簡化為投影儀畫素與相機拍到的畫素只是一一對應,然後獨立地對每個畫素擬合一個光學補償函式。
這樣的假設,往往忽略了很多重要資訊,比如由於投影儀和相機跟螢幕的距離,投影儀相機輕微失焦和螢幕表面相互反射等因素,每一個投影儀的畫素並不是跟每個相機畫素一一對應,很可能一個投影儀畫素覆蓋了幾個相機的畫素,這樣的簡化勢必影響投影儀光學補償的效果,實驗的結果也印證了這一點。
研究方法
為了避免過於簡化,我們採用一個新思路,即用CNN網路來端到端隱式地學習這個複雜的光學補償函式。這樣的好處主要是:
CNN有足夠的模型複雜度來擬合複雜的光學過程。
CNN濾波器本身就對領域畫素取樣,這樣我們不需要像傳統方法那樣進行畫素一一對應的簡化。
根據我們的數學推導,發現可以用一張相機拍到的螢幕照片來表示投影螢幕本身的光學特性,然後將這張照片作為CompenNet的第二個輸入,指導CompenNet學習相機拍攝的失真圖和螢幕光學特性的關係, 如下圖2所示。
圖2. CompenNet的結構。比較訓練(左)和補償(右)過程,我們發現學習從相機拍攝的未補償圖到投影儀輸入圖片的反對映->,就是學習從投影儀輸入圖片(想要使用者看到的效果)到補償圖片的對映->。
網路訓練和光學補償的流程如下圖3所示:
圖3. 網路訓練和光學補償的流程圖。(a) 投影然後拍攝一張投影表面的圖和一系列具有紋理的取樣圖。(b) 用拍攝到和投射的圖片對訓練CompenNet 。(c) 用訓練好的CompenNet補償輸入的圖片(也是想要使用者看到效果), 然後將補償後的圖片投影。
實驗結果
圖4. 相機拍攝的補償效果比較。第一列:投影儀螢幕表面紋理。第二列:相機拍攝的未補償效果。第三到第六列,相機拍攝的不同補償方法補償後的效果。第七列,投影儀的輸入,即想要使用者看到的效果。
表1. 不同補償方法的數值量化比較,以下數值是平均了來自於24個不同環境設定,即光照,投影儀、相機姿態和投影儀表面紋理的結果。每個環境設定有500張訓練圖,200張測試圖。可以明顯看到在投影儀光學補償任務上,我們的方法優於傳統方法和pix2pix。
表2. CompenNet預訓練與從新訓練的比較。我們只採用32個訓練樣本並只訓練500個迴圈,總共耗時170秒。可以明顯看到,微調預訓練模型的結果優於從新訓練CompenNet,而且因為只需要少量樣本和訓練時間,在實際使用中也更便捷。
事實上,這不是亮風臺第一次在投影AR演算法上取得重要研發突破。
去年,亮風臺和美國兩所科研單位聯合研發出一套新的投影儀-相機聯合標定方法,對於一個相機姿態僅僅需要一次投影取樣,使標定效率和實用性大大優於之前的大部分標定系統,其成果釋出於擴增實境領域頂會ISMAR。
論文地址:
論文補充材料:
開源地址: