陣列相機可以從不同的視角記錄當前場景,並對場景的結構進行解析,因而在戰場偵察、公安監視等領域具有巨大的應用潛力。
作為領域內首個基於深度學習的去遮擋成像工作,作者提出遮擋物掩膜嵌入法(Mask Embedding)解決了訓練資料缺乏的問題,並建立了模擬與實測資料集,供領域內演算法進行測評。論文資訊如下:
論文連結:
https://arxiv.org/abs/1912.04459
程式碼與資料集連結:
https://github.com/YingqianWang/DeOccNet
引言
在戰場偵察、公安監視等領域,複雜的前景遮擋會給目標檢測與跟蹤等演算法帶來巨大的挑戰。因此,可靠地去除前景遮擋物對於場景的智慧感知與智慧處理具有重要的意義。陣列相機可以獲取當前場景不同視角處的影像,在某個視角中被遮擋的光線可以被其他位置的相機捕捉到。利用陣列影像之間的互補資訊可以重建出被遮擋的背景物體,即實現前景遮擋的去除。
論文提出了領域內首個針對光場去遮擋(LF-DeOcc)任務的深度學習網路DeOccNet,Fig. 1展示了論文演算法的效果。
Fig. 1(a)展示了渲染資料集中場景Syn01的結構,圖中5*5的黃色方塊表示陣列相機;
Fig. 1(b)展示了中心子相機獲取的含有前景遮擋物的影像;
Fig. 1(c)展示了論文演算法的結果;
Fig. 1(d)是Syn01場景對應的無遮擋groundtruth影像。
雖然近年來基於深度學習的影像處理方法在計算機視覺領域得到了十分廣泛的應用,但是領域內並沒有針對LF-DeOcc任務的深度學習方法。作者在論文中分析了這一現狀產生的原因,將深度學習方法應用於LF-DeOcc任務時面臨的挑戰總結為以下三個方面:
(1)LF-DeOcc任務要求網路在處理高維光場資料的同時,要保持足夠大的感受野並提取高層語義資訊,從而實現不同尺度前景遮擋物特徵的提取。
(2)相比於影像修復(Inpainting)任務而言,LF-DeOcc任務要求網路透過解析場景結構(如利用前景與背景的深度差異)實現前景遮擋物的自動分離與去除。
(3)該領域沒有大規模資料集供演算法訓練,用於評測的公開資料集場景也十分有限。
針對以上挑戰,作者在論文中提出了相應的解決方案。DeOccNet基於encoder-decoder網路框架,實現較大的感受野並提取輸入影像的高層語義特徵;作者將陣列影像在通道層級聯作為網路的輸入,充分利用各個視角的互補資訊;對於領域資料集缺乏的問題,作者提出了Mask Embedding方法自動生成訓練資料。
作者將80個遮擋物的影像按照光場結構隨機嵌入至60個公開的光場場景中,生成大量的含有遮擋物的訓練影像(共1500個場景)供演算法訓練。同時,作者建立了用於對演算法進行測評的資料集,包含若干模擬場景(使用3dsMax軟體渲染得到)與實際場景(利用相機與掃描臺拍攝得到)。
實驗結果表明,演算法透過在Mask Embedding方法生成的資料集上進行訓練,能夠學會對場景結構的解析與前景遮擋物的去除,並能夠較好地泛化到實際場景中。
DeOccNet網路結構
DeOccNet網路將光場子影像沿通道維級聯作為輸入,採用encoder-decoder框架進行高層語義資訊的提取與處理,skip connection用於在解碼過程中保持低層特徵的一致性。
作者採用了殘差空洞金字塔(residual ASPP)模組在編碼之前獲取更大的感受野,引導網路對語義資訊(如遮擋物)的提取。論文的實驗部分對residual ASPP和skip connection的設計進行了消融實驗,實驗結果驗證了其有效性。
論文中採用有監督方式對DeOccNet進行端對端訓練。將含有遮擋物的陣列影像輸入到網路中,損失函式定義為網路的輸出影像與訓練集中該場景對應的無遮擋中心視角影像的均方誤差(MSE)。
Mask Embedding訓練集生成方法
DeOccNet的訓練需要大量的遮擋可去除的場景,而當前領域內缺乏足夠的訓練資料。考慮到訓練所需場景數量龐大(10^3數量級),無論是利用裝置拍攝實際場景還是利用軟體渲染模擬場景,都十分耗時耗力。
作者針對這一問題提出了新的解決方案Mask Embedding,即採用生活中常見的80幅前景遮擋物影像作為掩膜(Mask),將Mask按照光場的結構嵌入(Embed)至公開資料集的光場中深度較淺的區域,從而構造出含有前景遮擋物的光場影像供網路訓練。
作者僅使用Mask Embedding生成的資料進行訓練,可以使網路學會對場景結構的解析,並透過disparity的差異去除前景遮擋物。在真實場景上,DeOccNet可以取得較傳統方法與單幀影像修復方法更為優異的去遮擋效果。
模擬渲染與實際拍攝資料集
針對領域內測試場景缺乏的問題,作者建立了模擬與實測場景用於對演算法進行測評。目前資料集已開源,研究者可以公開下載。
模擬場景利用3dsMax軟體渲染生成,場景的角度解析度為5*5,每個場景提供各個視角的遮擋影像、中心視角遮擋物的二值掩膜(Mask)影像、以及中心視角的無遮擋groundtruth影像。由於含有遮擋與無遮擋的中心視角影像是精確對齊的,以上模擬場景可以用來對演算法進行數值評估(quantitative evaluation)。
真實場景透過使用相機對戶外場景拍攝得到。採集真實場景時,作者將Leica相機固定於機械掃描臺上,透過控制掃描臺將相機依次移動至5*5的取樣點處(基線長度3 cm)進行拍攝。透過對影像的後期校正處理,最終得到5*5視角的遮擋影像。真實場景不提供無遮擋groundtruth影像,因此主要用於對演算法進行視覺評估(qualitativeevaluation)。
實驗結果
作者在論文建立的模擬與實際場景以及公開資料集場景(Stanford CD)上對演算法進行了評測,結果如下:
注意到Fig. 6對應的CD場景角解析度為5*15,作者將中心視角遮擋影像複製75次輸入至網路中,得到結果圖Fig. 6(f)。可以發現演算法僅處理中心視角影像並不能實現去遮擋效果。
由此可見,DeOccNet確實是利用disparity的差異來解析場景結構,並利用視角間的互補資訊實現遮擋物的去除,這與單幀影像修復的機制有所區別。
論文中採用L1誤差、峰值訊雜比PSNR以及結構相似度SSIM進行數值評價,結果如下表所示。
相比於領域內其他去遮擋演算法[11]與單幀影像修復演算法[9](遮擋區域人工標註),該演算法能夠取得較為顯著的效能提升。同時,作者對網路結構中的ASPP模組以及skip connection做了消融實驗,結果驗證了網路設計的有效性。
總結與未來工作
論文提出了陣列相機去遮擋成像領域首個深度學習網路DeOccNet,並透過Mask Embedding方法解決了訓練資料不足的問題。同時,論文建立了若干模擬與實測場景用於演算法評測,實驗驗證了演算法的有效性。DeOccNet主要利用了陣列相機視角間的互補資訊進行前景遮擋的去除,並未充分使用單個視角影像中的上下文資訊。
未來工作可以結合單幀影像修復演算法,綜合利用單幅影像的上下文資訊與視角間的互補資訊,進一步提升去遮擋成像的重建精度與視覺效果。同時,可以探索更加逼近實際遮擋情形的訓練集生成方法,進一步提升演算法的泛化效能。