學術派 |用深度學習實現2D到3D的轉換

愛奇藝技術產品團隊發表於2020-07-01


隨著 5G 時代的到來,VR 端應用呈爆發式增長,3D 內容作為構建 VR 生態的主力輸出一直深受廣大使用者的追捧和喜愛。針對目前 3D 內容過少,質量不高、生產昂貴等現狀,愛奇藝作為國內領先的網際網路影片媒體,自然首當其衝,以真實世界的 3D 內容為基礎,研究2D 轉 3D 技術,實現更優質的 VR 端的 3D 內容生態的構建,滿足更多使用者的日常需求。
相對於 2D 內容,優質的 3D 內容有輸出符合真實景深關係的能力,讓使用者在觀看時具有更好的觀影體驗。下面我們從技術的角度,介紹愛奇藝如何賦予2D內容真實的景深關係,實現 2D 內容到 3D 內容的轉換。

面臨的挑戰 

目前 2D 轉 3D 技術主要問題是轉製成本太高,不能大面積使用,如使用一般的策略很難適用多種場景的真實 3D 視差關係,這很容易讓使用者感到不適。
綜合以上原因,我們考慮採用深度學習方法,透過對大量 3D 電影(side-by-side 的雙目介質)真實視差的學習與建模,完成單目檢視到雙目檢視的轉換。
以下是2D轉3D技術面臨的幾個挑戰:

  • 資料集質量



3D介質中包含大量不符合真實視差關係的雙目檢視受相機引數的影響,同類場景的視差在不同的 3D 介質中不統一

  • 幀間抖動



場景多樣化,需要保證視差預測的連續性與準確性重構檢視的遮擋區域空洞的填補

  • 3D 效果的評價指標難以量化



同類場景具有不同的並且滿足真實世界的視差關係3D 效果依靠人工評價,過於主觀

模型原型思路 

透過對大量使用者的調研發現,除去特效場景刺激眼球外,3D 介質的 3D 感知越符合真實世界越受使用者喜愛,因此在模型構建上必須符合真實世界的 3D 觀感——雙目視覺

學術派 |用深度學習實現2D到3D的轉換

圖1雙目相機成像與視差原理


圖 1 所示,兩個相機拍攝同一場景生成的影像會存在差異,這種差異叫視差,其產於與真實的三維空間。視差不能透過平移消除,同時離相機近的物體視差偏移較大,反之越小。

人的左右眼就如同圖中的左右相機一樣,分別獲取對應影像後,透過大腦合成處理這種差異,從而獲取真實世界的 3D 感知,透過圖 1 可得出視差與相機焦距和軸間距間的關係:

學術派 |用深度學習實現2D到3D的轉換
公式(1)
其中為物體距離相機的深度,為三維對映到二維的影像平面,為相機焦距,為兩個相機間的距離軸間距,分別為物體在左右不同相機中成像的座標,因此可知左右圖對應畫素的視差
同時,考慮到轉制的物件為2D介質,因此,透過單目深度估計合成新視點的演算法原型誕生:透過公式(1)可知,假設有一個函式那麼就有:

學術派 |用深度學習實現2D到3D的轉換

公式(2)

透過公式(2)可知,只需要將 圖1左 作為訓練輸入,圖1 作為參考,即可建立深度學習模型,透過大量雙目圖片對訓練估計出函式?。這樣就可在已知相機引數(?,?)的前提下獲取對應的深度值?,完成單目深度估計的任務。

透過公式(1)公式(2)可以發現,深度與視差成反比,因此深度估計和視差估計的方法可以互用。Deep3D[1]雖然透過視差機率估計實現2D到3D介質的轉換,但固定視差的設定,難以適應不同解析度2D介質輸入;

方法[2]沒有充分利用雙目資訊作指導,景深不夠細;monodepth[3]在方法[2]的基礎上,充分利用了雙目資訊進行對抗指導,學習到更多深度細節;

SfmLearner[4]這類方法引入幀間時序資訊,結構較複雜,執行速度慢。因此透過實現及適用性考慮最終我們選擇以monodepth為baseline,其框架結構如圖2所示:

學術派 |用深度學習實現2D到3D的轉換
圖2 monodepth框架圖
透過 圖2 框架可以看出,該框架在訓練過程充分利用雙目的有效資訊作指導,同時測試過程也只需要單目圖片進行輸入,所以非常適合用於2D轉3D技術的框架。

模型演變 

解決相機問題

在Baseline模型的基礎上,如果直接使用混合的3D電影資料集進行訓練,模型將無法收斂或預測不穩定,一個最主要的問題是不同電影使用不同相機引數的攝像機進行拍攝,即使兩個非常相似的電影場景,在不同的兩部電影中也會有不同的景深分佈,表現在模型訓練中即為不同的視差值。

與此同時,不同電影的後處理方式,以及會聚相機的引入,會進一步增加建模的難度。在分析相似案例的處理方法中,我們發現可以透過引入條件變分自編碼器(CVAE),在訓練過程中,把每一組訓練集(左右檢視)透過網路提取其相機引數等資訊,並作為後驗資訊透過AdaIN[5]的形式引入到單目(左檢視)視差圖預測中,同時參考[6]中的“雙輪訓練”,保證了測試時隨機取樣相機引數分佈的正確性。


解決抖動問題

在解決資料集問題後,進行連續幀預測時,發現存在預測不穩定及抖動的問題。在解決影片生成過程(尤其是連續幀深度圖預測)的抖動問題中,目前最為常見的方案包含基於幀間ConvLSTM的[7]和[8]和基於光流的[9]和[10]。其中,[8]在不同尺度的編碼和解碼的過程中均加入ConvLSTM,隱式的利用時間域上特徵的相關性來穩定的預測深度圖,而[7]則僅在網路輸出的最後一層引入ConvLSTM。

引入ConvLSTM的方法思路簡單,但在2D轉3D模型中卻不適用,[8]使用了較多的ConvLSTM,使得訓練較為複雜,不易收斂,[7]由於電影分鏡鏡頭種類多變,單一ConvLSTM預測時易累計誤差,使得預測變差。
學術派 |用深度學習實現2D到3D的轉換
圖3 vid2vid結構圖
我們的2D轉3D模型採用了類似於[10]的模型結構,如圖3所示,將左側上支路改為輸入三幀左檢視(t,t-1,t-2),左側下支路改為輸入前兩幀預測視差圖(t-1,t-2),右上支路為輸出當前幀所預測的視差圖,右下支路改為輸出前一幀預測視差圖到當前幀預測視差圖的光流圖(t-1->t)及其valid mask圖,最終結合右側上下兩支路結果合成當前幀視差圖。

其中,在中間高維特徵合併處引入上文提及的CVAE模組,用以引入後驗相機引數資訊。最終,在解決相機引數導致資料集問題的同時,模型能夠得到穩定且連續的視差圖輸出。


解決“空洞”填補問題

由於新視角的生成,會使部分原本被遮擋的區域在新視角中顯露出來,這些資訊僅從左檢視中是無法獲取的,即使透過前後幀的光流資訊也很難還原。在生成新視角的後處理過程中,我們參考[11]的模型框架設計,透過視差圖來指導獲取產生的“空洞”區域,透過影像修補技術解決新視角的“空洞”問題。

3D效果測評 由於拍攝條件不同會導致3D效果不同,所以在2D轉3D效果測評中,我們用大量人力對預測的視差圖和成片在VR中的3D效果進行綜合性的評測。視差圖估計如圖4:

學術派 |用深度學習實現2D到3D的轉換

圖4 各種場景下的單目視差估計


應用擴充套件

不僅如此,視差圖的預測也能轉化為相對深度值,被應用到其他方面,例如3D海報。3D海報是一張2D圖片加上其深度關係圖,透過一系列的新視點渲染,得到一組動態的,人能感知的立體影像。如圖5與圖6所示:

學術派 |用深度學習實現2D到3D的轉換

圖5 復仇者聯盟3D海報

學術派 |用深度學習實現2D到3D的轉換

圖6 劍干將莫邪3D海報


References 

[1]Xie J, Girshick R, Farhadi A. Deep3d: Fully automatic 2d-to-3d video conversionwith deep convolutional neural networks[C]//European Conference on ComputerVision. Springer, Cham, 2016: 842-857.

[2]Garg R, BG V K, Carneiro G, et al. Unsupervised cnn for single view depthestimation: Geometry to the rescue[C]//European Conference on Computer Vision.Springer, Cham, 2016: 740-756.

[3] Godard C, Mac Aodha O, Brostow G J. Unsupervisedmonocular depth estimation with left-right consistency[C]//Proceedings of theIEEE Conference on Computer Vision and Pattern Recognition. 2017: 270-279.

[4] Zhou T, Brown M, Snavely N, et al. Unsupervised learningof depth and ego-motion from video[C]//Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition. 2017: 1851-1858.

[5] Huang X, Belongie S. Arbitrary style transfer inreal-time with adaptive instance normalization[C]//Proceedings of the IEEEInternational Conference on Computer Vision. 2017: 1501-1510.

[6] Zhu J Y, Zhang R, Pathak D, et al. Toward multimodal image-to-imagetranslation[C]//Advances in neural information processing systems. 2017:465-476.

[7] Zhang H, Shen C, Li Y, et al. Exploitingtemporal consistency for real-time video depth estimation[C]//Proceedings ofthe IEEE International Conference on Computer Vision. 2019: 1725-1734.

[8] Tananaev D, Zhou H, Ummenhofer B, et al. TemporallyConsistent Depth Estimation in Videos with RecurrentArchitectures[C]//Proceedings of the European Conference on Computer Vision(ECCV). 2018: 0-0.

[9] Lin J, Gan C, Han S. Tsm: Temporal shift module forefficient video understanding[C]//Proceedings of the IEEE InternationalConference on Computer Vision. 2019: 7083-7093.

[10] Wang T C, Liu M Y, Zhu J Y, et al. Video-to-videosynthesis[J]. arXiv preprint arXiv:1808.06601, 2018.

[11]Yu J, Lin Z, Yang J, et al. Free-form imageinpainting with gated convolution[C]//Proceedings of the IEEE InternationalConference on Computer Vision. 2019: 4471-4480.

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69945252/viewspace-2701614/,如需轉載,請註明出處,否則將追究法律責任。

相關文章