學術派 |用深度學習實現2D到3D的轉換
面臨的挑戰
資料集質量
3D介質中包含大量不符合真實視差關係的雙目檢視受相機引數的影響,同類場景的視差在不同的 3D 介質中不統一
幀間抖動
場景多樣化,需要保證視差預測的連續性與準確性重構檢視的遮擋區域空洞的填補
3D 效果的評價指標難以量化
同類場景具有不同的並且滿足真實世界的視差關係3D 效果依靠人工評價,過於主觀
模型原型思路
透過對大量使用者的調研發現,除去特效場景刺激眼球外,3D 介質的 3D 感知越符合真實世界越受使用者喜愛,因此在模型構建上必須符合真實世界的 3D 觀感——雙目視覺
圖1雙目相機成像與視差原理
如圖 1 左所示,兩個相機拍攝同一場景生成的影像會存在差異,這種差異叫視差,其產於與真實的三維空間。視差不能透過平移消除,同時離相機近的物體視差偏移較大,反之越小。
人的左右眼就如同圖中的左右相機一樣,分別獲取對應影像後,透過大腦合成處理這種差異,從而獲取真實世界的 3D 感知,透過圖 1 右可得出視差與相機焦距和軸間距間的關係:
透過公式(2)可知,只需要將 圖1左 作為訓練輸入,圖1右 作為參考,即可建立深度學習模型,透過大量雙目圖片對訓練估計出函式?。這樣就可在已知相機引數(?,?)的前提下獲取對應的深度值?,完成單目深度估計的任務。
透過公式(1)與公式(2)可以發現,深度與視差成反比,因此深度估計和視差估計的方法可以互用。Deep3D[1]雖然透過視差機率估計實現2D到3D介質的轉換,但固定視差的設定,難以適應不同解析度2D介質輸入;
方法[2]沒有充分利用雙目資訊作指導,景深不夠細;monodepth[3]在方法[2]的基礎上,充分利用了雙目資訊進行對抗指導,學習到更多深度細節;
SfmLearner[4]這類方法引入幀間時序資訊,結構較複雜,執行速度慢。因此透過實現及適用性考慮最終我們選擇以monodepth為baseline,其框架結構如圖2所示:
解決相機問題
在Baseline模型的基礎上,如果直接使用混合的3D電影資料集進行訓練,模型將無法收斂或預測不穩定,一個最主要的問題是不同電影使用不同相機引數的攝像機進行拍攝,即使兩個非常相似的電影場景,在不同的兩部電影中也會有不同的景深分佈,表現在模型訓練中即為不同的視差值。
與此同時,不同電影的後處理方式,以及會聚相機的引入,會進一步增加建模的難度。在分析相似案例的處理方法中,我們發現可以透過引入條件變分自編碼器(CVAE),在訓練過程中,把每一組訓練集(左右檢視)透過網路提取其相機引數等資訊,並作為後驗資訊透過AdaIN[5]的形式引入到單目(左檢視)視差圖預測中,同時參考[6]中的“雙輪訓練”,保證了測試時隨機取樣相機引數分佈的正確性。
解決抖動問題
在解決資料集問題後,進行連續幀預測時,發現存在預測不穩定及抖動的問題。在解決影片生成過程(尤其是連續幀深度圖預測)的抖動問題中,目前最為常見的方案包含基於幀間ConvLSTM的[7]和[8]和基於光流的[9]和[10]。其中,[8]在不同尺度的編碼和解碼的過程中均加入ConvLSTM,隱式的利用時間域上特徵的相關性來穩定的預測深度圖,而[7]則僅在網路輸出的最後一層引入ConvLSTM。
其中,在中間高維特徵合併處引入上文提及的CVAE模組,用以引入後驗相機引數資訊。最終,在解決相機引數導致資料集問題的同時,模型能夠得到穩定且連續的視差圖輸出。
解決“空洞”填補問題
由於新視角的生成,會使部分原本被遮擋的區域在新視角中顯露出來,這些資訊僅從左檢視中是無法獲取的,即使透過前後幀的光流資訊也很難還原。在生成新視角的後處理過程中,我們參考[11]的模型框架設計,透過視差圖來指導獲取產生的“空洞”區域,透過影像修補技術解決新視角的“空洞”問題。
3D效果測評 由於拍攝條件不同會導致3D效果不同,所以在2D轉3D效果測評中,我們用大量人力對預測的視差圖和成片在VR中的3D效果進行綜合性的評測。視差圖估計如圖4:
圖4 各種場景下的單目視差估計
應用擴充套件
不僅如此,視差圖的預測也能轉化為相對深度值,被應用到其他方面,例如3D海報。3D海報是一張2D圖片加上其深度關係圖,透過一系列的新視點渲染,得到一組動態的,人能感知的立體影像。如圖5與圖6所示:
References
[1]Xie J, Girshick R, Farhadi A. Deep3d: Fully automatic 2d-to-3d video conversionwith deep convolutional neural networks[C]//European Conference on ComputerVision. Springer, Cham, 2016: 842-857.
[2]Garg R, BG V K, Carneiro G, et al. Unsupervised cnn for single view depthestimation: Geometry to the rescue[C]//European Conference on Computer Vision.Springer, Cham, 2016: 740-756.
[3] Godard C, Mac Aodha O, Brostow G J. Unsupervisedmonocular depth estimation with left-right consistency[C]//Proceedings of theIEEE Conference on Computer Vision and Pattern Recognition. 2017: 270-279.
[4] Zhou T, Brown M, Snavely N, et al. Unsupervised learningof depth and ego-motion from video[C]//Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition. 2017: 1851-1858.
[5] Huang X, Belongie S. Arbitrary style transfer inreal-time with adaptive instance normalization[C]//Proceedings of the IEEEInternational Conference on Computer Vision. 2017: 1501-1510.
[6] Zhu J Y, Zhang R, Pathak D, et al. Toward multimodal image-to-imagetranslation[C]//Advances in neural information processing systems. 2017:465-476.
[7] Zhang H, Shen C, Li Y, et al. Exploitingtemporal consistency for real-time video depth estimation[C]//Proceedings ofthe IEEE International Conference on Computer Vision. 2019: 1725-1734.
[8] Tananaev D, Zhou H, Ummenhofer B, et al. TemporallyConsistent Depth Estimation in Videos with RecurrentArchitectures[C]//Proceedings of the European Conference on Computer Vision(ECCV). 2018: 0-0.
[9] Lin J, Gan C, Han S. Tsm: Temporal shift module forefficient video understanding[C]//Proceedings of the IEEE InternationalConference on Computer Vision. 2019: 7083-7093.
[10] Wang T C, Liu M Y, Zhu J Y, et al. Video-to-videosynthesis[J]. arXiv preprint arXiv:1808.06601, 2018.
[11]Yu J, Lin Z, Yang J, et al. Free-form imageinpainting with gated convolution[C]//Proceedings of the IEEE InternationalConference on Computer Vision. 2019: 4471-4480.
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69945252/viewspace-2701614/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 學術派 | 愛奇藝深度語義表示學習的探索與實踐
- CSS3 2D/3D 轉換CSSS33D
- 深度學習、強化學習核心技術實戰深度學習強化學習
- 用Python和深度學習實現iPhone X的Face IDPython深度學習iPhone
- 深度學習的應用與實踐深度學習
- 深度學習及深度強化學習應用深度學習強化學習
- 運用深度學習技術檢測轉移性乳腺癌深度學習
- 《深度學習Python》核心技術實戰深度學習Python
- 深度學習DeepLearning核心技術實戰深度學習
- 影像轉換3D模型只需5行程式碼,英偉達推出3D深度學習工具Kaolin3D模型行程深度學習
- 《動手學深度學習》TF2.0 實現深度學習TF2
- 2D影片轉換成3D格式的Mac影片轉換軟體:Tipard Mac 3D Converter for Mac3DMac
- [GAN學習系列3]採用深度學習和 TensorFlow 實現圖片修復(上)深度學習
- [GAN學習系列3]採用深度學習和 TensorFlow 實現圖片修復(下)深度學習
- 深度強化學習核心技術實戰強化學習
- 實時深度學習深度學習
- AI在汽車中的應用:實用深度學習AI深度學習
- 小波變換與深度學習深度學習
- 【深度學習】--DCGAN從入門到例項應用深度學習
- ICLR 2019 | 用淺度學習訓練深度網路:避開端到端深度學習難題ICLR深度學習
- 深度學習技術研究會深度學習
- 從 Dropdown 的 React 實現中學習到的React
- 深度強化學習技術開發與應用強化學習
- 使用Python 實現 PDF 到 HTML 的轉換PythonHTML
- 用於HPC和深度學習工作負載的容器技術深度學習負載
- Python——格式轉換的學習筆記Python筆記
- 深度學習核心技術實踐與圖神經網路新技術應用深度學習神經網路
- 深度學習訓練過程中的學習率衰減策略及pytorch實現深度學習PyTorch
- 《深度學習DeepLearning核心技術實戰培訓班》深度學習
- 【深度學習】深度解讀:深度學習在IoT大資料和流分析中的應用深度學習大資料
- 【深度學習 01】線性迴歸+PyTorch實現深度學習PyTorch
- 深度學習+深度強化學習+遷移學習【研修】深度學習強化學習遷移學習
- 深度學習(啟用函式)深度學習函式
- 深度學習在OC中的應用深度學習
- 深度學習學習框架深度學習框架
- 從傳統的神經元網路轉變到深度學習網路深度學習
- 深度學習技術在網路入侵檢測中的應用深度學習
- 深度學習在攝影技術中的應用與發展深度學習