單幅RGB影像整體三維場景解析與重建

大資料文摘發表於2018-08-15

不是998!只用一張圖就能重建三維場景!今天我們就給大家介紹這項神奇的研究。

這項研究由加州大學洛杉磯分校(UCLA)的六位學者完成,並已被歐洲計算機視覺國際會議(ECCV)採納。

單幅RGB影像整體三維場景解析與重建

我們對論文的精華編譯如下:

人類視覺的複雜性和豐富性不僅體現在識別可見物體的能力上,而且體現在解釋潛在的不確定資訊上,包括推斷潛在的人類語境在場景中的功能  ,重建三維分層幾何結構,遵守物理約束並保證物理上合理的場景配置。對室內場景的這種豐富的理解是構建智慧計算系統的本質,其超越了主要基於外觀和幾何的識別任務,而是考慮的是對觀察到的影像或圖案更深層次的推理。

一個有希望的方向是合成分析或“視覺反轉圖形”這兩種方法。在這個範例中,計算機視覺被視為與計算機圖形相反的逆問題,其目標是對產生觀察影像的物理過程中隱藏的因素進行逆向工程

單幅RGB影像整體三維場景解析與重建圖1:通過合成分析這種方法所展現出的整體3D室內場景解析和重建。

3D表示由各個視覺模組初始化(例如物件檢測和2D佈局估計)。 聯合推理演算法將渲染的法線,深度和分割圖之間的差異與輸入估計後的RGB影像的差異進行比較,並不斷迭代調整3D結構。

我們提出了一種計算框架,將視覺概念作為逆圖形,使用隨機語法模型(stochastic grammar model),聯合解析(jointly parse)單幅RGB影像,重建出由一組CAD模型組成的整體3D結構。

圖1示意性地說明了合成分析推理過程。聯合推理演算法從各種視覺模組中獲取建議,並通過比較從恢復的3D結構渲染的各種投影(深度,法線,分割)與從輸入影像直接估計的投影來推斷3D結構。

具體來說,我們利用一種整體場景語法(Holistic Scene Grammar, HSG)來展現3D場景結構,它表徵了室內場景在功能空間和幾何空間上的聯合分佈。HSG捕捉了室內場景中三個必要的隱含維度:1.隱含的人類背景,描述房間佈置的功能可見性,2.場景結構的幾何約束,3.物理約束,這保證了物理上合理的解析與重建。

我們以綜合分析的方式來解決這個聯合解析與重建的問題,尋求在深度空間,曲面法線和物件分割圖上最小化輸入影像與生成的渲染影像之間的差異。

使用馬爾可夫鏈蒙特卡羅(Markov chain Monte Carlo, MCMC)推測出由解析圖表示的最優結構,其有效地遍歷不可微的解空間,共同優化物體定位,3D佈局和隱含的人類背景。實驗結果表明,該演算法提高了泛化能力,在3D佈局估計,三維物體檢測和整體場景理解方面明顯優於現有方法。

譯者注:

功能空間,指房間的層級結構,包含活動分割槽;幾何空間 ,指CAD模型。

單幅RGB影像整體三維場景解析與重建

 圖2: 用HSG分析圖展現的一個室內情景。函式空間描述了階級結構,幾何空間表示了空間物體和背景關係。

如圖2所示,我們的HSG將場景分解為功能空間中的潛在組(包括活動組的分層結構)和幾何空間中的物件例項(CAD模型)。對於功能空間,與僅模擬物-物關係的傳統方法相比,我們提出了一種通過在活動組中想象潛在的人來進一步幫助解釋和解析觀察到的影像來模擬人-物關係的新方法。

對於幾何空間,各個物件的幾何屬性(大小,位置,方向)在我們考慮範圍之內,以及它們之間的幾何關係(支援關係)。另外,結合物理約束(物件之間的碰撞,違反佈局)生成觀察影像並進行物理上可信的3D解析和重建。

使用最大後驗概率估計(MAP)這種方法,是為了找到解析和重建所觀察影像的最優解。在MAP這種方法中,我們可以利用相似度來測量所觀察的影像和通過pg投影到各種2D空間上的渲染影像之間的相似性。

因此,可以通過基於後驗概率(MAP)這種方法,對MCMC進行取樣來不斷迭代和細化解析圖(pg)。我們通過將重建的3D室內房間與實際的室內房間進行比較來評估我們在大規模RGB-D資料集上的方法。

本文有五個主要的貢獻:

1. 我們整合了幾何和物理兩個維度,用CAD模型解釋和重建室內場景。聯合優化了3D房間佈局和物體的結構,大大提高了在SUN RGB-D資料集 [45] 上進行場景解析和重建的效能。

2. 我們將隱含的人類背景(即功能區)納入我們的語法模型,通過分組和抽樣,能夠猜想出每個活動區間中的潛在人類姿勢。通過這種方式,我們可以優化場景中可見和不可見 [48] 分量的聯合分佈。

3. 我們提出了一個完整的計算框架,將生成模型(即隨機語法),判別模型(即深度,法線和分割圖的直接估計)和圖形引擎(即渲染影像)在場景解析與重建中結合起來。

4. 據我們所知,我們最先使用了推測出的深度,曲面法線和物件分割圖來幫助解析和重建3D場景(包括房間佈局和多個物體)。請注意,文獻 [49] 對單個物體使用了類似的中間表示。

5. 通過學習物體之間的支撐關係(supporting relations),所提出的方法消除了先前工作中廣泛採用的假設,即所有物體必須立在地面上。模型的這種靈活性可以更好地解析和重建具有複雜物件關係的真實世界場景。

相關文章