GeoLayout: Geometry Driven Room Layout Estimation Based on Depth Maps of Planes

撫琴塵世客發表於2022-12-31

1. 論文簡介

論文題目:GeoLayout: Geometry Driven Room Layout Estimation Based on Depth Maps of Planes

Paper地址:paper

Paper簡單評論:這篇論文核心是提出了將pixel-level surface引數化,還提出了一個新的資料集。

2. 摘要

房間佈局估計的任務是確定牆壁地板、牆壁天花板和牆壁的邊界。

目前解決這一問題的方法大多基於邊緣/關鍵點檢測或語義分割。

然而,這些方法對主要平面的幾何結構和它們之間的交叉點關注有限,這對房間佈局有重大影響。

 在這項工作中,我們建議將幾何推理結合到深度學習中進行佈局估計。

我們的方法透過預測畫素級表面引數來學習推斷場景中主要平面的深度圖,並且可以透過深度圖的交集來生成佈局。

此外,我們提出了一個新的資料集畫素級深度標註的主導平面。

它比現有的資料集更大,包含長方體和非長方體房間。實驗結果表明,我們的方法在2D和3D資料集上都產生了相當大的效能增益。

 

3. 引言

室內場景不同於自然場景,它通常包含地板、天花板和牆壁等主導平面。這些平面可能彼此正交。

因此,室內場景的空間結構往往具有一定的規律性,可以透過房間佈局來表現。目前,房間佈局估計的任務是確定牆壁-地板,牆壁-天花板和牆壁-牆壁的邊界。

它可以為廣泛的計算機視覺任務提供有用的先驗,如場景重建[26,2,17]和擴增實境[35,18,24]。

 最近的方法取得了顯著的效能提升,主要集中在學習深度網路的特徵對映,如全卷積網路(FCNs)[33]。一個流行的想法是學習牆壁-地板,牆壁-天花板和牆壁的邊緣[25,31,40]。

另一種是學習地板、天花板、前牆、左牆、右牆等語義表面標籤[5,38]。此外,也有嘗試推斷佈局角(關鍵點)的方法[20,43]。

但是,來自邊緣/關鍵點檢測或語義分割的自下而上資訊可能無法反映房間佈局的底層幾何結構,例如正交平面。

 

 從本質上講,兩個表面之間的理想邊界出現是因為三維空間中的兩個平面相交於一條直線。這促使我們關注室內場景中主要表面(如地板、天花板和牆壁)的幾何模型。

基於這一關鍵見解,我們建議預測主導曲面的深度圖,並透過深度圖的交集生成佈局,如圖1所示。首先分析了三維平面在深度圖中的投影原理,得到了不帶顯式相機intrinsic的平面深度引數化表示。

與一般的3D座標系(例如,相機座標系)相比,我們的引數化可以忽略相機固有引數的需要。

 同時,該方法也適用於Hedau[13]、LSUN[39]等現有佈局資料集中未提供固有引數的情況。然後我們訓練一個深度網路來預測每個平面的畫素級表面引數。

畫素級引數進一步聚合為例項級引數以計算相應的深度圖,並根據預測的深度圖生成佈局。我們的方法通常需要平面的深度圖進行學習。

然而,透過我們的引數化和幾何約束,模型也可以只用二維分割來訓練。

 

然而,現有的佈局估計資料集並不完全支援所提出的三維幾何感知模型的學習,因為沒有提供三維標籤。所有的影像都是簡單的長方體佈局。

這些資料集的缺陷嚴重限制了佈局估計演算法的發展和實際應用。因此,我們生成了一個用於房間佈局估計的新資料集,提供了主要平面的畫素級深度註釋。

採用人工標註與平面擬合相結合的方法半自動採集地面真相,資料集包含複雜非長方體佈局的室內場景

 

 

 

 這項工作的主要貢獻總結如下:

(1)我們提出將幾何推理納入深度學習,以完成佈局任務估計,它被重新表述為預測主導平面的深度圖。

(2)我們證明了所提出的模型可以有效地訓練來預測表面引數,並且還可以利用學習到的3D知識提高2D佈局效能。

(3)提出了一種帶三維標籤的佈局估計資料集。該資料集規模大,與以往資料集互補,有利於房間佈局估計領域的研究

 

 

3 方法

在這項工作中,我們打算透過預測房間中主要平面(例如地板、牆壁、天花板)的深度圖來解決佈局估計問題。

然後透過相互相交的平面深度圖的相交得到平面佈局。在3.1節中,我們首先分析了平面的深度圖,給出了(u, v, Z)座標系下的一般方程,可用於引數化任意平面的深度圖。

然後,我們使用深度網路學習優勢平面的表面引數並生成佈局估計。我們的方法如圖所示。

 3.1 Parameterizing Depth Maps of Planes

透過法線將3D Point投影到影像平面。最後得到深度圖(depth map)Z。

 

在實際應用中,室內場景的全域性尺度是模糊的,這使得這三個引數與尺度有關。因此,我們引入一個比例因子去歸一化平面引數。

 

 

 3.2 Learning Depth Maps of Planes

讓網路估計平面引數。最佳化函式包括平面引數Loss,深度Loss。

 

 

 

 3.3 Training on 2D Layout Datasets

Lyout估計。

 

 

 

 

 

 3.4 Generating Layout Estimates

訓練階段完成後,採用後處理步驟獲得引數化佈局估計結果。由於判別損失(式(5)-(7)),預測的畫素級表面引數可能是分段常數,並且可以很容易地分組以產生表示表面例項的分割圖。

我們使用標準的均值偏移聚類,因為簇的數量不需要預先定義。聚類完成後,將放棄佔總畫素不足1%的小簇。接下來,我們提取每個聚類內引數的平均值以獲得例項級引數。然後生成每個平面的深度圖。

為了在相互相交的深度圖中找到真正的佈局,我們根據佈局估計與聚類分割的一致性來評估佈局估計。具體來說,我們對不同表面的深度圖按照每個畫素的升序進行排序,而指示表面例項的索引將構成多層分割圖。

從第一層開始,我們將當前分割與聚類分割進行比較。

對於當前分割的每個區域,如果標籤與聚類分割的優勢標籤,我們使用下一層的標籤來替換不一致的標籤。這個過程一直持續到當前分割與聚類分割一致為止。

然後得到預測的佈局分割、深度圖以及相應的表面引數。利用攝像機固有引數,還可以根據深度圖生成代表佈局的三維點雲。最後,根據預測深度圖的方程計算佈局角,即佈局角為三個曲面的交點,或兩個曲面與影像邊界的交點。

 

 

 4. 新資料集Matterport3D-Layout Dataset

在本節中,我們將介紹我們的大規模資料集,用於我們的訓練目的,名為Matterport3D-Layout。我們使用來自Matterport3D資料集[3]的影像,因為資料集包含來自複雜場景的真實照片,這提供了良好的佈局多樣性。

它還提供了可用於恢復三維佈局地面真相的深度影像。我們對每個平面的可見區域進行標註,並使用式(1)對每個曲面進行引數擬合。然後用式(1)計算平面的深度圖。

Annotation.我們首先過濾掉沒有可識別的佈局的影像。然後,我們使用LabelMe[32]在地板、天花板和牆壁的可見區域上為每張影像繪製2D多邊形。

不同表面上的多邊形具有不同的語義類別。我們也放棄了表面完全被室內物體遮擋的影像,因為表面的真實深度是不可用的。

Layout generation. 給定深度圖和區域標註,提取每個標註區域的深度值和畫素座標,採用RANSAC演算法[9]進行曲面擬合,得到例項級曲面引數。然後可以按照第3.4節中描述的類似方式生成佈局

原始的Matterport3D資料集包含90個不同的建築物,因此我們根據建築物ID隨機將資料集分為訓練集、驗證集和測試集。訓練集包括64座建築,共計4939張影像。驗證集包括6棟建築和456張影像。

測試集包括剩下的20座建築,總共有1965張影像。所有影像的解析度為1024×1280。資料集包含以下欄位:

(1)彩色影像;(2)平面深度圖;(3)佈局二維分割;(4)包含室內物體的原始深度圖;(5)可視區域標註;(6)攝像機的內稟矩陣;(7)各平面p, q, r的曲面引數;(8)佈局角的座標(u, v, Z);(9)原表面法線。

圖4顯示了我們資料集的一些例子。在我們的資料集之前,有兩個基準佈局資料集:Hedau[13]和LSUN[39]。表1彙總了現有資料集的統計資料。可以看出,所提出的資料集是最大的資料集,提供了最豐富的事實。

此外,所提出的資料集包含非長方體佈局樣本其他資料集。我們希望這個資料集能夠造福社會,並推動室內佈局估計和相關任務的研究。

 

5. 總結

提出了一種新的幾何驅動室內佈局估計方法。關鍵思想是學習平面表面的深度圖,然後透過應用幾何規則生成佈局。我們證明了該模型可以有效地使用2D或3D地面事實進行訓練。

該方法在2D和3D佈局的基準資料集上都取得了最先進的效能。我們還提出了一個新的三維佈局真實資料集,我們認為這對房間佈局估計領域是有益的。

 

6. 結語

  努力去愛周圍的每一個人,付出,不一定有收穫,但是不付出就一定沒有收穫! 給街頭賣藝的人零錢,不和深夜還在擺攤的小販討價還價。願我的部落格對你有所幫助(*^▽^*)(*^▽^*)!

  如果客官喜歡小生的園子,記得關注小生喲,小生會持續更新(#^.^#)(#^.^#)。

 

相關文章