近日,來自 UIUC 和 Zillow 的研究者在 arXiv 上釋出論文,提出 LayoutNet——一種僅通過單張透檢視或全景圖就能估算室內場景 3D 佈局的深度卷積神經網路(CNN)。該方法在全景圖上的執行速度和預測精度比較好,在透檢視上的效能是最好的方案之一。該方法也能夠推廣到非長方體的曼哈頓佈局中。目前,該論文已經被 CVPR 2018 接收。
引言
對於機器人和虛擬現實、擴增實境這樣的應用來說,從影像中估算出房間的三維佈局是一個重要的任務。房間的佈局指牆壁相對於相機中心的位置、方向以及高度。佈局可以表示為一組經過投影處理的角落位置或邊界,或者表示為一個 3D 網格。現有的研究被應用於一些特定的問題,例如通過透檢視或全景圖預測長方體形狀的室內佈局。
本論文提出了 LayoutNet,它是一個僅通過單張透檢視或全景圖(如圖 1 所示)就能估算室內場景 3D 佈局的深度卷積神經網路(CNN)。該方法在全景圖上的執行速度和預測精度比較好,在透檢視上的效能是最好的方案之一。該方法也能夠推廣到非長方體的曼哈頓佈局中,例如「L」形的房間。
程式碼地址:https://github.com/zouchuhang/ LayoutNet
圖 1. LayoutNet 根據單張等距柱狀投影的全景圖預測一個非長方體房間的佈局。
LayoutNet 方法的工作流程包含三個步驟(如圖 2 所示)。首先,系統分析消失點,並且將影像與地面對齊在一條水平線上(見 Sec. 3.1)。這種對齊方式確保了牆與牆的邊界是垂直的線,根據實驗結果,該操作大大降低了誤差。第二步,使用一個帶有編碼器-解碼器結構和跳躍連線的卷積神經網路直接預測影像上的角(佈局中的連線處)和邊界的概率圖。每個角落和邊界都提供了房間佈局的完整表示。研究者發現,在單個網路中一起預測它們將得到更好的估計結果。最終,研究者對三維佈局引數進行了優化,用於擬合預測出的角落和邊界(見 Sec. 3.4)。最後三維佈局優化過程的損失很難在網路中進行反向傳播,但是訓練過程中對 3D 引數執行的直接回歸(direct regression)起到了有效的替代作用,這最大化提升了最終預測的準確度。
本文的突出貢獻有:
提出了一種更加通用的根據 RGB 影像推斷出佈局的演算法,它適用於曼哈頓佈局的透檢視和全景圖。該系統在全景影像上有較好的執行速度和預測準確度,在透檢視影像上取得了第二優的綜合預測效能和最優的運算速度。
展示了利用預先計算出的消失點線索、幾何約束以及後處理優化的好處,說明深度神經網路方法仍然能夠從幾何線索和約束中受益。研究者還展示了新增目標函式以直接回歸 3D 佈局引數,從而更好地預測用於最終解決佈局預測問題的邊界和角落。
擴充套件了史丹佛「2D-3D」資料集的註釋 [1],提供了可用於後續工作的房間佈局註釋。
圖 2. 概述。LayoutNet 遵循編碼器-解碼器策略。網路的輸入是單張 RGB 全景圖和曼哈頓線圖的級聯。該網路將一同預測佈局的邊界和角落的位置。3D 佈局引數損失使得預測準確率最大化提升。最終的預測結果是一個曼哈頓約束下的佈局重建。
網路架構
LayoutNet 網路架構如圖 2 所示。該網路遵循編碼器-解碼器策略。深度全景編碼器:輸入為一個 6 通道的特徵對映,即使用 Sec. 3.1 中提到的對齊方法將解析度為 512*1024 的單個 RGB 全景圖(或者解析度為 512*512 的透檢視)和三個正交消失方向上的曼哈頓線圖的特徵對映級聯起來。編碼器包含 7 個卷積層,卷積核的大小為 3*3。每個卷積之後會跟隨一個 ReLU 操作和最大池化層,其下采樣因子為 2。第一個卷積層有 32 個特徵,研究者在每次卷積操作之後將特徵規模擴大到之前的兩倍。這個深度神經網路結構確保從高解析度影像中學習到更好的特徵,有助於簡化解碼步驟。研究者嘗試在每一個卷積層之後進行批量歸一化操作,但是發現這樣做預測準確率降低。研究者還探索了另一種網路結構,單獨將一個編碼器應用於輸入影像和曼哈頓線圖上,但它與研究者目前使用的簡單設計相比,效能沒有得到提升。
表 1. 使用 PanoContext 資料集 [33] 從全景圖中得到的長方體佈局量化預測結果。研究者比較了 PanoContext 方法,並且在本文提出方法的各種配置引數上引入了模型簡化分析。粗體數字表示訓練 PanoContext 資料時得到的最佳效能。
表 3. 在研究者標註的史丹佛 2D-3D 註釋資料集上的模型評估結果。研究者通過對各種變數的模型簡化分析評估了 LayoutNet 方法。粗體數字表示僅僅在史丹佛 2D-3D 訓練資料集上的最佳訓練結果。
圖 3. 在 PanoContext 資料集 [33] 上對長方體佈局預測的定性分析結果(隨機抽樣)。研究者展示了其方法(偶數列)和當前最優方法 [33](奇數列)的效能。每個影像由給定計算方法預測出的佈局(橙色的線)和標定的真實佈局(綠色的線)組成。本文方法在畫素層面上是十分準確的,但是正如定量分析結果中交併比(IoU)這一測度所顯示的那樣,三維佈局預測對即使是很小的二維預測誤差都很敏感。
圖 4. 在史丹佛 2D-3D 註釋資料集上對長方體佈局預測的定性分析結果(隨機抽樣)。與 PanoContext 資料集相比,這個資料集更加棘手,因為它垂直方向的視場更小,而且更加閉塞。研究者展示了其方法預測出的佈局(橙色的線),並將其與真實的佈局(綠色的線)進行了對比。
圖 5. 對透檢視的定性分析結果。研究者展示了輸入的 RGB 影像,預測了邊界/角落圖以及最終估算出來的分佈(橙色的線),並將其與真實的佈局(綠色的線)進行了對比。
論文:LayoutNet: Reconstructing the 3D Room Layout from a Single RGB Image
論文連結: https://arxiv.org/abs/1803.08999
摘要:我們提出了一種根據單張影像預測房間佈局的演算法,它能夠被推廣到全景圖、透檢視、長方體佈局和更一般化的佈局中(如 L 形房間)。我們的方法可直接在全景影像上執行,而不是像近來的一些研究那樣將全景圖分解成多個透檢視。我們的網路架構類似於 RoomNet,但是我們展示了一系列改進:根據消失點將影像對齊、預測多個佈局元素(角落、邊界、大小和影像轉化),並且將一個帶約束的曼哈頓佈局和最終的預測結果進行了擬合。在全景圖上,我們的方法在運算速度和預測準確度上有較好的效能;在透檢視上,我們方法的預測準確度是最優方法之一,並且能夠處理長方體形狀佈局和更一般的曼哈頓佈局。