UIUC & Zillow提出LayoutNet：從單個RGB影像中重建3D房間佈局

機器之心發表於2018-04-04

原文網址 : https://www.jiqizhixin.com/articles/2018-04-04-4

近日，來自 UIUC 和 Zillow 的研究者在 arXiv 上釋出論文，提出 LayoutNet——一種僅通過單張透檢視或全景圖就能估算室內場景 3D 佈局的深度卷積神經網路（CNN）。該方法在全景圖上的執行速度和預測精度比較好，在透檢視上的效能是最好的方案之一。該方法也能夠推廣到非長方體的曼哈頓佈局中。目前，該論文已經被 CVPR 2018 接收。

引言

對於機器人和虛擬現實、擴增實境這樣的應用來說，從影像中估算出房間的三維佈局是一個重要的任務。房間的佈局指牆壁相對於相機中心的位置、方向以及高度。佈局可以表示為一組經過投影處理的角落位置或邊界，或者表示為一個 3D 網格。現有的研究被應用於一些特定的問題，例如通過透檢視或全景圖預測長方體形狀的室內佈局。

本論文提出了 LayoutNet，它是一個僅通過單張透檢視或全景圖（如圖 1 所示）就能估算室內場景 3D 佈局的深度卷積神經網路（CNN）。該方法在全景圖上的執行速度和預測精度比較好，在透檢視上的效能是最好的方案之一。該方法也能夠推廣到非長方體的曼哈頓佈局中，例如「L」形的房間。

程式碼地址：https://github.com/zouchuhang/ LayoutNet

UIUC & Zillow提出LayoutNet：從單個RGB影像中重建3D房間佈局

圖 1. LayoutNet 根據單張等距柱狀投影的全景圖預測一個非長方體房間的佈局。

LayoutNet 方法的工作流程包含三個步驟（如圖 2 所示）。首先，系統分析消失點，並且將影像與地面對齊在一條水平線上（見 Sec. 3.1）。這種對齊方式確保了牆與牆的邊界是垂直的線，根據實驗結果，該操作大大降低了誤差。第二步，使用一個帶有編碼器-解碼器結構和跳躍連線的卷積神經網路直接預測影像上的角（佈局中的連線處）和邊界的概率圖。每個角落和邊界都提供了房間佈局的完整表示。研究者發現，在單個網路中一起預測它們將得到更好的估計結果。最終，研究者對三維佈局引數進行了優化，用於擬合預測出的角落和邊界（見 Sec. 3.4）。最後三維佈局優化過程的損失很難在網路中進行反向傳播，但是訓練過程中對 3D 引數執行的直接回歸（direct regression）起到了有效的替代作用，這最大化提升了最終預測的準確度。

本文的突出貢獻有：

提出了一種更加通用的根據 RGB 影像推斷出佈局的演算法，它適用於曼哈頓佈局的透檢視和全景圖。該系統在全景影像上有較好的執行速度和預測準確度，在透檢視影像上取得了第二優的綜合預測效能和最優的運算速度。
展示了利用預先計算出的消失點線索、幾何約束以及後處理優化的好處，說明深度神經網路方法仍然能夠從幾何線索和約束中受益。研究者還展示了新增目標函式以直接回歸 3D 佈局引數，從而更好地預測用於最終解決佈局預測問題的邊界和角落。
擴充套件了史丹佛「2D-3D」資料集的註釋 [1]，提供了可用於後續工作的房間佈局註釋。

UIUC & Zillow提出LayoutNet：從單個RGB影像中重建3D房間佈局

圖 2. 概述。LayoutNet 遵循編碼器-解碼器策略。網路的輸入是單張 RGB 全景圖和曼哈頓線圖的級聯。該網路將一同預測佈局的邊界和角落的位置。3D 佈局引數損失使得預測準確率最大化提升。最終的預測結果是一個曼哈頓約束下的佈局重建。

網路架構

LayoutNet 網路架構如圖 2 所示。該網路遵循編碼器-解碼器策略。深度全景編碼器：輸入為一個 6 通道的特徵對映，即使用 Sec. 3.1 中提到的對齊方法將解析度為 512*1024 的單個 RGB 全景圖（或者解析度為 512*512 的透檢視）和三個正交消失方向上的曼哈頓線圖的特徵對映級聯起來。編碼器包含 7 個卷積層，卷積核的大小為 3*3。每個卷積之後會跟隨一個 ReLU 操作和最大池化層，其下采樣因子為 2。第一個卷積層有 32 個特徵，研究者在每次卷積操作之後將特徵規模擴大到之前的兩倍。這個深度神經網路結構確保從高解析度影像中學習到更好的特徵，有助於簡化解碼步驟。研究者嘗試在每一個卷積層之後進行批量歸一化操作，但是發現這樣做預測準確率降低。研究者還探索了另一種網路結構，單獨將一個編碼器應用於輸入影像和曼哈頓線圖上，但它與研究者目前使用的簡單設計相比，效能沒有得到提升。

UIUC & Zillow提出LayoutNet：從單個RGB影像中重建3D房間佈局

表 1. 使用 PanoContext 資料集 [33] 從全景圖中得到的長方體佈局量化預測結果。研究者比較了 PanoContext 方法，並且在本文提出方法的各種配置引數上引入了模型簡化分析。粗體數字表示訓練 PanoContext 資料時得到的最佳效能。

UIUC & Zillow提出LayoutNet：從單個RGB影像中重建3D房間佈局

表 3. 在研究者標註的史丹佛 2D-3D 註釋資料集上的模型評估結果。研究者通過對各種變數的模型簡化分析評估了 LayoutNet 方法。粗體數字表示僅僅在史丹佛 2D-3D 訓練資料集上的最佳訓練結果。

UIUC & Zillow提出LayoutNet：從單個RGB影像中重建3D房間佈局

圖 3. 在 PanoContext 資料集 [33] 上對長方體佈局預測的定性分析結果（隨機抽樣）。研究者展示了其方法（偶數列）和當前最優方法 [33]（奇數列）的效能。每個影像由給定計算方法預測出的佈局（橙色的線）和標定的真實佈局（綠色的線）組成。本文方法在畫素層面上是十分準確的，但是正如定量分析結果中交併比（IoU）這一測度所顯示的那樣，三維佈局預測對即使是很小的二維預測誤差都很敏感。

UIUC & Zillow提出LayoutNet：從單個RGB影像中重建3D房間佈局

圖 4. 在史丹佛 2D-3D 註釋資料集上對長方體佈局預測的定性分析結果（隨機抽樣）。與 PanoContext 資料集相比，這個資料集更加棘手，因為它垂直方向的視場更小，而且更加閉塞。研究者展示了其方法預測出的佈局（橙色的線），並將其與真實的佈局（綠色的線）進行了對比。

UIUC & Zillow提出LayoutNet：從單個RGB影像中重建3D房間佈局

圖 5. 對透檢視的定性分析結果。研究者展示了輸入的 RGB 影像，預測了邊界/角落圖以及最終估算出來的分佈（橙色的線），並將其與真實的佈局（綠色的線）進行了對比。

論文：LayoutNet: Reconstructing the 3D Room Layout from a Single RGB Image

UIUC & Zillow提出LayoutNet：從單個RGB影像中重建3D房間佈局

論文連結： https://arxiv.org/abs/1803.08999

摘要：我們提出了一種根據單張影像預測房間佈局的演算法，它能夠被推廣到全景圖、透檢視、長方體佈局和更一般化的佈局中（如 L 形房間）。我們的方法可直接在全景影像上執行，而不是像近來的一些研究那樣將全景圖分解成多個透檢視。我們的網路架構類似於 RoomNet，但是我們展示了一系列改進：根據消失點將影像對齊、預測多個佈局元素（角落、邊界、大小和影像轉化），並且將一個帶約束的曼哈頓佈局和最終的預測結果進行了擬合。在全景圖上，我們的方法在運算速度和預測準確度上有較好的效能；在透檢視上，我們方法的預測準確度是最優方法之一，並且能夠處理長方體形狀佈局和更一般的曼哈頓佈局。

相關文章

UIUC & Zillow提出LayoutNet：從單個RGB影象中重建3D房間佈局
2018-04-04
UI3D
單幅RGB影像整體三維場景解析與重建
2018-08-15
CVPR 2019 | 德國馬普所提出端到端模型RingNet，基於單張影像進行3D人臉重建
2019-06-18
模型3D
C#開發PACS醫學影像三維重建(一):使用VTK重建3D影像
2020-09-21
C#3D
單影像三維重建、2D到3D風格遷移和3D DeepDream
2020-04-25
3D
qt 佈局---表單佈局
2020-11-13
QT
實現一個上下固定，中間自動填滿的佈局
2024-11-29
P4198 樓房重建
2024-03-23
如何利用TRIZ改善高層樓房的佈局？
2022-11-08
如何用OpenCV將影像從sRGB格式轉換為Adobe RGB格式
2023-12-05
OpenCV
Activity 從啟動到佈局繪製的簡單分析
2018-12-10
Activity從啟動到佈局繪製的簡單分析
2018-12-10
Flutter 簡單佈局技巧
2019-04-04
Flutter
網頁佈局------for表單
2024-05-20
網頁
簡單理解flex佈局
2019-11-06
Flex
css佈局，左右固定中間自適應實現
2019-02-16
CSS
flex佈局兩邊固定寬中間自適應
2019-01-31
Flex
關於把豎向單個佈局在鴻蒙等摺疊手機屏中顯示成雙向佈局
2024-11-07
鴻蒙
使用 Flex 佈局與其他普通佈局的簡單對比
2018-12-08
Flex
MCMC 方法影像重建理論
2020-05-22
聖盃佈局與雙飛翼佈局區別(左右兩欄固定，中間撐滿螢幕)
2018-11-13
如何實現兩欄佈局，右側自適應？三欄佈局中間自適應呢？
2024-06-01
Android佈局中動態新增ImageView並設定間隔
2019-07-23
AndroidView
Flexbox 佈局的最簡單表單
2018-10-18
Flex
Avalonia中的佈局
2024-04-11
3D MinkowskiEngine稀疏模式重建
2021-01-04
3D模式
QGIS列印佈局中繪製多個子圖
2021-08-07
10-記憶體空間佈局
2019-02-12
記憶體
Smartbi助你佈局“數字化車間”
2022-05-12
css佈局-float佈局
2018-04-09
CSS
CSS佈局 --- 居中佈局
2018-08-24
CSS
多人對抗類遊戲的10個空間佈局原則
2022-03-28
遊戲
Masonry佈局簡單朋友圈
2018-07-12
css佈局-實現左中右佈局的5種方式
2018-03-03
CSS
關於3d場景重建
2024-09-13
3D
2020-12-17 html、css面試題3: 水平垂直居中，左右固定中間自適應三欄佈局，靜態佈局、自適應佈局、流式佈局、響應式佈局、彈性佈局，IE中常見的相容性問題，清空陣列的方法
2020-12-17
HTMLCSS面試題陣列
從影像中檢測和識別表格，北航&微軟提出新型資料集TableBank
2019-03-21
微軟
Android的四個基本佈局
2020-03-06
Android