由北京理工大學賈雲得教授研究組提出的立體匹配新方法著重於成本聚合問題,在 KITTI 和 Scene Flow 基準測試中超越了此前業內的最佳水平。本文已提交今年 2 月舉行的 AAAI 2018 大會,併成為 Spotlight poster 論文。
立體匹配(Stereo matching)是計算機視覺社群研究的一個基礎問題。立體匹配的研究目標是計算由立體照相機收集的影像的視差圖(disparity map)。這種視差圖在 3D 場景重建、機器人、自動駕駛領域都有普遍的應用。隨著大規模資料集的出現、計算力的快速發展,深度神經網路經驗證在立體匹配中有所成效。目前,許多頂尖的方法通過學習穩健地區域性特徵或者相似性測量作為成本計算來提升表現((Zbontar and LeCun 2015; Luo, Schwing, and Urtasun 2016; Shaked and Wolf 2016)。然而,這些方法在少紋理區域和遮擋邊界區域問題上仍有很大的困難,這主要是因為在成本計算過程中看到的視野受限。
圖 1:典型的深度立體匹配方法流程圖與我們基於學習的成本聚合(cost aggregation)方法流程圖的對比。架構 A 是典型的深度立體匹配方法的圖,裡面使用的是傳統的成本聚合方法。架構 B 是我們基於學習的成本聚合方法。關於架構的更多細節在圖 2 中有所展示,其中我們根據顏色匹配了各個部分。
為了處理成本計算結果的不匹配值(成本體積),成本聚合在傳統的立體匹配方法中是不可或缺的。成本聚合應用於成本體積,用於改正聚合匹配成本時出現的不匹配值。它通常是通過在一個支援區域中的常數差異上加和或平均匹配成本完成的(Yang 2012;Min,Lu and Do 2011;Tombari et al. 2008)。然而,傳統的成本聚合方法受到淺層手工設計的限制,無法進行聚合。它們無法在保持區域性適值的情況下有效形成全域性引導。在本論文中,北京理工大學的研究人員提出了一種基於學習的成本聚合方法,可在全域性視野和區域性適值之間做出有效平衡,其方法使用了全新的雙流束神經網路。
本論文提出的成本聚合能夠以端到端的形式整合其他深度立體匹配流程,因為它是以整個網路子架構的形式構建的。通過基於學習的成本聚合,立體匹配流程的端到端訓練不僅可以學習成本計算的特徵和相似性,也可以表現為成本聚合。新方法的架構和典型的深度立體流程之間的對比如圖 1 所示。我們可以看到,基於學習的成本聚合是通過一個雙流束網路(twostream network)以明確方式實現的。
成本聚合過程被重述為一個生成潛在成本聚合結果(提出建議,選擇其中最佳)的學習機制。因此,基於學習的成本聚合由雙流束網路執行:一個流用於生成建議,另一個流用於評估建議。第一個流根據成本體積(由成本計算算出)計算出的潛在聚合結果得出區域性適值。生成是通過卷積操作沿著成本體積的三個維度來執行的,其中結合了空間和深度上的資訊。第二個流通過評估每個建議來為成本聚合帶來全域性視角引導,這個過程是通過輕卷積網路將低階結構資訊作為建議的評估標準來獲得的。由於結構資訊只包含獨立於深度的 2D 資訊,因此引導(guidance)的深度維度不變。因此,對每個建議的不同評估遵循相同的引導。在對每個建議評估之後,模型使用勝者通吃策略來選出最佳聚合值,形成聚合成本值。
研究人員提出的架構在 Scene Flow(Mayer 等人,2016)和 KITTI 基準測試上(Menze & Geiger,2015;Geiger,Lenz and Urtasun,2012)展示了很高的準確度。該研究主要貢獻為以下三點。
該研究是第一個在基於學習的立體匹配方案中明確對成本聚合建模的方法。研究人員使用生成學習過程重新形式化成本聚合,並讓演算法在成本聚合建議中選擇。
研究人員提出了一種全新的雙流束網路來生成和選擇成本聚合建議。這種雙流束網路保留了豐富的語義資訊,同時帶來了低階結構資訊,證明了將高階特徵與低階特徵融合的能力。
新提出的基於學習的成本聚合是端到端可訓練的深度立體匹配流程子架構。它適合於沒有成本聚合的流程,進一步提升了準確率。
圖 2:北理工提出的立體匹配管道與基於學習的成本聚合。
不同的顏色代表不同資料的大小:藍色對應 W × H × C,橘色對應 D × H × W × C,綠色對應 H × W × G,紫色對應 D × H × W × G。成本計算步驟分為三個部分。A1 是使用殘差 Siamese 網路的特徵提取子網路。A2 是特徵體積構建部分,細節如圖 3 所示。A3 計算使用 3D 卷積網路計算特徵體積的相似,輸出初始成本體積。基於學習的成本聚合是由一個雙流束網路座位整個流程的子架構實現的。指導流程在 B1。建議流程在 B2。成本聚合過程是通過贏者通吃的策略來選擇最佳建議。最後,使用 soft-argmin 函式來計算視差圖。
網路架構
作為畫素級的匹配任務,立體匹配需要計算左影像中每個畫素與右影像中 D 個對應畫素之間的相似性,其中 D 是最大視差。計算匹配成本可形成成本體積 C0(h,w,d)。立體匹配管道和其建議的成本聚合由端到端可訓練網路執行。與使用黑箱網路的方法相比,我們從經典立體匹配演算法(Scharstein & Szeliski,2002)中獲取靈感,提出了雙流束網路的成本聚合方法。
圖 3:特徵體積構建操作。每個網格方塊代表一個畫素的特徵。我們可以簡單地使用移位和連線操作來形成一個特徵量。
表 4:KITTI2012 上的各方法對比
表 5:KITTI2015 上的各方法對比
論文:Deep Stereo Matching with Explicit Cost Aggregation Sub-Architecture
論文連結:https://arxiv.org/abs/1801.04065
深度神經網路在立體匹配(stereo matching)上表現出色。很多研究著重於特徵提取和相似度測量,卻忽視了至關重要的成本聚合。在本文中,我們提出了一種基於學習的成本聚合方法,通過在端到端訓練流程中的新型子體系結構進行立體匹配。我們將成本聚合重新形式化為生成和選擇建議,並表明聚合結果的成本聚合學習過程。成本聚合的子架構是通過一個雙流束網路實現的,一個用於生成成本彙總建議,另一個用於選擇建議。選擇的標準由輕卷積網路的低階資訊獲取結構確定。雙流束網路提供了成本聚合的全域性檢視指導,避免了由於匹配計算成本造成視角限制出現的不匹配值。在 KITTI 和 Scene Flow 中的測試表明我們的方法超越了此前業內的最佳水平。