ECCV24|全域性式SfM最新SOTA,GLOMAP重新定義SfM!

CV技术指南(公众号)發表於2024-08-29
前言 ETH&微軟最新開源-全域性式GLOMAP,它與以前的全域性SfM系統相比,其核心區別在於全域性定位步驟。不是先執行不適定的平移平均然後進行全域性三角測量,而是進行聯合相機和點位置估計。GLOMAP不僅在魯棒性和準確性方面達到增量式COLMAP系統相當或更優的水平,同時還比COLMAP快幾個數量級。

歡迎關注公眾號CV技術指南,專注於計算機視覺的技術總結、最新技術跟蹤、經典論文解讀、CV招聘資訊。

本文轉載自深藍AI

僅用於學術分享,若侵權請聯絡刪除

CV方向的準研究生們,未來三年如何度過?

招聘高光譜影像、語義分割、diffusion等方向論文指導老師

本文由原paper一作Linfei Pan(潘林菲)博士指導授權【深藍AI】編譯首發,Linfei Pan博士就讀於蘇黎世聯邦理工學院,她的個人主頁為:

ECCV24|全域性式SfM最新SOTA,GLOMAP重新定義SfM!

論文連結:

01 背景簡介

從一組影像中恢復3D結構和相機運動一直是計算機視覺研究的焦點,此類問題被稱為運動恢復結構(Structure-from-Motion,SfM)。多年來已經形成了兩種主要的解決正規化:增量式和全域性式。它們都以基於影像的特徵提取和匹配開始,然後透過兩檢視幾何估計構建輸入影像的初始檢視。

增量方法從兩個檢視開始重建,並透過逐步配準附加的相機影像和相關的三維結構來擴充套件重建。這一過程交替進行絕對相機姿態估計、三角測量和捆綁調整,儘管實現了高精度和魯棒性,但由於重複的捆綁調整的高成本,限制了其可擴充套件性。

相反,全域性方法透過聯合考慮檢視圖中的所有兩個檢視幾何形狀,在單獨的旋轉平均(rotation averaging)和平移平均(translation averaging)步驟中一次恢復所有輸入影像的相機幾何形狀。通常,在最終的全域性束調整(global bundle adjustment)步驟之前,將全域性估計的相機幾何形狀用作3D結構三角測量的初始化。雖然增量方法被認為更準確、更穩健,但全域性方法的重建過程更具可擴充套件性,在實踐中速度更快。

增量和全域性SfM之間準確性和魯棒性差距的主要原因在於全域性平移平均步驟。平移平均描述了從檢視圖中的相對姿態集估計全域性相機位置的問題,其中之前透過旋轉平均恢復了相機方向。這一過程在實踐中面臨三大挑戰:

  • 第一個是尺度歧義:從估計的雙檢視幾何獲得的相對平移只能確定到某種尺度;
  • 第二是準確地將相對雙檢視幾何分解為旋轉和平移分量需要對相機內參的先驗知識;
  • 第三個挑戰出現在幾乎共線的運動上,這導致了退化的重建問題。

研究者因此做了大量的研究工作致力於解決該問題。

主要貢獻:

  • 引入了一種通用的全域性SfM系統,稱為GLOMAP。與之前的全域性SfM系統的核心區別在於全域性定位步驟。本文方法不是先進行不適定的平移平均,再進行全域性三角測量,而是執行相機和點位置的聯合估計。
  • GLOMAP在保持全域性SfM流程效率的同時,達到了當前最前進的增量SfM系統相似的魯棒性和精度(如圖1a所示)。
  • 與大多數之前的全域性SfM系統不同,GLOMAP系統能夠處理未知的相機內參(例如,來自網際網路照片)並且穩健地處理順序影像資料(例如,手持影片或自動駕駛汽車場景)。
ECCV24|全域性式SfM最新SOTA,GLOMAP重新定義SfM!
圖1|GLOMAP重構對比示例©️【深藍AI】編譯

02 全域性SfM相關研究

全域性SfM流程通常由三個主要步驟組成:對應關係搜尋(Correspondence Search)、全域性相機姿態估計(Global Camera Pose Estimation)以及聯合相機和結構細化(Global Structure and Pose Refinement)。

2.1 Correspondence Search

增量和全域性SfM都是從輸入影像 中提取顯著的影像特徵開始。一般來說, 檢測出的特徵點與從檢測周圍的區域性上下文中提取的緊湊簽名進行描述。接下來, 開始在影像對 之間搜尋特徵對應關係。然後透過穩健地恢復重疊對的雙檢視幾何體來驗證這些。基於攝像機的幾何配置, 這可能會得到一個用於平面場景的一般運動和純攝像機旋轉的單應矩陣 , 或者用於一般場景和一般運動的基礎矩陣 (未標定)和本質矩陣 (已標定)。當相機內參近似已知時, 這些可以被分解為相對旋轉 和平移 。

與相關內點對應關係計算出的雙檢視幾何定義了檢視圖G,作為全域性重建步驟的輸入。在GLOMAP的流程中,作者利用COLMAP進行對應關係搜尋,並結合RootSIFT特徵和可擴充套件的詞袋影像檢索來找到候選的重疊影像對,以便進行暴力匹配特徵。

2.2 Global Camera Pose Estimation

全域性相機位姿估計是區分全域性SfM和增量SfM的關鍵步驟。全域性SfM不是透過重複的三角測量和光束法平差(Bundle Adjustment,BA)來順序配準相機,而是利用視覺圖G作為輸入,尋求一次性估計所有相機的位姿,通常將其分解為獨立的旋轉和位移平均步驟。

Rotation Averaging: 也稱為旋轉平均,與位姿圖最佳化(PGO)演算法相關。該問題通常被表述為非線性最佳化,懲罰全域性旋轉與估計的相對位姿之間的偏差。實際上,由於噪聲和異常值,該問題通常透過魯棒最小度量目標進行建模並最佳化為(如公式1所示):

ECCV24|全域性式SfM最新SOTA,GLOMAP重新定義SfM!

其中魯棒器 (如Huber)、旋轉引數化 (如四元數或軸角) 和距離度量 (如弦距離或測地線距離) 的各種組合。基於這些原則, 目前大多數工作進行展開研究。

Translation Averaging: 平移平均描述了估計全域性相機位置的問題,這些位置在基於約束 的條件下與成對的相對平移 最大限度一致。然而,由於噪聲和異常值,以及相對平移的未知尺度,任務尤其具有挑戰性。

近年來,提出了不同的平移平均方法。Govind的開創性工作最小化了相對相機位置和觀察方向之間的叉乘。Jiang等使用三元組對問題進行了線性化。Wilson等直接最佳化方向的差異,並設計了專門的異常值過濾機制。儘管這些研究取得了顯著進展,但平移平均通常僅在檢視圖連線良好時才能可靠工作。這個問題本質上是不適定的,並且在相機受到或接近共線運動時對噪聲測量敏感。此外,從雙檢視幾何中提取相對平移只有在已知相機內參的情況下才可能。當這些資訊不準確時,提取的平移不可靠。相反,作者跳過了平移平均的步驟,直接對相機和點的位置進行聯合估計,視為一種全域性定位。

Structure for Camera Pose Estimation: 例如直接使用雙檢視幾何中的對應關係來估計全域性平移。此外,為了減少尺度漂移,Holynski等將線和麵特徵整合到最佳化問題中。這些工作是將對3D場景結構的約束納入有助於提高相機位置估計的魯棒性和準確性。

2.3 Global Structure and Pose Refinement

在恢復相機後,可以透過三角測量獲得全域性3D結構。結合相機的外部引數和內部引數,3D結構通常會使用全域性束調整進行精細化。

Global Triangulation: 給定雙檢視匹配,可以利用傳遞對應關係來增強完整性和準確性。多檢視點的三角測量,此類任務的常見做法是直接線性變換(DLT)和中點法,以及最近的LOST方法。然而,上述三角測量機制在存在任意水平的異常值時往往會失效。基於RANSAC的三角測量方案,試圖在存在不匹配的情況下建立多個點軌跡。

Global Bundle Adjustment: 全域性束調整對獲得準確的最終3D結構 , 相機外部引數 和相機內部引數 至關重要。它被形式化為一種聯合魯棒最佳化, 目標是最小化重投影誤差, 如公式2所示:

ECCV24|全域性式SfM最新SOTA,GLOMAP重新定義SfM!

2.4 Hybrid Structure-from-Motion

為了結合增量方法的魯棒性和全域性結構從運動(SfM)的效率,之前的研究提出了混合系統。HSfM提出了透過增量估計相機的位置和旋轉。還有研究提出了一個圖劃分方法,首先將整個影像集劃分為重疊的簇。在每個簇內,利用全域性SfM方法估計相機姿態。然而,根據研究公式,當相機內部引數不準確時,這類方法依然不可用。作者透過在全域性定位步驟中對目標進行不同建模,克服了這一限制。

2.5 Frameworks for Structure-from-Motion

目前有多個開源的結構從運動(SfM)框架可供使用。例如,增量SfM正規化的代表-COLMAP,一個通用的SfM和多視角立體系統。開源的全域性SfM流程,例如OpenMVG,它從幾何驗證匹配開始,使用對立RANSAC估計相對姿態。之後,OpenMVG透過調整迴圈長度加權來評估旋轉一致性,以消除異常邊,並利用剩餘邊透過稀疏特徵值求解器求解全域性旋轉。全域性平移透過三焦點張量進行精細化,然後使用方法進行平移平均。最後,OpenMVG透過逐點最佳化和全域性束調整執行全域性三角測量。類似方法還有Theia。

基於學習的系統流程有PixSfM,提出了一個聯合最佳化機制,用於特徵和結構以實現亞畫素準確重建。VGGSfM,一個用於SfM任務的端到端學習框架。但是,這兩種方法的處理能力僅限於數十幅影像。

本文出了一個新的端到端全域性SfM流程(如圖2所示)。

ECCV24|全域性式SfM最新SOTA,GLOMAP重新定義SfM!
圖2|GLOMAP系統處理流程©️【深藍AI】編譯

03 方法精析

本節描述GLOMAP作為全域性SfM是如何在魯棒性和準確性方面縮小與增量SfM的差距。

3.1 Feature Track Construction

為了實現精確的重建,必須仔細構建特徵軌跡。首先只考慮由兩檢視幾何驗證產生的內點特徵對應。在這一步中,需要對兩檢視幾何的初始分類進行區分:如果單應矩陣最能描述兩檢視幾何,會使用矩陣來驗證內點。同樣的原理也適用於本質矩陣和基本矩陣。然後透過進行趨勢性檢驗來過濾異常值。靠近任何一個極點或三角化角度較小的匹配也被移除,以避免由於較大的不確定性而產生的奇異性。在對所有檢視圖邊進行成對過濾後,最後拼接所有剩餘的匹配形成特徵軌跡。

ECCV24|全域性式SfM最新SOTA,GLOMAP重新定義SfM!
▲圖3|全域性定位©️【深藍AI】編譯

3.2 Global Positioning of Cameras and Points

這個步驟旨在共同恢復點和相機位置(如圖3所示)。作者這裡沒有先執行平移平均然後進行全域性三角化,而是直接執行聯合全域性三角化和相機位置估計。針對標準增量和全域性SfM系統中,目標函式初始化和誤差的問題,本方法的目標函式,使用歸一化方向差異作為誤差度量。原始形式是基於相對平移提出的,而這裡捨棄了相對平移約束,僅包括相機光線約束。具體來說,問題被建模和最佳化為:

ECCV24|全域性式SfM最新SOTA,GLOMAP重新定義SfM!

其中, 是從相機 觀察點 的全球旋轉相機光線, 而 是一個歸一化因子。Huber作為魯棒化函式 ,並且使用Levenberg-Marquardt作為最佳化器。所有點和相機變數均透過均勻隨機分佈初始化在範圍 內, 而歸一化因子初始化為 。

與重投影誤差相比,本方法有幾個優點。首先是魯棒性。儘管重投影誤差是無界的,上述公式等價於

ECCV24|全域性式SfM最新SOTA,GLOMAP重新定義SfM!

其中對於最佳的 是 和 之間的角度。因此,誤差嚴格限制在[0,1]範圍內。這樣,異常值不會對結果產生重大偏差。其次,由於其雙線性形式,在隨機初始化時能夠可靠收斂。

與經典的平移平均相比,在最佳化中捨棄相對平移項有兩個關鍵優點。首先,本方法適用於內參不準確或未知以及不遵循預期針孔模型的退化相機的資料集(例如,處理任意網際網路照片時)。這是它因為解決相對平移需要準確內參的知識。其次是全域性SfM在共線運動場景中的適用性,這已知是平移平均的一個退化情況。與成對的相對平移相比,特徵軌跡限制了多個重疊相機。因此,GLOMAP可以在常見的前向或側向運動場景中更可靠地處理。

3.3 Global Bundle Adjustment

全域性定位步驟為相機和點提供了一個穩健的估計。但是,當相機內參未知時,精度受到限制。為了進一步最佳化,利用Levenberg-Marquardt和Huber損失作為魯棒化器進行了多輪的全域性光束平差。在每一輪中,首先固定相機的旋轉,然後與內參和點一起進行聯合最佳化。然後,根據影像空間中的重投影誤差過濾軌跡。當過濾軌跡的比例低於0.1%時,迭代停止。

3.4 Camera Clustering

解決被採集的影像,不重疊的影像可能會被錯誤地匹配在一起。因此,不同的重構可以合併為一個重構。為了克服這個問題,透過對相機進行聚類來對重建進行後處理。首先,透過統計每個影像對的可視點數構建可視性圖G。然後,尋找G中的強連通分量來發現具有良好約束的相機簇。遞迴地重複這個過程,直到沒有更多的簇可以合併為止。

3.5 Proposed Pipeline

如圖2所示,GLOMAP方法的流程圖。該方法由兩個主要元件組成:對應關係搜尋和全域性估計。對於對應關係搜尋,它以特徵提取和匹配開始。從匹配中估計兩檢視幾何,包括基本矩陣、必需矩陣和單應性。幾何上不可行的匹配會被排除。然後在幾何驗證的影像對上執行檢視圖校準。使用更新後的相機內參,估計相對相機姿態。關於全域性估計,透過平均來估計全域性旋轉,並透過對 和 之間的角度距離進行閾值過濾來排除不一致的相對姿態。然後,透過全域性定位聯合估計相機和點的位置,隨後進行全域性束調整。同樣的,重建的精度可以透過結構最佳化進一步提高。

04 實驗

在各種資料集上對GLOMAP進行了大量實驗,這些資料集覆蓋了從標定到未標定、從無序到序列場景的情況。資料集包含ETH3D、LaMAR、2023年影像匹配挑戰賽(IMC 2023)和 MIP360,並與最先進的框架(OpenMVG、Theia、COLMAP)進行了比較。

Metrics 對於所有評估,採用兩個標準指標。對於無序影像資料,基於每對影像之間相對旋轉和位移誤差的最大值計算出的AUC(召回曲線下的面積)得分,這種誤差的表述考慮了每一對可能相機之間的偏差。對於序列影像資料,在使用魯棒的RANSAC方案將重建結果全域性對齊到真實值後計算的相機位置誤差的AUC得分。

4.1 Calibrated Image Collections

資料集ETH3D SLAM包含稀疏特徵、動態物體和劇烈光照變化的序列資料。在具有毫米級精確地面真值的訓練序列上進行方法評估。結果表明(如表1所示),GLOMAP系統的召回率比COLMAP高出約8%,在0.1m和0.5m閾值下分別提高9分和8分,且COLMAP的速度慢一個數量級。與其他全域性SfM流程相比,GLOMAP在召回率上提高了18%和4%,在0.1m下AUC高出約11分,確認了其穩健性。

ECCV24|全域性式SfM最新SOTA,GLOMAP重新定義SfM!
▲表1|ETH3D SLAM資料集實驗結果對比©️【深藍AI】編譯

ETH3D MVS(rig)每個場景包含約1000個多機rig曝光,每個曝光4張影像。該資料集包含室外和室內場景,5個訓練序列具有毫米級的地面真值。結果如表2所示,GLOMAP成功重建了所有場景。相比之下,OpenMVG在所有場景上的表現較差,而COLMAP在一個場景上失敗,Theia的表現始終低於本文的方法。在COLMAP成功的序列中,GLOMAP達到相似或更高的精度,其執行時間比全域性SfM基線略慢,但比COLMAP快約3.5倍。

ECCV24|全域性式SfM最新SOTA,GLOMAP重新定義SfM!
▲表2|ETH3D MVS(rig)資料集實驗結果對比©️【深藍AI】編譯

ETH3D MVS(DSLR)特徵是一個無序的高解析度影像集合,包含室內和室外場景,訓練和測試序列都具有毫米級的地面真值。結果如表3所示,與其他ETH3D資料集一致,GLOMAP優於OpenMVG和Theia,同時與COLMAP達到類似的精度。對於exhibition_hall,GLOMAP的表現不準確,因為場景的旋轉對稱性導致旋轉平均崩潰。由於場景規模較小,所有方法的執行時間相近。

ECCV24|全域性式SfM最新SOTA,GLOMAP重新定義SfM!
▲表3|ETH3D MVS(DSLR)資料集實驗結果對比©️【深藍AI】編譯

LaMAR是一個大規模的室內和室外基準測試,每個場景包含數萬個由各種AR裝置和智慧手機拍攝的影像。實驗結果如表4所示,與其他基線相比,GLOMAP在HGE和LIN上實現了顯著更準確的重建,包括COLMAP,同時在速度上比COLMAP快幾個數量級。在CAB上,包括COLMAP在內的所有方法表現不佳,特別是在視覺檢查中,由於存在許多前向運動軌跡、劇烈的晝夜光照變化,以及樓層/房間之間的許多對稱性和重複外立面,這對這個極具挑戰性的基準造成了很大的影響。

ECCV24|全域性式SfM最新SOTA,GLOMAP重新定義SfM!
▲表4|LaMAR資料集實驗結果對比©️【深藍AI】編譯

4.2 Uncalibrated Images Collections

IMC 2023包含在複雜場景中unordered(無序)的影像集合。影像來自多個來源,通常缺乏先前的相機內參。結果如表5所示。GLOMAP在3°、5°和10°下的平均AUC分數比其他全域性SfM基線高出幾倍。執行時間與其他全域性SfM流程相似。與COLMAP相比,所提方法在3°、5°和10° 下的AUC分數高出約4分,並且速度快約8倍。

ECCV24|全域性式SfM最新SOTA,GLOMAP重新定義SfM!
▲表5|IMC 2023資料集實驗結果對比©️【深藍AI】編譯

MIP360包含7個以物體為中心的場景,這些場景的高解析度影像是由同一相機拍攝的。如表6所示,GLOMAP與全域性SfM基線相比,顯著更接近參考模型。GLOMAP速度超過COLMAP的1.5倍。

ECCV24|全域性式SfM最新SOTA,GLOMAP重新定義SfM!
▲表6|MIP360資料集實驗結果對比©️【深藍AI】編譯

4.3 Ablation

為了證明全域性定位策略的有效性,透過替換元件進行實驗,一是僅新增相對位移約束,稱為(BATA,cam),以及二是新增點和位移約束(BATA,cam+pt)。在 ETH3D MVS(DSLR)和IMC 2023上進行了測試。結果表明(如表7所示),相對位移約束會降低收斂性和整體效能。

ECCV24|全域性式SfM最新SOTA,GLOMAP重新定義SfM!
▲表7|消融實驗結果©️【深藍AI】編譯

4.4 Limitations

儘管GLOMAP總體上取得了不錯的的效能,但某些情況下會失效。主要原因是旋轉均值計算的失敗,例如,由於對稱結構(如表3中的Exhibition_Hall)。在這種情況下,GLOMAP可以與現有的方法結合,比如Doppelganger。此外,由於GLOMAP依賴傳統的對應搜尋,錯誤估計的雙檢視幾何或完全無法匹配影像對(例如,由於外觀或視角的劇烈變化)將導致結果下降,或在最壞的情況下,出現災難性故障。

05 總結

GLOMAP 提出了一種新的全域性SfM流程。以前的全域性SfM系統被認為更高效但魯棒性較差,GLOMAP重新審視了這個問題,發現解決關鍵在於在最佳化中使用點。GLOMAP不再透過不適定的位移平均來估計相機位置,也不再單獨透過點三角測量獲取3D結構,而是將它們合併為一個單一的全域性定位步驟。透過在多個資料集上進行實驗對比,GLOMAP在準確性和魯棒性方面與增量方法相比有類似或更優的結果,同時速度快十倍。

歡迎關注公眾號CV技術指南,專注於計算機視覺的技術總結、最新技術跟蹤、經典論文解讀、CV招聘資訊。

計算機視覺入門1v3輔導班

【技術文件】《從零搭建pytorch模型教程》122頁PDF下載

QQ交流群:470899183。群內有大佬負責解答大家的日常學習、科研、程式碼問題。

其它文章

分享一個CV知識庫,上千篇文章、專欄,CV所有資料都在這了

明年畢業,還不知道怎麼做畢設的請抓緊機會了

LSKA注意力 | 重新思考和設計大卷積核注意力,效能優於ConvNeXt、SWin、RepLKNet以及VAN

CVPR 2023 | TinyMIM:微軟亞洲研究院用知識蒸餾改進小型ViT

ICCV2023|漲點神器!目標檢測蒸餾學習新方法,浙大、海康威視等提出

ICCV 2023 Oral | 突破性影像融合與分割研究:全時多模態基準與多互動特徵學習

聽我說,Transformer它就是個支援向量機

HDRUNet | 深圳先進院董超團隊提出帶降噪與反量化功能的單幀HDR重建演算法

南科大提出ORCTrack | 解決DeepSORT等跟蹤方法的遮擋問題,即插即用真的很香

1800億引數,世界頂級開源大模型Falcon官宣!碾壓LLaMA 2,效能直逼GPT-4

SAM-Med2D:打破自然影像與醫學影像的領域鴻溝,醫療版 SAM 開源了!

GhostSR|針對影像超分的特徵冗餘,華為諾亞&北大聯合提出GhostSR

Meta推出畫素級動作追蹤模型,簡易版線上可玩 | GitHub 1.4K星

CSUNet | 完美縫合Transformer和CNN,效能達到UNet家族的巔峰!

AI最全資料彙總 | 基礎入門、技術前沿、工業應用、部署框架、實戰教程學習

計算機視覺入門1v3輔導班

計算機視覺交流群

相關文章