前言 為了解決基於深度學習方法泛化性的問題,來自廈門大學、Intel、大疆的研究者們提出了 GIM: Learning Generalizable Image Matcher from Internet Videos。GIM 是第一個可以讓匹配模型從網際網路影片中學習到強泛化能力的訓練框架。
本文轉載自機器之心
僅用於學術分享,若侵權請聯絡刪除
歡迎關注公眾號CV技術指南,專注於計算機視覺的技術總結、最新技術跟蹤、經典論文解讀、CV招聘資訊。
CV各大方向專欄與各個部署框架最全教程整理
【CV技術指南】CV全棧指導班、基礎入門班、論文指導班 全面上線!!
論文主頁:https://xuelunshen.com/gim論文地址:https://arxiv.org/abs/2402.11095論文影片:https://www.youtube.com/watch?v=FU_MJLD8LeY程式碼地址:https://github.com/xuelunshen/gim線上模型:https://huggingface.co/spaces/xuelunshen/gim-onlineGIM 從易於獲取、種類繁多且近乎於無限的網際網路影片 (如圖 1 所示) 中提取有效的監督訊號,用於匹配模型的訓練。
圖 1. 部分網際網路影片包含的多樣場景GIM 框架適用於訓練所有匹配模型。如圖 2 所示,三個匹配模型 DKM、LoFTR 和 SuperGlue 分別對應了:密集匹配、半密集匹配和稀疏匹配這三種主流匹配正規化。在 GIM 框架下,用於訓練的影片時長越長,匹配模型的效能就會越高。從目前的折線來看,在使用 50 小時的影片後,效能還沒有表現出飽和的現象,因此如果使用更多的影片,效能還會進一步提高。
圖 2. 用於訓練的影片時長和模型泛化效能的關係
為了能充分衡量一個匹配模型的泛化效能,作者提出了第一個 Zero-shot Evaluation Benchmark (ZEB)。如圖 3 所示,ZEB 由 12 個涵蓋各種場景、天氣和相機模型的公開資料集組成,大約包含 4.6 萬對測試圖片。ZEB 所包含的資料數量遠多於現有方法普遍採用的,由 MegaDepth 和 ScanNet 組成,僅包含 3000 對影像的測試集。
圖 3.ZEB 的組成情況
圖 2 中的模型泛化效能正是來自 ZEB 的評估結果,具體的評估結果在圖 4 展示。Mean Rank 指標代表匹配模型在 12 個測試序列中的平均排名,排名越接近於 1 越好。Mean AUC@5° 代表匹配模型對姿態估計的準確度,數值越高越好。
圖 4. 匹配模型泛化效能評估結果從圖 4 可以看到,GIM 可以明顯地提升匹配模型的泛化效能。在被 GIM 訓練前,SuperGlue 和 LoFTR 在 GL3、BLE 和 GTA 序列中甚至不如傳統演算法 RootSIFT。在被 GIM 訓練後,這兩個模型的泛化效能都得到了極大的提升。正如剛才所說,50 小時的影片資料還遠未讓模型的效能達到極限。按照作者最新的 100 小時影片資料訓練結果,效能已經可以達到 51.2,遠超現有的模型。如圖 5 所示,匹配模型的泛化效能提升,同樣會為下游任務帶來增益。值得注意的是,在圖 5 的重定位任務中,GIM 都是僅以一個模型和其他特定場景的模型進行對比,但依然能取得更好的結果。
圖 5. 匹配模型在下游任務:單應性矩陣估計、室內和室外重定位任務下的效能表現雙檢視影像匹配的結果如下圖所示:
圖 6. 匹配模型在雙檢視匹配下的視覺化結果除此之外,如圖 7 所示,GIM 模型強大的泛化效能還可以處理訓練中從未見過的點雲鳥瞰圖匹配任務。
圖 7. 匹配模型在點雲鳥瞰圖匹配下的視覺化結果作為多檢視重建的通用方法,COLMAP 被廣泛地應用於如 visual localization,neural rendering 等下游任務。將 COLMAP 中的匹配方法替換成 GIM,多檢視重建的效果更好,這極大程度地提升了 COLMAP 的魯棒性。
圖 8. 不同匹配模型對多檢視重建的影響。第一行是部分重建影像的展示。第二行是重建的結果展示。讀者感興趣可以去論文主頁和介紹影片中觀看動態可互動的結果。由於 GIM 能夠有效提升 COLMAP 多視角重建的質量,因此,GIM 也能為對應的下游任務中「增光添彩」,下面幾張圖展示了用 GIM 的 COLMAP 結果來初始化 Gaussian Splatting 的效果。可以看到在一些有挑戰性的場景中,基於 SIFT 和 DKM 的 COLMAP 都不能夠很好地提供有效的 initialization,導致渲染效果不佳。
圖 9. 不同匹配模型在多檢視重建後對 Gaussian Splatting 的影響。讀者感興趣可以去論文主頁和介紹影片中觀看動態結果。
框架方法
圖 10.GIM 框架GIM 框架的方法很簡潔,方法的核心在於利用影片中幀和幀之間的連續性,將匹配從短距離的幀傳遞到長距離的幀上,以此獲取寬基線的訓練影像。第一步,準備一個用於訓練的匹配模型和網際網路影片。第二步,用標準訓練資料(非網際網路影片,如 MegaDepth)訓練匹配模型,然後再收集其他補充的匹配方法,用所有這些方法在網際網路影片上的短距離間隔的幀上進行匹配,獲取較為密集的匹配結果。再用 outlier filtering 過濾一遍匹配。第三步,利用影片的時序關係,將匹配傳遞到更遠的幀上,得到重合度較低和基線較寬的訓練影像對。最後,對傳遞後的影像對及其匹配標籤進行資料增強並進行訓練。下圖是 GIM 在網際網路影片上生成的匹配標籤視覺化。這僅僅是極小的一部分,用於訓練的資料的多樣性遠遠多於作者能展示出來的圖片。
圖 11. 部分網際網路影片標籤的視覺化總結GIM 的提出受到了 GPT 等大模型的啟發,促使作者用海量的影片資料去訓練匹配模型,並達到更高的泛化效能。GIM 的主頁的地址是 http://xuelunshen.com/gim。歡迎大家跳轉到 GIM 的主頁,瀏覽更詳細生動的介紹影片、開源的程式碼,線上體驗 GIM 匹配效果的 HuggingFace Demo。
Blog: https://community.intel.com/t5/Blogs/Tech-Innovation/Artificial-Intelligence-AI/Intel-Labs-Research-Work-Receives-Spotlight-Award-at-Top-AI/post/1575985
歡迎關注公眾號CV技術指南,專注於計算機視覺的技術總結、最新技術跟蹤、經典論文解讀、CV招聘資訊。
計算機視覺入門1v3輔導班
【技術文件】《從零搭建pytorch模型教程》122頁PDF下載
QQ交流群:470899183。群內有大佬負責解答大家的日常學習、科研、程式碼問題。
其它文章
分享一個CV知識庫,上千篇文章、專欄,CV所有資料都在這了
明年畢業,還不知道怎麼做畢設的請抓緊機會了
LSKA注意力 | 重新思考和設計大卷積核注意力,效能優於ConvNeXt、SWin、RepLKNet以及VAN
CVPR 2023 | TinyMIM:微軟亞洲研究院用知識蒸餾改進小型ViT
ICCV2023|漲點神器!目標檢測蒸餾學習新方法,浙大、海康威視等提出
ICCV 2023 Oral | 突破性影像融合與分割研究:全時多模態基準與多互動特徵學習
聽我說,Transformer它就是個支援向量機
HDRUNet | 深圳先進院董超團隊提出帶降噪與反量化功能的單幀HDR重建演算法
南科大提出ORCTrack | 解決DeepSORT等跟蹤方法的遮擋問題,即插即用真的很香
1800億引數,世界頂級開源大模型Falcon官宣!碾壓LLaMA 2,效能直逼GPT-4
SAM-Med2D:打破自然影像與醫學影像的領域鴻溝,醫療版 SAM 開源了!
GhostSR|針對影像超分的特徵冗餘,華為諾亞&北大聯合提出GhostSR
Meta推出畫素級動作追蹤模型,簡易版線上可玩 | GitHub 1.4K星
CSUNet | 完美縫合Transformer和CNN,效能達到UNet家族的巔峰!
AI最全資料彙總 | 基礎入門、技術前沿、工業應用、部署框架、實戰教程學習
計算機視覺入門1v3輔導班
計算機視覺交流群