Video Depth Anything來了!位元組開源首款10分鐘級長影片深度估計模型,效能SOTA

机器之心發表於2025-01-27
圖片
AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

Video Depth Anything 工作來自位元組跳動智慧創作 AR 團隊與豆包大模型團隊。位元組跳動智慧創作 AR 團隊致力於建設領先的計算機視覺、音影片編輯、特效處理、3D 視覺與擴增實境(AR)等技術。豆包大模型團隊成立於 2023 年,致力於開發先進的 AI 大模型技術,成為業界一流的研究團隊。

單目深度估計模型,可根據二維 RGB 影像估計每個畫素點的深度資訊,在擴增實境、3D 重建、自動駕駛領域應用廣泛。作為此領域的代表性成果,Depth Anything 系列在 Github 已總計收穫 11.6k Stars,應用範圍之廣、受歡迎程度之高也可見一斑。

但時間一致性問題限制了單目深度估計模型在影片領域的實際應用。如何構建一個又準又穩又快的長影片深度模型,成為單目深度估計進一步擴大應用範圍的關鍵。

近期,位元組智慧創作 AR 團隊聯合豆包大模型團隊開發的 Video Depth Anything(VDA) 成功解決這一難題。

VDA 基於 Depth Anything V2,它融合了高效的時空頭、精簡的時域一致性損失函式,以及新穎的基於關鍵幀長影片推理策略,甚至可面向 10 分鐘級的影片,完成深度估計任務。

在不犧牲泛化能力、細節生成能力和計算效率前提下,VDA 實現了時序穩定的深度估計,且無需引入複雜影片生成先驗知識,為單目深度估計在影片領域應用提供全新解決方案。Video Depth Anything來了!位元組開源首款10分鐘級長影片深度估計模型,效能SOTA
實驗結果表明,VDA 在影片資料集的精度和穩定性指標均取得 SOTA,尤其精度提升超過 10 個百分點,且推理速度均遠快於此前同類模型,其速度是此前最高精度模型的 10 倍以上。在 V100 下,較小版本 VDA 模型推理速度甚至可達 30FPS(每秒 30 幀)。
圖片
目前,該論文成果和程式碼倉庫均已對外公開,專案上線數天已收穫 300+ Stars,X 原貼閱讀量也超過 2 萬,另有多個轉發閱讀量超 1 萬,包括 Gradio 官號。
圖片
圖片
  • 論文連結:https://arxiv.org/abs/2501.12375
  • 專案主頁:https://videodepthanything.github.io/
  • 程式碼倉庫:https://github.com/DepthAnything/Video-Depth-Anything

影片深度估計的挑戰

近年來單目深度估計(MDE)取得顯著進展。以 Depth Anything V2 為例,該模型在多種場景下均能展現強泛化能力,可生成細節豐富的深度預測結果,同時,具備較高的計算效率。

然而,該系列模型存在一定侷限。

具體來說,模型主要針對靜態影像設計,用於影片場景時,很容易因畫面劇烈變化和運動模糊等因素,造成深度預測準確性和穩定性下降。

在一些對時間一致性要求較高的應用領域,如機器人、擴增實境以及高階影片編輯等,嚴重製約了模型的應用。

近期有一些方法如 DepthCrafter、Depth Any Video,將預訓練影片擴散模型( Video Diffusion Models)應用於影片深度估計。

儘管它們在生成細節方面表現良好,但計算效率較低,無法充分利用現有深度基礎模型,精度也有待提升,處理影片長度還存在限制,難以滿足實際應用中對長影片的處理需求。

VDA 模型設計:兼顧預測精度與效率

  • 從單圖深度模型到影片深度模型

VDA 使用訓好的 Depth Anything V2 模型作為編碼器,並在訓練過程中,固定編碼器引數,降低訓練成本並保留已學習到的特徵。

VDA 設計了一個輕量級時空頭(Spatio-Temporal Head,STH),包含四個時間注意力層,這些層在每個空間位置上獨立進行時間維度資訊融合。

值得注意的是,VDA 僅在頭部引入時間注意力機制,同時引入影像和影片訓練,避免在有限影片資料上訓練,破壞原有模型特徵。
圖片
  • 時空一致性約束

為了約束時序一致性,並去除以往影片深度模型訓練過程中對光流資訊的依賴,VDA 提出時序梯度匹配損失(Temporal Gradient Matching Loss)。

具體來說,不再從光流中獲得對應點,直接使用相鄰幀中相同座標深度來計算損失,假設相鄰幀中相同影像位置的深度變化應與真實值變化一致,類似於計算時間維度上的梯度:
圖片
  • 超長影片推理策略

為了處理任意影片長度,VDA 提出關鍵幀對齊和重疊區域插值方法,以對齊全域性尺度和偏移,並確保區域性視窗之間的平滑推理。

用於推理的後續影片片段由未來幀、重疊幀和關鍵幀組成,其中,關鍵幀從之前的幀中子取樣得到。

這種方法將早期視窗內容引入當前視窗,保持計算負擔最小,可顯著減少累積的尺度漂移,尤其利於長影片處理。
圖片
實驗結果:
VDA 精度、速度、穩定性均重新整理 SOTA

VDA 在 6 個包含室內外場景的 Benchmark 上,從幾何精度、時序穩定性、耗時三個方面和學界 SOTA 方案進行對比。

其中,長影片 Benchmark 精度和時序穩定性誤差均為最優。其中,VDA-L 在多項評估指標上面獲得最佳,VDA-S 的效果次之,雙雙大幅優於 DepthCrafter 和 DAv2-L。
圖片
研究者還發現,隨著影片長度增長,VDA 比對 DepthCrafter 和 DepthAnyVideo 指標沒有明顯下降,這也是它在超長影片上實現穩定深度估計的有力證明。
圖片
最後,團隊實驗還證明了 VDA 模型耗時遠小於其他影片深度模型,即使相比單幀模型 Depth Anything V2,耗時也只增加約 10%。尤其 DVA-S 模型,單幀推理時間僅 9.1ms,面向實時性要求較高的場景,具有較大應用潛力。
圖片
更多實驗配置和測試細節請移步完整論文(https://arxiv.org/abs/2501.12375)

相關工作 Prompt Depth Anything 也已開源

除了影片深度模型外,豆包大模型團隊於近期同浙江大學合作開源了 Prompt Depth Anything 技術,實現了 4K 解析度下的高精絕對深度估計(Metric Depth),一作豆包大模型團隊實習生同學。

絕對深度估計,指依靠模型,預測場景中每個畫素點到攝像機的真實物理距離(以米、毫米等物理單位表示)。相比當前百花齊放的基礎深度估計模型(如 Depth Anything V1&V2、Margold 等),絕對深度估計仍面臨巨大挑戰。

面向該問題,豆包大模型團隊與浙江大學聯合團隊受語言 / 視覺基礎模型中提示詞機制啟發,創新性地提出了深度估計基礎模型的提示機制 ——

透過以 iPhone LiDAR 感測器採集的 24x24 絕對深度作為提示,促使模型最多可輸出 3840x2160 同精度級別的絕對深度。該方法具有普適性,可應用於任意形式的提示內容,比如車載 LiDAR、雙目匹配深度、相機內參等。

團隊認為,該成果具備廣泛的下游應用空間,比如 3D 重建:Video Depth Anything來了!位元組開源首款10分鐘級長影片深度估計模型,效能SOTA自動駕駛: Video Depth Anything來了!位元組開源首款10分鐘級長影片深度估計模型,效能SOTA機器人抓取任務等: Video Depth Anything來了!位元組開源首款10分鐘級長影片深度估計模型,效能SOTA該專案現已開源,更多方法介紹以及實驗結果見論文主頁(https://promptda.github.io/)。

相關文章