把Waymo玩成GTA遊戲!全生成式的車輛行駛軌跡影片合成器來了

机器之心發表於2024-11-08

圖片

AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

來自中科院自動化所的團隊提出 FreeVS,一個全生成式的新視角合成方法。相較於僅能在記錄的車輛行駛原軌跡上渲染高質量相機視角的基於場景重建的方法,FreeVS 能夠作為生成引擎渲染真實場景中任意車輛行駛軌跡下的影片。FreeVS 可被直接部署於任何測試場景,而無需負擔通常耗時 2-3 小時的場景重建過程。

圖片

真實影片

圖片

新軌跡下相機影片

圖片

  • 論文連結:https://arxiv.org/abs/2410.18079
  • 專案主頁:https://freevs24.github.io/

以生成模型合成真實場景中的相機成像

現有駕駛場景中的新視角合成方法多遵循「場景重建 - 新視角渲染」的管線,依靠重建得到的 NeRF 或 3D-GS 等場景表示來渲染新視角下的成像。

然而基於重建的方法具有兩大瓶頸,1)無法合理渲染缺少對應觀測的新視角上的影像,2)場景重建耗時長;這使得重建方法無法高效高質地在實際資料採集軌跡之外渲染大量新相機檢視。

如簡單的視角左右平移即會引起前有方法影像渲染質量的嚴重下降:

圖片

與前有重建方法在原訓練視角、訓練視角右一米、訓練視角上一米的視角合成效果對比。

對此,作者提出一種新穎的完全基於生成模型的新視角合成方法 FreeVS。作者採用一簡潔有效的生成管線,可嚴格基於已觀測到的三維場景生成任意視角的相機觀測,且無需進行場景重建。

圖片

FreeVS 方法管線。生成模型基於染色點雲投影恢復相機成像。

作者採用從稀疏點雲投影中恢復相機成像的生成管線,這使得生成模型的行為類似於 Inpainting 模型,基於稀疏但可靠的點雲投影點補全目標影像。

在訓練過程中,生成模型學習基於給定幀的三維先驗生成鄰近幀的相機成像。儘管訓練資料中駕駛車輛在絕大多情況下走直線前行,但生成模型可沿車輛軌跡在側向相機視角學習相機視角的橫向移動。

在測試階段,以影像資訊染色的場景三維點雲被投影至任意所需視角,以控制影像生成結果。

圖片

FreeVS 方法訓練資料與推理效果示例。即使訓練資料中無車輛橫向移動到逆行車道的例子,生成模型仍然可依靠側向相機的訓練對((c)->(a))學習相機的側向移動,從而生成合理的高質量成像 (f)。

車輛行駛模擬與場景編輯

以 Waymo 資料集中的真實場景為例,FreeVS 能夠在駕駛車輛原本並未移動的場景模擬車輛移動:

圖片

真實影片

圖片

新軌跡下相機影片

能模擬車輛變線行駛,甚至能秒變 GTA,使車輛撞向行人:

圖片

真實影片

圖片

新軌跡下相機影片

能在原本直行的場景令車輛走大 Z 型前進:

圖片

真實影片

圖片
新軌跡下相機影片

也能對場景內容進行編輯。任意替換場景車輛,或定製車輛運動。
圖片
真實影片
圖片
場景編輯後相機影片
圖片
真實影片
圖片
場景編輯後相機影片

與前有基於重建的方法比較,FreeVS 在新車輛運動軌跡下幾乎不受影像模糊、偽影等現象困擾。把Waymo玩成GTA遊戲!全生成式的車輛行駛軌跡影片合成器來了
FreeVS 與前有方法在新軌跡模擬的表現對比。

新相機模擬

除新行駛軌跡下視角合成,FreeVS 還能合成虛擬相機位置上的成像。而前有基於重建的方法難以應對虛擬相機位置上全部觀測的缺失。
圖片
新相機模擬示意圖
圖片
FreeVS 與前有方法在新相機模擬的表現對比。

相關文章