全面梳理200+篇前沿論文,視覺生成模型理解物理世界規律的通關密碼,都在這篇綜述裡了!

机器之心發表於2025-02-02

圖片

AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。

投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

當下,影片生成備受關注,有望成為處理物理知識的 “世界模型” (World Model),助力自動駕駛、機器人等下游任務。然而,當前模型在從 “生成” 邁向世界建模的過程中,存在關鍵短板 —— 對真實世界物理規律的刻畫能力不足。

為此,來自悉尼大學、西澳大學等研究機構的研究者,帶來了一篇聚焦於生成式“物理 AI”的綜述文章,深度剖析如何將物理規律融入視覺生成模型。

圖片
  • 論文標題:Generative Physical AI in Vision: A Survey
  • 論文連結:https://arxiv.org/abs/2501.10928
圖片
生成式“物理 AI”的核心概念

綜述圍繞生成式“物理 AI”,先明確了相關定義。物理模擬(Physical Simulation)是依據物理模型讓輸入資料隨時間演變;物理理解(Physical Understanding)是從觀測資料推斷物理模型或引數;而生成(Generation)則是用生成模型創造新內容,其中不涉及對物理規律深入理解的為無物理感知的生成(Physics-Unaware Generation),反之則是物理感知生成(Physics-Aware Generation)。

物理感知生成可細分為兩類。一類是基於顯式物理模擬的(PAG-E),這類方法顯式利用物理模擬模型提升生成模型的物理刻畫能力;另一類是無顯式物理模擬的(PAG-I)。在 PAG-E 中,根據 “物理模擬” 與 “生成模型” 的融合方式,可歸納為六大正規化。
圖片
有顯式模擬的生成(PAG-E):六大正規化

正規化一:生成後模擬(Gen-to-Sim)

這類方法通常在生成內容後,為其新增物理屬性,使其可模擬和互動。比如 PIE-NeRF 在 神經輻射場中分佈可模擬的 “粒子”,實現使用者與場景的互動;PhysGaussian 利用材料點法(MPM)將 3D 高斯核視為可模擬的 “粒子”,模擬形變等物理現象;VR-GS、LIVE-GS 和 DreMa 等也基於此正規化,實現 VR 3D 內容的互動或機器人對物體擺放場景的預測。

正規化二:生成中模擬(Sim-in-Gen)

此正規化將物理模擬直接整合到生成模型中,作為核心子模組。比如 PhysGen 基於牛頓定律下的剛體動力學,結合大模型推斷的物理引數,實現使用者外力控制下的影片生成;PhyCAGE 把 MPM 物理模擬器當作最佳化器,將損失函式的梯度視為物理模擬中的速度;PhysDiff 將物理約束加入擴散模型的取樣過程中,生成合理的人體運動等。

正規化三:生成與模擬並行(Gen-and-Sim)

該正規化中,生成和模擬同時進行或具有緊密關聯。比如 PAC-NeRF 利用混合 Eulerian-Lagrangian 表示,同時推斷物體的幾何和物理引數;iPAC-NeRF 在此基礎上直接在 Lagrangian 空間中最佳化粒子位置和特徵;PhysMotion 在影像到影片生成過程中,將生成過程與模擬過程交替進行等。

正規化四:模擬約束生成(Sim-Constrained Gen)

這種正規化下,物理模擬為生成模型提供訓練約束或指導。比如 PhysComp 使用基於物理的損失函式,確保生成的 3D 模型在力作用下表現真實;Atlas3D 透過保證在物理模擬中的穩定性,生成可自支撐的 3D 模型;DiffuseBot 則將物理模擬作為資料過濾方式,篩選物理效能好的生成結果等;

正規化五:生成約束模擬(Gen-Constrained Sim)

此正規化中,生成模型為模擬過程提供指導或先驗知識。比如 Physics3D 結合影片擴散模型和 MPM,利用分數蒸餾取樣(Score Distillation Sampling)最佳化物理引數;DreamPhysics 進一步提出運動蒸餾取樣(Motion Distillation Sampling);PhysDreamer 從生成的影片資料中學習最佳化物理模擬的引數等。

正規化六:模擬評估生成(Sim-Evaluated Gen)

這種正規化下,生成的內容旨在用於基於模擬的部署,注重在模擬環境中的實用性。比如 PhysPart 生成可用與 3D 列印和機器人場景的 3D 替換部件;PhyScene 生成適合 Embodied AI 的高質量 3D 互動場景等。

無顯式模擬的生成(PAG-I)

綜述還介紹了無顯式模擬的物理感知生成(PAG-I)的相關工作。一些影片生成大模型展現出一定的物理推理能力,能捕捉和復現部分物理動態和因果關係。

此外,PhyT2V 使用大語言模型為視覺生成提供物理知識,透過迭代最佳化文字提示詞提升文生影片模型的物理真實性;Generative Interactive Dynamics 的相關研究聚焦於模擬影像或影片中物體受外力影響下的變化規律;Motion Prompting 等方法利用運動軌跡等控制影片生成和編輯;CoCoGen 等則透過在取樣過程中注入物理資訊,生成符合物理規律的特定領域資料等。

物理評估:衡量模型的物理 “實力”

綜述同時分析了現有方法如何評估影像或影片生成模型的物理刻畫能力。傳統評估指標在檢測物理規律的符合程度方面存在不足。

為此,研究者們提出了專門的資料集和指標。比如 PhyBench、PhyGenBench 和 VideoPhy 等 Benchmark,涵蓋力學、光學、熱學和材料等物理領域,透過構建相關場景和文字提示詞來評估模型。

在評估指標方面,分為人工評估和自動評估,人工評估針對物理現象的不同維度進行打分,自動評估則包括利用視覺語言模型 LVMs 獲取評估分數等。

來展望:物理 AI 的無限可能

最後,綜述展望了生成式“物理 AI”的未來方向,涵蓋評估方式、可解釋性、物理知識增強的大模型、神經 - 符號混合模型、生成式模擬引擎、跨學科應用等多種可能。讓我們持續關注,共同見證 “物理 AI” 的發展。

如果想深入瞭解文中提及的研究成果,歡迎訪問 https://github.com/BestJunYu/Awesome-Physics-aware-Generation 檢視相關論文彙總。
圖片

相關文章