LeCun贊轉!類Sora模型能否理解物理規律?位元組豆包大模型團隊系統性研究揭秘

机器之心發表於2024-11-08

影片生成模型雖然可以生成一些看似符合常識的影片,但被證實目前還無法理解物理規律!

自從 Sora 橫空出世,業界便掀起了一場「影片生成模型到底懂不懂物理規律」的爭論。圖靈獎得主 Yann LeCun 明確表示,基於文字提示生成的逼真影片並不代表模型真正理解了物理世界。之後更是直言,像 Sora 這樣透過生成畫素來建模世界的方式註定要失敗。

圖片

Keras 之父 François Chollet 則認為,Sora 這樣的影片生成模型確實嵌入了「物理模型」,但問題是:這個物理模型是否準確?它能否泛化到新的情況,即那些不僅僅是訓練資料插值的情形?這些問題至關重要,決定了生成影像的應用範圍 —— 是僅限於媒體生產,還是可以用作現實世界的可靠模擬。最後他指出,不能簡單地透過擬合大量資料來期望得到一個能夠泛化到現實世界所有可能情況的模型。

圖片

此後,關於影片生成模型到底有沒有在學習、理解物理規律,業界始終沒有一個定論。直到近日,位元組豆包大模型團隊公佈的一項系統性研究,為兩者之間的關係「劃上了不等號」。

該團隊透過大規模實驗發現 —— 即便依照 Scaling Law 擴大模型引數與訓練資料量,模型依然無法抽象出一般物理規則,甚至連牛頓第一定律、拋物線運動都無法領會

「影片生成模型目前就像一個只會『抄作業』的學生,可以記憶案例,但還無法真正理解物理規律,做到『舉一反三』。因此,模型遇到未學習過的場景就會『犯迷糊』,生成結果與物理規則不符。」研究作者表示。

相關推文在 X 釋出後,獲得 Yann LeCun 點贊轉發,還評價道 —— 結果雖不意外,但有人嘗試研究確實是一件好事。

此外,CV 大牛謝賽寧和常年活躍的 Gary Marcus 等人也紛紛跟進關注。

圖片

  • 論文標題:How Far is Video Generation from World Model: A Physical Law Perspective
  • 論文連結:https://arxiv.org/abs/2411.02385
  • 展示頁面:https://phyworld.github.io
LeCun贊轉!類Sora模型能否理解物理規律?位元組豆包大模型團隊系統性研究揭秘

Sora 的世界裡,物理學存在麼?

此前 Sora 釋出時,OpenAI 就在其宣傳頁面寫道:我們的成果揭示了 —— 提升影片生成模型引數與資料量,為構建物理世界通用模擬器,提供了一條可行之路。

圖片

給人希望的同時,業內質疑聲紛至沓來,很多人並不認為基於 DiT 架構的影片生成模型能夠真正理解物理規律。其中尤以 LeCun 為代表,一直以來,這位人工智慧巨頭一直堅稱,基於機率的大語言模型無法理解常識,其中包括現實物理規律。

儘管大家眾說紛紜,但市面上,系統性針對該問題的研究一直寥寥。出於對這一課題的好奇,位元組豆包大模型相關團隊於 2024 年初啟動了這一研究立項,並歷經 8 個月終於完成系統性實驗。

原理與實驗設計

在本次工作中,如何定量分析影片生成模型對於物理規律的理解,是一大挑戰。

豆包大模型團隊透過專門開發的物理引擎合成了勻速直接運動、小球碰撞、拋物線運動等經典物理場景的運動影片,用於訓練基於主流 DiT 架構的影片生成模型。然後,透過檢驗模型後續生成的影片在運動和碰撞方面是否符合力學定律,判斷模型是否真正理解了物理規律,並具有「世界模型」的潛力。

針對影片生成模型在學習物理定律時的泛化能力,團隊探討了下面三種場景的表現:

  • 分佈內泛化 (In-Distribution, ID):指訓練資料和測試資料來自同一分佈。
  • 分佈外泛化 (Out-of-Distribution, OOD) :分佈外泛化指的是模型在面對從未見過的新場景時,是否能夠將已學過的物理定律應用到未知的情境。
  • 組合泛化 (Combinatorial Generalization):組合泛化介於 ID 和 OOD 之間,此種情況下,訓練資料已包含了所有「概念」或物體,但這些概念、物體並未以所有可能的組合或更復雜的形式出現。

在基於影片的觀察中,每一幀代表一個時間點,物理定律的預測則對應於根據過去和現在的幀生成未來的幀。因此,團隊在每個實驗中都訓練一個基於幀條件的影片生成模型,來模擬和預測物理現象的演變。

透過測量生成影片每個幀(時間點)中物體位置變化,可判斷其運動狀態,進而與真實模擬的影片資料比對,判斷生成內容是否符合經典物理學的方程表達。

實驗設計方面,團隊聚焦於由基本運動學方程支配的確定性任務。這些任務能清晰定義分佈內 (ID) 和分佈外 (OOD) 泛化,並且能夠進行直觀的誤差量化評估。

團隊選擇了以下三種物理場景進行評估,每種運動由其初始幀決定:

  1. 勻速直線運動:一個球水平移動,速度保持恆定,用於說明慣性定律。
  2. 完美彈性碰撞:兩個具有不同大小和速度的球水平相向運動併發生碰撞,體現了能量與動量守恆定律。
  3. 拋物線運動:一個帶有初始水平速度的球因重力作用下落,符合牛頓第二定律。
LeCun贊轉!類Sora模型能否理解物理規律?位元組豆包大模型團隊系統性研究揭秘
針對組合泛化場景,團隊使用 PHYRE 模擬器評估模型的組合泛化能力。PHYRE 是一個二維模擬環境,其中包括球、罐子、杆子和牆壁等多個物件,它們可以是固定或動態的,且能進行碰撞、拋物線軌跡、旋轉等複雜物理互動,但環境中的底層物理規律是確定性的。

影片資料構造方面,每一個影片考慮了八種物體,包括兩個動態灰色球、一組固定的黑色球、一個固定的黑色條形、一個動態條形、一組動態立式條形、一個動態罐子和一個動態立式棍子。
每個任務包含一個紅色球和從這八種型別中隨機選擇的四個物體,總共形成圖片種獨特的模板。資料示例如下:LeCun贊轉!類Sora模型能否理解物理規律?位元組豆包大模型團隊系統性研究揭秘
對於每個訓練模板,團隊保留了一小部分影片用於建立模板內測試集(in-template evaluation set),再保留 10 個未使用的模板,用於模板外測試集(out-of-template evaluation set),以評估模型對訓練時未見過的新組合的泛化能力。

實驗結果與分析

豆包大模型團隊的實驗發現,即使遵循「Scaling Law」增大模型引數規模和資料量,模型依然無法抽象出一般物理規則,做到真正「理解」。

以最簡單的勻速直線運動為例,當模型學習了不同速度下小球保持勻速直線運動的訓練資料後,給定初始幾幀,要求模型生成小球在訓練集速度區間內勻速直線運動的影片,隨著模型引數和訓練資料量的增加,生成的影片逐漸更符合物理規律。

然而,當要求模型生成未曾見過的速度區間(即超出訓練資料範圍)的運動影片時,模型突然不再遵循物理規律,並且無論如何增加模型引數或訓練資料,生成的結果都沒有顯著改進。這表明,影片生成模型無法真正理解物理規律,也無法將這些規律泛化應用到全新的場景中。

不過,研究中也有一個好訊息:如果訓練影片中所有概念和物體都是模型已熟悉的,此時加大訓練影片的複雜度,比如組合增加物體間的物理互動,透過加大訓練資料,模型對物理規律的遵循將越來越好。這一結果可為影片生成模型繼續提升表現提供啟發。

具體而言,在分佈內泛化(ID)的測試中,團隊觀察到,隨著模型規模增大(從 DiT-S 到 DiT-L)或訓練資料量的增加(從 30K 到 3M),模型在所有三種物理任務中的速度誤差都降低。這表明,模型規模和資料量的增加對分佈內泛化至關重要。

然而,分佈外泛化(OOD)與分佈內泛化(ID)結果形成鮮明對比:

  • 更高的誤差:在所有設定中,OOD 速度誤差比 ID 高出一個數量級 (~0.02 v.s. ~0.3)。
  • 擴充套件資料和模型規模的影響有限:與分佈內泛化不同,擴充套件訓練資料和模型規模對降低 OOD 誤差幾乎沒有影響。這表明,簡單的資料量和模型規模的增加無法有效提升模型在 OOD 場景中的推理能力
圖片
至於組合泛化場景,從下表可看到,當模板數量從 6 個增加到 60 個時,所有度量指標(FVD、SSIM、PSNR、LPIPS)在模版外測試集上均顯著的提升。尤其是異常率(生成影片違揹物理定律的比例),從 67% 大幅下降至 10%。這表明,當訓練集覆蓋了更多組合場景時,模型能夠在未見過的組合中展現出更強的泛化能力

然而,對於模板內測試集,模型在 6 個模板的訓練集上的 SSIM、PSNR 和 LPIPS 等指標上表現最佳,因為每個訓練示例被反覆展示。
圖片
這些結果表明,模型容量和組合空間的覆蓋範圍對組合泛化至關重要。這意味著,影片生成的 Scaling Law 應當側重於增加組合多樣性,而不僅僅是擴大資料量

LeCun贊轉!類Sora模型能否理解物理規律?位元組豆包大模型團隊系統性研究揭秘

圖注:在模版外測試集上生成的樣本影片。第一行:真實影片。第二行:使用 60 個模板訓練的模型生成的影片。第三行:使用 30 個模板訓練的模型生成的影片。第四行:使用 6 個模板訓練的模型生成的影片。

機理探究:模型如何依賴記憶和案例模仿

前文提及,影片生成模型對於分佈外泛化表現不佳,但在組合場景下,資料和模型 Scaling 可帶來一定提升,這究竟來自於案例學習,還是對底層規律的抽象理解?團隊著手進行了相關實驗。

  • 模型似乎更多依賴記憶和案例模仿

使用勻速運動影片進行訓練,速度範圍為 v∈[2.5, 4.0],並使用前 3 幀作為輸入條件。我們使用兩個資料集訓練,再對照結果,Set-1 只包含從左到右移動的球,而 Set-2 則包含從左到右移動的球和從右到左移動的球。

如下圖所示,給定進行低速正向(從左到右)運動的幀條件,Set-1 模型生成影片只有正速度,且偏向高速範圍。相比之下,Set-2 模型偶爾會生成負速度的影片,正如圖中綠色圓圈所示。
圖片
面對兩者之間的區別,團隊猜測,這可能是由於模型認為,與低速度球更接近的是訓練資料中反方向運動的小球,導致模型受到訓練資料中「誤導性」示例影響。換而言之,模型似乎更多依賴於記憶和案例模仿,而非抽象出普遍的物理規則,實現分佈外泛化(OOD)

  • 模型更多靠顏色尋找模仿物件

在前文,我們已探索獲知 —— 模型更多依賴記憶和相似案例進行模仿並生成影片,更進一步,則須分析哪些屬性對其模仿影響較大。

在比對顏色、形狀、大小和速度四個屬性後,團隊發現,基於擴散技術的的影片生成模型天生更偏向其他屬性而非形狀,這也可能解釋了為什麼當前的開放集影片生成模型通常在形狀保持上存在困難

如下圖,第一行是真實影片,第二行是影片模型生成的內容,顏色很好的保持了一致,但其形狀難以保持。LeCun贊轉!類Sora模型能否理解物理規律?位元組豆包大模型團隊系統性研究揭秘
兩兩對比後,團隊發現影片生成模型更習慣於透過「顏色」尋找相似參考生成物體運動狀態,其次是大小,再次是速度,最後才是形狀。顏色 / 大小 / 速度對形狀的影響情況如下圖:
圖片
  • 複雜組合泛化情況

最後,對於複雜的組合泛化為何能夠發生,團隊提出影片模型具有三種基本的組合模式,分別為:屬性組合、空間組合(多個物體不同運動狀態)、時間組合(不同的時間點多個物體的不同狀態)。

實驗結果發現,對於速度與大小或顏色與大小等屬性對,模型展現出一定程度的組合泛化能力。同時,如下圖所示,模型能夠透過對訓練資料的區域性片段進行時間 / 空間維度的再組合。

然而值得注意的是,並不是所有的情況下都能透過組合泛化生成遵循物理規律的影片。模型對案例匹配的依賴限制了其效果。在不瞭解底層規則的情況下,模型檢索並組合片段,可能會生成不符合現實的結果。
圖片
  • 影片表徵的侷限性

最後,團隊探索了在影片表徵空間進行生成是否足以作為世界模型,結果發現,視覺模糊性會導致在細粒度物理建模方面出現顯著的誤差。

例如下圖,當物體尺寸差異僅在畫素級別時,單純透過視覺判斷一個球是否能透過間隙變得十分困難,這可能導致看似合理但實際上錯誤的結果。LeCun贊轉!類Sora模型能否理解物理規律?位元組豆包大模型團隊系統性研究揭秘
圖注:第一行是真實影片,第二行為模型生成的影片。

這些發現表明,單純依賴影片表示不足以進行精確的物理建模

團隊介紹

該論文核心作者有兩位,其中之一為豆包大模型團隊 95 後研究員 Bingyi Kang,此前他負責的研究專案 Depth Anything 同樣取得了業界的廣泛關注,並被收入蘋果 CoreML 庫中。

據 Bingyi 分享,世界模型概念早已被提出,自 AlphaGo 誕生時,「世界模型」 一詞已在業內傳開,Sora 爆火後,他決定先從影片生成模型能否真正理解物理規律入手,一步步揭開世界模型機理。

這當中有三四周時間,專案毫無進展,直到一次實驗,大家注意到一個很隱蔽的反常規現象,藉此設計對比試驗後,他們確認了「模型其實不是在總結規律,而是在匹配跟他最接近的樣本」。

「做 research 往往不是說,你突然有個很好的 idea,然後你一試它就 work 了,很多時候你都是在排錯。但經過一段時間的試錯,你很可能突然發現某一個方向有解了。」Bingyi 表示。
儘管研究耗時 8 個月,每天對著影片中的虛擬小球做定量實驗,但大家更多感受到的不是枯燥,而是「好玩」和「燒腦」,回憶這段,他感慨:「團隊對基礎研究給了充分的探索空間。」
另一位 00 後同學也是核心參與者之一,據他分享,本次研究是他經歷過的最具挑戰性、最耗時的專案,涉及對物理引擎、評測系統、實驗方法的構建,非常繁瑣,當中還有好幾次專案「卡頓」住。不過,團隊負責人和 Mentor 都給予了耐心和鼓勵,「沒人催趕緊把專案做完」。

關於本文介紹成果的更多詳情,可關注豆包大模型團隊公眾號瞭解。

相關文章