OpenAI Sora真的有自己的物理模型嗎?

banq發表於2024-02-18


關於 OpenAI 的影片生成模型 Sora 是否具有 "物理引擎"(OAI 自己聲稱具有 "世界模擬 "功能),有很多猜測。就像關於 LLM 中世界模型的爭論一樣,這個問題既非常有趣,又有些定義不清。

當然,Sora 在推理過程中向 UE5 等外部物理引擎呼叫函式的可能性很小。請注意,LLM 以前也有過這種情況,谷歌的一篇論文:其中模型透過模擬物理引擎來回答問題。

但這並不是大多數人的猜測。相反,人們的想法是,Sora 在訓練過程中會獲得一個內部物理模型,並利用這個內部模型生成時間和空間上連貫的影片。

什麼是內部物理模型?
這通常取決於如何解釋。

大概沒有人認為Sora 是從模擬牛頓運動定律、能量守恆定律或熱力學入手,進而生成了有點連貫的一分鐘長的 2D 影片。

如果存在一個內部物理模型,其假設是存在一種直觀物理學模型,可以利用近似和機率模擬,對自然場景中的實體及其動態進行快速靈活的推斷。

但 Sora 並不是透過模擬大量可能的場景來生成影片的。例如,為了製作水杯倒下的的影片,肯定不會對玻璃杯和桌子之間的碰撞進行 100 次內部模擬。這裡實際上不存在傳統意義上的 "直觀物理引擎"。

當然,人類和動物是否具有這種強大意義上的物理模型還有待商榷。因為人類從小就能理解和預測物體的物理特性及其相互作用。

影像擴散模型
Sora 技術報告的細節不多,但我們知道它是一個擴散模型,以 ViT 為骨幹,將幀補丁作為令牌處理。這種架構的表現力可能足以讓複雜的內部結構隨著規模的擴大和訓練資料的多樣化而湧現出來。

如果我們看一下更簡單的影像擴散模型,就會知道線性探針可以從內部啟用中解碼有關場景幾何、支撐關係、光照、陰影和深度的資訊。

線性探針可以解碼二進位制突出物體/背景區分和連續深度維度,這在生成過程的早期就已出現。對內部深度表徵的干預會對最終影像的深度產生因果影響!

當然,影像擴散模型也無法捕捉到自然影像結構的某些方面。例如,它們無法捕捉正確的投影幾何。

影片生成模型
目前我們還缺乏此類研究。我們需要進行干預性研究,嘗試解碼和操縱這些模型中直觀物理特性的內部表徵,從而得出更可靠的結論。

鑑於早期關於影像差異模型和 ViT 的研究結果,如果Sora的這種機理研究能夠找出我們在僅限於二維樣本的(不完善的)直觀物理模型中預期的因果效應變數代表,我也不會感到驚訝。

遺憾的是,在開源模式趕上 Sora 之前,這種情況不太可能發生,而這可能需要數年時間。

底線是,我們需要超越行為證據來解決這類爭論,我們需要更具體地說明 "世界模擬 "的含義,而不是拗口的詞彙。這是在 ML、cogsci 和哲學之間進行研究的沃土

相關文章