從直觀物理學談到認知科學,Sora不是傳統物理模擬器蓋棺定論了?

机器之心發表於2024-03-18

本文篇幅很長,主題很多,但循序漸進,對「Sora 究竟是不是世界模擬器」這一說法給出了非常詳實的解讀。


最近,OpenAI 的文生影片模型 Sora 爆火。除了能夠輸出高質量的影片之外,OpenAI 更是將 Sora 定義為一個「世界模擬器」(world simulators)。
圖片
當然,這一說法遭到了包括圖靈獎得主 Yann LeCun 在內很多學者的反駁。LeCun 的觀點是:僅僅根據 prompt 生成逼真影片並不能代表一個模型理解了物理世界,生成影片的過程與基於世界模型的因果預測完全不同。
圖片
近日,澳大利亞麥考瑞大學的哲學助理教授 Raphaël Millière 撰寫了一篇長文,深入探討了 Sora 究竟是不是「世界模擬器」。

作者回顧了 Sora 的功能、工作原理以及它模擬 3D 場景屬性的意義,討論了認知科學中直觀物理學文獻、機器學習中「世界模型」的多義(多種解釋)概念以及影像生成模型的可解釋性研究。
圖片
結論是:Sora 並沒有執行傳統意義上的模擬,儘管它可能在更有限的意義上表現出了視覺場景的物理屬性。但是,行為證據不足以充分評估 Sora 是世界模擬器這一說法。最後,作者對影片生成模型在未來 AI 和機器人學中的地位,以及它們與認知科學中正在進行的辯論之間的潛在相關性進行了預測。

本文主要內容包括如下:

  • 引言
  • 影片生成進展
  • Sora(可能的)工作原理
  • 模擬假設
  • 直觀物理學
  • 世界模型
  • 再看 Sora
  • 結論

機器之心對原文做了不改變原意的整理編譯(以第一人稱 zhankai)。

引言

今年 2 月 15 日,OpenAI 推出了 Sora,輸入文字 prompts 來生成影片和影像。Sora 最長生成了 60 秒的短影片,不過該模型至今沒有開放使用。在 Sora 技術報告中,OpenAI 將它稱為「世界模擬器」,並解釋了訓練 Sora 的動機:

我們教 AI 理解和模擬運動中的物理世界,希望達成的目標是訓練模型並讓它們幫助人們解決需要真實世界互動的問題。

此外,OpenAI 對 Sora 理論意義的理解是這樣的,「我們的結果表明,擴充套件影片生成模型對於構建物理世界的通用模擬器而言,是一條很有希望的發展路徑。」

這些取自 OpenAI 部落格和技術報告中的大膽言論,僅僅可以被看做是 PR 宣傳,而不是學術論文,更不用說經過同行評議的研究了。當然,這不是我們第一次看到影片生成公司這樣說了。比如影片生成領域頂級初創公司 Runway,它也有這樣的宣告:

所謂世界模型,即能夠構建環境的內在表示並用它來模擬未來環境事件的 AI 系統。你可以將 Gen-2 等影片生成系統看作是非常早期和有限形式的通用世界模型。

除了 PR 之外,OpenAI、Runway 的這些言論提及了關於 SOTA 影片生成模型內在結構的真正有趣的問題。不過,像「世界模擬器」和「通用世界模型」這樣的描述對於定義上述問題沒有多大幫助。

因此,接下來,我將試圖闡明這些神經網路擁有了模擬物理世界的內在模型到底意味著什麼,以及我們是否有任何證據證明像 Sora 這類 AI 系統做到了如此。

影片生成領域進展

此前,影片生成技術實現瞭如下圖所示的效果。這些短影片由名為 MoCoGAN-HD 的模型生成,出自 ICLR 2021 論文《A Good Image Generator Is What You Need for High-Resolution Video Synthesis》。作者將影片合成問題描述為在靜態影像生成模型的潛在空間中發現軌跡,從而利用生成對抗網路中的解耦表示。

圖片

論文地址:https://arxiv.org/abs/2104.15069

然而,不到三年的時間,Sora 問世了,為影片生成領域樹立了新的標準。Sora 的效果是這樣的:

圖片

Sora 生成的影片首先看起來非常逼真,與真實影片幾乎沒有區別。如果從靜幀的視角來看,高解析度、紋理細節和構圖都有助於實現這種前所未有的真實感。
圖片
此外,Sora 最令人印象深刻的是它的時間一致性。生成影片比生成靜態影像的難點在於前者必須隨時間推移保持連貫性,需要從一幀到下一幀地描述非常廣泛的細節。這包括隨時間推移連貫地匹配或修改場景元素(物體和角色)的屬性,其中形狀和紋理等靜態屬性通常保持不變,而運動和互動等動態屬性根據物理定律變化。

同時相機運動帶來了額外的挑戰,場景及元素的 3D 幾何和照明必須在旋轉、傾斜、平移、縮放等情況下保持一致。這同樣適用於場景過渡,如空間跳切。Sora 生成的影片滿足了這些需求。

圖片

從以上動圖,我們可以看到,儘管相機快速移動,但場景中的幾何形狀和主要元素保持一致。當然 Sora 遠未達到完美, 影片背景中會出現怪異的畫面。儘管如此,Sora 已經比競爭對手好得多了。自 MoCoGAN-HD 推出以來,我們在短短几年內確實取得了長足的進步。

Sora(可能的)工作原理

Sora 背後的技術原理是怎樣的呢?Sora 研發負責人之一 Bill Peebles 與紐約大學助理教授謝賽寧撰寫的 DiT(擴散 Transformer)論文《Scalable Diffusion Models with Transformers》被認為是此次 Sora 背後的重要技術基礎之一。
圖片
  • 論文地址:https://arxiv.org/pdf/2212.09748v2.pdf
  • GitHub 地址:https://github.com/facebookresearch/DiT

這篇論文最早的版本是 2022 年 12 月,2023 年 3 月更新了第二版。當時,擴散模型在影像生成方面取得了驚人的成果,幾乎所有這些模型都使用卷積 U-Net 作為主幹。

因此,論文的目的是探究擴散模型中架構選擇的意義,併為未來的生成模型研究提供經驗基線。該研究表明,U-Net 歸納偏置對擴散模型的效能不是至關重要的,並且可以很容易地用標準設計(如 transformer)取代。

具體來說,研究者提出了一種基於 transformer 架構的新型擴散模型 DiT,並訓練了潛在擴散模型,用對潛在 patch 進行操作的 Transformer 替換常用的 U-Net 主幹網路。他們透過以 Gflops 衡量的前向傳遞複雜度來分析擴散 Transformer (DiT) 的可擴充套件性。
圖片
在 Sora 出現之前,DiT 架構已用於文字條件式影像和影片生成。OpenAI 自己的解決方案是「影片壓縮網路」,這可能是一個適用於影片的 VAE。基本思想與原始 DiT 相同:

  • 影片壓縮網路將原始影片輸入壓縮為潛在的時空表示;
  • 壓縮後的影片變為「時空 patch」,並作為輸入 token 饋入到擴散 Transformer 中;
  • 在最後一個 Transformer 塊之後,解碼器模型(與影片壓縮網路聯合訓練)將生成的潛在表示對映回畫素空間。

據我所知,這就是 Sora 背後的技術要點。因此,很多人認為 Sora 的架構沒有什麼真正的突破之處,本質上可能是一個影片 DiT 模型。Sora 很大程度上是一項工程壯舉,也是縮放能力的另一個證明。隨著訓練算力的增加,樣本質量隨之提高。正如大語言模型一樣,某些功能會隨著規模的擴充套件而出現。

當然,Sora 受益於其他一些技巧,比如 DALL-E 3 首創的重字幕技術。OpenAI 訓練了一個高度描述性的字幕生成器模型,並用它為 Sora 訓練集中的所有影片新增字幕。這增加了生成的影片對複雜文字的遵循性。此外,Sora 模型的所有使用者提示也透過 GPT 模型進行增強。

與其他 OpenAI 的模型一樣,Sora 的一大未知是它的訓練資料。事實上,很多人猜測 Sora 部分根據合成資料(尤其是虛擬引擎 5 等影片遊戲引擎的輸出)進行訓練,這將有意義地促使該模型學習不同的配置(不同角度、場景構圖、相機運動路徑等)。這或許可以部分解釋為什麼 Sora 的輸出如此一致。

我們需要記住的最後一件事是:與標準潛在擴散模型一樣,影片壓縮網路編碼器和解碼器之間的擴散過程完全發生在潛在空間中,而不是畫素空間。

模擬假設

每個人都同意 Sora 是一個令人印象深刻的模型。但除了生成逼真影片之外,Sora 還有更深層的屬性嗎?OpenAI 團隊似乎這樣認為,他們在技術報告中稱,Sora 獲得了規模化的「模擬能力」,並透過動態相機運動、遮擋、物體存繼性和影片遊戲模擬來實現場景一致性。

OpenAI 得出結論,這些功能表明瞭,影片模型的繼續擴充套件是開發物理和數字世界,以及生活在其中的物體、動物和人的高效能模擬器的一條有希望的路徑。

我們可以將這一說法稱為模擬假設,但該假設的問題在於它太模糊了。對於影片生成模型而言,模擬物理世界實際意味著什麼?哪些證據可以支援這一說法?讓我們一一來解答。

Sora 釋出後,AI 領域的知名學者紛紛發表對模擬假設的看法。其中英偉達高階研究科學家 Jim Fan 將 Sora 描述為「資料驅動的物理引擎」,他的解釋為 Sora 透過大量影片的梯度下降在神經引數中隱式地學習物理引擎。Sora 是一個可學習的模擬器或「世界模型」。
圖片
來源:https://twitter.com/DrJimFan/status/1758210245799920123

Sora 必須學習一些隱式的文字到 3D、3D 轉換、光線追蹤渲染和物理規則,以便儘可能準確地對影片畫素進行建模。Sora 還必須學習遊戲引擎的概念才能滿足目標。

物理引擎術語有些令人困惑,尤其考慮到 Sora 可能是在虛擬引擎 5 的場景中接受訓練的。我們首先需要澄清一點,即沒有人(包括 Jim Fan)認真地暗示 Sora 在推理時確實有一個迴圈的物理引擎。換句話說,Sora 不會利用虛擬引擎的函式呼叫來生成影片。

這不僅僅因為我們完全不清楚它是如何工作的(資產、動畫從哪裡來),還因為 Sora 是一個 DiT 模型,而這些根本不是 DiT 的工作方式。

這裡需要提一下,讓神經網路呼叫物理引擎是以前嘗試過的事情,但不是為了影片生成,而是為了物理推理。

此前,Ruibo Liu 等人(谷歌大腦團隊、達特茅斯學院)在 2023 年發表的一篇論文《Mind's Eye: Grounded Language Model Reasoning through Simulation》中增強了一種語言模型,透過使用物理引擎(DeepMind 的 MuJoCo)模擬可能的結果,來提高在物理推理問題上的效能,並使用這些模擬的結果作為 prompt 中的提示。
圖片
論文地址:https://openreview.net/forum?id=4rXMRuoJlai

此外,MIT 的 Josh Tenenbaum 實驗室對這一工作進行了探索,使用語言模型將自然語言查詢轉換成機率程式語言中的程式碼表示式。為了能夠對語言中描述的物理現象進行推理,Lionel Wong 及其同事將一個物理模擬引擎整合到了這個框架中。

他們在機率生成程式中新增了一個 Simulate_physicals 函式,該函式採用指定物件屬性(如位置和速度)的初始符號場景狀態,並返回場景屬性,這些屬性在物理、建模運動和碰撞情況的基礎上隨時間更新。此外透過將物理模擬新增為函式呼叫,語言描述可以轉換為查詢,並對描述的物理情況如何隨時間推移發揮作用進行推理。
圖片
論文地址:https://arxiv.org/pdf/2306.12672.pdf

這顯然與 Sora 的做法相差甚遠,Sora 是一個端到端的神經網路,而不是一個神經符號系統。那麼,我們該如何理解 Sora 類似於模擬物理世界的「資料驅動的物理引擎」這一說法,來自谷歌 DeepMind 的高階 AI 總監 Nando de Freitas 表示,有限大小的神經網路在任何情況下可以預測接下來會發生什麼的唯一方法是:學習促進此類預測的內部模型,包括直觀的物理定律。

看來我們越來越接近模擬假設的明確定義了:在擁有有限引數集的端到端神經網路架構之上的足夠好的影片生成模型,在訓練中應該能夠獲得物理世界的內部模型。這是這類神經網路生成任意場景中的一致和逼真影片的最有效方法,也可能是唯一方法。

那麼,Sora 是否真的從 2D 影片中歸納出物理定律呢?如前所述,這看起來可能就很荒謬。比如 Sora 會以某種方式獲得熱力學定律的內部模型,這似乎令人難以置信。遊戲引擎通常也不模擬這些法則, 它們可能會模擬熱效應(火災、爆炸)和功(如物體克服摩擦移動),但這些模擬通常是高度抽象的,並不嚴格遵守熱力學方程。並且遊戲引擎也根本不需要這樣做,它們的重點是渲染場景的視覺和互動可信度,而不是嚴格的物理準確性。

Sora 會做類似的事情嗎?在回答這個問題之前,我們需要談一談直觀物理學。

直觀物理學

什麼是直觀物理學呢?對於人類而言,不僅僅是受過訓練的物理學家,還包括外行甚至是嬰兒,這些人都對物理世界有直觀的理解。這就是認知科學家稱為直觀物理學的東西:一種快速、自動的日常推理,讓人們知道各種物體相互作用時會發生什麼,不需要有意識地思考物理計算。

研究表明,嬰兒已經對物理世界的各個方面產生了穩定預期認知,包括物體永續性(即使看不見也知道物體的存在)、堅固性(物體不會相互洞穿)以及內聚力(物體是一起移動的連線整體)。即使在很小的時候,嬰兒似乎也期待物體遵守某些物理原則,並將這些期望推廣到新的物體,而不是必須單獨學習每個特定物體的獨特性。這是我們與生俱來的「核心知識」的一部分,而不是發展過程中學到的東西。

總之,人類很小的時候就非常善於理解物理世界及規則,無論與生俱來、還是後天習得,或者二者兼而有之。

如何做到的呢?認知科學中有一個重要假設:人們使用直觀物理引擎(intuitive physics engine,IPE)在心理上模擬物理事件。該引擎近似現實中的物理動力學,並類似於計算機遊戲中的物理引擎。

當我們觀察物理場景時,可以根據嘈雜的感知證據來構建對物體、屬性和作用力的心理表徵,然後執行內部模擬來預測接下來發生什麼。
圖片
圖源:https://cicl.stanford.edu/papers/smith2023probabilistic.pdf

更準確的說,IPE 是一種生成因果模型,透過對不精確但大致準確的物理原理的隨機模擬,將不可觀測的物理變數和不確定性對映成可觀測的物理現象。IPE 表示物理場景中物體的潛在物理變數(如質量、摩擦力、彈性)。這些變數不能直接觀察到,但控制了物體在場景中的行為方式。

這裡只關注對 IPE 假說的一個反對意見,它與影片生成模型的爭論尤其相關。一些研究人員認為,人們對物理場景的判斷有時僅取決於表面的視覺特徵,而不是底層的物理特徵。比如僅在靜態影像上訓練的 ResNet-50 等深度神經網路可以判斷積木塔的穩定性,其表現可與成年人媲美。此外,人們被發現依賴積木塔的外觀,而不是摩擦等物理約束,兒童則完全忽視形狀。

IPE 假說支持者的普遍反應是,依賴啟發式的證據可以簡單地解釋為限制 IPE 模擬的邊界條件和機制。沒有任何模型會聲稱自己可以無限制地使用物理模擬來處理所有抽象推理,近似是不可避免的。

因此我認為底線是:至少對於人類而言,人們很容易透過假設 IPE 的存在來解釋直觀的物理推理,而該 IPE 使用近似原理對物理場景進行機率心理模擬。這一假設仍然存在爭議,並且有支援和反對的證據。但是,模擬假設至少有一個相對合理且經過深思熟慮的案例,還有豐富的實驗文獻支援。有了這些背景,接下來我們談談世界模型。

世界模型

「世界模型」一詞是技術術語之一,其含義已被逐漸淡化,以致在實踐中變得難以描述。

2018 年,Ha David、Schmidhuber Jürgen 合作撰寫了一篇名為《World Models》的論文,在這篇文章中,世界模型包含一個感知元件,用於處理原始觀察並將其壓縮為緊湊編碼。

Ha 和 Schmidhuber 關於世界模型的研究影響了後來許多作品。

我們以最近的研究來舉例,幾天前,Google DeepMind 推出了引數為 110 億的基礎世界模型 Genie,可以透過單張影像提示生成可玩的互動式環境。在如下動圖中,谷歌先使用 Imagen2 生成影像,再使用 Genie 將它們變為動態方式:

圖片

另一位推崇世界模型的是 Yann LeCun,曾經提出了一種名為 JEPA(聯合嵌入預測架構)的框架,在這一框架下,世界模型是一個內部預測模型,描述世界如何運作:
圖片
除此以外,在 Sora 模型釋出的當天,Meta 推出了一個全新的無監督「影片預測模型」——V-JEPA,與 JEPA 一脈相承。

V-JEPA 和 Sora 之間的主要區別之一是它們各自的學習目標,以及這些目標可能對其潛在表示產生的下游影響。Sora 接受了畫素空間中幀重建的訓練,而 V-JEPA 接受了潛在空間中特徵預測的訓練。在 LeCun 看來,畫素級生成目標不足以引發對世界中的規劃和行動有用的抽象表示。

綜合來看,人們對世界模型的理解略有不同。在強化學習(RL)中,世界模型主要關注以智慧體為中心的預測,以及基於智慧體行為對環境狀態的模擬。在 Yann LeCun 對自主機器智慧的構想中,世界模型同樣關注以智慧體為中心的預測,不過這裡的預測是透過自監督在潛在空間中學習得到的。無論是生成模型、RL 模型還是 JEPA 模型,它們都沒有達到因果推理文獻中對世界模型強大因果概念的高標準。至於像 Sora 這樣的影片生成模型,我們可以透過觀察影像生成模型來尋找線索。

再看 Sora

與用於影像生成的潛在擴散模型一樣,Sora 是根據視覺輸入進行端到端訓練的。訓練和生成都不是明確地以物理變數為條件的。Sora 從根本上不同於使用物理引擎來執行模擬的複合模型。此外,Sora 在感知、預測和決策模組之間沒有內建分離。

除此以外,Sora 與 Ha & Schmidhuber 的世界模型也有很大不同,它不會基於離散行為、觀察和獎勵訊號的歷史來執行模擬。在這方面,OpenAI 的技術報告在討論透過提示生成影片示例時提到了《我的世界》(Minecraft),這有點誤導。

Sora 可能模擬了離線強化學習中的智慧體策略,但與 Genie 不同,Sora 沒有接受過從影片中誘發潛在動作的訓練,並且輸出也不以此類動作為條件。

圖片

透過提示 Sora 生成的影片

然而,我們不能排除這樣一個假設,Sora 是一個世界模擬器 —— 或者,稍微不那麼誇張,在較弱意義上,它是一個世界模型。

然而這種觀點受到了包括 LeCun、Gary Marcus 等在內的多位 AI 大佬的反對,這些批評者指出,Sora 生成的影片中公然違反了物理原理。不過 OpenAI 承認了這些侷限,並提供了一些失敗示例。例如,在下面示例中,人們可以看到明顯的時空不一致,包括生成的影片違反重力、碰撞動力學、堅固性和物體永續性。

圖片

Sora 生成的影片違反重力和碰撞物理學

圖片

Sora 生成的影片中椅子自己飄起來了

這種影片的不一致性讓我們感到不可思議,確實,示例中發生了一些奇怪的事情,如液體流過玻璃,椅子變成奇怪的形狀,人在被遮擋時突然消失。

事實上,Sora 輸出的結果很明顯會在直觀物理上出錯。如果非要說 Sora 是一個較弱意義上的世界模型,那麼它肯定不是一個完美的模型,甚至在各個方面都不完整。

與用於生成影像的潛在擴散模型一樣,Sora 生成影片的過程並不發生在畫素空間中,而是發生在潛在空間中 —— 時空 patch 潛在表示被編碼的空間。

這一資訊很重要,因為很多研究者認為 Sora 只是學習在逐幀畫素變化中插入常見模式。Sora 架構中編碼器和解碼器之間發生的所有事情都發生在潛在空間中。對於 Sora 來說,直觀物理相關的屬性的潛在表示對於早期的生成過程(甚至在早期的擴散時間步長)具有因果效力,這並非難以置信。

結論

影片生成模型如 Sora 到底是不是世界模擬器,也許在某種意義上答案是肯定的。其影片生成過程不以直觀物理的前向模擬為條件,而直觀物理引擎可以做到這一點,但 Sora 有可能是由 3D 幾何和動力學潛在表徵塑造出來的。在後一種意義上,認為 Sora 是有限的世界模型是相當合理的。但這些都不能確定,我們需要用更多的方式探索 Sora。

在猜測的同時,我對影片生成模型的未來進行了一些預測。

我認為 Sora 不是一個特定意義上的模擬器,也許是一個功能更強大的影片生成模型。可以想象未來機器人系統會使用三個主要元件:(1)大規模視覺 - 語言模型,用於解析語言指令、翻譯成規劃並對視覺輸入進行推理;(2)大規模影片生成模型,用於模擬未來可能的觀察結果,以進行低階規劃;(3) 通用可逆動力學模型,用於從這些模擬中提取合適的動作並相應地執行規劃。也許(2)和(3)可以合併成一個通用的 Genie 風格的生成模型,或者三個模型都可以合併成一個巨大的 Gato 式多模態模型。

不管怎樣,無論人們如何看待 Sora 和 OpenAI,思考影片生成背後的魔法都是令人興奮 。

參考連結:https://artificialcognition.net/posts/video-generation-world-simulators/

相關文章