本文篇幅很長,主題很多,但循序漸進,對「Sora 究竟是不是世界模擬器」這一說法給出了非常詳實的解讀。
引言 影片生成進展 Sora(可能的)工作原理 模擬假設 直觀物理學 世界模型 再看 Sora 結論
我們教 AI 理解和模擬運動中的物理世界,希望達成的目標是訓練模型並讓它們幫助人們解決需要真實世界互動的問題。
所謂世界模型,即能夠構建環境的內在表示並用它來模擬未來環境事件的 AI 系統。你可以將 Gen-2 等影片生成系統看作是非常早期和有限形式的通用世界模型。
論文地址:https://arxiv.org/pdf/2212.09748v2.pdf GitHub 地址:https://github.com/facebookresearch/DiT
影片壓縮網路將原始影片輸入壓縮為潛在的時空表示; 壓縮後的影片變為「時空 patch」,並作為輸入 token 饋入到擴散 Transformer 中; 在最後一個 Transformer 塊之後,解碼器模型(與影片壓縮網路聯合訓練)將生成的潛在表示對映回畫素空間。