阿里「軌跡可控版Sora」,告別「抽卡」,讓影片生成更符合物理規律

机器之心發表於2024-08-04

你規定路線,Tora 來生成相應軌跡的影片。


目前,擴散模型能夠生成多樣化且高質量的影像或影片。此前,影片擴散模型採用 U-Net 架構 ,主要側重於合成有限時長(通常約為兩秒)的影片,並且解析度和縱橫比受到固定限制。

Sora 的出現打破了這一限制,其採用 Diffusion Transformer(DiT)架構,不僅擅長製作 10 到 60 秒的高質量影片,而且還因其生成不同解析度、各種縱橫比、且遵守實際物理定律的能力而脫穎而出。

可以說 Sora 是 DiT 架構最有利的證明,然而,基於 Transformer 的擴散模型在有效生成可控動作影片方面還未被充分探索。

針對這一問題,來自阿里的研究者提出了 Tora,這是第一個面向軌跡的 DiT 架構,它將文字、視覺和軌跡條件同時整合在一起以生成影片。

圖片

Tora 的設計與 DiT 的可擴充套件性無縫契合,允許精確控制具有不同持續時間、寬高比和解析度的影片內容。大量實驗證明,Tora 在實現高運動保真度方面表現出色,同時還能細緻模擬物理世界的運動。

圖片

  • 論文地址:https://arxiv.org/pdf/2407.21705
  • 論文主頁:https://ali-videoai.github.io/tora_video/
  • 論文標題:Tora: Trajectory-oriented Diffusion Transformer for Video Generation

一艘老式的木製帆船沿著規定好的路線在迷霧籠罩的河流上平穩地滑行,周圍是茂密的綠色森林。

圖片

一條鯽魚優雅地遊過火星的紅色岩石表面,魚的軌跡向左,火星的軌跡向右。

圖片

熱氣球沿著不同的軌跡升入夜空,一個沿著規定的斜線,另一個沿著有彎度的軌跡。

圖片

兩隻可愛的小貓並排走在寧靜的金色沙灘上。

圖片

氣泡沿著軌跡輕輕地漂浮在盛開的野花中。

圖片

楓葉在清澈的湖面上顫動,映照著秋天的森林。

圖片

山間的瀑布傾瀉而下,主題、背景的運動都可以按照不同的路線運動。

圖片

在 Tora 與其他方法的比較中,可以看出 Tora 生成的影片流暢度更高,更遵循軌跡,且物體不會存在變形的問題,保真度更好。

圖片

圖片

方法介紹

Tora 採用 OpenSora 作為其 DiT 架構的基礎模型,包含一個軌跡提取器 (TE,Trajectory Extractor)、時空 DiT(Spatial-Temporal DiT )和一個運動引導融合器 (MGF,Motion-guidance Fuser) 。TE 使用 3D 影片壓縮網路將任意軌跡編碼為分層時空運動 patch。MGF 將運動 patch 整合到 DiT 塊中,以生成遵循軌跡的一致影片。圖 3 概述了 Tora 的工作流程。
圖片
時空 DiT(ST-DiT)

ST-DiT 架構包含兩種不同的塊型別:空間 DiT 塊 (S-DiT-B) 和時間 DiT 塊 (T-DiT-B),它們交替排列。S-DiT-B 包含兩個注意力層,每個層按順序執行空間自注意力 (SSA) 和交叉注意力,後面跟著一個逐點前饋層,用於連線相鄰的 T-DiT-B 塊。T-DiT-B 僅透過用時間自注意力 (TSA) 替換 SSA 來修改此架構,從而保持架構一致性。在每個塊中,輸入在經過規範化後,透過跳躍連線連線回塊的輸出。透過利用處理可變長度序列的能力,去噪 ST-DiT 可以處理可變持續時間的影片。

軌跡提取器

軌跡已被證明是一種更加使用者友好的方法來控制生成影片的運動。然而,DiT 模型採用影片自編碼器和 patch 化過程將影片轉換為影片 patch。在這裡,每個 patch 都是跨多個幀匯出,因此直接採用幀間偏移是不合適的。為了解決這個問題,本文提出的 TE 將軌跡轉換為運動 patch,運動 patch 與影片 patch 位於相同的潛在空間。

運動引導融合器

為了將基於 DiT 的影片生成與軌跡結合起來,本文探索了三種融合架構變體,將運動 patch 注入每個 ST-DiT 塊。這些設計如圖 4 所示。

圖片

實驗結果

在實現細節上,研究者基於 OpenSora v1.2 權重來訓練 Tora。訓練影片的解析度由 144p 到 720p 不等。為了平衡訓練 FLOP 以及每次迭代不同解析度和幀數所需的記憶體,研究者相應地將批大小從 1 調整到 25。

至於訓練基礎設施,研究者使用了 4 塊英偉達 A100 和 Adam 最佳化器學習率為 2 × 10^−5。

研究者將 Tora 與流行的運動指導影片生成方法進行了比較。評估中使用了三種設定,分別為 16、64 和 128 幀,所有設定都是 512×512 的解析度。

結果如下表 1 所示,在 U-Net 方法常用的 16 幀設定下,MotionCtrl 和 DragNUWA 能夠更好地與所提供的軌跡實現對齊,但仍弱於 Tora。隨著幀數增加,U-Net 方法在某些幀中出現明顯偏差,並且錯位誤差傳播會導致後續序列中出現變形、運動模糊或物體消失。

圖片

相比之下,得益於整合了 Transformer 的縮放能力,Tora 對幀數變化表現出很高的穩健性。Tora 產生的運動更加流暢,且更符合物理世界。對於 128 幀測試設定下的評估,Tora 的軌跡精度達到其他方法的 3 到 5 倍,展現出了卓越的運動控制能力。

在下圖 5 中,研究者對不同解析度和持續時長的軌跡誤差進行分析。結果顯示,不同於 U-Net 隨時間推移出現明顯的軌跡誤差,Tora 的軌跡誤差隨時間推移出現漸進增加。這與 DiT 模型中影片質量隨時間增加而下降相一致。Tora 在更長的時間下保持了有效的軌跡控制。
圖片
下圖 6 展示了 Tora 與主流運動控制方法的比較分析,在包含兩人共同運動的場景中,所有方法都能生成相對準確的運動軌跡。不過,Tora 的視覺質量更好,這要歸功於更長序列幀的使用,有助於實現更平滑的運動軌跡和更逼真的背景渲染。

可以看到,在 Tora 生成的腳踏車場景中,人的雙腿表現出逼真的踩踏動作,而 DragNUWA 的雙腿幾乎水平漂浮,違反了物理真實性。此外,DragNUWA 和 MotionCtrl 在影片結尾處都出現了嚴重的運動模糊。

在另一個生成燈籠的場景中,DragNUWA 隨著所提供軌跡的持續升降出現了嚴重的變形。MotionCtrl 的軌跡雖然相對準確,但生成的影片與兩個燈籠的描述不相符。Tora 不僅嚴格地遵循了軌跡,而且最大程度地減少了物體變形,確保了更高保真度的動作表示。

圖片

更多技術細節和實驗結果請參閱原論文。

相關文章