Meta又給OpenAI一記重擊,影片生成Movie Gen震撼登場,甚至可以配音、編輯

机器之心發表於2024-10-05
影片生成領域真是越來越卷且越來越邁向實用性!

在 OpenAI Sora 難產的時候,Meta 首次公開展示了自家的「用於媒體的突破性生成式 AI 研究」:Meta Movie Gen。

Meta 在相應部落格中使用了「premiere」一詞,也就是初次展示,因此手癢的使用者可能還得再等上一段時間。

圖片

Meta 表示:「無論是希望在好萊塢大展身手的電影製作人,還是愛好為觀眾製作影片的創作者,我們相信每個人都應該有機會使用有助於提高創造力的工具。」

根據 Meta 的描述,Movie Gen 的功能包括:文字生成影片和音訊、編輯已有影片、圖片生影片。並且人類評估表明,Movie Gen 在這些任務上的表現均優於行業內類似模型。

具體的效果如何,我們先來看幾個示例。

可以看到,小女孩在奔跑的過程中衣服的褶皺就已經吊打很多影片生成應用了。

圖片

prompt:一個女孩正在海灘上奔跑,手裡拿著一隻風箏。她穿著牛仔短褲和黃色 T 恤,陽光灑在她身上。

在轉頭、正視前方、微笑的幾個動作中,人物面部依然可以保持穩定狀態,克服了形變。怪不得 Meta 在部落格中還談到,這是能夠用來分享日常生活的可貴技術。

圖片

prompt:一名女子正坐在南瓜田的草地上。她圍著圍巾,手裡拿著一個杯子。背景中是一排排南瓜。

生成動物對 Movie Gen 來說也是小菜一碟。動物的毛髮、動作都十分逼真。仔細看這隻猴子的尾巴,在遮擋後依然能夠遵循遮擋前的運動軌跡。背景生成結果也十分貼合 prompt。水面的波動、倒映都栩栩如生。不過水下折射的生成效果看起來還有些進步空間。

圖片

prompt:一隻紅臉白毛的猴子正在天然溫泉中沐浴。猴子在玩水面上的一艘微型帆船,這艘帆船由木頭製成,配有白色的帆和小舵。溫泉周圍環繞著鬱鬱蔥蔥的綠植,有岩石和樹木點綴其間。

影片時間長一些,Movie Gen 也能有穩定的表現。人物大幅度動作的展現也比較逼真。但每一幀定格下來,還會有些瑕疵。不過這是影片生成一貫的難題,Meta 或許會在未來進行改進。

圖片

prompt:鏡頭位於一名男子的身後。男子赤裸上身,腰間繫著綠色布料,赤腳站立。他的雙手各持一個燃燒的物體,做出大幅度的圓周動作。背景是一片平靜的海面,火舞營造出迷人的氛圍。

Sora 剛剛問世時,往往還需要 Elevenlabs 這樣的音訊生成應用來輔助。而 Movie Gen 顯然更加便捷,除了影片生成,配備相應的音樂、音效也是拿手好戲。

面對一整個影片的場景,合適的背景音樂能夠貫穿全程。不僅如此,音效的適配度也很高。這個瀑布傾瀉的水聲就十分逼真。Meta又給OpenAI一記重擊,影片生成Movie Gen震撼登場,甚至可以配音、編輯

prompt:雨水傾瀉在懸崖和人身上,有背景音樂。

更讓人驚訝的是,音效還能夠精準地與影片內容匹配。它能夠透過影片中的動作節點來把握音效出現的時機,讓畫面和聲音相輔相成,給我們呈現出完整的生成效果。Meta又給OpenAI一記重擊,影片生成Movie Gen震撼登場,甚至可以配音、編輯

prompt:車輪飛速旋轉,滑板落在水泥地上發出砰的一聲。

無論是影片,還是音訊 Movie Gen 看起來都表現優異。

如果 Meta 所言非虛,那麼 Movie Gen 也真算得上是目前最先進和最沉浸式的「講故事模型套件(storytelling suite of models)」。

Meta 表示訓練使用的資料集都是公開資料集或已獲得授權的資料集。下面將簡要介紹各項能力以及背後的技術,更多詳情請參閱原論文。

圖片

  • 論文名稱:MovieGen: A Cast of Media Foundation Models

  • 論文連結:https://ai.meta.com/static-resource/movie-gen-research-paper

  • 更多演示:https://ai.meta.com/research/movie-gen/

Meta 在部落格中簡單回顧了自己的影片生成之旅。他們的第一波生成式 AI 研究始於 Make-A-Scene 系列模型,這些模型可以生成影像、音訊、影片和 3D 動畫。

隨著擴散模型的出現,他們又基於 Llama 基礎模型做出了第二波研究,成功實現了更高質量的影像和影片生成以及影像編輯。

Movie Gen 則是 Meta 的第三波研究。他們將以上所有模態都組合到了一起,並能以前所未有的方式為使用者提供進一步的細粒度控制。

下面詳細介紹 Movie Gen 的各項能力。

影片生成

給定文字提示詞,Movie Gen 會使用一個針對文生圖和文生影片任務最佳化過的聯合模型來建立高質量和高畫質晰度的影像和影片。這個 30B 引數的 Transformer 模型有能力生成長度最多 16 秒幀率為 16 FPS 的影片。Meta 表示還發現這些模型可以推理物體運動、主客體互動和相機運動,並且它們還能學習各種概念的合理運動 —— 這也使它們成為了同類中的 SOTA 模型。

具體流程如下圖所示,他們先透過一個時間自動編碼器模型(TAE)訓練了一個時空壓縮的隱空間,然後再基於此訓練了一個生成模型。

圖片

模型架構上,他們採用了 Transformer,整體位於 Llama 3 的設計空間中。下表展示了其 30B 引數基礎模型的各個超引數。值得注意的是,這裡的 30B 引數指的是 Transformer 本身的引數量,並不包含文字嵌入模型、TAE 等。

圖片

為了訓練這個模型,Meta 使用了多達 6144 臺 H100 GPU,每一臺的熱設計功耗為 700W,並且都配備了 80GB 的 HBM3。

下圖展示了 Movie Gen Transformer 骨幹網路的整體結構以及所使用的模型並行化機制。具體來說包括張量並行化(TP))、序列並行化(SP)、上下文並行化(CP)和全共享式資料並行(FSDP)。

圖片

訓練流程上,他們採用了一種多階段訓練方法,該方法分為三個階段:

  • 在文生圖(T2I)任務上進行初始訓練,之後再在文生圖和文生影片(T2V)任務上進行聯合訓練;

  • 逐步從低解析度 256 畫素的資料擴充套件成 768 畫素的高解析度資料;

  • 在計算和時間限制上,使用改進過的資料集和已最佳化的訓練方法進行持續訓練。

之後自然也會執行微調。

而在推理階段,Meta 的一個創新思路是首先使用 Llama 3 對使用者輸入的提示詞進行重寫,將其擴充套件成更加詳細的版本。實踐表明該方法確實有助於提升生成結果的質量。此外,Meta 還在提升推理效率方面引入了一些新思路。

效果上,下表展示了 Movie Gen Video 模型與之前相關研究的勝率情況。注意這裡的數值是 Movie Gen 的獲勝百分比減去落敗百分比,因此可知 Movie Gen 的整體表現勝過之前的模型。

圖片

個性化影片

基於上述基礎模型,Meta 還開發出了個性化影片功能。使用者只需提供人物影像輸入和對應的文字提示詞,就能生成包含該人物以及文字描述的細節的影片。Meta 表示 Movie Gen 生成的個性化影片在保留人類身份和運動方面做到了 SOTA。

下圖展示了個性化 Movie Gen Video 模型(PT2V)的架構和推理流程。

圖片

具體來說,首先使用 Movie Gen Video 模型的權重對該模型進行初始化,然後新增額外的可學習引數來基於參考影像實現條件化編輯。

訓練過程先是進行預訓練(分為身份注入、長影片生成、提升自然度三個階段),然後執行監督式微調。

結果上看,在經過微調之後,PT2V 模型在身份和人臉一致性上的表現都相當卓越。

圖片

下圖展示了兩個與 ID-Animator 的對比示例:

圖片

精確的影片編輯

還是基於同樣的基礎模型,Meta 也做出了影片編輯功能,並且可以做到非常精確的編輯 —— 可僅操作相關畫素!具體來說,給定一段影片和文字提示詞,模型可以生成符合要求的經過修改的輸出,其中包括一些非常高階的編輯功能,比如新增、移除和替換元素,修改背景和風格等全域性要素。

如果後面實際效果真如 Meta 描述那麼好,那麼這項功能可能會成為一大利器。

為了做到這一點,Meta 團隊同樣採用了一種多階段方法:首先執行單幀編輯,然後進行多幀編輯,之後再整體編輯影片。

圖片

為此,他們對前述的影片生成模型進行了一番修改。首先,透過向圖塊嵌入工具新增額外的輸入通道而實現了對輸入影片的調節,從而可沿通道維度將隱含的影片輸入與有噪聲的輸出隱影片連線起來,並將連線後的隱影片提供給模型。

此外,按照 Emu Edit 的做法,他們還加入了對特定編輯任務(例如新增物件、更改背景等)的支援。具體來說,該模型會對每個任務學習一個任務嵌入向量。對於給定的任務,模型對相應的任務嵌入應用線性變換,產生四個嵌入,這些嵌入與文字編碼器的隱藏表示連線在一起。我們還對任務嵌入應用了第二個線性變換,並將得到的向量新增到時間步嵌入中。另外,為了完全保留模型的影片生成功能,他們將所有新新增的權重設定為零,並基於預訓練的文生影片模型初始化剩餘的權重。

該方法的效果非常顯著,在兩個資料集上的人類和自動評估結果基本都優於其它對比方法。順帶一提,Movie Gen Edit Bench 是 Meta 提出的一個新基準,用於評估「下一代影片編輯模型的影片編輯能力」。

圖片

音訊生成

此外,他們還訓練了一個 13B 引數的音訊生成模型 Movie Gen Audio。該模型可以基於影片和可選的文字提示詞生成長達 45 秒的高質量高保真音訊,包括環境聲音、音效(Foley)和背景音樂 —— 所有這些都與影片內容同步。Meta又給OpenAI一記重擊,影片生成Movie Gen震撼登場,甚至可以配音、編輯

下面是 Movie Gen Audio 的模型示意圖,可以看到其採用了基於流匹配(flow-matching 生成模型和擴散 Transformer(DiT)的模型架構。此外,還新增了一些條件化模組來實現對模型的控制。

圖片

此外,他們還提出了一種音訊擴充套件技術,可以為任意長度的影片生成連貫的音訊。下面是該技術的示意圖。其目標是一次生成 30 秒長度的音訊,然後利用該擴充套件延展至任意長度。

圖片

總體而言,他們在音訊質量、影片到音訊對齊和文字到音訊對齊方面實現了 SOTA。

圖片

結語

Meta 在架構、訓練目標、資料處理方法、評估協議和推理最佳化等多個技術方面做出了創新突破。下圖展示了 Movie Gen 四項能力的人類 A/B 評估對比結果。正淨勝率表示人類相較於其他行業模型,更加偏愛 Movie Gen。

圖片

Meta 這一次展示自己在影片生成方面的研究成果確實出人意料,這也使其成為了這片越來越擁擠的戰場的又一強力競爭者,並且我們也還不清楚 Meta 是否會像釋出 Llama 系列模型那樣完全免費釋出 Movie Gen,讓自己在真・OpenAI 之路上繼續前進。總之,網友們已經在期待了。

圖片

最後,例行慣例,還是得向 OpenAI 問一句:Sora?

相關文章