LeCun上月球?南開、位元組開源StoryDiffusion讓多圖漫畫和長影片更連貫

机器之心發表於2024-05-06

有了 StoryDiffusion,更加一致性的影像和影片生成得到了保障。


兩天前,圖靈獎得主 Yann LeCun 轉載了「自己登上月球去探索」的長篇漫畫,引起了網友的熱議。

圖片

其實,產出這些漫畫的研究出自南開大學、位元組跳動等機構。在《StoryDiffusion:Consistent Self-Attention for long-range image and video generation》這篇論文中,該研究團隊提出了一種名為 StoryDiffusion 的新方法,用於生成一致的影像和影片以講述複雜故事。

圖片

  • 論文地址:https://arxiv.org/pdf/2405.01434v1
  • 專案主頁:https://storydiffusion.github.io/

相關專案已經在 GitHub 上獲得了 1k 的 Star 量。

圖片

GitHub 地址:https://github.com/HVision-NKU/StoryDiffusion

根據專案演示,StoryDiffusion 可以生成各種風格的漫畫,在講述連貫故事的同時,保持了角色風格和服裝的一致性。

圖片

StoryDiffusion 可以同時保持多個角色的身份,並在一系列影像中生成一致的角色。

圖片

此外,StoryDiffusion 還能夠以生成的一致影像或使用者輸入的影像為條件,生成高質量的影片。

圖片

圖片

我們知道,對於基於擴散的生成模型來說,如何在一系列生成的影像中保持內容一致性,尤其是那些包含複雜主題和細節的影像,是一個重大挑戰。

因此,該研究團隊提出了一種新的自注意力計算方法,稱為一致性自注意力(Consistent Self-Attention),透過在生成影像時建立批內影像之間的聯絡,以保持人物的一致性,無需訓練即可生成主題一致的影像。

為了將這種方法擴充套件到長影片生成,該研究團隊引入了語義運動預測器 (Semantic Motion Predictor),將影像編碼到語義空間,預測語義空間中的運動,以生成影片。這比僅基於潛在空間的運動預測更加穩定。

然後進行框架整合,將一致性自注意力和語義運動預測器結合,可以生成一致的影片,講述複雜的故事。相比現有方法,StoryDiffusion 可以生成更流暢、連貫的影片。

圖片 圖 1: 透過該團隊 StroyDiffusion 生成的影像和影片

方法概覽

該研究團隊的方法可以分為兩個階段,如圖 2 和圖 3 所示。

在第一階段,StoryDiffusion 使用一致性自注意力(Consistent Self-Attention)以無訓練的方式生成主題一致的影像。這些一致的影像可以直接用於講故事,也可以作為第二階段的輸入。在第二階段,StoryDiffusion 基於這些一致的影像建立一致的過渡影片。

圖片 圖 2:StoryDiffusion 生成主題一致影像的流程概述

圖片 圖3:生成轉場影片以獲得主題一致影像的方法。

無訓練的一致影像生成

研究團隊介紹了「如何以無訓練的方式生成主題一致的影像」的方法。解決上述問題的關鍵在於如何保持一批影像中角色的一致性。這意味著在生成過程中,他們需要建立一批影像之間的聯絡。

在重新審視了擴散模型中不同注意力機制的作用之後,他們受到啟發,探索利用自注意力來保持一批影像內影像的一致性,並提出了一致性自注意力(Consistent Self-Attention)。

研究團隊將一致性自注意力插入到現有影像生成模型的 U-Net 架構中原有自注意力的位置,並重用原有的自注意力權重,以保持無需訓練和即插即用的特性。

鑑於配對 tokens,研究團隊的方法在一批影像上執行自注意力,促進不同影像特徵之間的互動。這種型別的互動促使模型在生成過程中對角色、面部和服裝的收斂。儘管一致性自注意力方法簡單且無需訓練,但它可以有效地生成主題一致的影像。

為了更清楚地說明,研究團隊在演算法 1 中展示了虛擬碼

圖片

用於影片生成的語義運動預測器

研究團隊提出了語義運動預測器(Semantic Motion Predictor),它將影像編碼到影像語義空間中以捕獲空間資訊,從而實現從一個給定的起始幀和結束幀中進行更準確的運動預測。

更具體地說,在該團隊所提出的語義運動預測器中,他們首先使用一個函式 E 來建立從 RGB 影像到影像語義空間向量的對映,對空間資訊進行編碼。

該團隊並沒有直接使用線性層作為函式 E,與之代替的是利用一個預訓練的 CLIP 影像編碼器作為函式 E,以利用其零樣本(zero-shot)能力來提升效能。

使用函式 E,給定的起始幀 F_s 和結束幀 F_e 被壓縮成影像語義空間向量 K_s 和 K_e。

圖片

實驗結果

在生成主題一致影像方面,由於該團隊的方法是無需訓練且可即插即用的,所以他們在 Stable Diffusion XL 和 Stable Diffusion 1.5 兩個版本上都實現了這一方法。為了與對比模型保持一致,他們在 Stable-XL 模型上使用相同的預訓練權重進行比較。

針對生成一致性影片,研究者基於 Stable Diffusion 1.5 特化模型實現了他們的研究方法,並整合了一個預訓練的時間模組以支援影片生成。所有的對比模型都採用了 7.5 classifier-free 指導得分和 50-step DDIM 取樣。

一致性影像生成比較

該團隊透過與兩種最新的 ID 儲存方法 ——IP-Adapter 和 Photo Maker—— 進行比較,評估了他們生成主題一致影像的方法。

為了測試效能,他們使用 GPT-4 生成了二十個角色指令和一百個活動指令,以描述特定的活動。

定性結果如圖 4 所示:「StoryDiffusion 能夠生成高度一致的影像。而其他方法,如 IP-Adapter 和 PhotoMaker,可能會產生服飾不一致或文字可控性降低的影像。」

圖片 圖4: 與目前方法在一致性影像生成上的對比結果圖

研究者們在表 1 中展示了定量比較的結果。該結果顯示:「該團隊的 StoryDiffusion 在兩個定量指標上都取得了最佳效能,這表明該方法在保持角色特性的同時,還能夠很好地符合提示描述,並顯示出其穩健性。」

圖片 表 1: 一致性影像生成的定量對比結果

轉場影片生成的對比

在轉場影片生成方面,研究團隊與兩種最先進的方法 ——SparseCtrl 和 SEINE—— 進行了比較,以評估效能。

他們進行了轉場影片生成的定性對比,並將結果展示在圖 5 中。結果顯示:「該團隊的 StoryDiffusion 顯著優於 SEINE 和 SparseCtrl,並且生成的轉場影片既平滑又符合物理原理。」

圖片 圖 5: 目前使用各種最先進方法的轉場影片生成對比

他們還將該方法與 SEINE 和 SparseCtrl 進行了比較,並使用了包括 LPIPSfirst、LPIPS-frames、CLIPSIM-first 和 CLIPSIM-frames 在內的四個定量指標,如表 2 所示。

圖片 表 2: 與目前最先進轉場影片生成模型的定量對比

更多技術和實驗細節請參閱原論文。

相關文章