目前的影片編輯演算法主要分為兩種:一種是利用 DDIM-Inversion 完成影片編輯,另一種是利用訓練好的編輯模型。然而,前者在影片的一致性和文字對齊方面存在較大缺陷;後者由於缺乏高質量的影片編輯對,難以獲得理想的編輯模型。
為了解決影片編輯模型缺乏訓練資料的問題,本文作者(來自香港中文大學、香港理工大學、清華大學等高校和雲天勵飛)提出了一個名為 Señorita-2M 的資料集。該資料集包含 200 萬高質量的影片編輯對,囊括了 18 種影片編輯任務。
資料集中所有編輯影片都是由經過訓練的專家模型生成,其中最關鍵的部分由作者提出的影片編輯專家模型完成,其餘部分則由一些計算機視覺模型標註,例如 Grounded-SAM2 和深度圖檢測模型等。
論文標題:Señorita-2M: A High-Quality Instruction-based Dataset for General Video Editing by Video Specialists
論文地址: https://arxiv.org/abs/2502.06734
專案地址: https://senorita-2m-dataset.github.io
資料分佈見下圖。
專家模型的開發和資料集的構造
除了常見的計算機視覺模型,作者提出的影片編輯專家模型一共有 4 個,負責五種編輯任務。
第一個編輯專家模型稱為 Global Stylizer,負責對輸入影片進行風格轉換,它基於現有的影片生成基模型開發。
然而,作者發現影片生成基模型在接受風格資訊方面存在不足,因此無法利用 ControlNet 的思想進行風格轉換。
為了解決這一問題,作者首先利用影像 ControlNet 對首幀進行處理,然後使用影片 ControlNet 對剩餘的幀進行處理,將首幀的風格資訊推廣到剩餘的影片幀中。在訓練過程中,採用了兩階段策略,並透過凍結部分層以降低成本。在第一階段,模型在低解析度影片上訓練;在第二階段,微調模型以提高解析度。
在生成資料階段,作者採用 Midjourney 和 Stable Diffusion 常用的 290 種風格 prompt,對影片進行風格轉換,並使用 LLM 對風格 prompt 轉換成指令。
第二個編輯專家模型稱為 Local Stylizer,與 Global Stylizer 不同的是,它負責對某些物體進行風格方面的編輯。
由於對物體進行風格編輯,不需要接受複雜的風格指令,因此這個模型不使用首幀引導。除此之外,作者使用與 Global Stylizer 相同的 ControlNet 架構,並引入了 inpainting 的思想,保證只有物體本身被修改。
在生成資料階段,作者採用 LLM 對物體進行改寫併產生指令。在獲取新的資訊後,使用作者的模型對物體進行重繪。
第三個專家模型是 Text-guided Video Inpainter,用來完成物體的替換。
在實踐中,作者發現直接開發一個影片 inpainter 的效果會遠遠弱於基於首幀引導的影片 inpainter。因此,作者使用 Flux-Fill 這一高效的影像 inpainter 對首幀進行處理,並使用作者的 inpainter 對剩下的影片進行補全。這樣做的好處是將作者的影片 inpainter 只負責將首幀的影片補全內容推廣到剩餘的影片幀,減少了編輯的難度。
為了進一步減小影片標註過程中引入的資料噪聲,作者將編輯的影片作為源影片,將原始影片作為目標影片。這樣做的好處是避免基於資料集訓練的影片編輯模型學到扭曲和抖動。作者利用 LLM 對源物體和目標物體進行組合併產生用於編輯的指令。
第四個專家模型是 Object Remover。作者用這個專家模型來完成物體去除和物體新增兩部分的資料構造。物體新增任務為物體去除任務的逆任務,只需要將標註影片當作源影片,原始影片當作目標影片即可完成資料對的構造。
對於這個專家模型的構造,作者提出了一種反轉訓練的策略,將訓練的 90% 資料的 mask 替換為與影片內容無關的 mask,訓練影片恢復的背景和 mask 形狀無關。這樣可以有效避免影片 remover 根據 mask 形狀再次生成物體。
作者還將 10% 的資料設定為和影片物體嚴格一致的 mask,這樣可以訓練 remover 產生物體,在推理時將這一條件設定為負 prompt 來避免去除區域內的物體的產生。作者使用 LLM 對使用的 prompt 轉換成用於物體去除和物體新增的指令。
除此之外,作者還使用了多種計算機視覺模型對影片進行標註。例如,使用了 Grounded-SAM2 來標註經過 Grounding 的影片,目的是用來訓練模型對物體的感知能力,幫助編輯模型對區域的編輯。作者還使用了其他多種專家模型,這些模型一共標註了 13 種影片編輯任務。相似的,這些資料對應的指令也使用 LLM 進行增強。
資料集的清洗
為了保證影片對的可靠性,作者使用多種過濾演算法對生成的影片進行清洗。
具體來講,首先訓練了一個檢測器用來檢測編輯失敗的資料,去除那些有害的影片。其次,使用 CLIP 對文字和影片的匹配度進行檢測,丟棄匹配度過小的資料。最後,比對了原始影片和編輯影片的相似度,丟棄掉沒有明顯編輯變化的影片。
基於 Señorita-2M 資料集的編輯模型訓練
作者使用 CogVideoX-5B-I2V 作為基模型,利用首幀引導的方式,使用 Señorita-2M 訓練了一個編輯模型。這個模型和之前方法的實驗比較結果表明,基於該資料集訓練的模型具有更強的一致性、文字影片對齊,以及更好的使用者偏好度。
為了進一步證明資料的有效性,作者做了消融實驗,使用了相同資料量的 InsV2V 和 Señorita-2M 影片對 CogVideoX-5B-T2V 進行微調。結果發現,使用了 Señorita-2M 的資料,可以大大增強文字匹配度。
另外,增加了訓練資料的數量後,這些指標會有明顯的改善。這些實驗證明了該資料集可以有效地訓練出高質量的影片編輯器。更多實驗資料詳見表 1。
表 1. 基於 Señorita-2M 訓練的模型和其他編輯方法的對比
另外,作者還探索了目前的一些編輯架構,採用和 instruct-pix2pix 以及 controlnet 相同的架構,並基於 CogVideoX-5B 來構建影片編輯模型。另外,作者還採用 omni-edit 影像編輯對這基於兩個架構的影片編輯模型進行增強。結果發現,使用影像資料增強的模型會有更好的文字匹配度以及使用者偏好度。
除此之外,作者還採用了首幀引導的方式進行編輯模型。實驗結果證明,在影片編輯中,使用 ControlNet 相比於 Instruct-pix2pix 會有更好的編輯效果,基於首幀引導的編輯模型可以比非首幀引導的模型獲得更好的編輯效果。具體實驗結果詳見表 2。
表 2. 不同編輯架構之間的對比
總結
作者訓練了一系列影片編輯專家模型,用它們和其他計算機視覺模型建立了一個高質量的、基於指令的影片編輯資料集。這個資料集中包含了 18 種不同的影片編輯任務,擁有 200 萬的影片編輯對。作者使用了一系列的過濾演算法對產生的資料進行篩選,並使用 LLM 對指令進行生成和增強。
實驗證明,該資料集可以有效地訓練出高質量的影片編輯模型,在視覺效果幀間一致性和文字對齊度等指標上有著較大的提升。除此之外,作者採用了不同的編輯架構對影片編輯進行探索,並得出了一系列結論。作者還設計了消融實驗,證明使用相同基礎模型的情況下,使用該資料集的資料會大大提升編輯模型的編輯能力。