論文標題:UniEdit: A Unified Tuning-Free Framework for Video Motion and Appearance Editing 專案主頁:https://jianhongbai.github.io/UniEdit 程式碼:https://github.com/JianhongBai/UniEdit 論文:https://arxiv.org/abs/2402.13185
多功能:支援影片「動作」編輯以及多種影片「外觀」編輯場景。 無需訓練:UniEdit 直接利用與訓練的文字到影片生成模型,無需額外訓練或微調。 靈活性:可相容不同文字到影片生成模型,可以使用更加強大的影片生成模型提升 UniEdit 編輯質量。
研究者發現,影片生成模型的時間自注意層編碼了影片的「幀間依賴性」。基於這個洞察,研究者引入了一個輔助的動作參考分支,用於生成文字引導的動作特徵,然後透過時間自注意層(SA-T)將這些特徵注入到主編輯路徑中,從而實現將文字引導的動作注入到源影片中。 受到影像編輯技術的啟發,研究者發現影片生成模型的空間自注意層(SA-S)編碼了影片幀內空間依賴性。因此,研究者引入了一個輔助影片重建分支,並將從影片重建分支的空間自我注意層獲得的特徵注入到主編輯路徑中,以保留源影片的非編輯內容。 為了在編輯外觀時保持空間結構,研究者將主編輯路徑中的空間注意力圖替換為影片重建分支中的空間注意力圖。