UniReal登場：用影片架構統一影像生成與編輯，還學到真實世界動態變化規律

机器之心發表於2024-12-20

原文網址 : https://www.jiqizhixin.com/articles/2024-12-20-5

AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年，機器之心AIxiv專欄接收報導了2000多篇內容，覆蓋全球各大高校與企業的頂級實驗室，有效促進了學術交流與傳播。如果您有優秀的工作想要分享，歡迎投稿或者聯絡報導。投稿郵箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

論文一作陳汐，現為香港大學三年級博士生，在此之前本科碩士畢業於浙江大學，同時獲得法國馬賽中央理工雙碩士學位。主要研究方向為影像影片生成與理解，在領域內頂級期刊會議上發表論文十餘篇，並且 GitHub 開源專案獲得超過 5K star.

本文中，香港大學與 Adobe 聯合提出名為 UniReal 的全新影像編輯與生成正規化。該方法將多種影像任務統一到影片生成框架中，透過將不同類別和數量的輸入/輸出影像建模為影片幀，從大規模真實影片資料中學習屬性、姿態、光照等多種變化規律，從而實現高保真的生成效果。

論文標題：UniReal: Universal Image Generation and Editing via Learning Real-world Dynamics
專案主頁：https://xavierchen34.github.io/UniReal-Page/
論文連結：https://arxiv.org/abs/2412.07774

效果展示

我們重點展示了影像生成與編輯中最具挑戰性的三個任務的效果：影像定製化生成、指令編輯和物體插入。

此外，UniReal 還支援多種影像生成、編輯及感知任務，例如文字生成影像、可控影像生成、影像修復、深度估計和目標分割等。

在單目標定製化生成任務中，UniReal 能夠在準確保留目標細節（如 logo）的同時，生成具有較大姿態和場景變化的影像，並自然地模擬物體在不同環境下的狀態，從而實現高質量的生成效果。

與此同時，UniReal 展現了強大的多目標組合能力，能夠精確建模不同物體之間的互動關係，生成高度協調且逼真的影像效果。

值得注意的是，我們並未專門收集人像資料進行訓練，UniReal 仍能夠生成自然且真實的全身像定製化效果，展現了其出色的泛化能力。

在指令編輯方面，UniReal 支援使用者透過自由輸入文字對影像進行靈活編輯，例如新增或刪除物體、修改屬性等。實驗結果表明，UniReal 展現出了卓越的場景理解能力，能夠真實地模擬物體的陰影、反射以及前後遮擋關係，生成高度逼真的編輯效果。

UniReal 支援從影像中提取特定目標作為前景，插入到背景影像中，天然適用於虛擬試衣、Logo 遷移、物體傳送等任務。實驗表明，UniReal 插入的目標能夠非常自然地融入背景影像，呈現出與背景一致的和諧角度、倒影效果及環境匹配度，顯著提升了任務的生成質量。

除了上述任務外，UniReal 還支援文字生成影像、可控影像生成、參考式影像補全、目標分割、深度估計等多種任務，並能夠同時生成多張影像。此外，UniReal 支援各類任務的相互組合，從而展現出許多未經過專門訓練的強大能力，進一步證明其通用性和擴充套件性。

方法介紹

UniReal 的目標是為影像生成與編輯任務構建一個統一框架。我們觀察到，不同任務通常存在多樣化的輸入輸出影像種類與數量，以及各自獨特的具體要求。然而，這些任務之間共享一個核心需求：在保持輸入輸出影像一致性的同時，根據控制訊號建模影像的變化。

這一需求與影片生成任務有天然的契合性。影片生成需要同時滿足幀間內容的一致性與運動變化，並能夠支援不同的幀數輸出。受到近期類似 Sora 的影片生成模型所取得優異效果的啟發，我們提出將不同的影像生成與編輯任務統一到影片生成架構中。

此外，考慮到影片中自然包含真實世界中多樣化的動態變化，我們直接從原始影片出發，構建大規模訓練資料，使模型能夠學習和模擬真實世界的變化規律，從而實現高保真的生成與編輯效果。

模型結構：我們借鑑了與 Sora 類似的影片生成架構，將不同的輸入輸出影像統一視作影片幀處理。具體來說，影像透過 VAE 編碼後被轉換為視覺 token，接著輸入 Transformer 進行處理。與此同時，我們引入了 T5 text encoder 對輸入指令進行編碼，將生成的文字 token 與視覺 token 一同輸入 Transformer。透過使用 full attention 機制，模型能夠充分建模視覺和文字之間的關係，實現跨模態資訊的高效融合和綜合理解。這種設計確保了模型在處理多樣化任務時的靈活性和生成效果的一致性。

層級化提示：為了解決不同任務和資料之間的衝突問題，同時支援多樣化的任務與資料，我們提出了一種 Hierarchical Prompt（層級化提示）設計。在傳統提示詞（Prompt）的基礎上，引入了 Context Prompt 和 Image Prompt 兩個新元件。

Context Prompt：用於補充描述不同任務和資料集的特性，包括任務目標、資料分特點等背景資訊，從而為模型提供更豐富的上下文理解。
Image Prompt：對輸入影像進行層次化劃分，將其分為三類：
Asset（前景）：需要重點操作或變更的目標區域；
Canvas（畫布）：作為生成或編輯的背景場景；
Control（控制）：提供約束或引導的輸入訊號，如參考影像或控制引數。

為每種類別的輸入影像單獨訓練不同的 embedding，從而幫助模型在聯合訓練中區分輸入影像的作用和語義，避免不同任務和資料引發的衝突與歧義。

透過這種層級化提示設計，模型能夠更高效地整合多樣化的任務和資料，顯著提升聯合訓練的效果，進一步增強其生成和編輯能力。

資料構造：我們基於原始影片資料構建了大規模訓練資料集，以支援多樣化的任務需求。具體步驟如下：

1. 編輯資料生成

從影片中隨機抽取前後兩幀，分別作為編輯前和編輯後的影像結果，並藉助視覺語言模型（VLM）生成對應的編輯指令，以模擬多樣化的影像編輯任務。

2. 多目標定製化生成

我們結合 VLM 與 SAM2，在影片首幀中分割出不同的目標區域，並利用這些目標區域重建後續幀，構造多目標定製化生成的資料。這種方式能夠模擬目標在複雜場景中的動態變化，併為多目標生成任務提供高質量的資料支援。

3. 可控生成與影像理解標註

利用一系列影像理解模型（如深度估計模型）對影片和影像進行自動打標。這些標籤不僅為可控生成任務（如深度控制生成）提供了豐富的條件資訊，還為影像理解任務（如深度估計、目標分割）提供了標準參考。

透過這種基於原始影片的多層次資料構造策略，我們的模型能夠學習真實世界中的動態變化規律，同時支援多種複雜的影像生成與理解任務，顯著提升了資料集的多樣性和模型的泛化能力。

效果對比

在指令編輯任務中，UniReal 能夠更好地保持背景畫素的一致性，同時完成更具挑戰性的編輯任務。例如，它可以根據使用者指令生成 “螞蟻抬起轎車” 的畫面，並在轎車被抬起後動態調整冰面上的反射，使其與場景的物理變化相一致。這種能力充分展現了 UniReal 在場景理解和細節生成上的強大效能。

在定製化生成任務中，無論是細節的精確保留還是對指令的準確執行，UniReal 都展現出了顯著的優勢。其生成結果不僅能夠忠實還原目標細節，還能靈活響應多樣化的指令需求，體現出卓越的生成能力和任務適應性。

在物體插入任務中，我們與此前的代表性方法 AnyDoor 進行了對比，UniReal 展現出了更強的環境理解能力。例如，它能夠正確模擬狗在水中的姿態，自動調整易拉罐在桌子上的視角，以及精確建模衣服在模特身上的狀態，同時保留模特的頭髮細節。這種對場景和物體關係的高度理解，使 UniReal 在生成真實感和一致性上遠超現有方法。

未來展望

UniReal 在多個任務中展現了強大的潛力。然而，隨著輸入和輸出影像數量的進一步擴大，訓練與推理效率問題成為需要解決的關鍵挑戰。為此，我們計劃探索設計更高效的注意力結構，以降低計算成本並提高處理速度。同時，我們還將這一方案進一步擴充套件到影片生成與編輯任務中，利用高效的結構應對更復雜的資料規模和動態場景需求，推動模型效能與實用性的全面提升。

新擴散模型OmniGen一統影像生成，架構還高度簡化、易用
2024-10-29
模型架構
DiT架構大一統：一個框架整合影像、影片、音訊和3D生成，可編輯、能試玩
2024-05-13
架構框架音訊3D
Meta又給OpenAI一記重擊，影片生成Movie Gen震撼登場，甚至可以配音、編輯
2024-10-05
OpenAI
動態規劃-編輯距離
2018-06-26
動態規劃
Leetcode 編輯距離（動態規劃）
2018-09-12
LeetCode動態規劃
【演算法】動態規劃-優化編輯器問題
2018-08-04
演算法動態規劃優化
機器學習在美團配送系統的實踐：用技術還原真實世界
2018-12-16
機器學習
從真實世界到渲染
2020-04-15
DeepSeek新作Janus：解耦視覺編碼，引領多模態理解與生成統一新正規化
2024-10-22
解耦視覺
無論真實還是AI影片，「摩斯卡」都能重建恢復4D動態可渲染場景
2024-06-21
AI
微影片剪輯編輯器是一款簡單實用的短影片剪輯製作工具
2020-12-04
華為影片編輯服務（Video Editor Kit），助力開發者高效構建應用影片編輯能力
2021-07-31
IDE
大一統影片編輯框架：浙大&微軟推出UniEdit，無須訓練、支援多種編輯場景
2024-03-04
框架微軟
強化學習（三）用動態規劃（DP）求解
2018-08-12
強化學習動態規劃
微服務架構學習與思考(05)：微服務架構適用場景分析
2020-10-02
微服務架構
南海流場日變化動態圖
2019-03-20
Filmage Screen：超實用的Mac影片編輯軟體
2021-02-22
Mac
Envoy實現.NET架構的閘道器（一）靜態配置與檔案動態配置
2021-10-29
架構
Android MVP架構從入門到精通-真槍實彈
2018-11-23
AndroidMVP架構
Mac影片編輯應用——Videoloupe for Mac
2020-05-26
MacIDE
多重可控插幀影片生成編輯，Adobe這個大一統模型做到了，效果驚豔
2025-02-03
模型
Scikit-Learn 與 TensorFlow 機器學習實用指南學習筆記 4 —— 資料探索與視覺化、發現規律
2018-12-17
機器學習筆記視覺化
QLab Pro for Mac(現場表演類實時音影片編輯工具)
2022-11-16
Mac
Hetao P2071 打字遊戲題解 [ 綠 ] [ 最小生成樹 ] [ 動態規劃 ] [ 編輯距離 ]
2024-09-29
遊戲動態規劃
《怪物獵人：世界》背後潛藏的真實生態學
2020-01-13
動態代理架構
2018-10-25
架構
影像編輯：Pixelmator Pro直裝啟用版
2023-04-28
更美影像生成、直出分鐘級影片，國產自研DiT架構的越級之旅
2024-07-08
架構
汽車之家10年系統架構演進與平臺化架構實踐
2023-05-04
架構
系統設計架構：有狀態與無狀態
2022-06-21
架構
Slate文件編輯器-WrapNode資料結構與操作變換
2024-11-18
資料結構
Pytorch視訊記憶體動態分配規律探索
2020-11-16
PyTorch記憶體
Capture One 23 Enterprise for Mac(RAW影像編輯軟體)漢化啟用版
2023-11-06
APTMac
系統架構演變
2022-03-10
架構
照片和影像編輯應用程式為何盈利？
2023-01-16
多場景靜態化編譯在兩輪SAAS用車實踐
2024-03-04
編譯
一加 11 哈蘇影像系統全面升級多項領先技術還原真實色彩
2023-01-03
阿里「軌跡可控版Sora」，告別「抽卡」，讓影片生成更符合物理規律
2024-08-04
阿里Sora

UniReal登場：用影片架構統一影像生成與編輯，還學到真實世界動態變化規律

相關文章