統一性:OmniGen 天然地支援各種影像生成任務,例如文生圖、影像編輯、主題驅動生成和視覺條件生成等。此外,OmniGen 可以處理經典的計算機視覺任務,將其轉換為影像生成任務。
簡單性:OmniGen 的架構高度簡化。此外,與現有模型相比,它更加使用者友好,可以透過指令完成複雜的任務,而不需要冗長的處理步驟和額外的模組 (如 ControlNet 或 IP-Adapter),從而大大簡化了工作流程。
知識遷移:受益於統一格式的學習,OmniGen 有效地跨不同任務遷移知識,應對未見過的任務和領域,並展示新穎的功能。我們還探討了模型的推理能力和思維鏈機制的在影像生成領域的潛在應用。
Paper: https://arxiv.org/pdf/2409.11340
Code: https://github.com/VectorSpaceLab/OmniGen
Demo: https://huggingface.co/spaces/Shitao/OmniGen
文字到影像生成 (Text to Image Generation)
指代表達生成 (Referring Expression Generation)
通用影像條件生成 (General Image Conditional Generation)
影像編輯 (Image Edit)
經典計算機視覺任務:影像去噪、邊緣檢測、姿態估計等
一定的上下文學習能力 (In-context Learning)