OpenAI 的 Sora 在今年 2 月橫空出世,把文生影片帶向了新階段。它能夠根據文字提示生成好萊塢電影般逼真而又充滿想象力的影片。很多人紛紛感嘆,現在的 OpenAI 一出手就是巔峰。
由 Sora 引發的熱潮還在持續,同時研究者們也看到了 AI 影片生成技術上的巨大潛力,越來越多的人開始關注這一領域。
然而,當前 AI 影片生成領域,大部分演算法研究將重點放在了透過文字提示生成影片,對於多模態輸入,特別是圖片與文字結合的場景,並沒有進行深入探討或廣泛應用。這種偏向降低了生成影片的多樣性和可控制性,限制了從靜態影像到動態影片的轉換能力。
另一方面,現有的大部分影片生成模型對生成影片內容缺乏可編輯性的支援,無法滿足使用者對生成影片進行個性化調整的需求。
提示:把熊貓變成熊,並且讓它跳舞。(Change the panda to a bear and make it dance.)
本文,來自 Seeking AI、哈佛大學、史丹佛大學以及北京大學的研究者們共同提出了一種創新的基於圖片 - 文字的影片生成編輯統一框架,名為 WorldGPT。該框架建立在 Seeking AI 與上述知名高校共同研發的 VisionGPT 框架之上,不僅能夠實現由圖片和文字直接生成影片的功能,還支援透過簡單的文字提示(prompt)對生成影片進行風格遷移、背景替換等一系列影片外觀編輯操作。
另外,該框架的另一顯著優勢是其無需訓練,這不僅大幅降低了技術門檻,也使得部署和使用變得極為便捷。使用者可以直接利用模型進行創作,無需關注背後複雜的訓練過程。
- 論文地址:https://arxiv.org/pdf/2403.07944.pdf
- 論文標題:WorldGPT: A Sora-Inspired Video AI Agent as Rich World Models from Text and Image Inputs
接下來我們看看 WorldGPT 在多種複雜影片生成控制場景中的示例展示。
背景替換 + 生成影片
提示:「一支船隊在呼嘯的風暴中奮力前行,他們的船帆在無情風暴的巨浪中航行。(A fleet of ships pressed on through the howling tempest, their sails billowing as they navigated the towering waves of the relentless storm.)」
背景替換 + 風格化 + 生成影片
提示:「一條可愛的龍在城市的街道上噴火。(A cute dragon is spitting fire on an urban street.)」
物件替換 + 背景替換 + 生成影片
提示:「一個賽博朋克風格的機器人在霓虹燈照亮的反烏托邦城市景觀中疾馳,高聳的全息圖和數字衰變的反射投影到其光滑的金屬機身上。(A cyberpunk-style automaton raced through the neon-lit, dystopian cityscape, reflections of towering holograms and digital decay playing across its sleek, metallic body.)」
從上面的示例可以看出,WorldGPT 在面對複雜影片生成指令時具有以下優點:
1)較好的保持了原輸入影像的結構和環境;
2)生成符合圖片 - 文字描述的生成影片,展現出了強大的影片生成定製能力;
3)可以透過 prompt 對生成影片進行定製化編輯。
瞭解更多有關 WorldGPT 的原理、實驗和用例的資訊,請檢視原論文。
VisonGPT
前面已經提到,WorldGPT 框架建立在 VisionGPT 框架之上。接下來我們簡單介紹一下有關 VisionGPT 的資訊。
VisionGPT 是由 SeekingAI、史丹佛大學、哈佛大學及北京大學等機構聯合研發,是一款開創性的開放世界視覺感知大模型框架。該框架透過智慧整合和決策選擇最先進的 SOTA 大模型,提供了強大的 AI 多模態影像處理功能。
VisionGPT 的創新之處主要體現在三個方面:
- 首先,它以大型語言模型(例如 LLaMA-2)為核心,將使用者的 prompt 請求分解成詳細的步驟需求,並自動化呼叫最合適的大模型進行處理;
- 其次,VisionGPT 自動接受並融合來自多個 SOTA 大模型產生的多模態輸出,從而生成針對使用者需求的影像處理結果;
- 最後,VisionGPT 具有極高的靈活性和多功能性,無需使用者對模型進行微調,就能夠支援包括文字驅動的影像理解、生成、編輯在內的廣泛應用場景。
- 論文地址:https://arxiv.org/pdf/2403.09027.pdf
- 論文標題:VisionGPT: Vision-Language Understanding Agent Using Generalized Multimodal Framework
VisionGPT 用例
從上面可以看出,VisionGPT 無需 fine-tune,即可以輕鬆實現 1)開放世界的例項分割;2)基於 prompt 的影像生成和編輯功能等。VisionGPT 的工作流程如下圖所示。
更多詳細資訊可以參考論文。
VisionGPT-3D
此外,研究者們還推出了 VisionGPT-3D,旨在解決從文字到視覺元素轉換中的一大挑戰:如何高效、準確地將 2D 影像轉換成 3D 表示。在這個過程中,經常面臨演算法與實際需求不匹配的問題,從而影響最終結果的質量。VisionGPT-3D 透過整合多種最先進的 SOTA 視覺大模型,提出了一個多模態框架,最佳化了這一轉換流程。其核心創新點在於自動選擇最適合的視覺 SOTA 模型和 3D 點雲建立演算法,並且根據文字提示等多模態輸入生成最符合使用者需求的輸出的能力。
- 論文地址:https://arxiv.org/pdf/2403.09530v1.pdf
- 論文標題: VisionGPT-3D: A Generalized Multimodal Agent for Enhanced 3D Vision Understanding
瞭解更多資訊,請參考原論文。