智駕公司下場搞AI影片生成,模型上線即開源

AI好好用發表於2024-12-18

AI好好用報導

編輯:楊文
人人免費可用。

大洋彼岸,兩大巨頭 OpenAI 和谷歌輪番炸場。

一個釋出了那個傳說中的 Sora,一個推出了最強影片生成模型 Veo2。

不過,每月 200 美金的 Sora 上線即翻車,而好評不斷的 Veo 2 則尚未對公眾開放。

圖片

與他們相比,國內這家影片大模型公司顯得尤為豪橫,直接大手一揮,將自家模型開源了。

12 月 17 日,圖森未來發布了一款圖生影片的開源大模型,名字很中國風,叫 Ruyi(如意)。

同時,他們還將 Ruyi-Mini-7B 版本正式開源,網友們現在就可以去 Hugging Face 上下載使用。

圖片
  • Hugging Face 模型連結:

https://huggingface.co/IamCreateAI/Ruyi-Mini-7B

  • GitHub 程式碼連結:

https://github.com/IamCreateAI/Ruyi-Models

為了讓網友們能夠快速上手,他們還提供了部署說明和 ComfyUI 工作流,網友只需在消費級顯示卡(例如 RTX 4090)上執行即可。

不要錢就能上手玩,Ruyi 效果究竟如何?我們先放幾個官方 demo。

頭戴耳機的女孩眼神自然流轉:

圖片

宇航員漫步在荒涼的月球:

圖片

還有忽閃著大眼睛的動漫角色:

圖片

以及海浪拍打著礁石:

圖片

看著效果還挺 OK,接下來我們親自上手評測一番。


-1-

一張圖片直出 5 秒影片

Ruyi 是圖森未來正式釋出的第一款「圖生影片」模型。

無需輸入提示詞,只要上傳一張圖片,Ruyi 就能生成一段最高解析度 720P、時長 5 秒的影片。

它支援任意長寬比,會根據「喂」給它的圖片生成相應尺寸的影片。

圖片(動圖:16:9 尺寸)
智駕公司下場搞AI影片生成,模型上線即開源

(動圖:9:16 尺寸)

Ruyi 還支援最多 5 個起始幀、最多 5 個結束幀基礎上的影片生成,透過迴圈疊加可以生成任意長度的影片。

圖片

此外,Ruyi 提供了 4 檔運動幅度控制,方便創作者對整體畫面的變化程度進行控制。

圖片

以及上、下、左、右、靜止 5 種鏡頭控制。

圖片

接下來,我們將從寫實風格、影視劇照、動畫風格、動物、風景等 5 個維度進行測評。

寫實風格

寫實風格是評價影片生成模型效能的關鍵指標之一。

這是因為它要求模型能夠精準捕捉並再現現實世界中的細節,包括人物面部表情、光影效果、物體材質等。

我們先上傳了一張 AI 生成的寫實人物圖片,再讓 Ruyi 將其轉為影片。

圖片

影片中,金髮女郎微微抬頭並輕晃身體,形象保持了一致性,面部表情也沒崩。

圖片

我們又丟給它一張韓國影星金敏喜的真人照片,在生成的 3 秒影片中,Ruyi 對於人物面部識別和細節拿捏得還挺到位。

圖片

影視劇照

我們再來看看 Ruyi「拍」電影鏡頭的水平。

在 Ruyi 一頓操作下,《老友記》中身著紅衣的莫妮卡似乎在和某人進行對話。

畫面色彩豐富,很有美感,動作幅度也較大。

圖片

還有《公主日記》中的安妮・海瑟薇,如果不加以說明,Ruyi 生成的影片甚至能「以假亂真」。

圖片

動畫風格

與其他模型類似,Ruyi 還很擅長生成動畫卡通風格的影片。

比如這隻皮克斯風格的臘腸犬,眼神凌厲,搖頭晃腦:

圖片

還有卡通風格的擬人小兔,邁著八字步緩緩走來,雖然運動幅度較大,但畫面很穩定,動作流暢絲滑。

圖片

動物

僅需一張小狗的圖片,連提示詞都省了,Ruyi 就能讓靜態的小狗變得活靈活現。

圖片

在下面這則小貓的生成影片中,扭頭動作倒也連貫逼真。

智駕公司下場搞AI影片生成,模型上線即開源



風景

水流的動態涉及到流體動力學的原理,AI 模型需要能夠理解和模擬水流的運動,包括水流的速度、方向等。

Ruyi 呈現了一個微風吹過,湖面泛起陣陣漣漪的畫面。其細節之處在於水波的紋理、陽光照在水面的光影以及水流與岩石碰撞時產生的迴流。

圖片

下面這則影片是 Ruyi 模擬攝像機緩慢推進鏡頭的場景。

畫面沿著馬路向前延伸,遠處的行道樹逐漸逼近,很有紀錄片的感覺。

智駕公司下場搞AI影片生成,模型上線即開源

總體來看,Ruyi 的圖生影片在畫面一致性、動作流暢性以及真實性上表現還不錯,不過仍存在手部畸形、多人時面部細節崩壞、不可控轉場等問題。


-2-

智駕公司「半路出家」搞生成式 AI

實際上,圖森未來曾是一家正兒八經的智慧駕駛公司。

不過今年 8 月 15 日,這家公司突然宣佈進軍動畫與影片遊戲市場,併成立「生成式 AI」新業務部門。

據官方稱,此舉是為了充分利用圖森在自動駕駛領域的技術積累,探索下一個商業化機會。

該公司認為,他們在自動駕駛領域的技術優勢可以轉化為 AI 生成領域的競爭力,做自動駕駛時所積累的 AI 基礎設施和工具、大規模資料處理能力以及模型訓練最佳化經驗等可以直接轉換到大模型訓練上。

而最佳應用場景又是孵化生成式 AI 工具的原動力,於是他們盯上了動漫和遊戲產業,試圖利用大模型降低動漫和遊戲內容的開發週期和開發成本。

短短 4 個月時間,圖森就搞出了圖生影片模型 Ruyi。

除了模型開源外,圖生未來研發團隊還揭秘了背後的模型架構和訓練方式。

作為 Sora 的「幕後功臣」,DiT 架構在近幾年逐漸流行起來。

Ruyi 也是一個基於 DiT 架構的圖生影片模型。它由兩部分構成:一個 Casual VAE 模組負責影片資料的壓縮和解壓,一個 Diffusion Transformer 負責壓縮後的影片生成。

其中 Casual VAE 模組會將空間解析度壓縮至 1/8,時間解析度壓縮至 1/4,壓縮後每個畫素由 16 位的 BF16 進行表示。

DiT 部分使用 3D full attention,在空間上使用 2D RoPE 進行位置編碼,時間上使用 sin_cos 進行位置編碼,最終的 loss 選用了 DDPM 進行訓練。

模型的總引數量約為 7.1B,使用了約 200M 個影片片段進行訓練。

雖然與其他影片生成模型相比,Ruyi 釋出似乎慢了一拍,功能也相對單一,但畢竟目前開源免費。

對於後續的技術路線和功能升級,圖森未來也有規劃。

他們將在 2025 年推出 Ruyi Standard 閉源模型和一系列 ACG-GEN 工具,滿足專業內容製作團隊的需求。

圖片(ACG 是英文「Anime,Comics and Games」片語的縮寫,意為動畫、漫畫和遊戲)

到 2026 年則釋出最強效能版本,支援強大語義理解能力和多條件可控生成。

圖片

對此,你有什麼看法?來評論區聊聊吧。

文內影片連結:https://mp.weixin.qq.com/s/Ojt7YpHUprIBFHFdsbBY8w

相關文章