國內首個短劇創作大模型開源了,一個人就能拍短劇,單卡80秒出大片

机器之心發表於2025-02-18

圖片

AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

2 月 18 日,崑崙萬維開源中國首個面向 AI 短劇創作的影片生成模型 SkyReels-V1、中國首個 SOTA 級別基於影片基座模型的表情動作可控演算法 SkyReels-A1。

圖片
  • 開源地址:
SkyReels-V1:https://github.com/SkyworkAI/SkyReels-V1
SkyReels-A1:https://github.com/SkyworkAI/SkyReels-A1
  • 技術報告:https://skyworkai.github.io/skyreels-a1.github.io/report.pdf
  • SkyReels 官方地址:skyreels.ai

針對當前全球 AI 影片生成模型和產品不開源、用不到、費用高、不好用等痛點,崑崙萬維 SkyReels 一次性開源 SkyReels-V1 和 SkyReels-A1 兩個 SOTA 級別的模型和演算法,將面向 AI 短劇創作的技術成果回饋開源社群和 AIGC 使用者。而這只是我們在 AI 影片方向開源道路上的起點,未來將陸續開源更多面向 AI 短劇的優秀研究成果。

AI 影片和短劇的生產形式已經得到了市場的驗證,擁有巨大的商業想象空間。2024 年 8 月上線的 AI 短劇創作平臺 SkyReels 的目標是讓使用者以更低成本體驗線上拍劇,利用 AI 能力解決傳統短劇內容供給的難題。SkyReels 能夠助力解決傳統短劇製作流程中面臨的挑戰,如線下拍劇流程複雜,包括劇本創作、選演員、場景佈景、分鏡創作、拍攝、後期處理等環節,耗費人力多,製作成本貴,週期長等。

SkyReels-V1:Human-Centric Video Foundation Model
中國首個面向 AI 短劇創作的開源影片生成模型

AI 短劇極其需要同時對大腦和肢體完成精細的控制功能,這就需要同時把口型生成、表情生成、肢體生成等多個生成組合在一起。當前大家體驗比較好的是口型生成,因為口型生成其實和音訊資訊之間具備更好的對映關係,因此它的精準度可以實現的更好,使用者體驗會更好。國內首個短劇創作大模型開源了,一個人就能拍短劇,單卡80秒出大片
而人物表演的細節和能力更是 AI 短劇生成效果優質與否的核心所在,為了大幅提升表情生成、肢體生成的可控表演效果,SkyReels-V1 不僅針對表演細節做了打標,還對情緒、場景、表演訴求等進行處理,利用千萬級別、高質量的好萊塢級別資料進行訓練微調。

團隊針對人物微表情、人物表演細節、場景描述、光影、畫面構圖等做了更精細的技術升級,可以看到當前由 SkyReels 生成的影片中的人物已經存在更精準的表演細節,初步具備影帝級人物表演實力。

SkyReels-V1 可實現影視級人物微表情表演生成,支援 33 種細膩人物表情與 400 + 種自然動作組合,高度還原真人情感表達。正如以下影片所示,SkyReels-V1 支援生成大笑、怒吼、驚訝、哭泣等微表情,展現出人物情感豐沛的表演細節。

即使有大幅度肢體動作,例如下面影片中,正在大口食用漢堡包的男士,SkyReels-V1 生成的微表情也完美貼合人物肢體表演。國內首個短劇創作大模型開源了,一個人就能拍短劇,單卡80秒出大片
同時,SkyReels-V1 為 AI 影片生成帶來了電影級光影美學,基於好萊塢級的高質量影視資料訓練,當前 SkyReels 生成的每一幀畫面,在構圖、演員站位、相機角度等都具備電影級的質感。

無論是單人鏡頭表演細節,還是多人構圖,當前已具備精準的表情控制和高質感畫面。在下面影片中,SkyReels-V1 生成的「災難」片段,具有好萊塢大片即視感,場景宏大且有震撼感,其中聚焦到單個人物的臉部表情刻畫也可圈可點,以極細緻的程度展示出了身臨其境的恐懼感。國內首個短劇創作大模型開源了,一個人就能拍短劇,單卡80秒出大片在一場兩個人的「告白時刻」場景中,構圖與光影的完美融合,使整個畫面既充滿了夢幻般的浪漫氛圍,又具備了強烈的視覺衝擊力。靈動的表情、飛舞的髮絲、女子飛揚的衣袖、一道道柔和的光帶,兩人之間的浪漫愛情故事躍然眼前。 國內首個短劇創作大模型開源了,一個人就能拍短劇,單卡80秒出大片
更重要的是,SkyReels-V1 不僅支援文生影片、還能支援圖生影片,是開源影片生成模型中引數最大的支援圖生影片的模型,在同等解析度下各項指標實現開源 SOTA。
圖片
圖 1. SkyReels-V1 文生影片指標對比(來源:崑崙萬維 SkyReels)

能夠實現這樣的 SOTA 級別,不僅依賴於崑崙萬維 SkyReels 團隊基於自研的高質量資料清洗和人工標註管線,構建了千萬級的高質量電影 & 電視劇 & 紀錄片資料。更依託團隊自研「Human-Centric」的影片理解多模態大模型,大幅提升影片中人物相關的理解能力,尤其是自研人物智慧解析系統。

綜上所述,得益於紮實的資料工作和先進的人物智慧解析系統,SkyReels-V1 可以實現:

  • 影視化表情識別體系:11 種針對影視戲劇中的人物表情理解,如不屑、不耐煩、無助、厭惡等表情的理解;
  • 人物空間位置感知:基於人體三維重建技術,實現對影片中多人的空間相對關係理解,助力模型生成影視級人物站位;
  • 行為意圖理解:構建超過 400 種行為語義單元,實現對人物行為的精準理解;
  • 表演場景理解:實現人物 - 服裝 - 場景 - 劇情的關聯分析。

SkyReels-V1 不僅是全球極少數開源的影片生成模型,還是圍繞人物表演、開源影片生成模型中效能最強的。

在自研推理最佳化框架「SkyReels-Infer」的加持下,大幅提升推理效率,實現 544p 解析度,推理基於單臺 4090 只需 80s,還支援分散式多卡並行,支援 Context Parallel,CFG Parallel,和 VAE Parallel。此外,採取 fp8 quantization 以及 parameter-level offload,滿足低視訊記憶體使用者級顯示卡執行需求;支援 flash attention、SageAttention,模型編譯最佳化等,進一步最佳化延遲;基於開源 diffuser 庫,提升易用性。

正如下圖 2 所示,在同等 RTX4090 資源情況下對比(4卡),SkyReels-Infer 版本比 HunyuanVideo 官方版本端到端延遲減少 58.3%(293.3s vs 464.3s);SkyReels-Infer 版本具備更魯棒的部署策略,支援使用者級別顯示卡 1 卡 - 8 卡的推理部署。
圖片
圖 2. 推理生成 544p 影片,使用相同卡數的 RTX 4090,SkyReels-Infer 版本端到端延遲優於 HunyuanVideo 官方 (xdit) 58.3%

在同等 A800 資源情況下對比,SkyReels-Infer 版本比 HunyuanVideo 官方版本端到端延遲減少 14.7%~28.2%,SkyReels-Infer 版本具備更魯棒的多卡部署策略。
圖片
圖 3. 推理生成 544p 影片,SkyReels-Infer 版本具備更魯棒的多卡部署策略,支援 8 卡部署

SkyReels-A1:首個 SOTA 級別的基於影片基座模型的表情動作可控演算法

為了實現更加精準可控的人物影片生成,崑崙萬維還開源了 SOTA 級別的基於影片基座模型的表情動作可控演算法 SkyReels-A1,對標 Runway 的 Act-One,SkyReels-A1 支援影片驅動的電影級表情捕捉,實現高保真微表情還原。

SkyReels-A1 能夠基於任意人體比例(包括肖像、半身及全身構圖)生成高度逼真的人物動態影片,其真實感源自對人物表情變化和情緒的精準模擬、皮膚肌理、身體動作跟隨等多維度細節的深度還原。

如下述影片所示,將參考人物圖片(上圖)和驅動影片(左下)同時作為輸入,在 SkyReels-A1 的能力加持下,生成了新的影片 —— 將驅動影片中的面部表情和表演細節 “移植” 到給定參考圖片的人物身上。SkyReels-A1 支援生成的影片(下中)沒有失真,且還原了驅動影片的微表情和肢體表演,效果優於 Runway Act-One 生成的影片(右下)。國內首個短劇創作大模型開源了,一個人就能拍短劇,單卡80秒出大片SkyReels-A1 不僅支援側臉的表情控制生成、還能實現更加逼真的眉眼微表情生成和更大幅度的頭部與自然身體動作。 國內首個短劇創作大模型開源了,一個人就能拍短劇,單卡80秒出大片例如同一句臺詞表演,從下面影片可以看出,最右邊的人物有明顯變樣失真,和原始人物形象不一致,而 SkyReels-A1 支援和驅動下的人物表演,不僅人物不失真,且表演細節更真實,還可以實現神情與身體動作的自然完美融合。 國內首個短劇創作大模型開源了,一個人就能拍短劇,單卡80秒出大片SkyReels-A1 能夠實現更大幅度的人物表情驅動。在下面影片中可以看到,相比 Runway 的 Act-One(無法生成),SkyReels-A1 可以遷移更復雜的表情動作,生成的人物面部神情可以配合肢體及畫面內容實現更栩栩如生的表演。 國內首個短劇創作大模型開源了,一個人就能拍短劇,單卡80秒出大片
以開源之姿,以破局之勢
崑崙萬維致力於推動全球 AI 短劇創作生態繁榮發展

崑崙萬維一直堅持開源,推動技術平權。自 2023 年 8 月 23 日,崑崙萬維釋出國內第一款 AI 搜尋產品「天工 AI 搜尋」以來,持續開源大模型回饋開發者和行業。

早在 2023 年 10 月,崑崙萬維宣佈開源百億級大語言模型「天工」Skywork-13B 系列,並配套開源了 600GB、150B Tokens 的超大高質量開源中文資料集。2024 年開始,公司陸續開源了數字智慧體全流程研發工具包 AgentStudio、「天工大模型 3.0」4000 億引數 MoE 超級模型、 2 千億稀疏大模型 Skywork-MoE、Skywork-o1-Open 等模型。

影片生成模型是整個 AI 短劇創作當中最難的一個環節,儘管過去一年行業內的模型生成能力已有大幅提升,但還遠遠不夠,同時還面臨影片生成成本高的問題。

崑崙萬維同時將 SOTA 級別的 SkyReels-V1 和 SkyReels-A1 進行開源,是 AI 短劇行業首例,也是崑崙萬維 SkyReels 回饋行業邁出的一小步,更是促進 AI 短劇創作和影片生成行業枝繁葉茂的一大步。

我們相信在進行推理最佳化的升級和可控演算法的開源後,它們將為使用者帶來低成本、可控性更強的 AIGC 能力。崑崙萬維希望透過更多優秀影片生成模型的開源和極致的 AI 短劇產品能力,為使用者帶來低成本實現 AI 短劇創作的可能性、突破行業目前影片生成一致性差的問題,讓大眾透過自己的電腦生成精細且可控的人物表演。

崑崙萬維董事長兼 CEO 方漢表示,“AIGC 能力的出現,包括我們現在做的影片生成能力的出現,一定會將一部好萊塢大片質量的電影製作成本,從現在的一億美金,讓其迅速下降到幾十萬美金甚至幾千美金,幾年之後幾百美金都是有可能的。這樣會讓所有語言的人都會用 AI 來創作屬於本民族的內容產品。這樣的結果將會實現文化的平權,而這個紅利,很有可能是中國企業去吃到”。

此次開源的影片大模型,不僅是一次技術突破,有助於縮小全球內容產業的數字鴻溝,更是文化產業生產力的一次革命。未來,短劇與遊戲、虛擬現實等領域的跨界發展,將會加速產業融合。AI 短劇也有希望從 “技術實驗” 邁向 “主流創作”,成為全球文化輸出的新載體。

“實現通用人工智慧,讓每個人更好地塑造和表達自我” 是公司的使命,未來,崑崙萬維及 SkyReels 還將開源更多影片生成模型和演算法、通用模型,透過開源實現 AGI 平權,推動 AI 短劇生態的持續建設和繁榮,促進開源社群、開發生態以及 AI 行業的發展。

相關文章