6個月迭代10餘次,快手可靈一路狂飆。
這次,輪到名導們下場整活了。
短片一開場就相當震撼:鍾馗手持一把斬鬼劍,穿行在一片烏漆麻黑、虯枝盤曲的密林中。
伴隨著一陣節奏急促的鑼鼓聲,野兔精、蛤蟆精、長滿骷髏的樹妖接連現身,緊張恐怖的氣氛拉滿。
但一聲長喝下,鏡頭一轉,手機螢幕彈出「勿擾模式」四個大字,底下滾動著被攔截的各種資訊:
自動記賬 APP、多人視訊會議、4 個未知號碼來電、183 條微信群訊息、風險網站的跳轉連結,以及大 boss 正在打來的電話……
最後畫面緩緩打出「休假期間,百鬼勿擾」的字幕。本以為是個中式志怪片,沒想到原來是個職場吐槽片。
更讓人驚喜的是,這部由俞白眉導演打造的 5 分鐘短片,竟完全出自可靈 AI 之手。
早在三個月前,快手可靈 AI 就聯合李少紅、賈樟柯、葉錦添、薛曉路、俞白眉、董潤年、張吃魚、王子川、王卯卯等 9 位知名導演共同發起了「可靈 AI 導演共創計劃」,製作出品 9 部 AIGC 電影短片。
12 月 6 日,導演們來交作業了。
自嘲用普通話不會寫劇本的賈樟柯,在自己首部 AIGC 電影短片《麥收》中,藉助可靈 AI 的「對口型」功能,讓機器人說上了山西汾陽話。
《臥虎藏龍》藝術指導葉錦添則採用可靈 AI 的「首尾幀」功能,描繪了一個外星快遞員在太空中的冒險旅程。透過 AI 技術,每一幀畫面都逼真到讓人彷彿置身於一個真實的太空世界。
導演王子川在其作品《雛菊》中,從計算機、機器人等現代科技產物與人的關係展開,大量使用可靈 AI 的「圖生影片」功能,透過重複蒙太奇、高速剪輯以及特效鏡頭,為觀眾帶來強烈的視聽衝擊。
在助力影視創作方面,可靈 AI 最有發言權。快手科技副總裁、大模型團隊負責人張迪表示,「2024 年視覺生成領域 AI 大模型發展迅速,可靈 AI 自 6 月釋出以來,已讓眾多使用者感受到其在影片創作上的能力。」
此次這 9 部具有實驗性質的電影短片,全部使用可靈 AI 進行影片生成。電影導演完全依託影片生成大模型,深度參與電影級內容創作,這在中國尚屬首次。
作為中國首個 AIGC 導演共創計劃的成果,這 9 部 AIGC 電影短片已在快手平臺上線,並被中國電影博物館永久收藏、放映展示。這既是對中國電影歷史的一次致敬,也是對未來電影創作的一次大膽探索。
今年年初 Sora 一把火,徹底點燃了 AI 影片生成這個賽道。
6 月 6 日,快手率先推出自研的影片生成大模型「可靈AI」,成為全球首個使用者可用的真實影像級影片生成大模型。
此後,可靈 AI 又接連上線了圖生影片、影片續寫、運動筆刷等功能,不僅在畫面質量、指令遵從和運動幅度等方面有顯著提升,還將生成影片時長延伸約 3 分鐘,創作者單次生成的文生影片時長也增加至 10 秒。
儘管取得不錯的戰績,但可靈 AI 並沒有躺在功勞簿上吃老本,而是繼續馬不停蹄地推陳出新。
9 月 19 日,可靈 1.5 模型重磅登場,直接讓畫質質量、動態質量、美學表現、運動合理性以及語義理解提升了一個 level。
全球網友也開啟瘋狂整活模式,社交平臺上湧現出一堆腦洞大開的鬼畜影片,比如蒙娜麗莎戴墨鏡、熊貓彈吉他、豬八戒吃麵條等。
在商業化方面,可靈 AI 同樣走在行業前列。
可靈 AI 先後上線 Web 端、獨立 App,打造多端跨平臺產品矩陣,並全面開放內測,陸續向國內外的使用者推出會員付費體系。此外,可靈 AI 還面向 B 端開放了 API 服務,涵蓋影片生成、影像生成和虛擬試穿等多個模組。
為了給創作者提供商業變現新渠道,可靈 AI 於 10 月 18 日啟動「未來合夥人計劃」,率先推出一站式 AIGC 生態合作平臺。
這半年來,可靈 AI 一路「狂飆」,十餘次迭代升級,也讓它有了穩站行業第一梯隊的底氣。截至 12 月 10 日,可靈 AI 已擁有超 600 萬使用者,累計生成超 6500 萬個影片和超 1.75 億張圖片。
重塑影視行業
可靈 AI 又捲起來
近期,可靈 AI 趁熱打鐵,陸續推出 AI 人臉定製模型和 AI 試衣功能,為影視創作者提供了更強大的工具支援。
AI 定製模型
攻克「人物一致性」難題
在影片生成過程中,目前的影片大模型仍具有較強的隨機性。它們在處理相同的文字描述時,往往會產生不同的影片主體,這種隨機性難以維持故事的連貫性和人物形象的一致性。
對此,可靈 AI 推出了人臉定製模型。創作者只需上傳 10 段 5 秒的多角度高畫質影片,就能自助訓練一個人臉模型。如果想要效果更佳,最多可上傳 99 段影片。
完成訓練後,就可以在可靈 1.5 模型的文生影片中,生成人臉一致的影片結果,滿足創作者生成多個包含同一人物鏡頭的訴求,而且單個鏡頭中的人臉,也會更穩定更清晰。
我們上手體驗了一把,訓練出 Sam Altman 的人臉模型,然後將其放置在各種場景中。
比如,Sam Altman 在餐廳吃義大利麵:
Sam Altman 在餐廳吃水餃:
以及 Sam Altman 在車水馬龍的大街上騎摩托:
還有科幻風格的,讓 Altman 化身鋼鐵俠行走在賽博朋克風格的大街上:
由此可見,可靈 AI 的人臉定製模型在解決人物 IP 穩定性這一行業難題上邁出了新的一步,這也標誌著 AI 影片生成領域實現了又一個重要技術突破。
AI 試衣
影視造型新探索
電影《穿普拉達的女王》中,有一幕經典的蒙太奇變裝。安妮・海瑟薇在不到一分鐘內,換了六身絕美穿搭,每套都堪稱驚豔。
影片來源:電影《穿普拉達的女王》
那麼 AI 能否實現影視製作中的服裝搭配、造型設計呢?
可靈 AI 新近上線的「AI 試衣」功能就能搞定。它在可圖文生圖模型基礎上,引入衣服 SKU 保持網路、人物 Pose 姿勢、背景修復等技術,實現任意衣服、任意身材、任意動作的試穿效果生成。
用法也很簡單。只需上傳一張模特照和一套服裝圖,即可一秒變裝,這無疑大大提高了影視製作中服裝搭配和效果展示的效率。
比如,讓安妮・海瑟薇換上一件旗袍,換裝後的衣服不僅自然貼合身材曲線,還能根據風格搭配手包。
再比如,原本身著露肩襯衫外加牛仔短褲的黴黴,經過可靈 AI 一番改造,立馬從休閒風變成淑女風,換裝後的衣褶、打的結都生成得很自然。
給鳳姐換上一件黑色皮夾克,在保持複雜頭飾不變的情況下,它完美保留了毛領子、拉鍊等細節。
最絕的還是大魔王凱特・布蘭切特的變裝。前一秒還是酷颯的黑色緊身 T 恤,下一秒就換上一身白色玫瑰連衣裙。
它細緻展示了裙子絲綢材質,就連玫瑰花的顏色、位置也都一一還原。
世界名畫或雕像也能瞬間換裝。讓身著黑色長袍的蒙娜麗莎「套」上東北大花襖:
給兵馬俑穿上圓領 polo 衫和灰色長褲:
此外,它還可以透過 AI 擴圖和可靈 AI 的圖生影片大模型,實現全流程素材生成。
比如皇后換上的灰色連帽衛衣,經過 AI 擴圖變成一件寬鬆長袍。
再用鏡頭控制功能將其轉成穿搭影片。
或者輸入 Prompt「模特左右轉身向觀眾展示身上的服裝」,讓換上皮草的黃仁勳動起來。
從文生影片、圖生影片,到首尾幀功能,再到人臉模型、AI 換裝…… 這些創新技術的連續推出,無一不彰顯了快手對於未來影視行業發展趨勢的深刻洞察。
開放共享
引領 AIGC 革新
作為 AI 影片生成賽道的佼佼者,快手可靈大模型團隊在不斷擴充技術邊界的同時,還公開了一系列技術進展,積極和行業分享技術研發成果。
在 AI 影片生成領域,影片生成基礎模型和資料是構建高質量影片內容生成系統的基石。為了啃下這塊硬骨頭,可靈團隊進行了系統性研究,並率先提出一種給影片生成模型(Video DiT)量身定製的 Scaling Law 建模方法。
這種方法能夠在較低的計算成本下,提前預測大規模模型的效能表現,幫助研究者最佳化技術選擇,調整模型引數,從而大幅降低實驗試錯成本。
論文題目:《Towards Precise Scaling Laws for Video Diffusion Transformers》 論文地址:https://arxiv.org/pdf/2411.17470
另外,可靈大模型團隊還公開了其影片訓練資料的部分核心預處理流程,並基於此流程推出了高質量影片生成資料集 Koala-36M。
該資料集是目前全球領先的大規模高質量影片 - 文字資料集之一,包含 3600 萬個影片片段,平均時長為 13.75 秒,解析度達到 720p,每個影片片段配有平均 202 字的詳細描述。
資料處理流程
論文題目:《Koala-36M: A Large-scale Video Dataset Improving Consistency Between Fine-Grained Conditions And Video Content》
論文地址:https://arxiv.org/abs/2410.08260
程式碼地址:https://github.com/KwaiVGI/Koala-36M
專案主頁:https://koala36m.github.io/
資料集連結:https://huggingface.co/datasets/Koala-36M/Koala-36M-v1
在與其他資料集的比較中,基於 Koala-36M 資料集訓練的模型展現出了卓越的效能,無論是在影片質量還是文字與影片內容的一致性方面均達到了最優。
在影片生成的可控性和互動性方面,可靈團隊也取得一系列的進展。
比如,釋出了 3D 軌跡控制的影片生成專案 3DTrajMaster:
專案主頁:http://fuxiao0719.github.io/projects/3dtrajmaster
多機位影片生成專案 SynCamMaster:
SynCamMaster 支援多種相機視角變化,例如改變相機方位角、俯仰角、距離遠近等
專案主頁:https://jianhongbai.github.io/SynCamMaster/
以及精準影片風格化專案 StyleMaster:
StyleMaster 支援影像風格遷移、影片風格遷移、風格化影片生成等多種功能
專案主頁:https://zixuan-ye.github.io/stylemaster
這些專案不僅能夠控制影片中主體的三維運動,還能根據使用者的文字描述生成多視角影片,並支援任意藝術風格的影片風格轉換。
此外,團隊還開發了具有泛化能力的遊戲影片生成器 GameFactory,能夠使使用者自定義角色動作,享受個性化的虛擬世界體驗。
透過持續開放核心資料和技術元件,以及分享論文技術方案,可靈團隊不僅為影視創作領域注入了新的動力,也為未來的創意表達和內容創作開闢了更多可能。
開啟影視創作新時代
回顧百年影史,技術的革新始終是電影產業發展的關鍵驅動力。
從無聲到有聲,從黑白到彩色,從膠片到數字…… 每一次技術的飛躍,都促進電影藝術向更高的階段邁進。
如今,隨著 AI 技術的不斷迭代和突破,以可靈 AI 為代表的視覺大模型及產品逐漸成為視覺行業的新基建和新工具,它們正以其獨特的優勢,重塑著影視行業的未來。
在傳統電影拍攝中,導演天馬行空的想法往往會受到物理條件和現實世界的約束,而 AI 則打破了這些界限,創造出任何導演想象中的場景,而這種創作自由度為電影敘事提供了無限可能。
王子川導演在與可靈 AI 的合作中就深刻體會到文生影片和圖生影片技術對電影敘事方式的深遠影響。「可靈 AI 可以把創作者的想象快速變成一個視覺化的內容呈現出來,儘可能地模擬出你想要的每一個動態和整體的敘事節奏,包括所有的衝突、畫面內部的排程等」。
在他看來,技術不僅僅是工具,也是敘事藝術的新維度,為電影敘事提供了一種全新的語言。
另一方面,AI 極大地最佳化了電影產業成本效率。
曾經,拍電影是一件奢侈的事情。就以影史上燒錢鉅作《阿凡達:水之道》為例,其製作成本超過 4.5 億美元。按 193 分鐘的片長來算,每分鐘製作費就高達 233 萬美元。如此一擲千金,即使是財大氣粗的好萊塢也一度吃不消。
相比之下,AI 生成電影能夠在虛擬環境中完成大部分工作,大幅降低了成本。同時,AI 的高效率使得電影製作週期大大縮短,這對於追求快速回報的電影產業來說,無疑是一個巨大的優勢。
當然,目前的 AI 影片生成技術仍處於發展階段,在模擬人類情感的微妙變化、創造深度敘事結構以及捕捉現實世界中不可預測的偶然性方面仍存在不足。