快手「可靈」爆火:海外AI圈巨震,中國版Sora一號難求

机器之心發表於2024-06-13
短短一年後,AI 生成的「吃麵條」已經如此自然流暢?這讓全球網友都感受到了億點點震撼。

圖片

圖源:https://x.com/CharaspowerAI/status/1799494388462063632

右側的這些生成影片,都來自快手剛剛推出的文生影片大模型「可靈」(Kling)。

不是預釋出、不是純 Demo 合集,而是直接開放測試的產品級應用,人人都能申請。而且,可靈支援生成最長 2 分鐘、30fps 的 1080P 影片,主打從頭腦風暴到可釋出作品的「一鍵轉化」。(官網地址:https://kling.kuaishou.com/)

最早一批用上的使用者已經「真香」:

圖片

圖源:https://x.com/op7418/status/1799047146089619589

圖片

圖源:https://weibo.com/7714861068/Oig1Qm8Or?refer_flag=1001030103_

500 人上限的交流群,很快就滿員了,滿屏都是 tql:

圖片

還沒用上的外國友人只能乾著急,在社交媒體發「求求了」:
圖片
不誇張地說,可靈現在是「一號難求」:
圖片
圖片
訊息傳到矽谷創投圈,更是引發了一場熱議。

Stability AI 前 CEO Emad Mostaque 表示:「中國的 AI 技術有自己的優勢。」
圖片
圖源:https://x.com/EMostaque/status/1799133463003684918

YC CEO 也在 X 平臺轉發了可靈生成的 Demo:
圖片
就圖中這個「吃漢堡」的案例而言,在相同的提示詞下,可靈的生成效果確實比 Sora 更生動、真實:

Prompt:Une personne tapant son meilleur croc dans son hamburger

圖片

影片地址:https://x.com/AngryTomtweets/status/1799787209651859910

對於關注 AI 的人來說,這幾天一定陸陸續續看過很多可靈生成的作品了。機器之心也是第一時間就點進了申請通道,並拿到了試用資格。

接下來,我們不妨一邊試用、一邊分析可靈爆火的原因。

國內首個文生影片產品級應用

或許你還記得這個曾經非常火爆的「氣球人」影片。三位創作者花費近兩週時間,使用 Sora 製作了這條 1 分 21 秒的影片短片,讓人感到十分驚豔。不過,負責後期製作的 Patrick Cederberg 坦白了過程中的很多問題,例如氣球的顏色在每次生成中都會改變、鏡頭中會出現一些瑕疵等等。

圖片

Sora 生成結果。完整影片地址:https://youtu.be/9oryIMNVtto?si=F6oDzvrhzfVcQGeh

對於此前的影片生成模型來說,「一氣呵成」生成 1 分鐘以上的內容確實有難度,特別是要求畫面中的各種元素保持前後一致。

獵豹移動董事長兼 CEO、獵戶星空董事長傅盛公開了自己用可靈製作的「氣球人」影片,並表示自己僅用了「幾十分鐘」,就做出了連續性、真實度、清晰度都很優秀的短片。快手「可靈」爆火:海外AI圈巨震,中國版Sora一號難求
在內測的過程中,我們還發現了一個專業創作者社群自發建立的教程與 Demo 文件,包含了上百個可靈生成的作品,還提供了測試維度的指導。

感興趣的讀者請戳:https://waytoagi.feishu.cn/wiki/GevKwyEt1i4SUVk0q2JcqQFtnRd

下面這個 2 分鐘的公益短片《一個很遠的地方》也是完全由可靈生成的,你能看出來嗎?快手「可靈」爆火:海外AI圈巨震,中國版Sora一號難求在創作者 @AIGC 十三的作品《瘋狂動物城賽車大賽》中,這 20 秒包含了疾速行駛的賽車(大幅度運動)、動物駕駛車輛(考驗想象力的概念組合)等生成難點,但從結果來看,可靈很好地解決了這些問題: 快手「可靈」爆火:海外AI圈巨震,中國版Sora一號難求
來源:可靈創作者@AIGC 十三

還有一個很有趣的案例是 @八級技工創作的《假期開啟方式》,這段 56 秒的短頻共花費了 3 小時製作,包含 23 個鏡頭。然後在可靈的生成結果之上新增配音,詼諧的感覺馬上就有了:快手「可靈」爆火:海外AI圈巨震,中國版Sora一號難求
來源:可靈創作者@八級技工

看完這些,我們應該已經意識到,可靈所代表的影片生成技術的影響力,遠遠超出了單純的創作。在不同的研究領域和行業賽道,這一技術的落地正在加速,為從自動內容生成到複雜決策過程的各種任務提供了變革潛力。

哪些行業最先被改變?

傳統的遊戲開發通常受到預先渲染的環境和指令碼事件的限制。一旦將影片生成模型整合到遊戲領域,遊戲的開發、玩耍和體驗方式都將得到創新,為講故事、互動和沉浸式體驗帶來新的可能性。對於遊戲開發者來說,最直觀的一項玩法是,根據使用者敘述生成定製的視覺效果甚至角色動作。

在下方的 demo 中,我們可以看到,使用者能夠藉助可靈創造出無與倫比的身臨其境體驗:

圖片

圖源:https://x.com/dustinhollywood/status/1800056286215553444

圖片

圖片

圖片

圖片

圖源:https://x.com/dustinhollywood/status/1800056886693347624

另外一個將被顛覆的行業就是影視製作。傳統的電影製作是一個艱鉅而昂貴的過程,往往需要數年的努力、大量的裝置和資金投入。影片生成技術的出現預示著電影製作進入了一個新的「民主化時代」,從簡單的文字輸入中自主生成個人影視作品的夢想正在成為現實。

現在,我們用可靈生成的是 5 秒的單鏡頭片段,伴隨著技術的不斷演進,使用者單次能夠生成的影片時長也會增加。比如說,我們未來或許能夠一次性生成更長的影片內容,保持故事場景的連貫性和觀賞性。其中的運鏡手法也許會更高階,比如連貫的長鏡頭。

圖片

圖源:https://x.com/dustinhollywood/status/1800007000849629674

下面這段剪影作品再次印證了一點:AI 對藝術的理解力與審美水準,絲毫不遜於人類。

Prompt:“A dancer’s silhouette transitions seamlessly through different dance styles, from hip-hop to ballet, in one continuous shot”

圖片圖片

可靈生成作品。圖源:https://x.com/dustinhollywood/status/1799970059957555210

科幻電影的風格完全拿捏:快手「可靈」爆火:海外AI圈巨震,中國版Sora一號難求
來源:可靈創作者 @狗兒李

AI 同樣能為奢侈品大片的製作注入靈感:快手「可靈」爆火:海外AI圈巨震,中國版Sora一號難求
來源:可靈創作者 @AI 的小羅

我們可以看一下可靈生成的這段「蜂蜜」廣告片,AI 在模擬傾倒蜂蜜特寫鏡頭中的表現絲毫不輸專業攝像團隊:快手「可靈」爆火:海外AI圈巨震,中國版Sora一號難求
來源:可靈創作者@追圖AIGC

可靈背後有哪些技術?

我們無法從 OpenAI 簡略的技術報告中獲得足夠的 Sora 研發細節,但可靈大模型官網卻披露了更具參考意義的資訊,主要包括從資料準備、模型架構、訓練方案及最佳化策略幾個方面。

資料準備

依託快手在影片技術領域的多年積累,可靈大模型團隊已經構建了完備的標籤體系,包括從影片基礎質量、美學、自然度等多個維度對影片資料質量進行刻畫,並針對每一個維度設計多種定製化的標籤特徵,以此來精細化篩選訓練資料或調整訓練資料的分佈。

為了滿足訓練文生影片模型過程中成對的影片和文字描述需求,可靈大模型團隊自研了影片描述模型,可以生成精確、詳盡、結構化的影片描述,顯著提升影片生成模型的文字指令響應能力。

模型架構

高質量的標註資料準備完畢後,可靈大模型又是如何獲得模擬物理世界特性與概念組合的能力呢?

在整體架構設計上,可靈採用了目前火熱的 Diffusion Transformer (DiT) 。傳統的擴散模型主要利用包含下采樣和上取樣塊的卷積 U-Net 作為去噪網路骨幹。但一些研究表明,U-Net 架構對擴散模型的良好效能並非至關重要。透過採用更靈活的 Transformer 架構,擴散模型可以使用更多的訓練資料和更大的模型引數。DiT 就是這個研究思路下的代表作之一。

這幾個月來,業內形成一個共識,影片生成模型的成功,歸根結底是 Scaling Law 的作用。這一共識正是基於 DiT 論文的發現,使用 Transformer 能穩定地擴大模型規模:隨著訓練計算量的增加(訓練模型的時間延長或模型增大,或兩者兼而有之),效能也會隨之提高。

這意味著,對於影片生成模型,只要用更多的算力、更多的資料去 Scale up,生成質量還會持續提升。

可靈之所以能夠將使用者的文字提示轉化為具體的畫面,包括那些真實世界中不會出現的虛構場景,就是基於對文字 - 影片語義的深刻理解和 Diffusion Transformer 架構的強大能力。在自研架構和 Scaling Law 激發出的強大建模能力推動下,可靈能夠很好地模擬真實世界的物理特性,生成符合物理規律的影片。

與此同時,基於團隊自研的 3D VAE 網路,可靈大模型能夠生成 1080p 解析度的電影級影片,無論是浩瀚壯闊的宏大場景,還是細膩入微的特寫鏡頭,都能夠生動呈現。

圖片

自然場景下,光線的變化很流暢。測試者:@杉杉

當然,對於影片生成模型來說,另一個必須考慮的因素是:影片是一種具有時間維度的視覺內容,不連貫的內容會讓使用者的觀看體驗大打折扣。

為了保證畫面中運動的呈現更加合理,可靈大模型採用 3D 時空聯合注意力機制,更好地建模複雜時空運動,即可生成較大幅度運動的影片內容,同時能夠符合運動規律。

圖片

訓練及最佳化策略

如果你已經親自測試過,就會發現可靈支援推理過程中同樣的內容輸出多種影片寬高比。這是因為可靈採用了可變解析度的訓練策略,目的是滿足更豐富場景中的影片素材使用需求。

與此同時,得益於高效的訓練基礎設施、極致的推理最佳化和可擴充套件的基礎架構,可靈大模型能夠生成長達 2 分鐘的影片,且幀率達到 30fps。

影片生成,不再是一場「追趕 OpenAI」的遊戲

2024 年被稱為影片生成技術的爆發之年,但在可靈之前,我們始終沒見到 Sora 級的可用產品,而 Sora 何時開放也是未知數。

某種意義上說,可靈是第一個真正的「中國版 Sora」,並讓這項技術真正進入了可用、好用、實用的階段。

正如傅盛所說:「這可能是今天在全世界範圍內,你能夠使用到的最好的文生影片產品。」任何親自試用過可靈的人,都會明白這絕不是過譽。

傅盛的影片還給到了另外一個觀點:「反過來也說明,Sora 並不是一個技術性的突破,而是一個產品型的突破。」

還記得幾個月前,Sora 以長達 60 秒的連貫影片、高畫質畫面質感、連貫的鏡頭移動、運動方式等優點,拉高了整個影片生成賽道的技術水平,掀起了文生影片賽道的競爭浪潮。

我們本以為,影片生成領域會像去年的文字大模型一樣,演化為國內對海外的技術趕超。但可靈的釋出,意味著國產文生影片大模型技術的探索已經達到了一個全新的高度,而且在產品落地層面做到了實質領先。我們可能不需要再重新經歷一次「追趕 OpenAI」的遊戲了。

有人給出判斷:中國正在人工智慧領域超越美國。
圖片
可靈的誕生,或許意味著一個新時代開啟了。在生成式 AI 時代,生成和編輯影片或許會像今天我們用手機 P 圖一樣簡單,想象力與現實之間的阻隔將被徹底打破。

由於太過火爆,目前在排隊測試可靈的人數已經超過了 5 萬人。如果你對 AI 生成影片的玩法感興趣,不妨先關注「可靈 AI 影片號」,收穫更多優質案例。快手「可靈」爆火:海外AI圈巨震,中國版Sora一號難求

相關文章