快手「可靈」爆火：海外AI圈巨震，中國版Sora一號難求

机器之心發表於2024-06-13

原文網址 : https://www.jiqizhixin.com/articles/2024-06-13-5

短短一年後，AI 生成的「吃麵條」已經如此自然流暢？這讓全球網友都感受到了億點點震撼。

^{圖源：https://x.com/CharaspowerAI/status/1799494388462063632}

右側的這些生成影片，都來自快手剛剛推出的文生影片大模型「可靈」（Kling）。

不是預釋出、不是純 Demo 合集，而是直接開放測試的產品級應用，人人都能申請。而且，可靈支援生成最長 2 分鐘、30fps 的 1080P 影片，主打從頭腦風暴到可釋出作品的「一鍵轉化」。（官網地址：https://kling.kuaishou.com/）

最早一批用上的使用者已經「真香」：

^{圖源：https://x.com/op7418/status/1799047146089619589}

^{圖源：https://weibo.com/7714861068/Oig1Qm8Or?refer_flag=1001030103_}

500 人上限的交流群，很快就滿員了，滿屏都是 tql：

還沒用上的外國友人只能乾著急，在社交媒體發「求求了」：

不誇張地說，可靈現在是「一號難求」：

訊息傳到矽谷創投圈，更是引發了一場熱議。

Stability AI 前 CEO Emad Mostaque 表示：「中國的 AI 技術有自己的優勢。」

^{圖源：https://x.com/EMostaque/status/1799133463003684918}

YC CEO 也在 X 平臺轉發了可靈生成的 Demo：

就圖中這個「吃漢堡」的案例而言，在相同的提示詞下，可靈的生成效果確實比 Sora 更生動、真實：

Prompt：Une personne tapant son meilleur croc dans son hamburger

^{影片地址：https://x.com/AngryTomtweets/status/1799787209651859910}

對於關注 AI 的人來說，這幾天一定陸陸續續看過很多可靈生成的作品了。機器之心也是第一時間就點進了申請通道，並拿到了試用資格。

接下來，我們不妨一邊試用、一邊分析可靈爆火的原因。

國內首個文生影片產品級應用

或許你還記得這個曾經非常火爆的「氣球人」影片。三位創作者花費近兩週時間，使用 Sora 製作了這條 1 分 21 秒的影片短片，讓人感到十分驚豔。不過，負責後期製作的 Patrick Cederberg 坦白了過程中的很多問題，例如氣球的顏色在每次生成中都會改變、鏡頭中會出現一些瑕疵等等。

^{Sora 生成結果。完整影片地址：https://youtu.be/9oryIMNVtto?si=F6oDzvrhzfVcQGeh}

對於此前的影片生成模型來說，「一氣呵成」生成 1 分鐘以上的內容確實有難度，特別是要求畫面中的各種元素保持前後一致。

獵豹移動董事長兼 CEO、獵戶星空董事長傅盛公開了自己用可靈製作的「氣球人」影片，並表示自己僅用了「幾十分鐘」，就做出了連續性、真實度、清晰度都很優秀的短片。快手「可靈」爆火：海外AI圈巨震，中國版Sora一號難求

在內測的過程中，我們還發現了一個專業創作者社群自發建立的教程與 Demo 文件，包含了上百個可靈生成的作品，還提供了測試維度的指導。

感興趣的讀者請戳：https://waytoagi.feishu.cn/wiki/GevKwyEt1i4SUVk0q2JcqQFtnRd

下面這個 2 分鐘的公益短片《一個很遠的地方》也是完全由可靈生成的，你能看出來嗎？快手「可靈」爆火：海外AI圈巨震，中國版Sora一號難求

在創作者 @AIGC 十三的作品《瘋狂動物城賽車大賽》中，這 20 秒包含了疾速行駛的賽車（大幅度運動）、動物駕駛車輛（考驗想象力的概念組合）等生成難點，但從結果來看，可靈很好地解決了這些問題：快手「可靈」爆火：海外AI圈巨震，中國版Sora一號難求

^{來源：可靈創作者@AIGC 十三}

還有一個很有趣的案例是 @八級技工創作的《假期開啟方式》，這段 56 秒的短頻共花費了 3 小時製作，包含 23 個鏡頭。然後在可靈的生成結果之上新增配音，詼諧的感覺馬上就有了：快手「可靈」爆火：海外AI圈巨震，中國版Sora一號難求

^{來源：可靈創作者@八級技工}

看完這些，我們應該已經意識到，可靈所代表的影片生成技術的影響力，遠遠超出了單純的創作。在不同的研究領域和行業賽道，這一技術的落地正在加速，為從自動內容生成到複雜決策過程的各種任務提供了變革潛力。

哪些行業最先被改變？

傳統的遊戲開發通常受到預先渲染的環境和指令碼事件的限制。一旦將影片生成模型整合到遊戲領域，遊戲的開發、玩耍和體驗方式都將得到創新，為講故事、互動和沉浸式體驗帶來新的可能性。對於遊戲開發者來說，最直觀的一項玩法是，根據使用者敘述生成定製的視覺效果甚至角色動作。

在下方的 demo 中，我們可以看到，使用者能夠藉助可靈創造出無與倫比的身臨其境體驗：

^{圖源：https://x.com/dustinhollywood/status/1800056286215553444}

^{圖源：https://x.com/dustinhollywood/status/1800056886693347624}

另外一個將被顛覆的行業就是影視製作。傳統的電影製作是一個艱鉅而昂貴的過程，往往需要數年的努力、大量的裝置和資金投入。影片生成技術的出現預示著電影製作進入了一個新的「民主化時代」，從簡單的文字輸入中自主生成個人影視作品的夢想正在成為現實。

現在，我們用可靈生成的是 5 秒的單鏡頭片段，伴隨著技術的不斷演進，使用者單次能夠生成的影片時長也會增加。比如說，我們未來或許能夠一次性生成更長的影片內容，保持故事場景的連貫性和觀賞性。其中的運鏡手法也許會更高階，比如連貫的長鏡頭。

^{圖源：https://x.com/dustinhollywood/status/1800007000849629674}

下面這段剪影作品再次印證了一點：AI 對藝術的理解力與審美水準，絲毫不遜於人類。

Prompt：“A dancer’s silhouette transitions seamlessly through different dance styles, from hip-hop to ballet, in one continuous shot”

^{可靈生成作品。圖源：https://x.com/dustinhollywood/status/1799970059957555210}

科幻電影的風格完全拿捏：快手「可靈」爆火：海外AI圈巨震，中國版Sora一號難求

^{來源：可靈創作者 @狗兒李}

AI 同樣能為奢侈品大片的製作注入靈感：快手「可靈」爆火：海外AI圈巨震，中國版Sora一號難求

^{來源：可靈創作者 @AI 的小羅}

我們可以看一下可靈生成的這段「蜂蜜」廣告片，AI 在模擬傾倒蜂蜜特寫鏡頭中的表現絲毫不輸專業攝像團隊：快手「可靈」爆火：海外AI圈巨震，中國版Sora一號難求

^{來源：可靈創作者@追圖AIGC}

可靈背後有哪些技術？

我們無法從 OpenAI 簡略的技術報告中獲得足夠的 Sora 研發細節，但可靈大模型官網卻披露了更具參考意義的資訊，主要包括從資料準備、模型架構、訓練方案及最佳化策略幾個方面。

資料準備

依託快手在影片技術領域的多年積累，可靈大模型團隊已經構建了完備的標籤體系，包括從影片基礎質量、美學、自然度等多個維度對影片資料質量進行刻畫，並針對每一個維度設計多種定製化的標籤特徵，以此來精細化篩選訓練資料或調整訓練資料的分佈。

為了滿足訓練文生影片模型過程中成對的影片和文字描述需求，可靈大模型團隊自研了影片描述模型，可以生成精確、詳盡、結構化的影片描述，顯著提升影片生成模型的文字指令響應能力。

模型架構

高質量的標註資料準備完畢後，可靈大模型又是如何獲得模擬物理世界特性與概念組合的能力呢？

在整體架構設計上，可靈採用了目前火熱的 Diffusion Transformer (DiT) 。傳統的擴散模型主要利用包含下采樣和上取樣塊的卷積 U-Net 作為去噪網路骨幹。但一些研究表明，U-Net 架構對擴散模型的良好效能並非至關重要。透過採用更靈活的 Transformer 架構，擴散模型可以使用更多的訓練資料和更大的模型引數。DiT 就是這個研究思路下的代表作之一。

這幾個月來，業內形成一個共識，影片生成模型的成功，歸根結底是 Scaling Law 的作用。這一共識正是基於 DiT 論文的發現，使用 Transformer 能穩定地擴大模型規模：隨著訓練計算量的增加（訓練模型的時間延長或模型增大，或兩者兼而有之），效能也會隨之提高。

這意味著，對於影片生成模型，只要用更多的算力、更多的資料去 Scale up，生成質量還會持續提升。

可靈之所以能夠將使用者的文字提示轉化為具體的畫面，包括那些真實世界中不會出現的虛構場景，就是基於對文字 - 影片語義的深刻理解和 Diffusion Transformer 架構的強大能力。在自研架構和 Scaling Law 激發出的強大建模能力推動下，可靈能夠很好地模擬真實世界的物理特性，生成符合物理規律的影片。

與此同時，基於團隊自研的 3D VAE 網路，可靈大模型能夠生成 1080p 解析度的電影級影片，無論是浩瀚壯闊的宏大場景，還是細膩入微的特寫鏡頭，都能夠生動呈現。

^{自然場景下，光線的變化很流暢。測試者：@杉杉}

當然，對於影片生成模型來說，另一個必須考慮的因素是：影片是一種具有時間維度的視覺內容，不連貫的內容會讓使用者的觀看體驗大打折扣。

為了保證畫面中運動的呈現更加合理，可靈大模型採用 3D 時空聯合注意力機制，更好地建模複雜時空運動，即可生成較大幅度運動的影片內容，同時能夠符合運動規律。

訓練及最佳化策略

如果你已經親自測試過，就會發現可靈支援推理過程中同樣的內容輸出多種影片寬高比。這是因為可靈採用了可變解析度的訓練策略，目的是滿足更豐富場景中的影片素材使用需求。

與此同時，得益於高效的訓練基礎設施、極致的推理最佳化和可擴充套件的基礎架構，可靈大模型能夠生成長達 2 分鐘的影片，且幀率達到 30fps。

影片生成，不再是一場「追趕 OpenAI」的遊戲

2024 年被稱為影片生成技術的爆發之年，但在可靈之前，我們始終沒見到 Sora 級的可用產品，而 Sora 何時開放也是未知數。

某種意義上說，可靈是第一個真正的「中國版 Sora」，並讓這項技術真正進入了可用、好用、實用的階段。

正如傅盛所說：「這可能是今天在全世界範圍內，你能夠使用到的最好的文生影片產品。」任何親自試用過可靈的人，都會明白這絕不是過譽。

傅盛的影片還給到了另外一個觀點：「反過來也說明，Sora 並不是一個技術性的突破，而是一個產品型的突破。」

還記得幾個月前，Sora 以長達 60 秒的連貫影片、高畫質畫面質感、連貫的鏡頭移動、運動方式等優點，拉高了整個影片生成賽道的技術水平，掀起了文生影片賽道的競爭浪潮。

我們本以為，影片生成領域會像去年的文字大模型一樣，演化為國內對海外的技術趕超。但可靈的釋出，意味著國產文生影片大模型技術的探索已經達到了一個全新的高度，而且在產品落地層面做到了實質領先。我們可能不需要再重新經歷一次「追趕 OpenAI」的遊戲了。

有人給出判斷：中國正在人工智慧領域超越美國。

可靈的誕生，或許意味著一個新時代開啟了。在生成式 AI 時代，生成和編輯影片或許會像今天我們用手機 P 圖一樣簡單，想象力與現實之間的阻隔將被徹底打破。

由於太過火爆，目前在排隊測試可靈的人數已經超過了 5 萬人。如果你對 AI 生成影片的玩法感興趣，不妨先關注「可靈 AI 影片號」，收穫更多優質案例。快手「可靈」爆火：海外AI圈巨震，中國版Sora一號難求

ChatGPT 爆火後，中國 AI 公司該如何應對，難點在哪兒？
2023-02-23
ChatGPTAI
智譜版Sora開源爆火：狂攬4K Star，4090單卡執行，A6000可微調
2024-08-06
Sora
又一Sora級選手來炸街！我們拿它和Sora、可靈PK了下
2024-06-14
Sora
Sora終於來了，但卷王可靈已經「拍」上了AI電影
2024-12-11
SoraAI
快手可靈AI全球全面開放內測，模型效果再次升級
2024-07-24
AI模型
新火種AI|Sora爆火100小時：核心團隊被扒，賣課狂割韭菜，虛假影片氾濫
2024-02-20
AISora
那個爆火的“夢中修煉”AI，你也能用Keras搭一個了
2018-04-30
AIKeras
Sora AI Video Generator by Sora.FM
2024-08-08
SoraAIIDE
火靈
2024-05-12
《秦殤》：當年揚名海外，今朝續作難求
2019-12-23
元宇宙概念爆火，騰訊、米哈遊、快手等搶注“元宇宙”商標
2021-09-17
元宇宙
【AI晶片】中國AI晶片爆發，架構創新迫在眉睫
2018-05-03
AI晶片架構
中國創造的“吃雞”手遊在海外到底有多火？
2020-04-21
ChatGPT爆火背後，AI算力成全新角逐風口
2023-05-11
ChatGPTAI
Sora AI影片生成器
2024-07-30
SoraAI
海外爆火的體育遊戲《網球傳說》，為什麼它能成功？
2019-11-21
遊戲
海外爆火的《風雲島行動》12.18開測，整容式更新誠意滿滿
2019-12-18
AI繪畫爆火的背後，最後究竟誰在賺錢？
2023-01-05
AI
新火種AI|“賭城”上演“科技春晚”，AI硬體將在2024年大爆發
2024-01-12
AI
當國外爆火的FPS遊戲開始席捲國內
2023-05-12
遊戲
谷歌AI播客剛火，Meta就開源了平替，效果一言難盡
2024-10-28
谷歌AI
b站up主“可樂頻3200”爆火背後的流量密碼
2022-05-14
密碼
新火種AI|微軟扶持下一個OpenAI？Mistral AI新模型對標GPT-4，上線即擠爆
2024-02-27
微軟OpenAI模型GPT
看《Among us》的爆火歷程，海外遊戲主播“整活”了派對遊戲
2021-10-28
遊戲
新火種AI|Sora橫空出世！我們的現實世界會因此而覆滅嗎？
2024-02-19
AISora
一夜爆火的現象級產品ChatGPT，是AI突破還是曇花乍現？
2023-02-05
ChatGPTAI
遊戲AI三大難：樣本大、成本高、靈活性差
2021-06-24
遊戲AI
最近爆火的帥小夥丁真在AI面前顏值多少分？
2020-12-07
AI
國產SLG的2019年：靈犀互娛《三國志·戰略版》國內突圍，莉莉絲《萬國覺醒》暢銷海外
2020-02-03
AI告別鬼畫符！快手可圖和國外寫字小能手Ideogram打擂臺，誰更牛？
2024-07-15
AIIDE
新火種AI | 谷歌Gemini“抄襲”百度文心一言？AI訓練資料陷入大難題
2023-12-19
AI谷歌
39款手遊陣亡，中國遊戲廠商難逃印度“毒圈”
2020-09-04
遊戲
量子計算里程碑！微軟單晶片可百萬量子位元，Nature研究爆火
2025-02-20
微軟晶片
自媒體1000W+推薦爆文分析，這麼寫標題，不火也難！
2022-01-27
新火種AI | 商湯湯曉鷗猝然離世！中國AI領域的損失比想象中更多
2023-12-18
AI
data.ai ：2022第一季度中國熱門手遊海外下載榜 Top 10
2022-05-17
AI
46秒AI生成真人影片爆火，遭線上打假「換口型、聲音」
2024-03-28
AI
AI再造一個“李佳琦”，難嘛？
2019-11-11
AI

快手「可靈」爆火：海外AI圈巨震，中國版Sora一號難求

相關文章