70萬人爭先體驗!影片生成新王者「可靈AI」又雙叒升級了

机器之心發表於2024-07-10

難不成,AI 生成短劇時代真的要來了?

最近,各路影片生成 AI 放出的 Demo 讓人眼花繚亂。從玩梗圖、拼長度再到講究真實物理邏輯,層出不窮的人工智慧創意難分高下,個個都要跟 Sora 試比高。這時候,突然有人偷偷先行一步,搞出了「電影級」的表現:

從真實風格的光影效果:

70萬人爭先體驗!影片生成新王者「可靈AI」又雙叒升級了

來源:https://x.com/i/status/1806383419661730197

到豐富的想象力,要素齊全,都能搞定:

圖片

沒想到在 AI 眼裡,其實是蝙蝠俠能讓小丑繃不住。來源:https://x.com/blizaine/status/1806383419661730197

有的人已經在嘗試使用這種能力來完成複雜的任務。有影片生成的 AI,音樂生成的 AI,再加上一些 PS 和 AE,我們就可以製作出完整的 MV 了。

圖片

來源:https://twitter.com/Arata_Fukoe/status/1809840865063629292

你問網友們如何看待這種生成效果,網友要反問一句「好萊塢你怎麼看?」

圖片

這種 AI 影片生成的效果絲滑且精細,吸引了一大波點贊,仔細翻看,社交網路上由它出品的短影片還有不少。

據網友總結道,新款 AI 的優勢主要體現在生成大幅度運動時不容易亂腦補。再比如讓它圖生影片,一個奔跑的半人馬:

圖片

來源:https://x.com/StevieMac03/status/1809694320649465930

這些影片背後的生成式 AI,是快手旗下的大模型「可靈 AI」(Kling),幾個星期前它開始在全球網際網路上刷爆,那時就號稱「一號難求」。

沒錯,這不是先放出一些 Demo 搞 PPT 釋出,而是上來就直接開放的產品級應用。現在可靈 AI 已經上線了網頁版,主打一個簡單好用

最新資料,可靈 AI 的申請使用者數量已經接近 70 萬,成了全網最熱的影片生成大模型。

一月數次升級,可靈 AI 的狂飆式進化

今年是生成式 AI 元年,早在 2 月份,OpenAI 的 Sora 就把競爭拉到了影片生成的高度。但率先落地的還數國內科技公司。

自 6 月 6 日正式亮相以來,才一個月的時間,快手可靈 AI 這一首個在海外 AI 圈引起熱議的國產大模型就經歷了三次迭代更新。

從最開始的文生影片,到兩週後支援圖生影片、影片續寫、多尺寸選擇,可靈 AI 表現得越來越出色、全面。影片生成的各種需求,不知不覺中似乎都被解決了。

就在上週末的世界人工智慧大會 WAIC 2024 上, 可靈 AI 迎來第三次大的升級,釋出了一系列新功能,在影片生成質感、美感、可玩性方面大大提升,帶來了創作體驗上的又一次躍升。

快手高階副總裁、快手主站業務與社群科學線負責人蓋坤介紹了此次可靈 AI 升級的三大亮點功能,包括高畫質版、首尾幀控制和相機鏡頭控制

圖片

蓋坤

首先,可靈 AI 基礎模型再度升級,推出了更加清晰的高畫質版。升級後,生成影片的畫質相較於之前模型有了質的飛躍。

同時得益於更高的訓練時空解析度,可靈 AI 在生成細節、構圖、運鏡美觀性、光影方面都有很大改善。

從如下畫質的對比中,我們可以一目瞭然地看出可靈 AI 之前模型與最新模型之間的區別。

圖片

其次,可靈 AI 在圖生影片領域增加了實用且呼聲很高的「首尾幀控制」功能,讓首尾幀呼應的圖生影片成為了現實。

透過自定義起始幀和結束幀影像,讓使用者精確控制不同影片片段之間鏡頭的絲滑轉場,實現一鏡到底等效果。從實際生成結果來看,不僅動作自然流暢,畫質也能夠得到保證。這一功能的引入讓使用者擁有了更直觀、更便捷的編輯體驗,滿足了個性化的圖生影片需求。

比如將如下兩圖生成一段影片:

圖片

效果是這樣的:

圖片

最後,可靈 AI 增加了運鏡控制以及自動大師運鏡功能。在影片的世界中,更多鏡頭的組合可以捕捉更多畫面,並增強整體表現力。

可靈 AI 預設了六套經典的鏡頭控制方式,包括 Roll 旋轉運鏡、Tilt 垂直搖鏡、Pan 水平搖鏡、Vertical 垂直運鏡、Horizontal 水平運鏡和 Zoom 推進 / 拉遠,為不同場景提供了豐富的選擇。使用者還可以調節這些運鏡的正數、負數引數,從而控制運動的激烈或平緩程度以及反向運動等。同時,大師級運鏡有助於產出電影感十足的吸睛大片。

圖片

可以看到,隨著這些新功能的加入,可靈 AI 在影片清晰度、美學表現以及內容自定義控制方面有了肉眼可見的改進。

不僅如此,正式與使用者見面的可靈 AI 網頁版整合了文生圖、文生影片以及不久後將支援的影片編輯能力,成為釋出即可用的一站式視覺內容創作平臺。

其中新增的「首尾幀控制」和「運鏡控制」功能目前在網頁端提供,想要體驗的小夥伴可以速速去申請了!

圖片

可靈 AI 網頁版地址:klingai.kuaishou.com

用「誠意滿滿」來形容可靈 AI 此次的升級不為過,背後當然離不開快手在影片生成能力和技術上的持續創新突破。

「電影級」AI 生成,背後全是技術

相較於已經非常成熟的影像生成影片生成任務更復雜,在實際應用中要面臨著真實性、動作連貫性、畫面流暢性、細節精度、場景、角色和光影一致性、物理準確性以及時長限制等諸多挑戰。

這些挑戰應對得好不好,將直接決定了模型的實用性和易用性。顯然,再度升級的可靈 AI 在這些方面有了脫胎換骨的變化。總結起來,可靈 AI 擁有七大能力亮點

快手視覺生成與互動中心負責人萬鵬飛對這些能力一一展開了剖析,這些構築起可靈 AI 在影片畫質、圖生影片、運動生成、生成時長、物理規律、指令響應、影片可控性等方面的核心競爭力,並造就瞭如今全能的可靈 AI。同時,萬鵬飛還對未來發展做出了展望,他表示,影片生成效果的提升速度非常快,正在逐步接近圖形渲染和相機拍攝,將會對泛影片行業帶來新的機遇。

圖片

萬鵬飛

其實我們已經見識過了可靈 AI 的能力,前文展示的高畫質版、首尾幀控制和相機鏡頭控制新功能正是可靈 AI 在電影級高畫質畫面生成、領先圖生影片效果和優秀影片生成可控性三大能力上的進一步演化。

其中電影級的高畫質畫面生成能力能夠高保真、生動地呈現壯闊的自然風光、人或動物的動作和表情等宏大或細微的場景,大片感十足。

圖片

領先的圖生影片能力可以讓靜態影像動起來,轉換為生動的 5 秒短影片。同時搭配不同的文字輸入,讓圖生影片更有創意且「隨心所欲」。

比如將小狗游泳的影像轉換為影片:

圖片

效果是這樣的:

圖片

優秀的影片生成可控性讓更加精細的影片創作掌控在使用者手中。除了此次的相機鏡頭控制之外,可靈 AI 未來還將在語音面部匹配、人物 ID 保持、透過簡單筆畫提示控制畫面和佈局的演進等更多方面實現可控調整。目前模型的訓練已經完成,這些功能很快就會上線。

圖片

與此同時,可靈 AI 在運動生成、生成時長、物理規律、指令響應等其他四大能力上也進一步升級。

其一可靈 AI 具有大幅度且合理的運動生成能力。透過建模複雜的時空運動,可靈 AI 可以生成較大幅度的運動,並符合運動規律。

此次得益於更充分的模型訓練,可靈 AI 生成的整體運動效果更加靈動,支援更大動作範圍的同時合理性也沒有削弱。如下小貓的轉身、走路姿勢等都刻畫地非常自然合理,符合物理事實。

圖片

其二是分鐘級的長影片生成能力。現在,分鐘級時長已成為評價一個影片生成模型的重要指標,這要求更有效的多鏡頭處理、更長的故事講述以及更連貫一致的運動擴充套件能力。

目前,可靈 AI 能夠生成數分鐘的 1080p、30fps 影片。同時開放了遵循使用者指令的影片續寫功能,單次續寫讓影片運動延時 4 到 5 秒,還支援連續多次續寫,最長可以生成 3 分鐘的影片,並且續寫時能夠指定故事後續發展方向,易用性拉滿。

此次升級後,可靈 AI 在演算法和工程層面進行了聯合深度最佳化,使得單次生成的影片長度從 5 秒提升到了 10 秒,在對使用者開放使用的產品中實現最長時長,可以呈現更加完整的故事線,為使用者提供了更廣闊的創作空間。

圖片

其三可靈 AI 能夠模擬複雜的物理世界特性。自 Sora 以來,各家影片生成模型都非常注重生成符合物理規律的影片,這決定了模型能力的上限。

可靈 AI 在釋出之初就能夠準確地建模和模擬現實世界的屬性,讓生成的影片接近真實,比如給小貓洗澡。

圖片

現在,在更充分模型訓練的加持下,可靈 AI 對互動式物理規律的建模和模擬能力又上了一個臺階。

其四可靈 AI 的概念組合和指令響應能力非常強。在技術實現上,透過對文字到影片跨模態語義的深刻理解,可靈 AI 能夠將使用者豐富的想象力輕鬆轉換為具體的影片畫面,放飛腦洞,比如咖啡杯火山。

圖片

升級後的可靈 AI 接受了效果更優的文字資料和編碼方案,自然而然對使用者提示詞的響應能力得到增強,視覺渲染效果更好了。

圖片

所有這些能力又源於可靈 AI 在影片生成技術路線(採用 DiT 架構)、模型設計(如隱空間編解碼、時序資訊建模、文字擴充套件及編碼)、資料保障(如多維度標籤體系、影片描述模型)、計算效率(如分散式訓練叢集、分階段訓練策略)、能力擴充套件(如影片時序延展、多模態輸入可控)等方面的技術積累和獨到創新。

可以說,如今的可靈 AI 在技術層面做到了先進且靠譜,怪不得技術一落地就受到了人們的追捧。

生成式 AI 時代,快手有備而來

過去一年多的時間裡,整個大模型領域可以說是非常的卷。去年都在談基座模型的研發,今年大家又都在討論應用。最近幾天 WAIC 大會開幕,我們又目睹了一波「模型派」和「應用派」之間的爭論。

在這波浪潮中,快手又是怎麼做的?

首先,它玩的是體系。從底層的 IDC 算力中心到網路架構、AI 平臺,到中層的基礎核心大模型,再到應用層的各類應用探索,快手實現了全套自行研發。在談到該體系時,快手副總裁大模型團隊負責人張迪認為,堅定投入自主研發長期來說會帶來「技術雪球」效應以及巨大的成本優勢。快手一個非常大的優勢就是在上層擁有大量的 AI 應用場景,這將給大模型帶來非常多的落地機會。

圖片

張迪

整體框架是這樣:

圖片

其次,快手堅持走基礎模型技術研究和商業應用落地並舉的戰略。基礎模型決定了 AI 能力的上限,研究投入的量變可以引發質變;另一方面,商業化應用能夠滾起技術的雪球,把新技術階段性投入應用,不斷收穫反饋,才能逐漸形成良性迴圈。

去年開始,快手提出了「快意」大模型(KwaiYi),很快從早期的 13B 引數量發展到了 175B,並推出了多模態版本。在多個版本的迭代後,快意大模型已經在快手內部的素材創作、AI 互動、內容生產等場景中開始發揮作用,在今年 6 月,基於快意的 AIGC 營銷素材單日消耗超過了 2000 萬。

有了基礎模型,在更多的場景上,快手逐漸發展出了自己的差異化能力。

具體來說,在文生圖上,快手的「可圖」已成為行業內頂尖的模型之一,擁有強大的語義理解和指令跟隨能力。得益於在文字表徵方面的創新,以及影像資料對齊的大量工作,可圖可以畫出攝像級的畫面質感,經過強化學習的訓練,審美也和人類的普遍標準實現了對齊。

而在影片的生成上,「可靈 AI」燃起了全球影片生成領域的新一輪競爭。它可以進行文生影片、圖生影片,又具有豐富的影像編輯能力,在影片生成的可控性、質感、美感、運動合理度方面保持業內優秀。快手的工程師們正在持續進行工程演算法的最佳化,力圖不斷降低影片生成 AI 的門檻。

說到打下門檻,新技術的最佳化是當前生成式 AI 面臨的重要挑戰之一。作擁國民級短影片應用,快手的優勢在於擁有大量 AI 應用場景,這就給落地實踐帶來了場景和機會。

在技術落地上,快手實現了一系列里程碑:

  • 快手在 APP 評論區內測的對話模型應用「AI 小快」,可以理解影片中的內容並與你互動,至今已經累積了超過 1000 萬的粉絲量。

  • 在電商的直播間裡,利用文生圖 AI「可圖」的能力,老鐵們也可以用自己的生活照快速試衣,甚至看到動態展示。

  • 影片生成模型「可靈 AI」自發布以來獲得了使用者的廣泛認可,已經累計生成了 700 萬條影片,開放了一站式內容創作平臺。

  • 從內容的生產、理解到推薦等不同層面,從個人再到電商,快手的生成式 AI 能力已經做到了對於主體業務的全覆蓋,持續推進著快手生態的不斷髮展。

最後還有新的嘗試。在 WAIC 上,快手預告說首部 AIGC 短劇《山海奇鏡之劈波斬浪》將在本月正式釋出。70萬人爭先體驗!影片生成新王者「可靈AI」又雙叒升級了

該劇由可靈 AI 提供深度技術支援,以賽博風格來複現山海經裡的上古神話世界。從預告片來看,山脈到海洋、森林到天際等場景都呈現出了震撼的視覺效果。在以往,如此效果可能需要專業的特效團隊,現在,視覺生成 AI 就能帶來震撼的視覺體驗了。

沒錯,半年前我們還在暢想未來,現在 AI 真的開始拍電影了。

當前大模型的浪潮中,最能證明技術能力的莫過於大規模落地。

而快手全方位的實踐讓我們再次確認:AI 的生產力已在不知不覺間,改變著我們的生活。

相關文章