還沒用上的外國友人只能乾著急,在社交媒體發「求求了」:不誇張地說,可靈現在是「一號難求」:訊息傳到矽谷創投圈,更是引發了一場熱議。 Stability AI 前 CEO Emad Mostaque 表示:「中國的 AI 技術有自己的優勢。」 圖源:https://x.com/EMostaque/status/1799133463003684918 YC CEO 也在 X 平臺轉發了可靈生成的 Demo:就圖中這個「吃漢堡」的案例而言,在相同的提示詞下,可靈的生成效果確實比 Sora 更生動、真實: Prompt:Une personne tapant son meilleur croc dans son hamburger
影片地址:https://x.com/AngryTomtweets/status/1799787209651859910 對於關注 AI 的人來說,這幾天一定陸陸續續看過很多可靈生成的作品了。機器之心也是第一時間就點進了申請通道,並拿到了試用資格。 接下來,我們不妨一邊試用、一邊分析可靈爆火的原因。 國內首個文生影片產品級應用 或許你還記得這個曾經非常火爆的「氣球人」影片。三位創作者花費近兩週時間,使用 Sora 製作了這條 1 分 21 秒的影片短片,讓人感到十分驚豔。不過,負責後期製作的 Patrick Cederberg 坦白了過程中的很多問題,例如氣球的顏色在每次生成中都會改變、鏡頭中會出現一些瑕疵等等。
圖源:https://x.com/dustinhollywood/status/1800007000849629674 下面這段剪影作品再次印證了一點:AI 對藝術的理解力與審美水準,絲毫不遜於人類。 Prompt:“A dancer’s silhouette transitions seamlessly through different dance styles, from hip-hop to ballet, in one continuous shot”
可靈生成作品。圖源:https://x.com/dustinhollywood/status/1799970059957555210 科幻電影的風格完全拿捏: 來源:可靈創作者 @狗兒李 AI 同樣能為奢侈品大片的製作注入靈感: 來源:可靈創作者 @AI 的小羅 我們可以看一下可靈生成的這段「蜂蜜」廣告片,AI 在模擬傾倒蜂蜜特寫鏡頭中的表現絲毫不輸專業攝像團隊: 來源:可靈創作者@追圖AIGC 可靈背後有哪些技術? 我們無法從 OpenAI 簡略的技術報告中獲得足夠的 Sora 研發細節,但可靈大模型官網卻披露了更具參考意義的資訊,主要包括從資料準備、模型架構、訓練方案及最佳化策略幾個方面。 資料準備 依託快手在影片技術領域的多年積累,可靈大模型團隊已經構建了完備的標籤體系,包括從影片基礎質量、美學、自然度等多個維度對影片資料質量進行刻畫,並針對每一個維度設計多種定製化的標籤特徵,以此來精細化篩選訓練資料或調整訓練資料的分佈。 為了滿足訓練文生影片模型過程中成對的影片和文字描述需求,可靈大模型團隊自研了影片描述模型,可以生成精確、詳盡、結構化的影片描述,顯著提升影片生成模型的文字指令響應能力。 模型架構 高質量的標註資料準備完畢後,可靈大模型又是如何獲得模擬物理世界特性與概念組合的能力呢? 在整體架構設計上,可靈採用了目前火熱的 Diffusion Transformer (DiT) 。傳統的擴散模型主要利用包含下采樣和上取樣塊的卷積 U-Net 作為去噪網路骨幹。但一些研究表明,U-Net 架構對擴散模型的良好效能並非至關重要。透過採用更靈活的 Transformer 架構,擴散模型可以使用更多的訓練資料和更大的模型引數。DiT 就是這個研究思路下的代表作之一。 這幾個月來,業內形成一個共識,影片生成模型的成功,歸根結底是 Scaling Law 的作用。這一共識正是基於 DiT 論文的發現,使用 Transformer 能穩定地擴大模型規模:隨著訓練計算量的增加(訓練模型的時間延長或模型增大,或兩者兼而有之),效能也會隨之提高。 這意味著,對於影片生成模型,只要用更多的算力、更多的資料去 Scale up,生成質量還會持續提升。 可靈之所以能夠將使用者的文字提示轉化為具體的畫面,包括那些真實世界中不會出現的虛構場景,就是基於對文字 - 影片語義的深刻理解和 Diffusion Transformer 架構的強大能力。在自研架構和 Scaling Law 激發出的強大建模能力推動下,可靈能夠很好地模擬真實世界的物理特性,生成符合物理規律的影片。 與此同時,基於團隊自研的 3D VAE 網路,可靈大模型能夠生成 1080p 解析度的電影級影片,無論是浩瀚壯闊的宏大場景,還是細膩入微的特寫鏡頭,都能夠生動呈現。
自然場景下,光線的變化很流暢。測試者:@杉杉 當然,對於影片生成模型來說,另一個必須考慮的因素是:影片是一種具有時間維度的視覺內容,不連貫的內容會讓使用者的觀看體驗大打折扣。 為了保證畫面中運動的呈現更加合理,可靈大模型採用 3D 時空聯合注意力機制,更好地建模複雜時空運動,即可生成較大幅度運動的影片內容,同時能夠符合運動規律。
訓練及最佳化策略 如果你已經親自測試過,就會發現可靈支援推理過程中同樣的內容輸出多種影片寬高比。這是因為可靈採用了可變解析度的訓練策略,目的是滿足更豐富場景中的影片素材使用需求。 與此同時,得益於高效的訓練基礎設施、極致的推理最佳化和可擴充套件的基礎架構,可靈大模型能夠生成長達 2 分鐘的影片,且幀率達到 30fps。 影片生成,不再是一場「追趕 OpenAI」的遊戲 2024 年被稱為影片生成技術的爆發之年,但在可靈之前,我們始終沒見到 Sora 級的可用產品,而 Sora 何時開放也是未知數。 某種意義上說,可靈是第一個真正的「中國版 Sora」,並讓這項技術真正進入了可用、好用、實用的階段。 正如傅盛所說:「這可能是今天在全世界範圍內,你能夠使用到的最好的文生影片產品。」任何親自試用過可靈的人,都會明白這絕不是過譽。 傅盛的影片還給到了另外一個觀點:「反過來也說明,Sora 並不是一個技術性的突破,而是一個產品型的突破。」 還記得幾個月前,Sora 以長達 60 秒的連貫影片、高畫質畫面質感、連貫的鏡頭移動、運動方式等優點,拉高了整個影片生成賽道的技術水平,掀起了文生影片賽道的競爭浪潮。 我們本以為,影片生成領域會像去年的文字大模型一樣,演化為國內對海外的技術趕超。但可靈的釋出,意味著國產文生影片大模型技術的探索已經達到了一個全新的高度,而且在產品落地層面做到了實質領先。我們可能不需要再重新經歷一次「追趕 OpenAI」的遊戲了。 有人給出判斷:中國正在人工智慧領域超越美國。可靈的誕生,或許意味著一個新時代開啟了。在生成式 AI 時代,生成和編輯影片或許會像今天我們用手機 P 圖一樣簡單,想象力與現實之間的阻隔將被徹底打破。 由於太過火爆,目前在排隊測試可靈的人數已經超過了 5 萬人。如果你對 AI 生成影片的玩法感興趣,不妨先關注「可靈 AI 影片號」,收穫更多優質案例。