智譜AI殺入影片生成:「清影」上線,時長6秒,免費不限量

机器之心發表於2024-07-26

智譜大模型團隊自研打造。


自從快手可靈 AI 火爆海內外,國內影片生成也如同 2023 年的文字大模型一樣,越來越捲了。

剛剛,又一影片生成大模型產品宣佈正式上線:智譜 AI 正式釋出「清影」。只要你有好的創意(幾個字到幾百個字),再加上一點點耐心(30 秒),「清影」就能生成 1440x960 清晰度的高精度影片。智譜AI殺入影片生成:「清影」上線,時長6秒,免費不限量
即日起,清影上線清言 App,所有使用者都可以全方位體驗對話、圖片、影片、程式碼和 Agent 生成功能。除了覆蓋智譜清言的網頁端和 App,你也可以在「AI 動態照片小程式」上進行操作,快速為手機裡的照片實現動態效果。
圖片
智譜「清影」生成的影片時長有 6 秒,清晰度達到 1440×960,所有使用者均可以免費使用。
圖片
  • PC 端訪問連結:https://chatglm.cn/
  • 移動端訪問連結:https://chatglm.cn/download?fr=web_home

智譜 AI 表示,隨著技術的不斷髮展,「清影」的生成能力很快將可以用於短影片製作,廣告生成甚至電影剪輯等工作中。

在生成式 AI 影片模型的研發中,Scaling Law 繼續在演算法和資料兩方面發揮作用。「我們積極在模型層面探索更高效的 scaling 方式。」在智譜 Open Day 上,智譜 AI CEO 張鵬表示:「隨著演算法、資料不斷迭代,相信 Scaling Law 將繼續發揮強有力作用。」

圖片

拿捏各種風格

從目前的一些 Demo,以及簡單試用的情況看來,智譜 AI 的「清影」具有如下特點:

  • 在風景、動物、科幻、人文歷史等型別的影片內容上生成的表現較好;
  • 擅長生成的影片風格包括卡通風格、真實攝影風格、二次元動漫風格等;
  • 實體型別呈現效果上看,動物 > 植物 > 物品 > 建築 > 人物。

它既可以文字生成影片,也可以完成圖生影片,生成的風格覆蓋奇幻動畫風格。

文生影片

提示詞:低角度向上推進,緩緩抬頭,冰山上突然出現一條惡龍,然後惡龍發現你,衝向你。好萊塢電影風。

圖片

提示詞:一個法師正在海浪中施展法術,寶石將海水都聚集過來,開啟了一道魔法傳送門。

圖片

提示詞:蘑菇變成小熊。

圖片

到真實景物:

提示詞:在一片森林中,人視,參天大樹遮蔽著太陽,樹葉的縫隙中灑下一些陽光,丁達爾效應。

圖片

提示詞:一隻水豚鼠像人一樣站立著,手裡拿著冰淇淋,開心得吃起來。

圖片

圖生影片

除了文字生成影片,也可以到清影上玩圖片生成影片。圖生影片帶來了更多的新玩法,包括表情包梗圖、廣告製作、劇情創作、短影片創作等。同時,基於清影的「老照片動起來」小程式也會同步上線,只需一步上傳老照片,AI 就能讓凝練在舊時光中的照片靈動起來。

提示詞:一條自由移動的七彩魚。

圖片

提示詞:圖中男子站起來,風吹著他的頭髮。

圖片

提示詞:小黃鴨玩具漂浮在游泳池的水面,特寫。

圖片

再到現代藝術:

提示詞:攝像機圍繞著一大堆老式電視旋轉,這些電視播放著不同的節目 ——20 世紀 50 年代的科幻電影、恐怖電影、新聞、靜態、70 年代的情景喜劇等,背景設在紐約博物館的一個大型畫廊裡。

圖片

提示詞:掏出一個蘋果手機拍照。

圖片

無提示詞。

圖片

你常用的表情包,智譜 AI 能把它延長成「連續劇」。

提示詞:師徒四人伸出手互相擊掌,臉上是困惑的表情。智譜AI殺入影片生成:「清影」上線,時長6秒,免費不限量提示詞:小貓張大了嘴,臉上是困惑表情,很多問號。 智譜AI殺入影片生成:「清影」上線,時長6秒,免費不限量
可以看出,清影各類風格都可以拿捏,還有更多的玩法等待人們來發掘。只需要在智譜清言 PC/APP 上,點選「清影智慧體」功能,就可以讓你的每一個創意在瞬間化為現實。

全自研技術

All in 大模型的智譜 AI,很早就開始部署多模態生成式 AI 模型。從 2021 年開始,智譜 AI 先後釋出了 CogView(NeurIPS’21)、 CogView2(NeurIPS’22)、CogVideo(ICLR’23)、Relay Diffusion(ICLR’24)、CogView3 (2024)等多項研究。

據介紹,「清影」依託於智譜 AI 大模型團隊自研打造的新一代影片生成大模型 CogVideoX。

去年 11 月,其團隊基於文生圖模型 CogView2 打造出了文字到影片生成模型 CogVideo,並隨後將其開源。

圖片

CogVideo 擁有 94 億引數,它透過 CogView2 生成一系列初始幀,基於雙向注意力模型對影像進行插幀的方法實現影片生成。此外,CogVideo 根據文字描述生成 3D 環境,可直接利用預訓練模型,避免了昂貴的訓練,它也支援中文的 Prompt 輸入。

本次清影底座的影片生成模型是 CogVideoX,它能將文字、時間、空間三個維度融合起來,參考了 Sora 的演算法設計,它也是一個 DiT 架構,透過最佳化,CogVideoX 相比前代(CogVideo)推理速度提升了 6 倍。

OpenAI 的 Sora 橫空出世,讓 AI 在影片生成方面取得了顯著進展,但大多數模型在生成具有連貫性和邏輯一致性的影片內容方面仍然存在困難。

為了解決這些問題,智譜 AI 自研了一個高效的三維變分自編碼器結構(3D VAE),可以將原影片空間極致壓縮到 2%,使得模型訓練成本大幅下降,訓練難度也大大降低。

模型結構採用因果三維卷積(Causal 3D convolution)為主要模型元件,並將自編碼器中常用的注意力模組移除,使得模型具備不同解析度遷移使用的能力。

同時,在時間維度上因果卷積使得模型影片編解碼具備從前向後的序列獨立性, 這有助於透過微調將模型擴充套件到更高幀率和更長時間的場景。

除此以外,影片生成還面臨這樣一個問題,即影片資料大多缺乏對應的描述性文字或者描述質量低下,為此智譜 AI 自研了一個端到端的影片理解模型,用於為海量的影片資料生成詳細的、貼合內容的描述,進而構建海量的高質量影片文字對,使得訓練出的模型指令遵循度高。
最後值得一提的是,智譜 AI 自研了一個將文字、時間、空間融合起來的 transformer 架構,該架構沒有采用傳統 cross attention 模組,而是在輸入階段就將文字嵌入和影片嵌入連線起來,以便更充分地進行兩種模態的互動。

然而文字和影片特徵空間存在很大差異,智譜 AI 透過 expert adaptive layernorm 對兩者分別進行處理,使得模型能夠高效利用引數來更好地將視覺資訊與語義資訊對齊。

智譜 AI 表示,透過最佳化技術,智譜 AI 生成式影片模型的推理速度提升了 6 倍。目前生成 6s 影片,模型花費的理論時間是 30 秒鐘。

如今隨著「清影」的上線,影片生成賽道又出現了智譜 AI 這位重磅玩家。

除了人人都能嘗試的應用之外,清影 API 也同步上線大模型開放平臺 bigmodel.cn,企業和開發者可以透過呼叫 API 的方式,體驗和使用文生影片以及圖生影片的模型能力。
隨著各家公司 AI 影片生成功能的不斷上線,今年的生成式 AI 競賽已經進入白熱化階段。對於大多數使用者來說,選擇也更多了:現在,無論是完全沒有影片製作基礎的人,還是專業的內容創作者,都能借助大模型能力實現影片創作。

相關文章