AIGC體驗文字生成影片-可靈

PetterLiu發表於2024-08-08

AIGC體驗文字生成影片-可靈

image

可靈 快手AI團隊自研的影片生成大模型
快手於 2024 年 6 月 6 日推出的一款 AI 影片生成大模型的 AI 影片。可靈(KLING),是快手AI團隊自研的影片生成大模型。生成的影片解析度高達1080p,時長最高可達2分鐘(幀率30fps),且支援自由的寬高比。 全球會員體系與國內相似,也分為三個類別,以月卡為例,三檔會員價格分別為10美元、37美元和92美元,對應分別獲得660、3000 、8000“靈感值”,可生成約66個、300個或800個5s高效能影片。除月卡外,還提供季卡、半年卡、年卡等多種套餐。

可靈使用了DiT架構,快手還對模型中的隱空間編/解碼、時序建模等模組進行了升維處理。在隱空間編/解碼上,快手自研了3D VAE網路,實現時空同步壓縮,獲得了較高的重建質量,在訓練效能和效果之間取得了極佳平衡。在時序資訊建模上,快手設計了一款計算高效的全注意力機制作為時空建模模組。該方法可以巧妙地融合時間與空間的資訊,能對影片資料進行綜合分析和處理,可精準捕捉到影片幀內的區域性空間特徵以及跨幀的時間動態特徵,從而更全面地理解和再現影片中的運動資訊。因此,從快速移動的物體、劇烈變化的場景,到複雜的人物動作,可靈都能精確捕捉,生成的影片內容動態性十足,同時具有很高的物理世界真實感。

體驗

文字:10匹駿馬在威尼斯運河中奔跑

是真還是假,真實邏輯上不允許的,但AI做到了。


相關解讀

我們以最早的Sora參考解讀:

  • Sora 簡介:

    • Sora 是一個開創性的文字到影片模型,旨在理解和模擬物理世界的運動。
    • 它的目標是幫助解決現實世界中的互動問題。
    • 該模型能夠生成長達一分鐘的影片,同時保持高視覺質量和對使用者提示的忠實度。
  • 模型特點和應用:

    • 能夠從多樣化的提示生成影片,包括城市和自然景觀、動畫和現實場景、具有多個角色和特定運動型別的複雜場景。
    • Sora 特別擅長從文字描述生成詳細、準確的影片,涵蓋從日常場景到幻想和歷史設定的所有內容。
    • 使用擴散模型方法,將靜態噪聲轉化為連貫的影片內容,經過多個步驟。
    • 結合了變換器架構,以實現卓越的擴充套件效能。
    • 使用一種新穎的表示方法,將影片和影像作為塊的集合,類似於 GPT 模型中的標記,便於在多樣化的視覺資料上進行訓練。
  • 技術成就和研究技術:

基於先前研究: Sora模型建立在DALL-E和GPT模型的研究成果之上。DALL-E是一個能夠根據文字描述生成影像的模型,而GPT是一個語言模型,能夠生成連貫的文字。Sora結合了這兩種模型的技術。

擴散模型方法: Sora使用了一種稱為擴散模型的方法,這是一種生成模型,它透過逐步將噪聲轉化為清晰、連貫的影片內容。這種方法通常涉及多個步驟,從高噪聲狀態開始,逐漸減少噪聲,直到生成最終的影片。

變換器架構: Sora採用了變換器(Transformer)架構,這是一種深度學習模型,特別適用於處理序列資料,如文字和影像。變換器架構因其在自然語言處理領域的卓越效能而聞名,Sora利用這一架構來提高模型的擴充套件效能。

影片和影像的新穎表示: Sora將影片和影像表示為“patch”(塊)的集合,類似於GPT模型中的“tokens”(標記)。這種表示方法使得模型能夠更有效地處理和訓練多樣化的視覺資料

DALL-E 3的重新描述技術: Sora還採用了DALL-E 3的一個技術,即重新描述(recaptioning)技術,以提高模型對文字指令的遵循度。這意味著模型能夠更準確地根據文字描述生成影片。

安全性和政策遵守: 在技術發展的同時,Sora也在進行安全評估和政策制定,以確保其生成的內容是安全和合規的。這包括開發工具來檢測誤導性內容,並確保模型的使用遵循既定的政策。

  • 模型限制:

    • 在準確模擬複雜物理互動方面存在困難。
    • 有時會混淆空間細節或在生成的影片中無法保持一致的因果關係。
  • 安全措施和未來發展:

    • 在公開部署之前,Sora 正在接受嚴格的安全評估,包括紅隊評估潛在的危害和風險。
    • 開發檢測誤導性內容的工具,並確保遵守使用政策。
    • 與政策制定者、教育工作者和藝術家接觸,探索有益的用例並解決擔憂


市場風險:

1)AI 技術發展不及預期風險:不排除 AI 技術發展較為緩慢,導致行業應用擴充、對公司業務賦能效果不及預期的風險;

2)行業競爭加劇風險:不排除 AI 新技術的發展加劇行業競爭程度,從而使得個別企業市場份額流失的風險;


今天先到這兒,希望對AIGC,雲原生,技術領導力, 企業管理,系統架構設計與評估,團隊管理, 專案管理, 產品管理,資訊保安,團隊建設 有參考作用 , 您可能感興趣的文章:
構建創業公司突擊小團隊
國際化環境下系統架構演化
微服務架構設計
影片直播平臺的系統架構演化
微服務與Docker介紹
Docker與CI持續整合/CD
網際網路電商購物車架構演變案例
網際網路業務場景下訊息佇列架構
網際網路高效研發團隊管理演進之一
訊息系統架構設計演進
網際網路電商搜尋架構演化之一
企業資訊化與軟體工程的迷思
企業專案化管理介紹
軟體專案成功之要素
人際溝通風格介紹一
精益IT組織與分享式領導
學習型組織與企業
企業創新文化與等級觀念
組織目標與個人目標
初創公司人才招聘與管理
人才公司環境與企業文化
企業文化、團隊文化與知識共享
高效能的團隊建設
專案管理溝通計劃
構建高效的研發與自動化運維
某大型電商雲平臺實踐
網際網路資料庫架構設計思路
IT基礎架構規劃方案一(網路系統規劃)
餐飲行業解決方案之客戶分析流程
餐飲行業解決方案之採購戰略制定與實施流程
餐飲行業解決方案之業務設計流程
供應鏈需求調研CheckList
企業應用之效能實時度量系統演變

如有想了解更多軟體設計與架構, 系統IT,企業資訊化, 團隊管理 資訊,請關注我的微信訂閱號:

image_thumb2_thumb_thumb_thumb_thumb[1]

作者:Petter Liu
出處:http://www.cnblogs.com/wintersun/
本文版權歸作者和部落格園共有,歡迎轉載,但未經作者同意必須保留此段宣告,且在文章頁面明顯位置給出原文連線,否則保留追究法律責任的權利。 該文章也同時釋出在我的獨立部落格中-Petter Liu Blog。

相關文章