國產影片大模型奮起直追 Pika、阿里同日釋出“對口型”利器
本文來自《科創板日報》
,記者
:
宋子喬
。
《科創板日報》 2月29日訊(編輯 宋子喬) 在AI多模態領域,科技巨頭、明星初創企業似乎把火力集中到了同一個方向——AI影片生成,Sora的火熱更是一石激起千層浪,同類產品釋出你追我趕,戰況之焦灼可見一斑。
在該領域, 要讓影片人物和聲音完美同步,需要捕獲說話人微妙和多樣化的面部動作,這是一個巨大的挑戰 。 2月28日,PIKA上線唇形同步功能Lip sync,可以為影片中的人物說話匹配口型,音訊生成部分由AI語音克隆創企ElevenLabs提供技術支援。
而就在同一天,阿里推出更炸裂的影片生成框架 EMO(Emote Portrait Alive)。
兩者都有對口型的功能,相比較而言,目前受限於已有產品的架構, PIKA只能分段生成3秒時長的唇形同步影片,且僅僅生成唇部配合音訊發生運動;而 EMO不僅可以生成任意時長的說話影片,還能生成人像整個頭部都發生豐富變化的說話影片,表情、五官、姿勢都會產生非常自然的變化 。阿里給出的示例如下:
《狂飆》大反派高啟強化身羅翔
Sora東京女郎唱歌
小李子演唱超 “燙嘴”Rap《哥斯拉》(Godzilla)
目前 EMO相關論文同步發表於arXiv,同時宣佈開源。
論文顯示, EMO團隊來自阿里巴巴智慧計算研究院。值得注意的是,EMO與Sora技術路線不同,它並不是建立在類似DiT架構的基礎上,也就是沒有用Transformer去替代傳統UNet,其骨幹網路魔改自Stable Diffusion 1.5。
這也再次說明一個事實, 從技術方面來看,影片生成工具的底層模型及技術仍在最佳化,多種技術路線並行,尚且沒有最優解,大公司之間、大公司與初創企業間的差距不算大,甚至可以說處於同一起跑線,有望誕生更多後起之秀。
▌AI影片生成或是多模態應用的“聖盃”
影片生成領域,已經誕生了多個出圈成果。上文所述之外還包括三大圖片轉影片神器 ——阿里的Animate Anyone、位元組跳動的Magic Animate、微軟的GAIA。
為什麼這類應用成了眾公司開發 AI應用的優先選擇?
相較於文字和圖片,影片在資訊表達、畫面豐富性及動態性方面有更大優勢,影片可以結合文字、影像、聲音及視覺效果,在單一媒體中融合多種資訊形式。
這賦予了 AI影片工具強大的產品功能,進而開拓出更廣闊的應用場景。透過文字描述或其他簡單操作,AI影片工具即可生成較高質量和完成度影片內容,這降低了影片創作門檻,讓業外人士能夠精準用影片進行內容展現,有望廣泛賦能各細分行業的內容生產降本增效和創意輸出。
國盛證券宋嘉吉此前指出, AI文生影片是多模態應用的下一站,是多模態AIGC“聖盃”,隨著AI影片補齊了AI創作多模態的最後一塊拼圖,下游應用的加速時刻也將到來;申港證券表示,影片AI是多模態領域的最後一環;華泰證券表示,AIGC大潮已逐步從文生文和文生圖轉向文生影片領域,文生影片的高計算難度和高資料要求將支撐上游AI算力需求持續旺盛。
最新報導稱據一位知情人士透露,其在去年下半年見到了位元組跳動多模態數字人產品的 demo,整體感覺還不錯。位元組跳動旗下剪映已在數月前組建封閉團隊,秘密研發AI產品。目前,該團隊仍處於嚴格保密階段,研發的產品還未上線。一位接近位元組跳動的知情人士稱,去年一年,位元組跳動創始人張一鳴將主要精力都花在了AI上,足以窺見這家公司對AI業務的重視程度。
可以預見的是,在多模態的廣闊競技場上,雖然參賽選手的增加,將會湧現出越來越多的應用、產品。
(科創板日報 宋子喬)
來自 “ ITPUB部落格 ” ,連結:https://blog.itpub.net/70025739/viewspace-3008036/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 火山引擎釋出大模型訓練影片預處理方案,已應用於豆包影片生成模型大模型
- 近期大模型AIGC概要:Adobe釋出AI編輯影片等大模型AIGC
- 大模型Grok-1.5釋出大模型
- 讓Sora東京女郎唱歌、高啟強變聲羅翔,阿里人物口型影片生成絕了Sora阿里
- LoRA大模型微調的利器大模型
- 文生影片Sora模型釋出,是否引爆AI晶片熱潮Sora模型AI晶片
- 短影片批次釋出軟體,一鍵釋出短影片
- 四 阿里大模型接入:模型微調阿里大模型
- 百度釋出全球首個大規模隱變數對話模型PLATO變數模型
- 【重磅】華為雲盤古大模型5.0,正式釋出!大模型
- CCF-阿里媽媽科技袋基金正式釋出,第一期聚焦大模型方向阿里大模型
- 愛奇藝影片批次釋出系統,批次釋出自媒體影片
- GrowingIO釋出三大功能 增長黑客實踐增添新利器黑客
- 重磅:谷歌釋出最強大AI模型【Google Gemini】谷歌AI模型Go
- 火山引擎釋出豆包大模型文旅解決方案大模型
- 螞蟻集團WAIC釋出大模型密算平臺,助力大模型破解資料供給挑戰AI大模型
- 阿里雲資料庫PostgreSQL 13大版本重磅釋出阿里資料庫SQL
- 浙大、騰訊團隊釋出科學LLM大規模評測基準,國產大模型表現亮眼大模型
- 通義千問2.0、阿里雲百鍊、升級AI平臺PAI 雲棲大會大模型釋出重磅來襲阿里AI大模型
- 首個實時 AI 影片生成技術釋出;科大訊飛釋出星火大模型 4.0 丨 RTE 開發者日報AI大模型開發者日報
- 大模型之外,阿里雲對未來的真正佈局是什麼?大模型阿里
- 重磅 | 物聯網資料分析利器 阿里雲釋出時序資料庫InfluxDB版阿里資料庫UX
- 阿里雲Qwen2.5釋出!再登開源大模型王座,Qwen-Max效能逼近GPT-4o阿里大模型GPT
- 在阿里,40歲的奮鬥姿勢阿里
- MNN模型輸出與ONNX模型輸出對不上模型
- SecBench:首個網路安全大模型評測平臺釋出大模型
- 大模型對AI研究有害?大模型AI
- 阿里雲私服釋出啦阿里
- 梅賽德斯-賓士EQE正式釋出 有望明年國產
- 這個結果對得起3個月的挑燈奮戰,成功斬獲下阿里、騰訊、美團、京東等眾多大廠的Offer阿里
- 這家世界模型公司釋出中國版Sora級影片生成大模型,走向世界模型打造新一代資料引擎世界模型Sora大模型
- 最懂工業的大模型來了!思謀釋出全球首個工業多模態大模型大模型
- 達觀資料研發“曹植”大語言模型,致力於國產GPT模型模型GPT
- 二 阿里大模型接入:自定義外掛阿里大模型
- 抖音一鍵釋出工具,一鍵釋出抖音影片
- KubeBlocks v0.7.0 釋出!支援引用外部元件,解耦備份 API,還支援了 Pika!BloC元件解耦API
- 阿里釋出革新的音訊多模態模型 Qwen2-Audio;月之暗面回應大模型顯示「9.11 大於 9.9」丨 RTE 開發者日報阿里音訊大模型開發者日報
- 國產paozhu c++ web framework 正式版釋出C++WebFramework