國產影片大模型奮起直追 Pika、阿里同日釋出“對口型”利器
本文來自《科創板日報》
,記者
:
宋子喬
。
《科創板日報》 2月29日訊(編輯 宋子喬) 在AI多模態領域,科技巨頭、明星初創企業似乎把火力集中到了同一個方向——AI影片生成,Sora的火熱更是一石激起千層浪,同類產品釋出你追我趕,戰況之焦灼可見一斑。
在該領域, 要讓影片人物和聲音完美同步,需要捕獲說話人微妙和多樣化的面部動作,這是一個巨大的挑戰 。 2月28日,PIKA上線唇形同步功能Lip sync,可以為影片中的人物說話匹配口型,音訊生成部分由AI語音克隆創企ElevenLabs提供技術支援。
而就在同一天,阿里推出更炸裂的影片生成框架 EMO(Emote Portrait Alive)。
兩者都有對口型的功能,相比較而言,目前受限於已有產品的架構, PIKA只能分段生成3秒時長的唇形同步影片,且僅僅生成唇部配合音訊發生運動;而 EMO不僅可以生成任意時長的說話影片,還能生成人像整個頭部都發生豐富變化的說話影片,表情、五官、姿勢都會產生非常自然的變化 。阿里給出的示例如下:
《狂飆》大反派高啟強化身羅翔
Sora東京女郎唱歌
小李子演唱超 “燙嘴”Rap《哥斯拉》(Godzilla)
目前 EMO相關論文同步發表於arXiv,同時宣佈開源。
論文顯示, EMO團隊來自阿里巴巴智慧計算研究院。值得注意的是,EMO與Sora技術路線不同,它並不是建立在類似DiT架構的基礎上,也就是沒有用Transformer去替代傳統UNet,其骨幹網路魔改自Stable Diffusion 1.5。
這也再次說明一個事實, 從技術方面來看,影片生成工具的底層模型及技術仍在最佳化,多種技術路線並行,尚且沒有最優解,大公司之間、大公司與初創企業間的差距不算大,甚至可以說處於同一起跑線,有望誕生更多後起之秀。
▌AI影片生成或是多模態應用的“聖盃”
影片生成領域,已經誕生了多個出圈成果。上文所述之外還包括三大圖片轉影片神器 ——阿里的Animate Anyone、位元組跳動的Magic Animate、微軟的GAIA。
為什麼這類應用成了眾公司開發 AI應用的優先選擇?
相較於文字和圖片,影片在資訊表達、畫面豐富性及動態性方面有更大優勢,影片可以結合文字、影像、聲音及視覺效果,在單一媒體中融合多種資訊形式。
這賦予了 AI影片工具強大的產品功能,進而開拓出更廣闊的應用場景。透過文字描述或其他簡單操作,AI影片工具即可生成較高質量和完成度影片內容,這降低了影片創作門檻,讓業外人士能夠精準用影片進行內容展現,有望廣泛賦能各細分行業的內容生產降本增效和創意輸出。
國盛證券宋嘉吉此前指出, AI文生影片是多模態應用的下一站,是多模態AIGC“聖盃”,隨著AI影片補齊了AI創作多模態的最後一塊拼圖,下游應用的加速時刻也將到來;申港證券表示,影片AI是多模態領域的最後一環;華泰證券表示,AIGC大潮已逐步從文生文和文生圖轉向文生影片領域,文生影片的高計算難度和高資料要求將支撐上游AI算力需求持續旺盛。
最新報導稱據一位知情人士透露,其在去年下半年見到了位元組跳動多模態數字人產品的 demo,整體感覺還不錯。位元組跳動旗下剪映已在數月前組建封閉團隊,秘密研發AI產品。目前,該團隊仍處於嚴格保密階段,研發的產品還未上線。一位接近位元組跳動的知情人士稱,去年一年,位元組跳動創始人張一鳴將主要精力都花在了AI上,足以窺見這家公司對AI業務的重視程度。
可以預見的是,在多模態的廣闊競技場上,雖然參賽選手的增加,將會湧現出越來越多的應用、產品。
(科創板日報 宋子喬)
來自 “ ITPUB部落格 ” ,連結:https://blog.itpub.net/70025739/viewspace-3008036/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 近期大模型AIGC概要:Adobe釋出AI編輯影片等大模型AIGC
- 火山引擎釋出大模型訓練影片預處理方案,已應用於豆包影片生成模型大模型
- 大模型Grok-1.5釋出大模型
- LangChain接入本地/國產大模型LangChain大模型
- 文生影片Sora模型釋出,是否引爆AI晶片熱潮Sora模型AI晶片
- LoRA大模型微調的利器大模型
- 技能大模式Skill Model重磅釋出 浪潮"源"大模型加速AI生產力升級模式大模型AI
- 短影片批次釋出軟體,一鍵釋出短影片
- 預約直播|阿里雲CDP 產品釋出會阿里
- 【2023雲棲】陳守元:阿里雲開源大資料產品年度釋出阿里大資料
- 百度釋出全球首個大規模隱變數對話模型PLATO變數模型
- 這家世界模型公司釋出中國版Sora級影片生成大模型,走向世界模型打造新一代資料引擎世界模型Sora大模型
- 四 阿里大模型接入:模型微調阿里大模型
- 國內首家,阿里雲釋出Redis全球多活版阿里Redis
- 重磅:谷歌釋出最強大AI模型【Google Gemini】谷歌AI模型Go
- 讓Sora東京女郎唱歌、高啟強變聲羅翔,阿里人物口型影片生成絕了Sora阿里
- 攜手中國國際商會,騰訊企業微信急起直追,阿里釘釘要小心了阿里
- 定位產業AIGC化加速器 “雲闕AI”大模型垂直應用正式釋出產業AIGC大模型
- 新款起亞K3北美版官圖釋出 或年內國產引入MDQ
- CCF-阿里媽媽科技袋基金正式釋出,第一期聚焦大模型方向阿里大模型
- 阿里雲資料庫PostgreSQL 13大版本重磅釋出阿里資料庫SQL
- 重磅 | 物聯網資料分析利器 阿里雲釋出時序資料庫InfluxDB版阿里資料庫UX
- Springboot --- 使用國內的 AI 大模型 對話Spring BootAI大模型
- 全站加速產品國際站上線釋出
- 火山引擎釋出豆包大模型文旅解決方案大模型
- 【重磅】華為雲盤古大模型5.0,正式釋出!大模型
- 重要!中國恆大.釋出最新公告!
- 阿里雲私服釋出啦阿里
- 天雲資料釋出私域資料大模型Elpis 將大模型能力應用於產業原生動力即工程領域大模型產業
- 通義千問2.0、阿里雲百鍊、升級AI平臺PAI 雲棲大會大模型釋出重磅來襲阿里AI大模型
- 企業品牌設計,年會釋出會產品影片製作
- 公司品牌設計,釋出會產品影片製作,LOGO設計Go
- 新品釋出:國產單電口千兆網路卡正式量產!
- 阿里雲Qwen2.5釋出!再登開源大模型王座,Qwen-Max效能逼近GPT-4o阿里大模型GPT
- 大模型之外,阿里雲對未來的真正佈局是什麼?大模型阿里
- 阿里雲專有宿主機國際站(公測)釋出阿里
- 愛奇藝影片批次釋出系統,批次釋出自媒體影片
- 阿里雲商業產品-區塊鏈服務(公測)釋出阿里區塊鏈