國產影片大模型奮起直追 Pika、阿里同日釋出“對口型”利器

景联文科技發表於2024-03-04

本文來自《科創板日報》 ,記者 宋子喬

《科創板日報》 2月29日訊(編輯 宋子喬) 在AI多模態領域,科技巨頭、明星初創企業似乎把火力集中到了同一個方向——AI影片生成,Sora的火熱更是一石激起千層浪,同類產品釋出你追我趕,戰況之焦灼可見一斑。

在該領域, 要讓影片人物和聲音完美同步,需要捕獲說話人微妙和多樣化的面部動作,這是一個巨大的挑戰 2月28日,PIKA上線唇形同步功能Lip sync,可以為影片中的人物說話匹配口型,音訊生成部分由AI語音克隆創企ElevenLabs提供技術支援。

而就在同一天,阿里推出更炸裂的影片生成框架 EMO(Emote Portrait Alive)。

兩者都有對口型的功能,相比較而言,目前受限於已有產品的架構, PIKA只能分段生成3秒時長的唇形同步影片,且僅僅生成唇部配合音訊發生運動;而 EMO不僅可以生成任意時長的說話影片,還能生成人像整個頭部都發生豐富變化的說話影片,表情、五官、姿勢都會產生非常自然的變化 。阿里給出的示例如下:

《狂飆》大反派高啟強化身羅翔

Sora東京女郎唱歌

小李子演唱超 “燙嘴”Rap《哥斯拉》(Godzilla)

目前 EMO相關論文同步發表於arXiv,同時宣佈開源。

論文顯示, EMO團隊來自阿里巴巴智慧計算研究院。值得注意的是,EMO與Sora技術路線不同,它並不是建立在類似DiT架構的基礎上,也就是沒有用Transformer去替代傳統UNet,其骨幹網路魔改自Stable Diffusion 1.5。

這也再次說明一個事實, 從技術方面來看,影片生成工具的底層模型及技術仍在最佳化,多種技術路線並行,尚且沒有最優解,大公司之間、大公司與初創企業間的差距不算大,甚至可以說處於同一起跑線,有望誕生更多後起之秀。

▌AI影片生成或是多模態應用的“聖盃”

影片生成領域,已經誕生了多個出圈成果。上文所述之外還包括三大圖片轉影片神器 ——阿里的Animate Anyone、位元組跳動的Magic Animate、微軟的GAIA。

為什麼這類應用成了眾公司開發 AI應用的優先選擇?

相較於文字和圖片,影片在資訊表達、畫面豐富性及動態性方面有更大優勢,影片可以結合文字、影像、聲音及視覺效果,在單一媒體中融合多種資訊形式。

這賦予了 AI影片工具強大的產品功能,進而開拓出更廣闊的應用場景。透過文字描述或其他簡單操作,AI影片工具即可生成較高質量和完成度影片內容,這降低了影片創作門檻,讓業外人士能夠精準用影片進行內容展現,有望廣泛賦能各細分行業的內容生產降本增效和創意輸出。

國盛證券宋嘉吉此前指出, AI文生影片是多模態應用的下一站,是多模態AIGC“聖盃”,隨著AI影片補齊了AI創作多模態的最後一塊拼圖,下游應用的加速時刻也將到來;申港證券表示,影片AI是多模態領域的最後一環;華泰證券表示,AIGC大潮已逐步從文生文和文生圖轉向文生影片領域,文生影片的高計算難度和高資料要求將支撐上游AI算力需求持續旺盛。

最新報導稱據一位知情人士透露,其在去年下半年見到了位元組跳動多模態數字人產品的 demo,整體感覺還不錯。位元組跳動旗下剪映已在數月前組建封閉團隊,秘密研發AI產品。目前,該團隊仍處於嚴格保密階段,研發的產品還未上線。一位接近位元組跳動的知情人士稱,去年一年,位元組跳動創始人張一鳴將主要精力都花在了AI上,足以窺見這家公司對AI業務的重視程度。

可以預見的是,在多模態的廣闊競技場上,雖然參賽選手的增加,將會湧現出越來越多的應用、產品。

(科創板日報 宋子喬)


來自 “ ITPUB部落格 ” ,連結:https://blog.itpub.net/70025739/viewspace-3008036/,如需轉載,請註明出處,否則將追究法律責任。

相關文章