本文來自《科創板日報》，記者：宋子喬。

《科創板日報》 2月29日訊（編輯宋子喬） 在AI多模態領域，科技巨頭、明星初創企業似乎把火力集中到了同一個方向——AI影片生成，Sora的火熱更是一石激起千層浪，同類產品釋出你追我趕，戰況之焦灼可見一斑。

在該領域， 要讓影片人物和聲音完美同步，需要捕獲說話人微妙和多樣化的面部動作，這是一個巨大的挑戰 。 2月28日，PIKA上線唇形同步功能Lip sync，可以為影片中的人物說話匹配口型，音訊生成部分由AI語音克隆創企ElevenLabs提供技術支援。

而就在同一天，阿里推出更炸裂的影片生成框架 EMO（Emote Portrait Alive）。

兩者都有對口型的功能，相比較而言，目前受限於已有產品的架構， PIKA只能分段生成3秒時長的唇形同步影片，且僅僅生成唇部配合音訊發生運動；而 EMO不僅可以生成任意時長的說話影片，還能生成人像整個頭部都發生豐富變化的說話影片，表情、五官、姿勢都會產生非常自然的變化 。阿里給出的示例如下：

《狂飆》大反派高啟強化身羅翔

Sora東京女郎唱歌

小李子演唱超 “燙嘴”Rap《哥斯拉》（Godzilla）

目前 EMO相關論文同步發表於arXiv，同時宣佈開源。

論文顯示， EMO團隊來自阿里巴巴智慧計算研究院。值得注意的是，EMO與Sora技術路線不同，它並不是建立在類似DiT架構的基礎上，也就是沒有用Transformer去替代傳統UNet，其骨幹網路魔改自Stable Diffusion 1.5。

這也再次說明一個事實，從技術方面來看，影片生成工具的底層模型及技術仍在最佳化，多種技術路線並行，尚且沒有最優解，大公司之間、大公司與初創企業間的差距不算大，甚至可以說處於同一起跑線，有望誕生更多後起之秀。

▌AI影片生成或是多模態應用的“聖盃”

影片生成領域，已經誕生了多個出圈成果。上文所述之外還包括三大圖片轉影片神器 ——阿里的Animate Anyone、位元組跳動的Magic Animate、微軟的GAIA。

為什麼這類應用成了眾公司開發 AI應用的優先選擇？

相較於文字和圖片，影片在資訊表達、畫面豐富性及動態性方面有更大優勢，影片可以結合文字、影像、聲音及視覺效果，在單一媒體中融合多種資訊形式。

這賦予了 AI影片工具強大的產品功能，進而開拓出更廣闊的應用場景。透過文字描述或其他簡單操作，AI影片工具即可生成較高質量和完成度影片內容，這降低了影片創作門檻，讓業外人士能夠精準用影片進行內容展現，有望廣泛賦能各細分行業的內容生產降本增效和創意輸出。

國盛證券宋嘉吉此前指出， AI文生影片是多模態應用的下一站，是多模態AIGC“聖盃”，隨著AI影片補齊了AI創作多模態的最後一塊拼圖，下游應用的加速時刻也將到來；申港證券表示，影片AI是多模態領域的最後一環；華泰證券表示，AIGC大潮已逐步從文生文和文生圖轉向文生影片領域，文生影片的高計算難度和高資料要求將支撐上游AI算力需求持續旺盛。

最新報導稱據一位知情人士透露，其在去年下半年見到了位元組跳動多模態數字人產品的 demo，整體感覺還不錯。位元組跳動旗下剪映已在數月前組建封閉團隊，秘密研發AI產品。目前，該團隊仍處於嚴格保密階段，研發的產品還未上線。一位接近位元組跳動的知情人士稱，去年一年，位元組跳動創始人張一鳴將主要精力都花在了AI上，足以窺見這家公司對AI業務的重視程度。

可以預見的是，在多模態的廣闊競技場上，雖然參賽選手的增加，將會湧現出越來越多的應用、產品。

（科創板日報宋子喬）

國產影片大模型奮起直追 Pika、阿里同日釋出“對口型”利器

《狂飆》大反派高啟強化身羅翔

Sora東京女郎唱歌

小李子演唱超 “燙嘴”Rap《哥斯拉》（Godzilla）

相關文章