央視點贊國產AI復活召喚術,兵馬俑竟與寶石老舅對唱Rap?

机器之心發表於2024-07-04
沉睡了兩千多年的兵馬俑,甦醒了?

圖片

一句秦腔開場,將我們帶到了黃土高原。如果不是親眼所見,很多觀眾可能難以想象,有生之年還能看到兵馬俑和寶石 Gem 同臺對唱《從軍行》。

「青海長雲暗雪山,孤城遙望玉門關。」古調雖存音樂變,聲音依舊動人情:

圖片

這場表演背後的「AI 復活召喚術」,叫做 EMO,來自阿里巴巴通義實驗室。僅僅一張照片、一個音訊,EMO 就能讓靜止形象變為惟妙惟肖的唱演影片,且精準卡點音訊中的跌宕起伏、抑揚頓挫。

在央視《2024 中國・AI 盛典》中,同樣基於 EMO 技術,北宋文學家蘇軾被「復活」,與李玉剛同臺合唱了一曲《水調歌頭》。「AI 蘇軾」動作古樸自然,彷彿穿越時空而來:

圖片

在 EMO 等 AI 領域前沿技術的激發下,首個以人工智慧為核心的國家級科技盛宴《2024 中國・AI 盛典》盛大開幕,以「媒體 + 科技 + 藝術」的融合形式將最前沿的國產 AI 技術力量傳遞給節目前的每一位觀眾:央視點贊國產AI復活召喚術,兵馬俑竟與寶石老舅對唱Rap?這不是 EMO 第一次「出圈」。曾在社交媒體爆火的「高啟強化身羅翔普法」,也是出自 EMO 之手: 央視點贊國產AI復活召喚術,兵馬俑竟與寶石老舅對唱Rap?
登陸通義 APP 之後,藉助玩家各種腦洞大開的試玩,EMO 火熱程度至今不減。還沒有嘗試的小夥伴可以前去下載這款應用,進入「頻道」選擇「全民舞臺」,就可以絲滑體驗了。

圖片

實際上,早在今年 2 月,通義實驗室就公開了 EMO(Emote Portrait Alive) 相關論文。這篇論文上線之初就好評如潮,更是有人稱讚:「EMO 是一項革命性的研究。」

圖片

  • 論文地址:https://arxiv.org/pdf/2402.17485
  • 專案主頁:https://humanaigc.github.io/emote-portrait-alive/

為什麼它能獲得如此高度的評價?這還要從當前影片生成技術的發展現狀和 EMO 的底層技術創新說起。

如此出圈,EMO 憑什麼?

過去幾年,AI 在影像生成方面的成功是有目共睹的。當前,AI 領域的研究熱點是攻克一個更困難的任務:影片生成

EMO 面對的恰好是其中非常難的一項任務:基於音訊驅動的人物影片生成

不同於常見的文生影片和圖生影片玩法,基於音訊驅動的人物影片生成是一個從音訊直接跨越到影片模態的過程。這類影片的生成往往涉及頭部運動、凝視、眨眼、唇部運動等多個要素,且要保持影片內容的一致性和流暢度。

在此前的方法中,模型大多先針對人臉、人頭或者身體部分做 3D 建模或人臉關鍵點標記,以此作為中間表達再生成最終的影片。但藉助中間表達的方法可能會導致音訊中的資訊被過度壓縮,影響最終生成影片中的情緒表達效果。

通義實驗室應用視覺團隊負責人薄列峰表示,EMO 的關鍵創新點「弱控制設計」很好地解決了上述問題,不僅降低影片生成成本,還大幅提升了影片生成質量。

圖片

「弱控制」體現在兩個方面:首先,EMO 無需建模,直接從音訊中提取資訊來生成表情動態和嘴唇同步的影片,從而在不需要複雜預處理的情況下,端到端地創造出自然流暢且表情豐富的人像影片。其次,EMO 對生成表情和身體動作不做過多「控制」,最終生成結果的自然和流暢,都是源於模型本身對高質量資料的學習而訓練出的泛化能力。

拿兵馬俑和寶石 Gem 同框對唱《從軍行》來說,歌聲中所要傳達的情緒(如激揚)在其面部得到了很好的展現,不會給人違和感:

圖片

基於弱控制的理念,研究團隊為 EMO 模型構建了一個龐大而多樣的音影片資料集,總計超過 250 小時的錄影和超過 1.5 億張影像,涵蓋各種內容,包括演講、電影和電視片段以及歌唱表演,包括中文和英文在內的多種語言,影片的豐富多樣性確保了訓練材料捕捉了廣泛的人類表達和聲音風格。

學界有一種觀點是,對於一個資料集最好的無失真壓縮,就是對於資料集之外的資料最佳泛化。能夠實現高效壓縮的演算法往往能夠揭示資料的深層規律,這也是智慧的一個重要表現。

因此,團隊在訓練過程中設計了高保真資料編碼演算法,保證了在壓縮或處理資料的過程中,儘可能保持原始資訊的豐富細節和動態範圍。具體到 EMO 的訓練上,只有音訊資訊完整,人物情緒才能很好的展現。

圖片

影片生成賽道風起雲湧
通義實驗室如何躋身全球第一梯隊?

今年 2 月初,Sora 的釋出點燃了影片生成賽道,背後的多項技術隨之受到關注,其中就包括 DiT(Diffusion Transformer )。

我們知道,擴散模型中的 U-Net 能模擬訊號從噪聲中逐漸恢復的過程,理論上能夠逼近任意複雜的資料分佈,在影像質量方面優於生成對抗網路(GAN)和變分自編碼器(VAE),生成具有更自然紋理和更準確細節的現實世界影像。但 DiT 論文表明,U-Net 歸納偏置對擴散模型的效能並非不可或缺,可以很容易地用標準設計(如 Transformer)取代,這就是該論文提出的基於 Transformer 架構的新型擴散模型 DiT。

最重要的是,以 DiT 為核心的 Sora 驗證了影片生成模型中仍存在 Scaling Law ,研究者們可以透過增加更多的引數和資料來擴大模型規模實現更好的結果。

DiT 模型在生成真實影片方面的成功,讓 AI 社群看到了這一方法的潛力,促使影片生成領域從經典 U-Net 架構轉變到基於 Transformer 的擴散主幹架構的正規化。基於 Transformer 注意力機制時序預測、大規模的高質量影片資料都是推動這一轉變的關鍵力量。

但縱觀當前的影片生成領域,尚未出現一個「大一統」架構。

EMO 並不是建立在類似 DiT 架構的基礎上,也就是沒有用 Transformer 去替代傳統 U-Net,同樣能夠很好地模擬真實物理世界,這給整個研究領域帶來了啟發。

未來,影片生成領域會出現哪些技術路線?不管是理論研究者還是從業者,都可以保持「相對開放的期待」。

薄列峰表示,本質上,當前的語言模型、影像 / 影片生成模型都沒有超越統計機器學習的框架。即使是 Scaling Law ,也有自身的限制。儘管各個模型對強關係和中等關係的生成把握比較精準,但對弱關係的學習仍然不足。如果研究者們不能持續提供足夠多的高質量資料,模型的能力就難以有質的提升。

換個角度來看,即使影片生成領域會出現一種「佔據半壁江山」的大一統架構,也並不意味其具備絕對的優越性。就像是自然語言領域,一直穩居 C 位的 Transformer 也會面臨被 Mamba 超越的情況。

具體到影片生成領域,每種技術路線都有適合自身的應用場景。比如關鍵點驅動、影片驅動更適合表情遷移的場景,音訊驅動更適合人物講話、唱演的場景。從條件控制的程度來說,弱控制的方法很適合創意類任務,同時很多專業、具體的任務更能受益於強控制的方法。

通義實驗室是國內最早佈局影片生成技術的機構之一,目前已有文生影片、圖生影片等多個方向的研發積累,特別是在人物影片生成方面,已經形成了包括物動作影片生成框架 Animate Anyone、人物換裝影片生成框架 Outfit Anyone、人物影片角色替換框架 Motionshop、人物唱演影片生成框架 Emote Portrait Alive 在內的完整研究矩陣。

圖片

更多專案請關注:https://github.com/HumanAIGC

比如在 EMO 之前,Animate Anyone 一度霸屏社交媒體和朋友圈。該模型解決了人物運動影片生成中保持人物外觀短時連續性和長時一致性的問題,隨後上線通義 App「全民舞王」功能,掀起了一波全民熱舞小高潮。央視點贊國產AI復活召喚術,兵馬俑竟與寶石老舅對唱Rap?
從技術到現實世界

過去兩年,語言模型展現了強大的對話、理解、總結、推理等文字方面的能力,影像生成模型展現了強大的自然生成、娛樂和藝術能力,兩大賽道都誕生了很多爆款產品。這些模型的成功至少告訴我們一點:想在這個時代取得影響力的技術團隊,需要學會「基礎模型」和「超級應用」兩條腿走路。

目前,影片內容呈現爆發式增長的趨勢,人們都在期待能夠出現一個人人「可用」且「實用」的 AI 影片生成平臺。EMO 可能是打破這一局面的重要技術突破,通義 App 則提供了一個技術落地的廣闊平臺。

影片生成技術的下一個挑戰,是如何攻克專業級的內容。

科技公司們希望將 AI 技術轉化為真正的生產力工具,去服務短影片博主、影視製作人、廣告和遊戲創意人。這也是為什麼影片生成應用不能只停留在「通用內容」的水準。

環顧目前大部分的影片生成應用,大多是基於 3 到 5 秒的影片生成模型,在應用和體驗上的限制比較明顯。但 EMO 技術對於音訊時長的包容度很高,而且生成內容質量可以達到演播標準。比如登陸央視的這段「兵馬俑唱演」,全程四分鐘的兵馬俑部分表演影片無一秒需要人工後期針對性「微調」。

如今看來,以 EMO 為代表的人物影片生成技術是最接近「專業級生成水準」的落地方向之一。相比於文生影片技術中使用者 Prompt 存在的諸多不確定性,EMO 技術高度符合人物影片創作對內容連貫性和一致性的核心需求,展示了極具潛力的應用空間。

EMO 之所以「出圈」,人們看到的不光是研發團隊的技術實力,更重要的是看到了影片生成技術落地的加速度。

「人均專業創作者」的時代,或許不遠了。

相關文章