殺瘋了!谷歌卷影片到語音,逼真音效讓AI影片告別無聲!

机器之心發表於2024-06-18
AI圈這遍地開花的大好局面,讓吃瓜群眾們甚是驚喜。

這幾天,大洋彼岸殺瘋了!

Luma 的熱乎勁兒還沒過去,昨晚 Runway 就甩出一個王炸 ——Gen-3 Alpha。(檢視詳情請移步:Runway 版 Sora 釋出:高保真、超強一致性,Gen-3 Alpha 震撼到網友了

更沒想到的是,一覺醒來,Google DeepMind 也有了新訊息,悄咪咪地釋出了影片生成語音(V2A)技術的進展。
圖片
雖然這一功能還未向公眾開放,不過從官方放出的影片 Demo 來看,效果那是相當絲滑。同時,Google DeepMind 強調,所有示例均由 V2A 技術和他們最先進的生成影片模型 Veo 聯手打造。

音訊提示: 緊張刺激的恐怖片配樂,腳步聲在混凝土上回響。(Cinematic, thriller, horror film, music, tension, ambience, footsteps on concrete)殺瘋了!谷歌卷影片到語音,逼真音效讓AI影片告別無聲!
黑燈瞎火的廢棄倉庫中,一個黑衣人猶如鬼魅般緩行,再配上詭異的音樂和腳步聲,恐怖氣氛拉滿。

音訊提示: 狼在月光下的長嚎。(Wolf howling at the moon)殺瘋了!谷歌卷影片到語音,逼真音效讓AI影片告別無聲!
影片 Demo 一出,評論區清一水的追問:啥時候能用?
圖片
圖片
還有網友寄希望於開源社群當一回賽博菩薩,複製谷歌的這一技術。
圖片
其實,就在 Google DeepMind 官宣沒多久,AI 音訊領域的「扛把子」ElevenLabs 橫插一腳,開源了一個上傳影片自動配音的專案,可以為影片生成合適的音效。
圖片
連結:
https://elevenlabs.io/docs/api-reference/how-to-use-text-to-sound-effects

如今 AI 圈子的競爭已呈白熱化,大小廠的你追我趕將會創造更加公平的競爭環境,而一旦這些技術成熟,AI 影片領域將會有無限可能。
圖片
圖片
AI 影片告別無聲電影

眾所周知,影片生成模型正以驚人的速度發展。不過,無論是年初驚豔世人的 Sora,還是近期的可靈、Luma、Gen-3 Alpha,生成的全是「無聲電影」,無一例外。

而 Google DeepMind影片生成音訊 (V2A) 技術,使得同步的視聽生成成為可能。它可以結合影片畫素和自然語言文字提示,為螢幕上的動作生成豐富的配音。

從技術應用上來說,V2A 技術能夠與 Veo 等影片生成模型結合,創造出具有戲劇性配樂、逼真音效或與影片角色以及風格相匹配的對話鏡頭。

它還能為檔案材料、無聲電影等傳統影像生成音軌,拓寬創作的可能。

音訊提示: 可愛的幼年恐龍在叢林中啁啾,伴隨著蛋殼的破裂聲。(Cute baby dinosaur chirps, jungle ambience, egg cracking)殺瘋了!谷歌卷影片到語音,逼真音效讓AI影片告別無聲!音訊提示: 汽車打滑聲、引擎轟鳴聲,伴隨著天使般的電子音樂。(cars skidding, car engine throttling, angelic electronic music) 殺瘋了!谷歌卷影片到語音,逼真音效讓AI影片告別無聲!音訊提示: 日落時分,草原上響起悠揚的口琴聲。(a slow mellow harmonica plays as the sun goes down on the prairie) 殺瘋了!谷歌卷影片到語音,逼真音效讓AI影片告別無聲!
V2A 技術能夠為任何影片輸入生成無限數量的音軌。使用者可以選擇定義「正向提示」來引導生成期望的聲音,或者「負向提示」來避免不期望的聲音。

這種靈活性讓使用者對音訊輸出有了更多的控制,可以快速嘗試不同的音訊輸出,並選擇最佳匹配。

音訊提示:一艘宇宙飛船在浩瀚的太空中疾馳,星星在它周圍劃過,高速飛行,充滿科幻感。(A spaceship hurtles through the vastness of space, stars streaking past it, high speed, Sci-fi)殺瘋了!谷歌卷影片到語音,逼真音效讓AI影片告別無聲!音訊提示:天籟般的大提琴氛圍(Ethereal cello atmosphere) 殺瘋了!谷歌卷影片到語音,逼真音效讓AI影片告別無聲!音訊提示:一艘宇宙飛船在廣袤的太空中高速穿梭,星星在它周圍飛速掠過,具有科幻感。(A spaceship hurtles through the vastness of space, stars streaking past it, high speed, Sci-fi) 殺瘋了!谷歌卷影片到語音,逼真音效讓AI影片告別無聲!
背後的工作原理

研究團隊嘗試了自迴歸和擴散方法,以發現最可擴充套件的 AI 架構。擴散方法在音訊生成上給出了最真實和引人入勝的結果,用於同步影片和音訊資訊。

V2A 系統首先將影片輸入編碼成壓縮表示,然後擴散模型從隨機噪聲中迭代細化音訊。這個過程由視覺輸入和給定的自然語言提示指導,生成與提示緊密對齊的同步、逼真音訊。最終,音訊輸出被解碼成音訊波形,並與影片資料結合。
圖片
為了生成更高質量的音訊並引導模型生成特定聲音,研究團隊在訓練過程中新增了更多資訊,包括 AI 生成的註釋,詳細描述聲音和對話文字。

透過在影片、音訊和額外註釋上的訓練,該技術學會將特定的音訊事件與各種視覺場景關聯起來,同時響應註釋或文字中提供的資訊。

谷歌方面強調,他們的技術與現有的影片到音訊解決方案都不同,因為它可以理解原始畫素,並且新增文字提示是可選的。此外,該系統不需要手動對生成的聲音與影片進行對齊,極大地簡化了創作流程。殺瘋了!谷歌卷影片到語音,逼真音效讓AI影片告別無聲!
不過,谷歌的這一技術也並非完美,他們仍在努力解決一些 bug。例如,影片輸入的質量直接影響音訊輸出的質量,影片中的偽影或失真可能導致音訊質量下降。

同時,他們也在最佳化唇形同步功能。

V2A 技術嘗試從輸入文字中生成語音,並將其與角色的口型動作進行同步,但若影片模型未針對文字內容進行相應的調整,就可能導致口型與語音不同步。他們正改進這一技術,以提升唇形同步的自然度。殺瘋了!谷歌卷影片到語音,逼真音效讓AI影片告別無聲!
音訊提示:音樂,文字轉錄「這隻火雞看起來好極了,我好餓。」(Music, Transcript: “this turkey looks amazing, I’m so hungry”)

或許是由於深度偽造技術帶來諸多社會問題,Google DeepMind 求生欲滿滿,一個勁承諾將負責任開發和部署 AI 技術,在向公眾開放之前,V2A 技術將經過嚴格的安全評估和測試。

此外,他們還整合了 SynthID 工具包到 V2A 研究中,為所有 AI 生成的內容新增水印,以防止技術的濫用。

參考連結:

https://deepmind.google/discover/blog/generating-audio-for-video/

https://x.com/GoogleDeepMind/status/1802733643992850760

相關文章