殺瘋了！谷歌卷影片到語音，逼真音效讓AI影片告別無聲！

机器之心發表於2024-06-18

原文網址 : https://www.jiqizhixin.com/articles/2024-06-18-5

谷歌AI

AI圈這遍地開花的大好局面，讓吃瓜群眾們甚是驚喜。

這幾天，大洋彼岸殺瘋了！

Luma 的熱乎勁兒還沒過去，昨晚 Runway 就甩出一個王炸 ——Gen-3 Alpha。（檢視詳情請移步：Runway 版 Sora 釋出：高保真、超強一致性，Gen-3 Alpha 震撼到網友了）

更沒想到的是，一覺醒來，Google DeepMind 也有了新訊息，悄咪咪地釋出了影片生成語音（V2A）技術的進展。

雖然這一功能還未向公眾開放，不過從官方放出的影片 Demo 來看，效果那是相當絲滑。同時，Google DeepMind 強調，所有示例均由 V2A 技術和他們最先進的生成影片模型 Veo 聯手打造。

音訊提示: 緊張刺激的恐怖片配樂，腳步聲在混凝土上回響。（Cinematic, thriller, horror film, music, tension, ambience, footsteps on concrete）殺瘋了！谷歌卷影片到語音，逼真音效讓AI影片告別無聲！

黑燈瞎火的廢棄倉庫中，一個黑衣人猶如鬼魅般緩行，再配上詭異的音樂和腳步聲，恐怖氣氛拉滿。

音訊提示: 狼在月光下的長嚎。（Wolf howling at the moon）殺瘋了！谷歌卷影片到語音，逼真音效讓AI影片告別無聲！

影片 Demo 一出，評論區清一水的追問：啥時候能用？

還有網友寄希望於開源社群當一回賽博菩薩，複製谷歌的這一技術。

其實，就在 Google DeepMind 官宣沒多久，AI 音訊領域的「扛把子」ElevenLabs 橫插一腳，開源了一個上傳影片自動配音的專案，可以為影片生成合適的音效。

連結：

https://elevenlabs.io/docs/api-reference/how-to-use-text-to-sound-effects

如今 AI 圈子的競爭已呈白熱化，大小廠的你追我趕將會創造更加公平的競爭環境，而一旦這些技術成熟，AI 影片領域將會有無限可能。

AI 影片告別無聲電影

眾所周知，影片生成模型正以驚人的速度發展。不過，無論是年初驚豔世人的 Sora，還是近期的可靈、Luma、Gen-3 Alpha，生成的全是「無聲電影」，無一例外。

而 Google DeepMind 的影片生成音訊 (V2A) 技術，使得同步的視聽生成成為可能。它可以結合影片畫素和自然語言文字提示，為螢幕上的動作生成豐富的配音。

從技術應用上來說，V2A 技術能夠與 Veo 等影片生成模型結合，創造出具有戲劇性配樂、逼真音效或與影片角色以及風格相匹配的對話鏡頭。

它還能為檔案材料、無聲電影等傳統影像生成音軌，拓寬創作的可能。

音訊提示: 可愛的幼年恐龍在叢林中啁啾，伴隨著蛋殼的破裂聲。（Cute baby dinosaur chirps, jungle ambience, egg cracking）殺瘋了！谷歌卷影片到語音，逼真音效讓AI影片告別無聲！

音訊提示: 汽車打滑聲、引擎轟鳴聲，伴隨著天使般的電子音樂。（cars skidding, car engine throttling, angelic electronic music）殺瘋了！谷歌卷影片到語音，逼真音效讓AI影片告別無聲！

音訊提示: 日落時分，草原上響起悠揚的口琴聲。（a slow mellow harmonica plays as the sun goes down on the prairie）殺瘋了！谷歌卷影片到語音，逼真音效讓AI影片告別無聲！

V2A 技術能夠為任何影片輸入生成無限數量的音軌。使用者可以選擇定義「正向提示」來引導生成期望的聲音，或者「負向提示」來避免不期望的聲音。

這種靈活性讓使用者對音訊輸出有了更多的控制，可以快速嘗試不同的音訊輸出，並選擇最佳匹配。

音訊提示：一艘宇宙飛船在浩瀚的太空中疾馳，星星在它周圍劃過，高速飛行，充滿科幻感。（A spaceship hurtles through the vastness of space, stars streaking past it, high speed, Sci-fi）殺瘋了！谷歌卷影片到語音，逼真音效讓AI影片告別無聲！

音訊提示：天籟般的大提琴氛圍（Ethereal cello atmosphere）殺瘋了！谷歌卷影片到語音，逼真音效讓AI影片告別無聲！

音訊提示：一艘宇宙飛船在廣袤的太空中高速穿梭，星星在它周圍飛速掠過，具有科幻感。（A spaceship hurtles through the vastness of space, stars streaking past it, high speed, Sci-fi）殺瘋了！谷歌卷影片到語音，逼真音效讓AI影片告別無聲！

背後的工作原理

研究團隊嘗試了自迴歸和擴散方法，以發現最可擴充套件的 AI 架構。擴散方法在音訊生成上給出了最真實和引人入勝的結果，用於同步影片和音訊資訊。

V2A 系統首先將影片輸入編碼成壓縮表示，然後擴散模型從隨機噪聲中迭代細化音訊。這個過程由視覺輸入和給定的自然語言提示指導，生成與提示緊密對齊的同步、逼真音訊。最終，音訊輸出被解碼成音訊波形，並與影片資料結合。

為了生成更高質量的音訊並引導模型生成特定聲音，研究團隊在訓練過程中新增了更多資訊，包括 AI 生成的註釋，詳細描述聲音和對話文字。

透過在影片、音訊和額外註釋上的訓練，該技術學會將特定的音訊事件與各種視覺場景關聯起來，同時響應註釋或文字中提供的資訊。

谷歌方面強調，他們的技術與現有的影片到音訊解決方案都不同，因為它可以理解原始畫素，並且新增文字提示是可選的。此外，該系統不需要手動對生成的聲音與影片進行對齊，極大地簡化了創作流程。殺瘋了！谷歌卷影片到語音，逼真音效讓AI影片告別無聲！

不過，谷歌的這一技術也並非完美，他們仍在努力解決一些 bug。例如，影片輸入的質量直接影響音訊輸出的質量，影片中的偽影或失真可能導致音訊質量下降。

同時，他們也在最佳化唇形同步功能。

V2A 技術嘗試從輸入文字中生成語音，並將其與角色的口型動作進行同步，但若影片模型未針對文字內容進行相應的調整，就可能導致口型與語音不同步。他們正改進這一技術，以提升唇形同步的自然度。殺瘋了！谷歌卷影片到語音，逼真音效讓AI影片告別無聲！

音訊提示：音樂，文字轉錄「這隻火雞看起來好極了，我好餓。」（Music, Transcript: “this turkey looks amazing, I’m so hungry”）

或許是由於深度偽造技術帶來諸多社會問題，Google DeepMind 求生欲滿滿，一個勁承諾將負責任開發和部署 AI 技術，在向公眾開放之前，V2A 技術將經過嚴格的安全評估和測試。

此外，他們還整合了 SynthID 工具包到 V2A 研究中，為所有 AI 生成的內容新增水印，以防止技術的濫用。

^{參考連結：}

^{https://deepmind.google/discover/blog/generating-audio-for-video/}

^{https://x.com/GoogleDeepMind/status/1802733643992850760}

MIT、IBM聯合打造AI配音師：檢測動作自動新增音效，影片「無聲」勝「有聲」
2020-08-26
MITIBMAI
AI影片語音轉寫文字工具：AI Transcription for Mac中文版
2024-02-02
AIMac
音影片廠商核心功能對比：騰訊雲音影片/聲網/即構
2024-04-23
win10怎麼錄螢幕影片帶聲音錄製影片沒有聲音的解決方法
2020-12-29
Win10
谷歌推出Google Vids新AI影片應用
2024-04-13
谷歌GoAI
win10系統如何通過qq語音讓別人聽到電腦放歌的聲音
2020-03-09
Win10
win10系統如何透過qq語音讓別人聽到電腦放歌的聲音
2020-03-09
Win10
使用AI識別語音和B站影片並透過GPT生成思維導圖
2024-08-25
AIGPT
AI 聲音：數字音訊、語音識別、TTS 簡介與使用示例
2024-11-28
AI音訊TTS
win7系統下IE10網頁播放影片沒有聲音重灌音效卡驅動無效如何解決
2018-11-24
Win7IE10網頁
46秒AI生成真人影片爆火，遭線上打假「換口型、聲音」
2024-03-28
AI
Topaz Video AI：AI影片無損放大軟體，讓畫面細節更真實！
2024-01-26
IDEAI
重磅來襲!MoneyPrinterPlus一鍵釋出短影片到影片號,抖音,快手,小紅書上線了
2024-07-10
AAAI 2020丨從嘈雜影片中提取超清人聲，語音增強模型PHASEN已加入微軟影片服務
2019-11-19
AI模型微軟
音影片FAQ（一）：影片直播卡頓
2023-12-04
如何透過影片剪輯軟體修復原始影片聲音小的問題 All In One
2024-08-05
科大訊飛：讓世界聽見AI的聲音
2018-08-14
AI
AI賦能音樂創作，人人都是音影片創作者
2022-11-23
AI
實現抖音 “影片無限滑動“效果
2024-05-15
音訊和影片無法在PowerPoint中播放
2020-01-10
音訊
Flutter將影片或圖文分享到抖音
2024-05-31
Flutter
音影片相關
2024-08-03
Topaz Video Enhance AI 影片無損放大軟體
2022-03-14
IDEAI
【方法】Win10 暫停影片重新播放聲音突然變大
2024-09-30
Win10
想要電腦裡面的影片原聲，怎麼錄製音訊？
2021-05-19
音訊
告別生硬翻譯！AI谷歌翻譯：讓你的文字"說人話"
2024-11-11
AI谷歌
pygame播放影片並實現音影片同步
2023-11-21
GAM
IM 聊天教程:傳送圖片 / 影片 / 語音 / 表情
2020-05-19
雲知聲AI開放平臺之語音合成技術：讓AI人工智慧照亮智慧生活
2022-04-15
AI人工智慧
煤礦AI智慧影片分析識別系統
2024-09-26
AI
智慧影片分析ai影像精準智慧識別
2024-09-04
AI
Think With Google：YouTube影片廣告性別分析
2019-12-17
Go
讓Sora東京女郎唱歌、高啟強變聲羅翔，阿里人物口型影片生成絕了
2024-02-29
Sora阿里
AI 殺人武器來臨，谷歌技術幫助美軍無人機識別更精準
2018-03-07
AI谷歌無人機
【音影片】攝像頭
2023-05-03
Topaz Video Enhance AI for mac(影片無損放大軟體)
2023-02-26
IDEAIMac
記錄---實現抖音 “影片無限滑動“效果
2024-07-13
[程式設計]Java實現解析抖音無水印影片
2021-07-12
程式設計Java

殺瘋了！谷歌卷影片到語音，逼真音效讓AI影片告別無聲！

相關文章