位元組音效生成模型來了,一鍵生成大片感音效!已上線即夢

机器之心發表於2025-03-11
在 AIGC 持續突破影片生成邊界的當下,音效製作仍是制約行業發展的瓶頸。位元組跳動豆包大模型語音團隊最新提出的 SeedFoley 模型,透過端到端架構實現了影片音效的智慧生成,將 AI 影片創作帶入「有聲時代」。相關功能「AI 音效」已在即夢上線,使用者使用即夢生成影片後,選擇「AI 音效」功能,即可生成 3 個專業級音效方案。
圖片
App 端
圖片
Web 端

效果展示

先「聽」為快,這裡展示了一些 SeedFoley 生成的影片音效效果。位元組音效生成模型來了,一鍵生成大片感音效!已上線即夢位元組音效生成模型來了,一鍵生成大片感音效!已上線即夢位元組音效生成模型來了,一鍵生成大片感音效!已上線即夢位元組音效生成模型來了,一鍵生成大片感音效!已上線即夢
技術方案

SeedFoley 是一種端到端的影片音效生成架構,透過融合時空影片特徵與擴散生成模型,實現了音效和影片的高度同步。首先,用固定的影片幀率對影片序列進行抽幀提取,然後使用一個影片編碼器提取影片的表徵資訊,並透過多層線形變換將影片表徵投射到條件空間,在改進的擴散模型框架中構建音效生成路徑。

在訓練過程,提取語音和音樂相關標籤,作為 multi conditions 的形式輸入,可以將音效和非音效進行解耦。SeedFoley 能支援可變長度的影片輸入,並且在音效準確性,音效同步性和音效匹配度等指標上都取得了領先水平。
圖片
圖 1:SeedFoley 的模型架構

影片編碼器

SeedFoley 的影片編碼器,採用了快慢特徵組合的方式,在高幀率上提取幀間的區域性運動資訊,在低幀率上提取影片的語義資訊。透過將快慢特徵組合,既保留了運動特徵,有效降低計算成本。透過這種方式,能在低計算資源性實現 8fps 的幀級別影片特徵提取,實現精細動作定位。最後利用 Transformer 結構融合快慢特徵,實現影片的時空特徵提取。在提升訓練效果和訓練效率上,SeedFoley 透過在一個批次中引入多個困難樣本,顯著提升了語義對齊效果,同時使用了 sigmoid loss 而非 softmax loss,能在更低的資源上實現媲美大批次訓練的效果。
圖片
圖 2:SeedFoley 的影片編碼器

音訊表徵模型

對於擴散模型而言,通常採用 VAE 生成的潛在表徵(latent representation)作為音訊特徵編碼。與基於梅爾頻譜(mel-spectrum)的 VAE 模型不同,SeedFoley 採用原始波形(raw waveform)作為輸入,經過編碼後得到 1D 的表徵,比傳統 mel-VAE 模型在重構和生成建模上更有優勢。這裡,音訊採用了 32k 的取樣率,以確保高頻資訊的保留。每秒鐘的音訊提取到 32 個音訊潛在表徵,可以有效提升音訊在時序上的解析度,提升音效的細膩程度。

SeedFoley 的音訊表徵模型採用了兩階段聯合訓練策略:在第一階段使用掩碼策略,將音訊表徵中的相位資訊進行剝離,將去相位後的潛在表徵作為擴散模型的最佳化目標;在第二階段則使用音訊解碼器從去相位表徵中重建相位資訊。這個做法可以有效降低擴散模型對錶徵的預測難度,最終實現音訊潛在表徵的高質量生成和還原。

擴散模型

SeedFoley 採用 Diffusion Transformer 框架,透過最佳化機率路徑上的連續對映關係,實現了從高斯噪聲分佈到目標音訊表徵空間的機率匹配。相較於傳統擴散模型依賴馬爾可夫鏈式取樣的特性,SeedFoley 透過構建連續變換路徑,有效減少推理步數,降低推理成本。

在訓練階段,將影片特徵與音訊語義標籤分別編碼為隱空間向量;透過通道維度拼接(Channel-wise Concatenation)將二者與時間編碼(Time Embedding)及噪聲訊號進行混合,形成聯合條件輸入。該設計透過顯式建模跨模態時序相關性,有效提升了音效和影片畫面在時序上的一致性以及內容的理解能力。

在推理階段,透過調整 CFG 係數可調整視覺資訊的控制強度以及生成質量之間的關係。透過迭代式最佳化噪聲分佈,將噪聲逐步轉換為目標資料分佈。透過將人聲以及音樂標籤進行強行設定,可以有效避免音效中夾雜人聲或者背景音樂的可能性,提升音效的清晰度和質感。最後將音訊表徵輸入到音訊解碼中,得到音效音訊。

結語

SeedFoley 實現了影片內容與音訊生成的深度融合,能夠精確提取影片幀級視覺資訊,透過分析多幀畫面資訊,精準識別影片中的發聲主體及動作場景。無論是節奏感強烈的音樂瞬間,還是電影中的緊張情節,都能精準卡點,營造出身臨其境的逼真體驗;另外,SeedFoley 可智慧區分動作音效和環境音效,顯著提升影片的敘事張力和情感傳遞效率。

「AI 音效」功能已上線即夢,使用者使用即夢生成影片後,選擇「AI 音效」功能,即可生成 3 個專業級音效方案。在 AI 影片,生活 Vlog、短片製作和遊戲製作等高頻場景中,能有效擺脫 AI 影片的「無聲尷尬」,便捷地製作出配有專業音效的高質量影片。

團隊介紹

豆包大模型語音團隊的使命是利用多模態語音技術豐富互動和創作方式。團隊專注於語音和音訊、音樂、自然語言理解和多模態深度學習等領域的前沿研究和產品創新。

相關文章