Open main menu
IT人
位元組音效生成模型來了,一鍵生成大片感音效!已上線即夢
机器之心
發表於
2025-03-11
原文網址 :
https://www.jiqizhixin.com/articles/2025-03-11-10
模型
在 AIGC 持續突破影片生成邊界的當下,音效製作仍是制約行業發展的瓶頸。位元組跳動豆包大模型語音團隊最新提出的 SeedFoley 模型,透過端到端架構實現了影片音效的智慧生成,將 AI 影片創作帶入「有聲時代」。
相關功能「AI 音效」已在即夢上線
,使用者使用即夢生成影片後,選擇「AI 音效」功能,即可生成 3 個專業級音效方案。
App 端
Web 端
效果展示
先「聽」為快,這裡展示了一些 SeedFoley 生成的影片音效效果。
技術方案
SeedFoley 是一種端到端的影片音效生成架構,透過融合時空影片特徵與擴散生成模型,實現了音效和影片的高度同步。首先,用固定的影片幀率對影片序列進行抽幀提取,然後使用一個影片編碼器提取影片的表徵資訊,並透過多層線形變換將影片表徵投射到條件空間,在改進的擴散模型框架中構建音效生成路徑。
在訓練過程,提取語音和音樂相關標籤,作為 multi conditions 的形式輸入,可以將音效和非音效進行解耦。SeedFoley 能支援可變長度的影片輸入,並且在音效準確性,音效同步性和音效匹配度等指標上都取得了領先水平。
圖 1:SeedFoley 的模型架構
影片編碼器
SeedFoley 的影片編碼器,採用了快慢特徵組合的方式,在高幀率上提取幀間的區域性運動資訊,在低幀率上提取影片的語義資訊。透過將快慢特徵組合,既保留了運動特徵,有效降低計算成本。透過這種方式,能在低計算資源性實現 8fps 的幀級別影片特徵提取,實現精細動作定位。最後利用 Transformer 結構融合快慢特徵,實現影片的時空特徵提取。在提升訓練效果和訓練效率上,SeedFoley 透過在一個批次中引入多個困難樣本,顯著提升了語義對齊效果,同時使用了 sigmoid loss 而非 softmax loss,能在更低的資源上實現媲美大批次訓練的效果。
圖 2:SeedFoley 的影片編碼器
音訊表徵模型
對於擴散模型而言,通常採用 VAE 生成的潛在表徵(latent representation)作為音訊特徵編碼。與基於梅爾頻譜(mel-spectrum)的 VAE 模型不同,SeedFoley 採用原始波形(raw waveform)作為輸入,經過編碼後得到 1D 的表徵,比傳統 mel-VAE 模型在重構和生成建模上更有優勢。這裡,音訊採用了 32k 的取樣率,以確保高頻資訊的保留。每秒鐘的音訊提取到 32 個音訊潛在表徵,可以有效提升音訊在時序上的解析度,提升音效的細膩程度。
SeedFoley 的音訊表徵模型採用了兩階段聯合訓練策略:在第一階段使用掩碼策略,將音訊表徵中的相位資訊進行剝離,將去相位後的潛在表徵作為擴散模型的最佳化目標;在第二階段則使用音訊解碼器從去相位表徵中重建相位資訊。這個做法可以有效降低擴散模型對錶徵的預測難度,最終實現音訊潛在表徵的高質量生成和還原。
擴散模型
SeedFoley 採用 Diffusion Transformer 框架,透過最佳化機率路徑上的連續對映關係,實現了從高斯噪聲分佈到目標音訊表徵空間的機率匹配。相較於傳統擴散模型依賴馬爾可夫鏈式取樣的特性,SeedFoley 透過構建連續變換路徑,有效減少推理步數,降低推理成本。
在訓練階段,將影片特徵與音訊語義標籤分別編碼為隱空間向量;透過通道維度拼接(Channel-wise Concatenation)將二者與時間編碼(Time Embedding)及噪聲訊號進行混合,形成聯合條件輸入。該設計透過顯式建模跨模態時序相關性,有效提升了音效和影片畫面在時序上的一致性以及內容的理解能力。
在推理階段,透過調整 CFG 係數可調整視覺資訊的控制強度以及生成質量之間的關係。透過迭代式最佳化噪聲分佈,將噪聲逐步轉換為目標資料分佈。透過將人聲以及音樂標籤進行強行設定,可以有效避免音效中夾雜人聲或者背景音樂的可能性,提升音效的清晰度和質感。最後將音訊表徵輸入到音訊解碼中,得到音效音訊。
結語
SeedFoley 實現了影片內容與音訊生成的深度融合,能夠精確提取影片幀級視覺資訊,透過分析多幀畫面資訊,精準識別影片中的發聲主體及動作場景。無論是節奏感強烈的音樂瞬間,還是電影中的緊張情節,都能精準卡點,營造出身臨其境的逼真體驗;另外,SeedFoley 可智慧區分動作音效和環境音效,顯著提升影片的敘事張力和情感傳遞效率。
「AI 音效」功能已上線即夢
,使用者使用即夢生成影片後,選擇「AI 音效」功能,即可生成 3 個專業級音效方案。在 AI 影片,生活 Vlog、短片製作和遊戲製作等高頻場景中,能有效擺脫 AI 影片的「無聲尷尬」,便捷地製作出配有專業音效的高質量影片。
團隊介紹
豆包大模型語音團隊的使命是利用多模態語音技術豐富互動和創作方式。團隊專注於語音和音訊、音樂、自然語言理解和多模態深度學習等領域的前沿研究和產品創新。
相關文章
位元組影片生成模型 PixelDance上線即夢AI,使用者可免費體驗
2024-11-18
模型
LDA
AI
位元組最新OmniHuman數字人模型即將上線即夢
2025-02-07
模型
即夢AI首發,位元組自研影片生成模型Seaweed開放使用
2024-11-08
AI
模型
強大!Nginx 配置線上一鍵生成“神器”
2019-10-09
Nginx
智駕公司下場搞AI影片生成,模型上線即開源
2024-12-18
AI
模型
開源!上海AI Lab影片生成大模型書生·築夢 2.0來了
2024-09-23
AI
大模型
Tickeys for Mac鍵盤音效模擬工具
2020-12-04
Mac
原創|強大!Nginx 配置線上一鍵生成“神器”
2019-05-31
Nginx
Mac鍵盤音效模擬工具——Tickeys for Mac
2020-10-18
Mac
我打造了一個線上簡歷生成應用
2021-03-07
開源框架 WebFirst 一鍵生成專案,線上建表
2022-05-08
框架
Web
加速擴散模型,最快1步生成SOTA級圖片,位元組Hyper-SD開源了
2024-04-25
模型
【論文速讀】位元組跳動音樂生成模型 Seed-Music
2024-10-15
模型
位元組音樂大模型炸場!Seed-Music釋出,支援一鍵生成高質量歌曲、片段編輯等
2024-09-19
大模型
AI「視覺圖靈」時代來了!位元組OmniHuman,一張圖配上音訊,就能直接生成影片
2025-02-05
AI
視覺
圖靈
音訊
詳解Android Gradle生成位元組碼流程
2019-12-23
Android
Gradle
《音效行業白皮書》:從小眾到流行,酷狗蝰蛇音效佈局音效行業賽道
2021-01-19
行業
影響遊戲玩家沉浸感的因素——背景音樂&音效
2020-03-16
遊戲
Clojure 執行原理之位元組碼生成篇
2019-02-13
win10系統調節Realtek音效卡音效的方法
2019-01-19
Win10
a16z:小模型 + 邊緣 AI 將定義 2025;音效模型 TangoFlux:3 秒鐘生成 30 秒音訊丨 RTE 開發者日報
2025-01-03
模型
AI
Go
UX
音訊
開發者日報
牛逼!位元組 IDE 來了!!
2024-11-15
IDE
tickeys 1.1.0 中文版 (鍵盤打字音效模擬)
2020-12-04
二維碼線上生成
2024-11-05
Boom 3D for Mac(音效增強軟體) 2.0.2一鍵啟用版
2023-11-10
OOM
3D
Mac
花75塊買來的鍋碗瓢盆,幫我搞定了一款遊戲全套音效
2021-09-28
遊戲
Sora Opera:天圖萬境聯合華為雲共築AI生成式影片音效新高度
2024-03-15
Sora
AI
tickeys 1.0.0 中文版 (鍵盤打字音效模擬工具)
2020-08-13
混音效果全套外掛
2021-10-15
智慧混音效果外掛
2021-10-14
混音效果Waves 13 Complete
2022-06-15
一個可一鍵生成短影片的AI大模型,親測可用
2024-03-27
AI
大模型
首個開源、原生多模態生成大模型:一鍵生成 「煎雞蛋」圖文菜譜
2024-07-04
大模型
AI繪畫線上生成網站,無需下載直接線上生成ai美圖
2022-12-27
AI
網站
位元組版Sora終於來了!一口氣兩款影片模型,帶來的震撼不只一點點
2024-09-25
Sora
模型
生成式模型
2024-07-30
模型
強大,Nginx配置一鍵生成
2019-11-01
Nginx
SOLIDWORKS如何一鍵生成BOM表
2022-09-22
Solid