AI好好用報導
編輯:Sia
音訊影片的同步生成,是時候開卷了~
承認吧,雖然谷歌 Veo2 在影片生成上完虐了 Sora,但生成的還是個默片。
沒聲音的 AI 影片,說白了就是個半成品。
看看這組數字:
谷歌開放的大規模音訊資料集 AudioSet 顯示,82% 以上的影片都有人聲或音樂;
去年抖音上傳的 100 多億條影片裡,差不多八成都配了背景音樂。
號稱今年華語最佳電影《好東西》最封神的一場戲,正好也與聲音有關。
在聲效蒙太奇下,日常家務也有山河之聲。
最近火爆全網的 The Heist 也是個好例子。
雖然每個畫面都是用 Google Veo 2 靠文字生成的,但你猜怎麼著?
作者最費勁的活兒反而是後期音效 ,全靠手動完成。
作者吐槽,最為致命
看來大家說的沒錯啊,視聽同步生成還真是 AIGC 領域的下一個「硬骨頭」!但好訊息是,戰鬥已經打響了。
近期,伊利諾伊大學和索尼的聯合團隊搞出了一個配音工具 MMAudio——上傳一段影片,不需要人工手動,系統可以自動生成合適的音訊,效果很不錯。
一個 8 秒的高質量音訊片段僅需 1.23 秒!
工具連結:
https://replicate.com/zsxkib/mmaudio
官方 Demo 先走一波:
Videos from Veo 2
MMAudio 專注於模擬真實世界的各種聲音,主要分兩大類:環境音效和動作音效。
環境音效指的是場景中的背景聲音,比如下雨聲、河流聲、風吹樹葉的沙沙聲、鳥叫聲等自然環境的聲音。
這是大導演庫布里克的電影《閃靈》中的一個場景,原來只有背景音樂,沒有音效。
體驗一下 MMAudio 想象出來的效果。
來自 X @cocktailpeanut
災難現場的模擬。
來自X @blizaine
動作音效則是影片中可見事件產生的聲音,例如物體碰撞的聲音、運動器材的聲音(如網球拍擊球)、動物的叫聲(如狗叫)等。
MMAudio 可以重現李小龍功夫音,難得的是,雙節棍舞動的聲音也有卡點。
來自x @cocktailpeanut
就連一段蘋果釋出會的影片也能整出動靜。你別說,挺合理,同樣卡點準確!
我們也試了一把。
這是一段旅行拍攝的山鵪鶉,因為距離很遠,原影片只有雜音。
上傳到 MMAudio 、輸入提示詞,結果很理想。
不僅沒了原來的雜音,還新增了動物的聲音,更適合髮圈了:
提示詞:A covey of quail
上傳一段法國小哥賣煎餅果子的影片,聽聽音效怎麼樣?
雖然它的主要目標不是生成音樂和人聲,但研究表明,多模態聯合訓練並未影響其在單模態任務上的表現。
換句話說,它也能生成背景音樂甚至人聲,雖然不是專業的。
官方給出的demo之一,就是給影片配上印度風格的BGM。
確實也有網友用 MMAudio 生出了背景音樂。
prompt: Christmas snow holiday music Santa Claus Festive
話又說回來,有沒有給影片一鍵生成背景音樂的工具呢?你別說,還真有!而且,免費!
且聽下回分解。
文中影片連結:https://mp.weixin.qq.com/s/F5RkV5bD_itV720yvfZ3-Q
以後我們會帶來更多好玩的AI評測,也歡迎大家進群交流。