今年最被低估的AI模型之一,重現李小龍功夫音

AI好好用發表於2024-12-24

AI好好用報導

編輯:Sia

音訊影片的同步生成,是時候開卷了~

承認吧,雖然谷歌 Veo2 在影片生成上完虐了 Sora,但生成的還是個默片。

沒聲音的 AI 影片,說白了就是個半成品。

看看這組數字:

谷歌開放的大規模音訊資料集 AudioSet 顯示,82% 以上的影片都有人聲或音樂;

去年抖音上傳的 100 多億條影片裡,差不多八成都配了背景音樂。

號稱今年華語最佳電影《好東西》最封神的一場戲,正好也與聲音有關。

在聲效蒙太奇下,日常家務也有山河之聲。

圖片

最近火爆全網的 The Heist 也是個好例子。

今年最被低估的AI模型之一,重現李小龍功夫音


來自 x @jasonzada

雖然每個畫面都是用 Google Veo 2 靠文字生成的,但你猜怎麼著?

作者最費勁的活兒反而是後期音效 ,全靠手動完成。

圖片

圖片作者吐槽,最為致命

看來大家說的沒錯啊,視聽同步生成還真是 AIGC 領域的下一個「硬骨頭」!但好訊息是,戰鬥已經打響了。

近期,伊利諾伊大學和索尼的聯合團隊搞出了一個配音工具 MMAudio——上傳一段影片,不需要人工手動,系統可以自動生成合適的音訊,效果很不錯。

一個 8 秒的高質量音訊片段僅需 1.23 秒!

工具連結:

https://replicate.com/zsxkib/mmaudio

官方 Demo 先走一波:

今年最被低估的AI模型之一,重現李小龍功夫音


Videos from Sora

今年最被低估的AI模型之一,重現李小龍功夫音


Videos from Veo 2

MMAudio 專注於模擬真實世界的各種聲音,主要分兩大類:環境音效和動作音效。

環境音效指的是場景中的背景聲音,比如下雨聲、河流聲、風吹樹葉的沙沙聲、鳥叫聲等自然環境的聲音。

這是大導演庫布里克的電影《閃靈》中的一個場景,原來只有背景音樂,沒有音效。


體驗一下 MMAudio 想象出來的效果。

今年最被低估的AI模型之一,重現李小龍功夫音

來自 X @cocktailpeanut

災難現場的模擬。

今年最被低估的AI模型之一,重現李小龍功夫音

來自X @blizaine

動作音效則是影片中可見事件產生的聲音,例如物體碰撞的聲音、運動器材的聲音(如網球拍擊球)、動物的叫聲(如狗叫)等。


MMAudio 可以重現李小龍功夫音,難得的是,雙節棍舞動的聲音也有卡點。

今年最被低估的AI模型之一,重現李小龍功夫音

來自x @cocktailpeanut

就連一段蘋果釋出會的影片也能整出動靜。你別說,挺合理,同樣卡點準確!

今年最被低估的AI模型之一,重現李小龍功夫音

我們也試了一把。


這是一段旅行拍攝的山鵪鶉,因為距離很遠,原影片只有雜音。


上傳到 MMAudio 、輸入提示詞,結果很理想。


不僅沒了原來的雜音,還新增了動物的聲音,更適合髮圈了:


今年最被低估的AI模型之一,重現李小龍功夫音

提示詞:A covey of quail

上傳一段法國小哥賣煎餅果子的影片,聽聽音效怎麼樣?

今年最被低估的AI模型之一,重現李小龍功夫音


MMAudio 就像一個專業擬音師,透過生成與影片畫面在語義和時間上都同步的自然聲效,讓影片內容更真實生動。

雖然它的主要目標不是生成音樂和人聲,但研究表明,多模態聯合訓練並未影響其在單模態任務上的表現。


換句話說,它也能生成背景音樂甚至人聲,雖然不是專業的。


圖片官方給出的demo之一,就是給影片配上印度風格的BGM。


確實也有網友用 MMAudio 生出了背景音樂。

今年最被低估的AI模型之一,重現李小龍功夫音

prompt: Christmas snow holiday music Santa Claus Festive


話又說回來,有沒有給影片一鍵生成背景音樂的工具呢?你別說,還真有!而且,免費!


且聽下回分解。

文中影片連結:https://mp.weixin.qq.com/s/F5RkV5bD_itV720yvfZ3-Q

以後我們會帶來更多好玩的AI評測,也歡迎大家進群交流。



圖片

相關文章