MIT 最新技術:從靜音視訊中提取聲音

發表於2014-08-06

一組由 MIT、微軟和 Adobe 組成的影象、聲學演算法學家等開發出了一種新的演算法,能夠通過靜音視訊中的物品微小的振動幅度,提取復原出當時場景中的聲音!

gcnvghjvhv1407220940880

該團隊已經測試了該技術:測試者在房間內對話,房間內放置一個薯片袋;房間外一臺攝像機隔著隔音玻璃對著這個薯片袋進行拍攝。研究人員從這段完全無聲的視訊中復原出了測試者在房間內的對話!

其他測試物件還包括鋁箔、水面,甚至一盆植物的葉子……團隊都能夠通過演算法,從這些視訊中的材質表面微震中提取出有效的音訊素材。該團隊將會在今年的國際頂級計算機影象峰會 Siggraph 大會上呈現研究成果。

聲波接觸到物品的時候,會導致物品發生振動——即便是最微小的振動。這種振動人眼幾乎識別不了,人們不知道從這種振動中能夠提取出資訊。

Abe Davis, 機電工程和電腦科學研究生,MIT

團隊成員還包括 Frédo Durand、Bill Freeman,兩位 MIT 的電腦科學教授;Neal Wadhwa,MIT 的另一名研究生;Michael Rubinstein 博士,來自微軟研究院;Gaytham Mysore,來自 Adobe 研究院。

不過,大家別太擔心普通的攝像頭拍下的視訊能夠被用於提取音訊訊號。該研究團隊使用了能夠拍攝每秒 2000 到 6000 幀素材的高速攝像機——已經非常快,但並沒有目前世界頂尖的商業級高速攝像機快,後者能夠拍攝高達 10 萬幀每秒的視訊。

ftjfjfg1407222874780fd

但這並不意味著普通的攝像機達到不了效果。該團隊解釋,使用 60 幀每秒的攝像機拍攝的素材,通過演算法仍然能夠提取出「一些」音訊訊號,雖然可能完全聽不清說的是什麼,不過能夠判別出講話者的個數、講話者的性別,甚至講話者的聲學特性——用以判斷講話者的身份。

研究團隊對著一個正在播放搖滾樂的耳機進行拍攝,通過演算法重現出一個音訊檔案,然後播放給猜歌軟體 Shazam。後者完美地識別出了最一開始播放的這首歌……

 

相關文章