MIT又出新玩法,利用AI可輕鬆分離視訊中的樂器聲音

技術小能手發表於2018-07-09

均衡器是大概是被用來在音樂中加入低音的一種常用方式,但近日,麻省理工學院電腦科學與人工智慧實驗室(CSAIL)的研究人員研發了一個更好的解決方案。他們的深度學習系統——PixelPlayer——可以通過人工智慧來分離樂器演奏視訊中的樂器聲音,同時還能改變音量,讓它們變得更響亮或更柔和。

經過充分訓練的PixelPlayer系統,以視訊作為輸入,可以對相應的音訊進行分割,識別聲音來源,然後根據每個畫素的聲音進行“空間定位”,即識別剪輯片段中產生類似聲波的區域。詳細資訊在論文《The Sound of Pixels》中有所解釋,這篇論文已被歐洲計算機視覺大會(ECCV)接收,此會議將於今年9月在德國慕尼黑舉行。

“我們期望中最好的情況是系統可以識別出哪種樂器會發出哪種聲音,”CSAIL的博士生和該論文的共同作者Hang Zhao說道。“結果我們驚訝的發現,真的可以在畫素級別上對樂器進行空間定位。這一結果給我們開闢了更多的可能性,比如只需點選一下視訊就能編輯各個樂器的音訊。“

PixelPlayer的核心是一個在現有音樂視訊(一個由YouTube提供的714個未經修改的且未標記的資料視訊集)上進行訓練的神經網路。據悉,該系統在超過60個小時的視訊上進行了訓練,它能夠觀看之前未看過的音樂表演視訊,在畫素級別上識別特定樂器,並提取出該樂器的聲音。

這只是PixelPlayer多管齊下機器學習框架的一部分。經過訓練的視訊分析演算法從剪輯的幀中提取視覺特徵之後,第二個神經網路——音訊分析網路, 將聲音分成小片段並從中提取特徵。最後,一個音訊合成器網路使用來自兩個網路的輸出來將特定畫素與聲波進行關聯。

PixelPlayer完全是自我監督的,這意味著它不需要人類對樂器或樂器聲音進行任何標註。現在這一系統可以識別超過20種樂器的聲音。Zhao稱,如果具備更多訓練資料,該系統還可以識別更多樂器,不過,它在處理樂器子類別之間的細微差異時可能還存在問題,比如中音薩克斯和次中音薩克斯。

研究人員認為PixelPlayer可以幫助進行聲音編輯,或者用於幫助機器人更好地理解動物、車輛和其他物體所產生的環境聲音。

他們寫道:“我們希望我們的工作可以開闢新的研究途徑,通過視覺和聽覺訊號來理解聲源分離的問題。”

原文釋出時間為:2018-07-06
本文作者:Sandy
本文來自雲棲社群合作伙伴“人工智慧觀察”,瞭解相關資訊可以關注“人工智慧觀察”。


相關文章