MIT又出新玩法,利用AI可輕鬆分離視訊中的樂器聲音
均衡器是大概是被用來在音樂中加入低音的一種常用方式,但近日,麻省理工學院電腦科學與人工智慧實驗室(CSAIL)的研究人員研發了一個更好的解決方案。他們的深度學習系統——PixelPlayer——可以通過人工智慧來分離樂器演奏視訊中的樂器聲音,同時還能改變音量,讓它們變得更響亮或更柔和。
經過充分訓練的PixelPlayer系統,以視訊作為輸入,可以對相應的音訊進行分割,識別聲音來源,然後根據每個畫素的聲音進行“空間定位”,即識別剪輯片段中產生類似聲波的區域。詳細資訊在論文《The Sound of Pixels》中有所解釋,這篇論文已被歐洲計算機視覺大會(ECCV)接收,此會議將於今年9月在德國慕尼黑舉行。
“我們期望中最好的情況是系統可以識別出哪種樂器會發出哪種聲音,”CSAIL的博士生和該論文的共同作者Hang Zhao說道。“結果我們驚訝的發現,真的可以在畫素級別上對樂器進行空間定位。這一結果給我們開闢了更多的可能性,比如只需點選一下視訊就能編輯各個樂器的音訊。“
PixelPlayer的核心是一個在現有音樂視訊(一個由YouTube提供的714個未經修改的且未標記的資料視訊集)上進行訓練的神經網路。據悉,該系統在超過60個小時的視訊上進行了訓練,它能夠觀看之前未看過的音樂表演視訊,在畫素級別上識別特定樂器,並提取出該樂器的聲音。
這只是PixelPlayer多管齊下機器學習框架的一部分。經過訓練的視訊分析演算法從剪輯的幀中提取視覺特徵之後,第二個神經網路——音訊分析網路, 將聲音分成小片段並從中提取特徵。最後,一個音訊合成器網路使用來自兩個網路的輸出來將特定畫素與聲波進行關聯。
PixelPlayer完全是自我監督的,這意味著它不需要人類對樂器或樂器聲音進行任何標註。現在這一系統可以識別超過20種樂器的聲音。Zhao稱,如果具備更多訓練資料,該系統還可以識別更多樂器,不過,它在處理樂器子類別之間的細微差異時可能還存在問題,比如中音薩克斯和次中音薩克斯。
研究人員認為PixelPlayer可以幫助進行聲音編輯,或者用於幫助機器人更好地理解動物、車輛和其他物體所產生的環境聲音。
他們寫道:“我們希望我們的工作可以開闢新的研究途徑,通過視覺和聽覺訊號來理解聲源分離的問題。”
原文釋出時間為:2018-07-06
本文作者:Sandy
本文來自雲棲社群合作伙伴“人工智慧觀察”,瞭解相關資訊可以關注“人工智慧觀察”。
相關文章
- 華為音訊編輯服務,實時分離人聲、伴奏和樂器聲音訊
- OpenAI:可從15秒的音訊中克隆出聲音OpenAI音訊
- 人工智慧AI庫Spleeter免費人聲和背景音樂分離實踐(Python3.10)人工智慧AIPython
- mac音樂分離器:Algoriddim Neural Mix Pro for macMacGo
- AI音樂,騰訊音樂、網易雲音樂的新版圖?AI
- 短視訊“音訊化”,音樂“視訊化”音訊
- Android Spotify 將可以輕鬆選擇想要的音樂Android
- .Net開發的音訊分離桌面應用,可用於提取背景音樂音訊
- 聲臨其境,輕鬆幾步教你把音訊變成3D環繞音音訊3D
- MIT腦控機器人再升級:腦訊號+肌肉訊號,輕鬆控制機器人動作MIT機器人
- 如何輕鬆利用GPU加速機器學習?GPU機器學習
- AntSK 0.2.3 版本更新:輕鬆整合 AI 本地離線模型AI模型
- 微信下載錄音檔案(音軌分離 ffmpeg視訊合成)
- 科大訊飛:讓世界聽見AI的聲音AI
- 智慧合併剪輯視訊,一鍵自動新增視訊、音訊以及文案,輕鬆偽原創音訊
- win10怎麼錄螢幕視訊帶聲音 錄製視訊沒有聲音的解決方法Win10
- 解密《Unheard-疑案追聲》中的音效(音樂)製作解密
- 輕鬆理解分庫分表
- iOS ARKit錄製視訊(AVAssetWriter & 有聲音)iOS
- 【秒懂音視訊開發】06_重識聲音
- 輕鬆搞定分組報表中的各種排序排序
- 輕鬆學 Nodejs - 基礎篇免費視訊教程(18 個視訊)NodeJS
- 輕鬆理解JVM的分代模型JVM模型
- 頭條號音訊專案,輕鬆日入200+音訊
- CRI新音訊工作室設立、強化音訊(音樂、聲優等)製作業務音訊
- 一款非常強大的從電影中提取人聲、提取音樂、提取特效聲的AI工具特效AI
- 遊戲音樂與影視音樂的異同遊戲
- 網易雲音樂音視訊演算法的 Serverless 探索之路演算法Server
- IINA Mac:輕輕鬆鬆觀看免費影片,盡享影音之樂Mac
- Unity元件:AudioChorusFilterPROonly音訊合聲濾波器Unity元件Filter音訊
- 輕鬆學 dva(基礎 + 進階)(32 個視訊)
- 從QQ音樂開發,探討如何利用騰訊雲SDK在直播中加入視訊動畫動畫
- Android二維條形碼輕鬆玩樂高機器人Android機器人
- 數字音樂賽道拐點下,訊飛音樂的AI突圍法AI
- AI 聲音:數字音訊、語音識別、TTS 簡介與使用示例AI音訊TTS
- netty系列之:輕輕鬆鬆搭個支援中文的伺服器Netty伺服器
- 視訊音樂圖片格式轉換Permute 3
- 利用xml輕鬆讀取web.config中的使用者自定義節XMLWeb