不戴眼鏡聽不清?Google用視覺訊號分離語音 | 附論文
霧中之慄 發自 凹非寺
量子位 出品 | 公眾號 QbitAI
△ 精神的力量
人類非常善於在嘈雜的環境中,集中注意力聽某一個人說的話,從精神上“遮蔽”一切其他聲音。這種現象便是“雞尾酒會效應”,我們與生俱來。
不過,對於計算機來說,要把一個音訊訊號分割成多個不同的語音來源,依然有些棘手的問題需要解決。當許多人的語音交疊在一起的時候,AI時常措手不及。
谷歌團隊建立了一個深度學習視聽模型,用來把某個人的語音從一段混合聲音裡面提取出來。演算法對視訊做一些奇妙的改動,就可以讓觀眾需要的聲音變得格外顯著,其他聲音則被削弱。
△ 不戴眼鏡,AI也一樣
這項技術的獨到之處,就是把聽覺和視覺訊號結合起來用,而不單單靠聲波來分離視訊中的語音。直觀來看,以嘴上的動作為例,人的口型和語音相互對應。這一點會幫助AI判斷,哪些聲音是哪個人發出的。
視聽語音分離模型
要生成訓練樣例,團隊先蒐集了100,000條高清視訊,全部是油管上的講座和演講。第二步,是把語音單純 (比如,無音樂、無觀眾、無其他演講者) 、且影像中只有一人出現的視訊篩選出來。這樣,就得到了大約2,000小時純純無雜質的視訊。
有了這些資料,小夥伴們就開始對一個基於多流卷積神經網路 (CNN) 的模型進行訓練。人工合成一些嘈雜的“雞尾酒會”給AI欣賞,目標是讓它在酒會裡,把每個人的音訊流分離開來。
△ 感覺有人,在背後截我圖
視訊裡,演講者的大頭貼被一幀一幀地截下,計算機用它們的縮圖來提取面部特徵。然神經網路食量非凡,它要吃的不止這些面部特徵。加上頻譜圖形式呈現的音軌,才是神經網路美好的晚餐。
在訓練過程中,AI學會了編碼視覺和聽覺訊號,並且能夠把它們組合成一種特殊的視聽表現形式。在此基礎上,AI還要為每個演講者輸出一個時頻掩膜 (time-frequency mask) 。
把這些掩膜與輸入的噪音訊譜相乘,再轉換回時域波形 (time-domain waveform) ,就能獲得每個演講者獨立又清澈的語音訊號了。
訓練成果秀
團隊用單音軌的普通視訊來做實驗。觀眾要做的很簡單,想要聽到哪個人的聲音,就把他/她的臉從視訊裡選出來,當然讓計算機根據場景自動選擇也是可以的。
△ 安能辨我是雄雌
除了被選中的人,其他人的聲音都可以被完全壓制,或者被削弱到理想的程度。
在多人發聲的場景下,視覺訊號除了有效提升語音分離的質量,還可以把分離之後的音軌和視訊裡的人物對應起來。
△ 兩個劈柴一起秀
為了突顯視覺資訊的作用,團隊從劈柴小哥哥 (谷歌CEO Sundar Pichai) 的同一條演講視訊裡擷取了兩個不同的段落,左右拼接成一段視訊。如果只靠音訊,便很難判斷是左邊的劈柴還是右邊的劈柴在說話。
不,是你的字幕
語音識別的預處理,以及視訊字幕的自動生成中,也能用上這個方法。遇到相互交疊的聲音,視聽模型或許可以解決,以往語音分離系統遇到的難題。
有翻牆技能的大家,可以使用油管的字幕功能 (cc) ,對比整容前和整容後的視訊,看看字幕有沒有更準一些。
△ 剛才誰在說話
這是論文的傳送門:
https://arxiv.org/pdf/1804.03619.pdf
— 完 —
活動報名
誠摯招聘
量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話介面,回覆“招聘”兩個字。
量子位 QbitAI · 頭條號簽約作者
վ'ᴗ' ի 追蹤AI技術和產品新動態
相關文章
- 微信下載錄音檔案(音軌分離 ffmpeg視訊合成)
- 2023年美國13歲以上聽眾聽口語音訊地理分佈(附原資料表) 音訊
- Android音訊視覺化操作Android音訊視覺化
- .Net開發的音訊分離桌面應用,可用於提取背景音樂音訊
- Web Audio API之手把手教你用web api處理聲音訊號:視覺化音樂demoWebAPI音訊視覺化
- 15分鐘,不,用模板做資料視覺化只需5分鐘視覺化
- 視覺設計中五感的運用!視覺、聽覺、嗅覺、味覺和觸覺!視覺
- mkvtoolnix 分離影片音軌 把英語的音軌分離出來 - 軟體推薦
- 音訊錄製及視覺化處理音訊視覺化
- AI學會了視覺推理,“腦補”看不清的物體 | 李佳李飛飛等的CVPR論文AI視覺
- 音訊訊號表徵音訊
- Facebook ICCV論文:利用傳遞不變性的自監督視覺表徵學習視覺
- 短視訊“音訊化”,音樂“視訊化”音訊
- Google論文之三----MapReduceGo
- 2024年6月計算機視覺論文推薦:擴散模型、視覺語言模型、影片生成等計算機視覺模型
- 業界 | 深度學習也能實現「雞尾酒會效應」:谷歌提出新型音訊-視覺語音分離模型深度學習谷歌音訊視覺模型
- 音視訊--音訊入門音訊
- 音視訊–音訊入門音訊
- MIT又出新玩法,利用AI可輕鬆分離視訊中的樂器聲音MITAI
- 網易雲音樂質量視覺化實踐 - 張文視覺化
- 2023年美國13歲以上聽眾在車裡聽口語音訊比例(附原資料表) 音訊
- 2023年美國13歲以上聽眾使用裝置聽口語音訊比例(附原資料表) 音訊
- 2023年美國13歲以上聽眾在家聽口語音訊節目比例(附原資料表) 音訊
- 2023年美國13歲以上聽眾在家聽口語音訊內容比例(附原資料表) 音訊
- 視覺語言模型導論:這篇論文能成為你進軍VLM的第一步視覺模型
- [C#] 使用 NAudio 實現音訊視覺化C#音訊視覺化
- AudioContext+canvas實現音訊視覺化ContextCanvas音訊視覺化
- 首次公開課語音同步直播——2小時《大資料視覺化》課程免費聽大資料視覺化
- Google檔案系統(Google File System)論文Go
- 音視訊--視訊入門
- 3 分鐘就能掌握的視訊 / 音訊優化技巧!音訊優化
- ICML:2019論文接收結果視覺化視覺化
- Android音視訊之MediaPlayer音視訊播放Android
- 《The Google File System》論文研讀Go
- 2023年美國13歲以上聽眾在工作場所聽口語音訊比例(附原資料表) 音訊
- 2023年美國13歲以上聽眾在家使用裝置聽口語音訊比例(附原資料表) 音訊
- 音訊訊號處理入門音訊
- 重磅 | 小米首次公開發表論文:基於注意力機制的端對端語音識別(附論文翻譯)