不戴眼鏡聽不清?Google用視覺訊號分離語音 | 附論文

量子位發表於2018-04-18
霧中之慄 發自 凹非寺
量子位 出品 | 公眾號 QbitAI

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

 精神的力量

人類非常善於在嘈雜的環境中,集中注意力聽某一個人說的話,從精神上“遮蔽”一切其他聲音。這種現象便是“雞尾酒會效應”,我們與生俱來。

不過,對於計算機來說,要把一個音訊訊號分割成多個不同的語音來源,依然有些棘手的問題需要解決。當許多人的語音交疊在一起的時候,AI時常措手不及。

谷歌團隊建立了一個深度學習視聽模型,用來把某個人的語音從一段混合聲音裡面提取出來。演算法對視訊做一些奇妙的改動,就可以讓觀眾需要的聲音變得格外顯著,其他聲音則被削弱。

640?wx_fmt=jpeg

 不戴眼鏡,AI也一樣

這項技術的獨到之處,就是把聽覺和視覺訊號結合起來用,而不單單靠聲波來分離視訊中的語音。直觀來看,以嘴上的動作為例,人的口型和語音相互對應。這一點會幫助AI判斷,哪些聲音是哪個人發出的。

視聽語音分離模型

要生成訓練樣例,團隊先蒐集了100,000條高清視訊,全部是油管上的講座和演講。第二步,是把語音單純 (比如,無音樂、無觀眾、無其他演講者) 、且影像中只有一人出現的視訊篩選出來。這樣,就得到了大約2,000小時純純無雜質的視訊。

有了這些資料,小夥伴們就開始對一個基於多流卷積神經網路 (CNN) 的模型進行訓練。人工合成一些嘈雜的“雞尾酒會”給AI欣賞,目標是讓它在酒會裡,把每個人的音訊流分離開來。

640?wx_fmt=gif

 感覺有人,在背後截我圖

視訊裡,演講者的大頭貼被一幀一幀地截下,計算機用它們的縮圖來提取面部特徵。然神經網路食量非凡,它要吃的不止這些面部特徵。加上頻譜圖形式呈現的音軌,才是神經網路美好的晚餐。

在訓練過程中,AI學會了編碼視覺和聽覺訊號,並且能夠把它們組合成一種特殊的視聽表現形式。在此基礎上,AI還要為每個演講者輸出一個時頻掩膜 (time-frequency mask) 。

把這些掩膜與輸入的噪音訊譜相乘,再轉換回時域波形 (time-domain waveform) ,就能獲得每個演講者獨立又清澈的語音訊號了。

訓練成果秀

團隊用單音軌的普通視訊來做實驗。觀眾要做的很簡單,想要聽到哪個人的聲音,就把他/她的臉從視訊裡選出來,當然讓計算機根據場景自動選擇也是可以的。

640?wx_fmt=gif

 安能辨我是雄雌

除了被選中的人,其他人的聲音都可以被完全壓制,或者被削弱到理想的程度

在多人發聲的場景下,視覺訊號除了有效提升語音分離的質量,還可以把分離之後的音軌和視訊裡的人物對應起來。


 兩個劈柴一起秀

為了突顯視覺資訊的作用,團隊從劈柴小哥哥 (谷歌CEO Sundar Pichai) 的同一條演講視訊裡擷取了兩個不同的段落,左右拼接成一段視訊。如果只靠音訊,便很難判斷是左邊的劈柴還是右邊的劈柴在說話。

不,是你的字幕

語音識別的預處理,以及視訊字幕的自動生成中,也能用上這個方法。遇到相互交疊的聲音,視聽模型或許可以解決,以往語音分離系統遇到的難題。

有翻牆技能的大家,可以使用油管的字幕功能 (cc) ,對比整容前和整容後的視訊,看看字幕有沒有更準一些。

640?wx_fmt=jpeg

 剛才誰在說話


這是論文的傳送門:

https://arxiv.org/pdf/1804.03619.pdf


活動報名

640?wx_fmt=jpeg

誠摯招聘

量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話介面,回覆“招聘”兩個字。

640?wx_fmt=jpeg

量子位 QbitAI · 頭條號簽約作者

վ'ᴗ' ի 追蹤AI技術和產品新動態


相關文章