業界 | 深度學習也能實現「雞尾酒會效應」:谷歌提出新型音訊-視覺語音分離模型

機器之心發表於2018-04-12
在嘈雜的環境中,人們非常善於把注意力集中在某個特定的人身上,在心理上「遮蔽」其他所有聲音。這種能力被稱為「雞尾酒會效應」,是我們人類與生俱來的技能。然而,雖然關於自動語音分離(將音訊訊號分離為單獨的語音源)的研究已經非常深入,但該問題仍是計算機領域面臨的重大挑戰。谷歌今日提出一種新型音訊-視覺模型,從聲音混合片段(如多名說話者和背景噪音)中分離出單獨的語音訊號。該模型只需訓練一次,就可應用於任意說話者。

在《Looking to Listen at the Cocktail Party》一文中,谷歌提出了一種深度學習音訊-視覺模型,用於將單個語音訊號與背景噪聲、其他人聲等混合聲音分離開來。在這篇文章中,谷歌通過計算生成視訊,增強其中特定人員的語音,同時減弱其他人的聲音。研究者的方法用在具有單個音訊軌道的普通視訊上,使用者需要做的就是在視訊中選出他們想要聽到的說話人的面部,或者結合語境用演算法選出這樣的人。這種方法用途廣泛,從視訊中的語音增強和識別、視訊會議,到改進助聽器,不一而足,尤其適用於有多個說話人的情景。

這項技術的獨特之處是結合了輸入視訊的聽覺和視覺訊號來分離語音。直觀地講,人的嘴的運動應當與該人說話時產生的聲音相關聯,這反過來又可以幫助識別音訊的哪些部分對應於該人。視覺訊號不僅在混合語音的情況下顯著提高了語音分離質量(與僅僅使用音訊的語音分離相比,正如在本文中所證明的),但是重要的是,它還將分離的乾淨語音軌道與視訊中的可見說話者相關聯。


業界 | 深度學習也能實現「雞尾酒會效應」:谷歌提出新型音訊-視覺語音分離模型

在谷歌提出的方法中,輸入是具有一個或多個說話人的視訊,其中我們需要的語音受到其他說話人和/或背景噪聲的干擾。輸出是將輸入音訊軌道分解成的乾淨語音軌道,其中每個語音軌道來自視訊中檢測到的每一個人。

音訊-視覺語音分離模型

為了生成訓練樣本,我們首先從 YouTube 上收集 10 萬個高質量講座和演講視訊。然後從視訊中提取帶有清晰語音的片段(如沒有音樂、觀眾聲音或其他說話者聲音的片段)和視訊幀中只有一個說話者的片段。這樣得到了大約 2000 個小時的視訊片段,鏡頭中出現的是單個人,且說話的時候沒有背景干擾。之後,我們使用這些乾淨資料生成「合成雞尾酒會」——將人臉視訊、來自單獨視訊源的對應語音及從 AudioSet 獲取的無語音背景噪聲混合在一起。

使用這些資料,我們能夠訓練出基於多流卷積神經網路的模型,將合成雞尾酒會片段分割成視訊中每個說話者的單獨音訊流。網路輸入是從每一幀檢測到的說話者人臉縮圖中提取到的視覺特徵,和視訊聲音的光譜圖表徵。訓練過程中,網路(分別)學習視覺和聽覺訊號的編碼,然後將其融合在一起形成一個聯合音訊-視覺表徵。有了這種聯合表徵,網路可以學習為每個說話者輸出時頻掩碼。輸出掩碼乘以帶噪聲的輸入光譜圖,然後被轉換成時域波形,以獲取每位說話者的單獨、乾淨的語音訊號。完整細節,請參考論文《Looking to Listen at the Cocktail Party: A Speaker-Independent Audio-Visual Model for Speech Separation》。

業界 | 深度學習也能實現「雞尾酒會效應」:谷歌提出新型音訊-視覺語音分離模型

多串流的基於神經網路的架構。

以下是用谷歌的方法得到的語音分離和增強的結果展示(視訊見原文)。被選取的說話人之外的另一個人的聲音可以被完全消去,或抑制到所需的音量級別。

業界 | 深度學習也能實現「雞尾酒會效應」:谷歌提出新型音訊-視覺語音分離模型

業界 | 深度學習也能實現「雞尾酒會效應」:谷歌提出新型音訊-視覺語音分離模型

業界 | 深度學習也能實現「雞尾酒會效應」:谷歌提出新型音訊-視覺語音分離模型

為了強調該模型對視覺資訊的利用,研究者從谷歌 CEO Sundar Pichai 的同一個視訊中擷取了不同的兩部分,並將它們並排展示。在這個場景中,僅適用音訊中的特徵語音訊率是很難實現語音分離的。然而,即使在這樣富有挑戰性的案例中,該模型也可以正確地分離語音。

在語音識別中的應用

該方法還有作為預處理應用到語音識別和自動給視訊加文字說明的潛力。處理語音重疊的說話人對於自動的文字說明系統來說是很有挑戰性的,並且將音訊分離為不同的來源可以幫助生成更加準確和易讀的文字說明:

谷歌認為該項技術有很廣泛的應用前景,目前正在探索如何將該技術整合到谷歌的產品中,敬請期待!

論文:Looking to Listen at the Cocktail Party: A Speaker-Independent Audio-Visual Model for Speech Separation

業界 | 深度學習也能實現「雞尾酒會效應」:谷歌提出新型音訊-視覺語音分離模型

論文連結:https://arxiv.org/pdf/1804.03619.pdf

摘要:我們展示了一種聯合音訊-視覺模型,用於從聲音混合片段(如多名說話者和背景噪音)中分離出單獨的語音訊號。僅使用音訊作為輸入來解決該任務難度非常大,且無法提供視訊中每個說話者單獨語音訊號的組合。本論文展示了一種基於深度網路的模型,該模型整合了視覺訊號和聽覺訊號來解決該任務。視覺特徵用於「聚焦」場景中目標說話者的音訊,以提高語音分離的質量。為了訓練聯合音訊-視覺模型,我們引入了新型資料集 AVSpeech,該資料集包含從網頁上收集的數千小時視訊片段。我們展示了該方法的可應用性,它可用於經典的語音分離任務,以及熱烈訪問、喧囂酒吧、尖叫孩童等現實場景,而使用者只需要指定視訊中的特定人臉即可。我們的方法明顯優於混合語音領域中當前最優的音訊語音分割。此外,我們的模型是獨立於說話者的(只需訓練一次,即可應用於任意說話者),生成的結果優於近期依賴於說話者的音訊-視覺語音分離方法(該方法需要為每個說話者訓練一個單獨的模型)。業界 | 深度學習也能實現「雞尾酒會效應」:谷歌提出新型音訊-視覺語音分離模型

原文連結:https://research.googleblog.com/2018/04/looking-to-listen-audio-visual-speech.html

相關文章