近日,受到新冠疫情的影響,原計劃於2020年10月25日至10月29日期間,在中國上海+線上同步舉行的國際語音頂級會議Interspeech 2020最終改為線上舉行。京東人工智慧研究院有4篇論文脫穎而出,成功入選本次大會。分別在聲音事件定位與檢測、語音去混響、語音驗證系統、神經網路聲碼器等領域取得突破。同時,京東智聯雲作為本屆會議的鑽石級贊助商,致力於加強工業界和學術界的技術協作,支援會議順利進行。
Interspeech 2020是由國際語音通訊協會ISCA組織的語音研究領域的頂級會議之一,是全球最大的綜合性語音訊號處理領域的科技盛會。該會議每年舉辦一次,今年大會是第21屆INTERSPEECH會議,也是第二次在中國舉辦。本屆會議以“Cognitive Intelligence for Speech Processing”為主題,內容涵蓋訊號處理、語音識別、自然語言處理、神經機器翻譯等領域。
京東人工智慧研究院專注於持續性的演算法創新,80%的研究都由京東實際的業務場景需求為驅動,聚焦NLP語音、計算機視覺、機器學習(包括深度學習和強化學習)等領域。在Interspeech 2020中,京東人工智慧研究院提交的多篇論文經過重重稽核,最終被大會收錄。本文將向大家分享京東人工智慧研究院入選的4篇論文主要思路與創新點。
1、基於多方位波束形成和多工學習的聲音事件定位與檢測
(Sound Event Localization and Detection Based on Multiple DOA Beamforming and Multi-task Learning)
聲音事件檢測和定位在智慧家居、智慧安防等領域具有重要的應用價值,而環境中的噪聲、混響、多聲源混疊等給該任務帶來了巨大挑戰。聲音事件檢測和定位通常基於麥克風陣列,更廣泛而言,如何有效利用多通道麥克風訊號,提高基於深度神經網路的語音相關任務的效能,也是仍需解決的問題。
本文提出了一種基於多方位波束形成和多工學習的聲音事件檢測和定位方法,主要特點為利用傳統聲學訊號處理為神經網路提供更為豐富的資訊。具體而言,透過指向不同預定方位的固定波束形成,可提取各個方位的聲源訊號,並抑制該方位之外的干擾訊號。該方法無需預先進行聲源定位或掩蔽估計,即可獲得差異化多樣化的空間表示。
本文推導了採用訓練資料基於互功率譜的導向向量計算方法,以消除對麥克風陣列幾何資訊的依賴。進一步,本文分別設計了聲源定位網路和基於多工學習的聲音事件檢測網路。我們在DCASE2019聲音事件檢測和定位資料集上進行了評估,結果表明所提演算法取得了最好的綜合效能。
2、SkipConvNet: 基於功率譜最優平滑及跨層卷積神經網路的語音去混響
(Skip Convolutional Neural Network for Speech Dereverberation using Optimally Smoothed Spectral Mapping)
本文所述研究為京東人工智慧研究院和德克薩斯大學達拉斯分校的合作研究專案。全卷積神經網路的有效性已經在眾多語音應用中得到展現。該網路的一個重要變體是“ UNet”,即包含跨層連線的encoder-decoder的卷積網路。
本研究提出了基於“ SkipConvNet”的降混響演算法,該演算法用多個卷積網路替換UNet的每個跨層連線,為decoder提供更為直觀的資訊表示,以提高網路效能。本文還提出了基於最優平滑功率譜估計的預處理步驟,這有助於進一步提高網路的學習能力。採用REVERB Challenge語料庫的實驗結果表明,所提方法在客觀質量評估上顯著優於基線系統,並明顯改善混響條件下的語音識別及說話人識別效能。
3、FFSVC 2020Challenge JD AI聲紋驗證系統
(The JD AI Speaker Verification System for the FFSVC 2020 Challenge)
遠場聲紋識別系統中,聲學環境的複雜性以及多變性對聲紋識別及驗證的效能帶來巨大挑戰。本文基於FFSVC2020遠場聲紋驗證競賽,主要探索了資料擴充、模型結構以及打分策略對遠場聲紋驗證效能的影響。
FFSVC2020比賽提供了約1100小時共計120位說話人的資料,如何利用大量的開源近場資料進行資料擴充是本文探討的主要方向之一。我們採用的策略包括:
1)採用beamforming, voice channel switching和dereverberation等技術將遠場資料變換到近場;
2)透過計算FFSVC2020遠場資料和近場資料之間的房間衝激相應函式(RIR,room impulse response)以及採用模擬模擬生成大量的RIR,在近場資料上增加摺積噪聲;
3)利用錄製的大量的環境噪聲在近場資料上增加加性噪聲;
4)將data augmentation技術用於訓練集或者用於測試集增加資料的多樣性。實驗結果表明,data augmentation能夠大幅提升系統的效能。
此外,本文還探索了TDNN,TDNNF,ResNet, Transformer等模型結構在聲紋驗證裡的應用。結合得分規整技術和兩級打分策略,相比於官方基線系統,minDCF 絕對降低0.2393,EER絕對降低3.16%。
4、Efficient WaveGlow:一種改進的可提高速度的WaveGlow聲碼器
(WaveGlow: An Improved WaveGlow Vocoder with Enhanced Speed)
在高質量的語音合成系統中,像WaveGlow這種神經網路聲碼器已經成為了必不可少的一部分。Efficient WaveGlow是我們提出的一個基於歸一化流的高效的神經網路聲碼器。
和WaveGlow一樣,Efficient WaveGlow採用歸一化流作為網路框架,每一個流操作由一個affine coupling layer和可逆的1x1卷積層構成。為了減少模型的引數量,提升推理速度,Efficient WaveGlow在以下3個方面對WaveGlow進行了改進:
1)把基於WaveNet網路結構的仿射變換網路改為了基於FFTNet網路結構的放射變換網路,FFTNet網路結構比WaveNet更簡單高效,擁有更少的引數量;
2)採用分組卷積進一步減少模型的引數量,提升模型效率;
3)我們嘗試了在仿射變換網路中的每一個卷積層中共享local condition,用以減少冗餘特徵,減少模型的引數量。
Efficient WaveGlow與WaveGlow相比,合成同樣長度的音訊的計算量降低了12倍以上。同樣,模型的引數量也降低了12倍以上。實驗結果表明,Efficient WaveGlow並沒有明顯的聲音質量下降,但是卻能實現CPU上推理速度6倍的提升以及P40上推理速度5倍的提升。
關於京東AI研究院
京東AI研究院專注於持續性的演算法創新,多數研究將由京東實際的業務場景需求為驅動。研究院的聚焦領域為:計算機視覺、自然語言理解、對話、語音、語義、機器學習等實驗室,已逐步在北京、南京、成都、矽谷等全球各地設立辦公室。