國際頂級的語音技術圈會議INTERSPEECH 2020於10月25-30日在中國上海舉辦,本次會議主題為 “ Cognitive Intelligence for Speech Processing”。思必馳作為白金贊助商參加,支援該國際頂會在這不平凡的2020年順利舉行,致力推進產學研用的一體化程序。
INTERSPEECH 2020共接收有效論文總數2100餘篇,實際收錄不到一半,為1022篇。其中,思必馳-上海交通大學智慧人機互動聯合實驗室10篇論文被正式收錄,涉及說話人識別、語音識別及合成、多模態語音分離、口語語義理解等多方面的源頭技術創新研究。
10篇論文簡要介紹如下:
《用於單通道多說話人語音識別的上下文嵌入表示學習方法》
Learning Contextual Language Embeddings for Monaural Multi-talker Speech Recognition
端到端多說話人語音識別是近年來的熱門話題。本文探討了利用上下文資訊來提升多說話人語音識別的效能。我們設計了嵌入表示學習模型來直接從多說話人混合語音中準確地提取上下文嵌入表示,同時進一步提出了兩種高階的訓練策略來改進該新模型,即嵌入表示取樣和兩階段訓練。實驗結果表明,我們的方法在多說話人語音識別上取得了顯著改進,與端到端多說話人語音識別的基線模型相比,本文提出的方法減少了相對25%的詞錯誤率。
基於上下文嵌入表示的多說話人語音識別模型結構
《去混響與波束形成相統一的端到端遠場語音識別》
End-to-End Far-Field Speech Recognition with Unified Dereverberation and Beamforming
本文將去混響模組整合到端到端多通道語音識別系統中,並探索了兩種不同的前端架構。我們在基於神經波束形成的前端中加入基於時頻掩碼的多源加權預測誤差(WPE)模組,用於去混響。其次我們提出了另一種新的前端架構,擴充套件了加權功率最小化無失真響應(WPD)卷積波束形成器,從而同時實現去混響和語音分離。我們在原始WPD的基礎上推匯出新的公式,使其可以處理多源輸入,並用矩陣求逆運算代替特徵值分解,避免顯式利用導向向量,使得反向傳播演算法更穩定。在wsj1-2mix語料和REVERB資料集上的實驗表明,該模型在混響場景下的表現優於傳統方法。
《在雞尾酒會中聆聽、觀察、理解:音訊-影片-上下文的多模態語音分離》
Listen, Watch and Understand at the Cocktail Party: Audio-Visual-Contextual Speech Separation
多個說話人同時說話時,人類可以透過聽混合語音,觀看說話者並理解上下文資訊,將注意力集中在感興趣的語音上。我們嘗試使用三種模態(視覺模態、語音模態以及上下文資訊模態)來解決與說話者無關的語音分離問題。與以前的應用純音訊/音影片模態的方法相比,我們設計了特定模型來直接從語音混合中提取所有目標說話人的上下文語言資訊,然後將這些提取的上下文知識透過適當的注意力機制進一步合併到基於多模態資訊的語音分離體系結構中。實驗表明,在新提出的基於上下文資訊的語音分離模型上可以觀察到顯著的效能改善。
《多模態作用很大: Voxceleb資料集上的效能飛躍》
Multi-modality Matters: A Performance Leap on VoxCeleb
來自不同模態的資訊通常相互補償。我們在說話人嵌入特徵級別探索了視聽人員驗證系統的不同資訊融合策略和損失函式。我們在說話人嵌入特徵級別上使用視聽知識的最佳系統在VoxCeleb1的三個公開測試列表上達到了0.585%,0.427%和0.735%的EER,這是該資料集上報告的最好的結果。此外,我們基於VoxCeleb1資料集構建了一個嘈雜的測試集。我們在說話人嵌入特徵級別使用資料增廣策略來幫助視聽系統區分噪聲和乾淨的嵌入。透過這種資料增廣策略,所提出的視聽人員驗證系統在嘈雜的測試集上取得了更好的效果。
《BERT聯合編碼詞混淆網路和對話上下文的口語語義理解方法》
Jointly Encoding Word Confusion Network and Dialogue Context with BERT for Spoken Language Understanding
口語理解可以將自動語音識別得到的假設轉換為結構化的語義表示,語音識別錯誤會使後續口語理解模組的效能嚴重下降。為了緩解口語理解不確定性的問題,本文提出一種新穎的基於詞混淆網路(WCN)和BERT預訓練模型的口語語義理解模型(WCN-BERT SLU),對話上下文中的上一輪系統行為也被用作附加輸入。該模型對WCN和對話上下文進行聯合編碼,在BERT架構中整合了詞混淆網路的結構資訊和語音識別的後驗機率。在口語理解的基準資料集DSTC2上進行的實驗表明,該方法大大優於以前的最佳模型。
《將部分共享神經網路應用於基於對抗訓練的說話人驗證領域自適應》
Adversarial Domain Adaptation for Speaker Verification using PartiallyShared Network
我們使用領域對抗訓練來研究具有不同語言的資料集之間的領域自適應策略。這種架構可以幫助嵌入特徵提取器學習域不變特徵,同時不會犧牲說話者辨別能力。在SRE16粵語和菲律賓語評估測試集上實現了約25.0%的相對平均等錯誤率(EER)的改進。
《基於雙重對抗領域自適應的泛化重放攻擊檢測》
Dual-Adversarial Domain Adaptation for Generalized Replay Attack Detection
我們提出了對偶對抗領域自適應的框架,透過使用兩個領域鑑別器分別對欺騙資料和真實資料進行細粒度的對齊,從而提高欺騙檢測的效能。實驗表明:該框架對於通用的重放攻擊檢測更加地魯棒和有效。
《噪聲環境下透過半監督音訊事件檢測模型訓練的語音端點檢測器》
Voice activity detection in the wild via weakly supervised sound event detection
我們提出了兩種弱監督訓練的通用VAD模型,GPV-F和GPV-B。在真實場景的測試中,GPV-F模型比標準VAD模型提升很多,GPV-B模型也獲得和標準VAD模型可比的效能。
《神經同態聲碼器》
Neural Homomorphic Vocoder
本文提出了神經同態聲碼器(NHV),一種基於源-濾波器模型的神經網路聲碼器框架,能夠透過多解析度 STFT 損失和對抗損失函式聯合進行最佳化,計算效率高,可控性和可解釋性好。
《基於雙編碼器多專家模型結構的中英文語種混雜語音識別》
Bi-encoder Transformer Network for Mandarin-English Code-switching Speech Recognition using Mixture of Experts
我們研究使用一種嶄新的端到端模型來進行中英文語種混雜語音識別。實驗結果表明,相比於基線的Transformer模型,我們的結構可以取得大幅度的效能提升。
思必馳擁有全鏈路的軟硬一體化端到端語音互動系統能力,近年來不斷加碼源頭技術的持續創新,透過思必馳-上海交通大學智慧人機互動聯合實驗室、上交大蘇州智研院合作的共同努力,在模型泛化及快速定製能力、變幀率語音識別解碼技術、說話人識別技術、超高壓縮比神經網路模型壓縮技術、多模態感知及理解和表達技術等方面,均有顯著突破。圍繞對話式AI能力,思必馳會不斷夯實“全鏈路智慧對話”技術以及“高自由度定製”方案能力。未來也會持續加大對基礎源頭技術創新與核心產品能力升級的核心投入,持續提升AI+智慧終端、AI+智慧服務的快速規模化能力,加速向更多行業場景縱深賦能。