本文介紹了語音頂級會議InterSpeech和ICASSP收錄的多篇論文,及騰訊AI Lab正在構建,從語音前端處理、後端識別到合成等整個技術流程上的能力。
9 月 2日- 6 日,Interspeech會議在印度海得拉巴舉辦,騰訊 AI Lab首次參加,有 8 篇論文入選,位居國內企業前列。該年度會議由國際語音通訊協會ISCA(International Speech Communication Association)組織,是全球最大的綜合性語音訊號處理領域的科技盛會。
騰訊 AI Lab 也在業界分享語音方面的研究成果,今年已在多個國際頂級會議和期刊上發表了系列研究成果,涵蓋從語音前端處理到後端識別及合成等整個技術流程。比如今年4月舉辦的 IEEE 聲學、語音與訊號處理國際會議(ICASSP 2018),是由IEEE主辦、全球最大、最全面的訊號處理及其應用方面的頂級學術會議,騰訊AI Lab也入選論文 4 篇,介紹了其在多說話人語音識別、神經網路語言模型建模和說話風格合成自適應方面的研究進展。
在研究方面,騰訊AI Lab提出了一些新的方法和改進,在語音增強、語音分離、語音識別、語音合成等技術方向都取得了一些不錯的進展。在落地應用上,語音識別中心為多個騰訊產品提供技術支援,比如“騰訊聽聽音響”、“騰訊極光電視盒子”,並融合內外部合作伙伴的先進技術,在語音控制、語義解析、語音合成(TTS)等方面都達到了業內領先水平。
本文將基於智慧音響的基本工作流程介紹騰訊 AI Lab 在語音方面的近期研究進展。
首先,我們先了解一下音響語音互動技術鏈條。
智慧音響的最典型應用場景是家庭,在這種場景中使用者與音響裝置的距離通常比使用者在智慧手機上使用語音應用的距離遠很多,因此會引入較明顯的室內混響、回聲,音樂、電視等環境噪聲,也會出現多說話人同時說話,有較強背景人聲的問題。要在這樣的場景中獲取、增強、分離得到質量較好的語音訊號並準確識別是智慧音響達到好的使用者體驗所要攻克的第一道難關。
麥克風陣列是這一步最常用的解決方案之一,比如騰訊聽聽就採用了由 6 個麥克風組成的環形陣列,能夠很好地捕捉來自各個方位的聲音。
麥克風採集到聲音之後,就需要對這些聲音進行處理,對多麥克風採集到的聲音訊號進行處理,得到清晰的人聲以便進一步識別。 這裡涉及的技術包括語音端點檢測、回聲消除、聲源定位和去混響、語音增強等。另外,對於通常處於待機狀態的智慧音響,通常都會配備語音喚醒功能。為了保證使用者體驗,語音喚醒必須要足夠靈敏和快速地做出響應,同時儘量減少非喚醒語音誤觸發引起的誤喚醒。
經過麥克風陣列前端處理,接下來要做的是識別說話人的身份和理解說話內容,這方面涉及到聲紋識別、語音識別和模型自適應等方面的問題。
之後,基於對說話內容的理解執行任務操作,並透過語音合成系統合成相應語音來進行回答響應。如何合成高質量、更自然、更有特色的語音也一直是語音領域的一大重點研究方向。
騰訊 AI Lab 的研究範圍涵蓋了上圖中總結的音響語音互動技術鏈條的所有 5 個步驟,接下來將依此鏈條介紹騰訊 AI Lab 近期的語音研究進展。
1、前端
採集到聲音之後,首先需要做的是消除噪聲和分離人聲,並對喚醒詞做出快速響應。
在拾音和噪聲消除方面,騰訊 AI Lab 的 Voice Processing(簡稱AIVP)解決方案整合了語音檢測、聲源測向、麥克風陣列波束形成、定向拾音、噪聲抑制、混響消除、回聲消除、自動增益等多種遠場語音處理模組,能有效地為後續過程提供增強過的清晰語音。發表於 Symmetry 的論文《一種用於塊稀疏系統的改進型集合-元素比例自適應演算法(An Improved Set-membership Proportionate Adaptive Algorithm For A Block-sparse System)》是在回聲消除方面的研究。
遠場語音處理的各個模組
在語音喚醒方面,騰訊 AI Lab 的 Interspeech 2018 研究《基於文字相關語音增強的小型高魯棒性的關鍵詞檢測(Text-Dependent Speech Enhancement for Small-Footprint Robust Keyword Detection)》針對語音喚醒的誤喚醒、噪聲環境中喚醒、快語速喚醒和兒童喚醒等問題提出了一種新的語音喚醒模型——使用 LSTM RNN 的文字相關語音增強(TDSE)技術,能顯著提升關鍵詞檢測的質量,並且在有噪聲環境下也表現突出,同時還能顯著降低前端和關鍵詞檢測模組的功耗需求。
基於文字相關語音增強的關鍵詞檢測架構
2、聲紋識別
聲紋識別是指根據說話人的聲波特性進行身份辨識。這種技術有非常廣泛的應用範圍,比如根據不同家庭使用者的偏好定製個性化的應用組合。聲紋系統還可用於判斷新使用者的性別和年齡資訊,以便在之後的互動中根據使用者屬性進行相關推薦。
聲紋識別也存在一些有待攻克的挑戰。在技術上存在通道失配、環境噪聲、短語音、遠場等難題,在應用上還有錄音冒認、相容能力、互動設計等挑戰。聲紋模型還應當具備相容確認和辨別功能,支援隱式更新和隱式註冊,以便隨使用者使用時間的增長而逐步提升效能。
支援隱式註冊的聲紋模型的效能隨使用者使用時長增長而提升
騰訊 AI Lab除了應用已實現的經典聲紋識別演算法外(GMM-UBM、GMM/Ivector、DNN/Ivector、GSV),也在探索和開發基於DNN embedding的新方法,且在短語音方面已經實現了優於主流方法的識別效果。騰訊 AI Lab 也在進行多系統融合的開發工作——透過合理佈局全域性框架,使具有較好互補性的聲紋演算法協同工作以實現更精準的識別。相關部分核心自研演算法及系統效能已經在語音頂級期刊上發表。
其中,被 Interspeech 2018 接收的論文《基於深度區分特徵的變時長說話人確認(Deep Discriminative Embeddings for Duration Robust Speaker Verification)》提出了一種基於 Inception-ResNet 的聲紋識別系統框架,可學習更加魯棒且更具有區分性的嵌入特徵。
同樣入選 Interspeech 2018 的論文《從單通道混合語音中還原目標說話人的深度提取網路(Deep Extractor Network for Target Speaker Recovery From Single Channel Speech Mixtures)》提出了一種深度提取網路(如下圖所示),可在規範的高維嵌入空間中透過嵌入式特徵計算為目標說話人建立一個錨點,並將對應於目標說話人的時間頻率點提取出來。
實驗結果表明,給定某一說話人一段非常短的語音,如給定該說話人的喚醒詞語音(通常1S左右),所提出的模型就可以有效地從後續混合語音中高質量地分離恢復出該目標說話人的語音,其分離效能優於多種基線模型。同時,研究者還證明它可以很好地泛化到一個以上干擾說話人的情況。
3、語音識別
語音識別技術已經經歷過長足的發展,現在已大體能應對人們的日常使用場景了,但在噪聲環境、多說話人場景、“雞尾酒會問題”、多語言混雜等方面仍還存在一些有待解決的難題。
騰訊 AI Lab 的語音識別解決方案是結合了說話人特徵的個性化識別模型,能夠為每位使用者提取並儲存自己個性化聲學資訊特徵。隨著使用者資料積累,個性化特徵會自動更新,使用者識別準確率可獲得顯著提升。
另外,騰訊 AI Lab 還創新地提出了多類單元集合融合建模方案,這是一種實現了不同程度單元共享、引數共享、多工的中英混合建模方案。這種方案能在基本不影響漢語識別準確度的情況下提升英語的識別水平。
騰訊 AI Lab 有多篇 Interspeech 2018 論文都針對的是這個階段的問題。
在論文《基於生成對抗網路置換不變訓練的單通道語音分離(Permutation Invariant Training of Generative Adversarial Network for Monaural Speech Separation)》中,研究者提出使用生成對抗網路(GAN)來實現同時增強多個聲源的語音分離,並且在訓練生成網路時透過基於句子層級的 PIT 解決多個說話人在訓練過程順序置換問題。實驗也證明了這種被稱為 SSGAN-PIT 的方法的優越性,下面給出了其訓練過程示意圖:
SSGAN-PIT 的訓練過程示意圖
論文《使用注意機制和門控摺積網路的單聲道多說話人語音識別(Monaural Multi-Talker Speech Recognition with Attention Mechanism and Gated Convolutional Networks)》將注意機制和門控摺積網路(GCN)整合進了研究者之前開發的基於排列不變訓練的多說話人語音識別系統(PIT-ASR)中,從而進一步降低了詞錯率。如下左圖展示了用於多說話人語音識別的帶有注意機制的 PIT 框架,而右圖則為其中的注意機制:
在論文《提升基於注意機制的端到端英語會話語音識別(Improving Attention Based Sequence-to-Sequence Models for End-to-End English Conversational Speech Recognition)》中,研究者提出了兩項用於端到端語音識別系統的基於注意的序列到序列模型改進方法。第一項改進是使用一種輸入饋送架構——其不僅會饋送語境向量,而且還會饋送之前解碼器的隱藏狀態資訊,並將它們作為解碼器的輸入。第二項改進基於一種用於序列到序列模型的序列最小貝葉斯風險(MBR)訓練的更好的假設集合生成方法,其中在 MBR 訓練階段為 N-best 生成引入了 softmax 平滑。實驗表明這兩項改進能為模型帶來顯著的增益。下表展示了實驗結果,可以看到在不使用外部語言模型的條件下,新提出的系統達到了比其它使用外部模型的最新端到端系統顯著低的字錯誤率。
論文《詞為建模單元的端到端語音識別系統多階段訓練方法(A Multistage Training Framework For Acoustic-to-Word Model)》研究瞭如何利用更好的模型訓練方法在只有 300 小時的 Switchboard 資料集上也能得到具有競爭力的語音識別效能。最終,研究者將 Hierarchical-CTC、Curriculum Training、Joint CTC-CE 這三種模型訓練方法結合到了一起,在無需使用任何語言模型和解碼器的情況下取得了優良的表現。
另外,在今年 4 月舉辦的 IEEE ICASSP 2018 上,騰訊 AI Lab 有 3 篇自動語音識別方面的論文和 1 篇語音合成方面的論文(隨後將介紹)入選。
在語音合成方面,其中 2 篇都是在用於多說話人的置換不變訓練方面的研究。
其中論文《用於單聲道多說話人語音識別的使用輔助資訊的自適應置換不變訓練(Adaptive Permutation Invariant Training With Auxiliary Information For Monaural Multi-talker Speech Recognition)》基於騰訊 AI Lab 之前在置換不變訓練(PIT)方面的研究提出使用音高(pitch)和 i-vector 等輔助特徵來適應 PIT 模型,以及使用聯合最佳化語音識別和說話人對預測的多工學習來利用性別資訊。研究結果表明 PIT 技術能與其它先進技術結合起來提升多說話人語音識別的效能。
論文《用於單通道多說話人語音識別的置換不變訓練中知識遷移(Knowledge Transfer In Permutation Invariant Training For Single-channel Multi-talker Speech Recognition)》則將 teacher-student 訓練和置換不變訓練結合到了一起,可將單說話人模型中提取出的知識用於改進 PIT 框架中的多說話人模型。實驗結果也證明了這種方法的優越性。下圖展示了這種加上了知識提取架構的置換不變訓練架構。
另外一篇語音識別方面的 ICASSP 2018 論文《使用基於字母的特徵和重要度取樣的神經網路語言建模(Neural Network Language Modeling With Letter-based Features And Importance Sampling)》 則提出了一種 Kaldi 語音識別工具套件的擴充套件 Kaldi-RNNLM 以支援神經語言建模,可用於自動語音識別等相關任務。
在語音識別方面最後值得一提的是,騰訊 AI Lab 還在《Frontiers of Information Technology & Electronic Engineering》(FITEE)上發表了一篇關於“雞尾酒會問題”的綜述論文《雞尾酒會問題的過去回顧、當前進展和未來難題(Past Review, Current Progress, And Challenges Ahead On The Cocktail Party Problem)》,對針對這一問題的技術思路和方法做了全面的總結。
4、自然語言理解
在智慧音響的工作流程中,自然語言處理是一個至關重要的階段,這涉及到對使用者意圖的理解和響應。騰訊 AI Lab 在自然語言的理解和生成方面已有一些研究進展,融合騰訊公司多樣化的應用場景和生態,能為騰訊的語音應用和聽聽音響使用者帶來良好的使用者體驗和實用價值。
在將於當地時間 7 月 15-20 日在澳大利亞墨爾本舉辦的 ACL 2018 會議上,騰訊 AI Lab 有 5 篇與語言處理相關的論文入選,涉及到神經機器翻譯、情感分類和自動評論等研究方向。騰訊 AI Lab 之前推送的文章《ACL 2018 | 解讀騰訊AI Lab五篇入選論文》已對這些研究成果進行了介紹。另外在 IJCAI 2018(共 11 篇,其中語言處理方向 4 篇)和 NAACL 2018(4 篇)等國際頂級會議上也能看到騰訊 AI Lab 在語言處理方面的研究成果。
5、語音合成
對智慧音響而言,語音答覆是使用者對音響能力的最直觀感知。最好的合成語音必定要清晰、流暢、準確、自然,個性化的音色還能提供進一步的加成。
騰訊在語音合成方面有深厚的技術積累,開發了可實現端到端合成和重音語調合成的新技術,並且在不同風格的語音合成上也取得了亮眼的新進展。下面展示了一些不同風格的合成語音:
在 Interspeech 2018 上,騰訊 AI Lab 的論文《面向表現力語音合成採用殘差嵌入向量的快速風格自適應(Rapid Style Adaptation Using Residual Error Embedding for Expressive Speech Synthesis)》探索了利用殘差作為條件屬性來合成具有適當的韻律變化的表現力語音的方法。該方法有兩大優勢:1)能自動學習獲得風格嵌入向量,不需要人工標註資訊,從而能克服資料的不足和可靠性低的問題;2)對於訓練集中沒有出現的參考語音,風格嵌入向量可以快速生成,從而使得模型僅用一個語音片段就可以快速自適應到目標的風格上。下圖展示了該論文提出的殘差編碼網路的架構(左圖)以及其中殘差編碼器的結構(右圖)。
騰訊 AI Lab 在 ICASSP 2018 上也有一篇關於風格適應的論文《基於特徵的說話風格合成適應(Feature Based Adaptation For Speaking Style Synthesis)》。這項研究對傳統的基於模型的風格適應(如下左圖)進行了改進,提出了基於特徵的說話風格適應(如下右圖)。實驗結果證明了這種方法的有效性,並且表明這種方法能在保證合成語音質量的同時提升其疑問語氣風格的表現力。
總結
騰訊 AI Lab 在語音方面的主攻方向包括結合說話人個性化資訊語音識別、前後端聯合最佳化、結合語音分離技術、語音語義的聯合識別。
騰訊 AI Lab 未來還將繼續探索語音方面的前沿技術,創造能與人類更自然交流的語音應用。也許未來的“騰訊聽聽音響”也能以輕鬆的語調回答這個問題:
“9420,生命、宇宙以及一切的答案是什麼?”
注:9420是“騰訊聽聽音響”的喚醒詞,而在《銀河系漫遊指南》中上面這個終極問題的答案是42,而9420的諧音也剛好為“就是愛你”(42=是愛),看起來是個很合適的答案。