Interspeech 2019 | 從頂會看語音技術的發展趨勢 01

轉載發表於2019-09-19

語音領域頂級學術會議 Interspeech 2019 於 9 月 15-19 日在奧地利格拉茨Graz舉行。

技術小編小滴將在Interspeech會場每天帶來今年的語音技術發展趨勢,本文選取論文僅代表小滴個人興趣。

今天帶來的是:9月16日主會議第一天上的會議亮點開幕式介紹,以及在語音識別語音合成自然語言理解說話人識別四個方面的深入技術解讀。

會議亮點

今年的Interspeech在一些Oral Session裡設定了一個Survey Talk的環節,來針對性介紹相關領域的技術。

Interspeech的Oral Session一般是那些相對關注度高的Session,一般被安排在整個會場最大展廳(Main Hall)裡。

9月16日上午的End-to-end Speech Recognition的Session的第一個環節是一個40分鐘的Survey Talk,內容是“Modeling in Automatic Speech Recognition: Beyond Hidden Markov Models”。同樣在下午的Attention Mechanism for Speaker State Recognition的Session中有一個關於 When Attention Meets Speech Applications: Speech & Speaker Recognition Perspective的Survey Talk。 

這兩個Survey Talk討論的主題雖然側重有所不同,但都和Attention有著非常強的連線。

一個是從ASR建模的角度展開,從HMM出發,引出了CTC以及Attention等模型,並做了對比討論。另一個是從Attention演算法的提出以及在語音當中的應用展開,對比討論了多種不同的Attention模型及其變種在語音識別說話人識別的應用情況。

值得注意的是,Attention相關演算法幾乎出現在了今年Interspeech的所有語音識別或者說話人識別研究的文章中。從最開始Attention,到Listen-Attend-Spell,再到Self-Attention(或者Transformer),在不同的文章(無論Oral或者Poster)被大家多次介紹和分析,頻繁出現在了相關文章Introduction環節中。

如第一個Survey Talk裡面討論的內容一樣,語音識別經歷了從2012年最開始的DNN的引入時的Hybrid HMM結構,再到2015年開始吸引大家研究興趣的CTC演算法,而後到近兩年的Attention相關結構的研究熱點。

當然Attention結構下,依然還有很多內容需要研究者們進一步地深耕:例如今天的Survey Talk裡面提到的在一些情況下Hybrid 結構依然能夠得到State-of-the-art的結果,以及語音資料庫規模和Attention模型效能之間的關係。

開幕式

9月16日的上午Interspeech的開幕式上,主委會總結了今年的論文贊助情況。
Interspeech 2019 | 從頂會看語音技術的發展趨勢 01
Interspeech 2019 | 從頂會看語音技術的發展趨勢 01

語音技術深度解讀

接下來技術小編將在語音識別語音合成自然語言理解說話人識別四個方面的帶來深入的語音技術解讀。

語音識別

在此次會議上,端到端語音識別仍然是ASR研究的一大熱點,正如上文提到的,基於Attention機制的識別系統已經成為了語音技術研究主流。

CMU和KIT的研究者在"Very Deep Self-Attention Networks for End-to-End Speech Recognition"文章中創新性地提出了一種非常深的自注意力機制的網路,採用這種Deep Self-Attention的網路,可以大幅提升端到端語音識別系統識別精度。Interspeech 2019 | 從頂會看語音技術的發展趨勢 01

Interspeech 2019 | 從頂會看語音技術的發展趨勢 01

同時,隨著端到端語音識別框架日益完善,研究者們對端到端模型的訓練和設計更加的關注。RWTH的研究者在“RWTH ASR Systems for LibriSpeech: Hybrid vs Attention”一文中,詳細的研究了基於端到端語音識別框架,我們可以從建模單元、聲學模型建模模型、語言模型等各個方面來提升端到端識別系統的整體效能。

Interspeech 2019 | 從頂會看語音技術的發展趨勢 01
Interspeech 2019 | 從頂會看語音技術的發展趨勢 01

語音合成

高音質語音生成演算法及Voice conversion是今年Interspeech研究者關注的兩大熱點。

IBM research的Zvi Kons等人在“High quality, lightweight and adaptable TTS using LPCNet”文章中,提出了一種基於LPCNet的TTS系統,此係統具有高音質、輕量化、適應能力強等優點。

而今年的Voice Conversion方向的研究重點主要集中在基於GAN的方法上。NTT的Takuhiro Kaneko在文章“StarGAN-VC2:Rethinking Conditional Methods for StarGAN-Based Voice Conversion”中,提出了第二代的StarGAN,該方法提出了一種新的源-目標條件對抗損失函式,這樣可以把所有源域資料轉換為目標域資料。同時文章提出一種新的基於調製方法的模型框架。從實驗結果看,該方法可以大幅提升Voice Conversion的效能。Interspeech 2019 | 從頂會看語音技術的發展趨勢 01

Interspeech 2019 | 從頂會看語音技術的發展趨勢 01

自然語言理解

在今年的會議中,在端到端的口語的語言理解(Spoken Language Understanding)的方法上,會大量側重在基於預訓練(Pretraining)的方法,也有一些使用新的建模單元(如基於幀),以及用GAN,對抗訓練(Adversarial Training)來獲取更加有效的口語文字的表示。

基於預訓練(Pretraning)的方法可以緩解純端到端的方法標註資料少以及很難訓練的問題。這個方法主要是用其他相關任務中同領域/跨領域的有/無標註資料預訓練一個模型。訓練完模型,再利用該模型初始化或者知識蒸餾(Knowledge Distill)來指導當前的語言理解模型的訓練,進而用該模型進行目標語言理解任務的學習。

基於預訓練(Pretraining)的方法主要分為基於語音和文字。基於語音的方法主要有預訓練ASR、Speaker模型;基於文字的方法主要有預訓練Intent Detection、Slot Filling、Bert等方法。

在端到端的口語的語言理解(Spoken Language Understanding)中,對話生成的方法的主要是利用更多有用的資訊來學習得到更加有效的對話的特徵表示,從而生成更加豐富準確的對話回覆,包括利用主題資訊,考慮多輪層次結構資訊,以及ASR的置信度。

說話人識別

在16日的會議中,有兩個session與說話人技術相關。作為語音訊號中的重要資訊,說話人資訊,特別是說話人識別及切分,正被越來越多的研究者所重視。

16日上午的Speaker Recognition and Diarization著重於說話人切分。

“Bayesian HMM Based x-Vector Clustering for Speaker Diarization”來自說話人技術大牛Lukáš Burget等人。論文介紹了在x-vector系統基礎上引入貝葉斯隱馬爾可夫模型結合變分貝葉斯推理來解決說話人切分問題的方法。相比傳統的AHC聚類方法,論文提出的演算法既快又好還魯棒,帶來的顯著的效能提升。

“LSTM Based Similarity Measurement with Spectral Clustering for Speaker Diarization”作者為崑山杜克大學的Qingjian Lin與Ming Li等,著重解決說話人聚類中打分效能不好的問題。論文提出了直接使用LSTM替代PLDA作為說話人後端,來提升相似性打分效能。論文方法對DER有明顯提升。 

“Speaker-Corrupted Embeddings for Online Speaker Diarization”提出了相當有意思的方法。在訓練說話人向量提取器時,直接使用UBM超向量作為網路輸入,加入其他說話人的資訊來增強提取器的訓練資料及泛化能力。然而僅使用了64 UBM使得該工作在大資料上的有效性存疑。

16日下午的Attention Mechanism for Speaker State Recognition探討了Attention機制在ASR之外的應用方向。

綜述由ASAPP的Kyu J. Han帶來,詳述了Attention機制在ASR領域的發展歷程,以及在說話人識別上的應用。目前Attention在說話人方面更類似一種Time Pooling,比Average Pooling及Stats Pooling更能捕捉對說話人資訊更重要的資訊,從而帶來效能提升。

隨後的幾篇論文大多探討Attention機制在Emotion識別上的應用。

“Attention-Enhanced Connectionist Temporal Classification for Discrete Speech Emotion Recognition”主要結合CTC與Attention機制識別語音中的Emotion。在提問環節,有人問到為何結合兩者,因為CTC與Attention機制都可以做序列分類,並且Emotion也不是序列轉寫問題。作者認為CTC可以通過加入靜音Label的方式,將分類問題轉為轉寫問題。

“Attentive to Individual: A Multimodal Emotion Recognition Network with Personalized Attention Profile”結合了多模輸入,使用Attention機制優化不同屬性說話人(例如老人、兒童等情感表現方式不同的人群)的Emotion識別效果。

相關文章