Interspeech 20週年,ASR和SD相關論文提前看

Nurhachu_NULL發表於2019-09-16

本文從本次會議論文列表中挑選了一些有代表性的作品進行介紹,主要包含以下方向或主題:雞尾酒問題、語音腦電編碼、低資源語音識別和多模態/大規模語音分割問題。

INTERSPEECH 是語音科學和技術領域最大、最全面的國際學術會議。INTERSPEECH 2019 將在奧地利第二大城市格拉茨(Graz)舉辦。在 INTERSPEECH 會議期間,來自全球學術界和產業界的研究人員齊聚一堂,討論語音領域的新技術,包括語音合成、語音識別、語音增強這些細分領域。在會議上展示的研究成果代表著語音相關領域的最新研究水平和未來的發展趨勢。恰逢 INTERSPEECH 20 週年,主辦方透露在會議日程上將會出現一些別出心裁的設計,即將參會的同行們可以期待一下。

本文從本次會議論文列表中挑選了一些有代表性的作品進行介紹,主要包含以下方向或主題:雞尾酒問題、語音腦電編碼、低資源語音識別和多模態/大規模語音分割問題。這 5 篇論文分別是:

  • 1. Speaker-Targeted Audio-Visual Models for Speech Recognition in Cocktail-Party Environments (用於雞尾酒宴會問題中的以說話人為目標的聽視覺模型)

  • 2. SPEAK YOUR MIND! Towards Imagined Speech Recognition With Hierarchical Deep Learning (說你所想!使用分級深度學習進行想象語音識別)

  • 3. Multilingual Speech Recognition with Corpus Relatedness Sampling (使用語料相關的取樣進行多語種語音識別)

  • 4. Who said that?: Audio-visual speaker diarisation of real-world meetings (那是誰說的?:現實會議中的音訊-視覺說話人分割)

  • 5. Large-Scale Speaker Diarization of Radio Broadcast Archives (無線電廣播存檔中的大規模說話人分割)

論文 1:用於雞尾酒宴會問題中的以說話人為目標的聽視覺模型

Interspeech 20週年,ASR和SD相關論文提前看

  • 論文:https://arxiv.org/pdf/1906.05962.pdf

  • 關鍵詞:語音識別/雞尾酒問題/多模態

1. 作者介紹和論文概括

本文第一作者 Guan-Lin Chao 本科就讀於國立臺灣大學,目前在 CMU 電子與計算機工程系攻讀博士學位。面對語音識別領域的「雞尾酒」問題,本文作者提出了使用聽覺-視覺模態融合的思路去構建以說話人為目標的聲學模型。在模擬包含兩個說話人的「雞尾酒」環境中實現了顯著的效能提升,聽覺-視覺模型將錯詞率從本文的基線 26.3% 降低到了 4.4%,在引入說話人身份資訊之後,進一步降低到了 3.6%。

2. 方法

解決「雞尾酒」問題的傳統方法是盲訊號分離,不過這個是僅在聲音模態進行的處理。而在這個問題中使用多模態的方法,重點還是需要做好模態對齊和融合。語音訊號和人臉有著天然的聯絡,嘴部範圍的影像資訊之前就被阿里巴巴用於抗噪聲的語音識別中。在這篇論文中被用來解決兩個說話人的「雞尾酒」問題。本文在 GRID 資料集中選了 31 位說話人的語音/人臉資料作為研究物件,在每一個目標說話人的模擬資料中,另一個說話人是在其餘說話人的資料中隨機挑選的。因此,也可以認為,這篇論文實際上是把非目標說話人的語音作為「噪聲」對待了。

2.1 特徵提取和特徵融合

Interspeech 20週年,ASR和SD相關論文提前看

圖 1. 三種 speaker-targeted 模型的變體

本文的語音特徵並沒有使用語音識別中常用的 MFCC,而是使用了 filterbank 特徵,它在提取過程中與 MFCC 只差了一個離散餘弦變換。而本文所使用的的視覺特徵,是對原始資料中的影像做了基於 IntraFace 軟體的人臉區域檢測,然後把嘴部的原始畫素用於視覺模態的特徵,說實話,這樣的處理可能有點粗暴。然後再新增說話人身份資訊,這就是論文標題的 speaker-targeted 的所在。語音特徵和視覺特徵在輸入到 DNN 之前就做了拼接,而說話人身份特徵則在一組對比實驗(圖 2 中的 A、B、C)中做了不同層次的融合:A 是三者的直接拼接;B 是將說話人身份標籤的 one-hot 編碼做成一個 embedding,然後再和多模態特徵拼接;C 是將說話人身份特徵和較深層的多模態特徵進行拼接。

2.2 聲學模型結構分析

如論文中所述,這裡把最終構建的模型仍然成為聲學模型,因為它是要被用來預測音素標籤的。如圖 2 所示,speaker-targeted 模型(但包括單模態和多模態)由 5 個隱藏層組成,每個隱藏層包含 2048 個節點,每層的啟用函式都是 ReLU。輸出層是 softmax 層,它用來預測 2371 個音素標籤,預測標籤和真實標籤之間的交叉熵是要被最佳化的損失函式。顯然,這也屬於比較基礎的神經網路結構。

3. 實驗和結果

本論文使用 GRID 資料集中的正常環境的語音識別資料模擬了兩人「雞尾酒」環境。訓練集包含 15395 個句子,驗證集包含 548 個句子,測試機包含 540 個句子。每個句子都包含 6 個單詞,它們遵循下面的語法規則:

$command $color $preposition $letter $digit $adverb

本文的實驗結果如圖 3 中的表格所示:

Interspeech 20週年,ASR和SD相關論文提前看

圖 2. 論文的實驗結果

3.1 本文的 baseline

這篇論文在模擬的兩人「雞尾酒」問題中使用說話人獨立的單模態模型作為 baseline,得到了 26.3% 的詞錯率(WER)。模型結構如圖 4 所示(不包含虛線部分的視覺特徵):

Interspeech 20週年,ASR和SD相關論文提前看

圖 3. 本文的 baseline 模型結構

3.2 實驗結果

本文提出的模型變體都實現了遠遠優於 baseline 的效能,最佳效能是在 audio-only 的變體 B 和多模態的變體 A 上得到的,其 WER 直逼說話人相關的模型(單模態和多模態分別是 3.9% 和 3.4%)。

4. 總結

這篇論文提出了以說話人為目標的多模態聲學模型來解決「雞尾酒」問題,所得結果比單模態說話人獨立的模型有著顯著的效能提升。但是,個人認為本文也有一些不足的地方。比如:本文所用的特徵提取方法比較基礎,聲學特徵使用的是 40 維 filterbank 特徵,這個無可厚非。但是視覺特徵則是嘴部影像的原始畫素,說話人身份特徵則是簡單的 one-hot 編碼。如果後兩者被做到更高的抽象級別的話,或許會有更好的效果,例如,用 CNN 提取嘴部範圍的影像特徵(這一點作者在今後工作中也提了一下),而說話人身份特徵的話,應該使用所用的資料訓練一個聲紋模型,用某個層次的 bottleneck 特徵會比較好一些。

論文 2:說你所想!使用分級深度學習進行想象語音識別

Interspeech 20週年,ASR和SD相關論文提前看


  • 論文:https://arxiv.org/pdf/1904.05746.pdf

  • 關鍵詞:想象語音識別、語音相關的腦機介面、語音的腦電編碼

1. 單位簡介以及論文工作概括

本文是作者在英屬哥倫比亞大學人類通訊技術實驗室所做的工作。論文主要基於一個假設:那就是,人類在想說某句話的時候,對應的腦電訊號和說話內容之間會有一定的對映關係。本文的主要目標就是從這種活躍的腦電訊號中檢測對應的語音標記(token)。論文思想和 2019 年 4 月發表於 Nature 雜誌上的那篇「Speech synthesis from neural decoding of spoken sentences」[1] 是有些類似的。只是這篇文章的工作相對簡單一些。論文作者使用所提出的分級深度學習結構在 KARA 資料集上進行了實驗,最佳模型得到了 83.42% 的音韻二分類準確率,以及 53.36% 的語音標記識別準確率。

2. 本文提出的分級框架介紹和原理解讀

Interspeech 20週年,ASR和SD相關論文提前看

圖 2. 論文提出的分級架構

如圖 2 所示,本文所提出的分級神經網路由三部分組成:a)CNN 與 TCNN 的結合,作為第一級別,用來識別 6 種音韻分類是否存在二分類結果,第一級得到的異構特徵將會饋送到第二級別;b)第二級別是無監督的深度自編碼器(DAE)。它的目標在於進一步降低上一級輸出的空間-時間編碼的維度,並且去除背景噪聲效果。c)在第三級結構中,DAE 生成的隱含箱向量表徵被送入基於 XG Boost 的分類器,並且以有監督的方式進行訓練,用來預測腦電訊號對應的語音標記的分類結果。

下面詳細介紹這個架構。

2.1 輸入資料

原始 EEG 訊號是典型的的多通道高維資料,但是本文並沒有直接使用原始資料。論文提及的實驗證明,透過捕捉電極的聯合可變性來降低維度是一個很好的策略。而且這種降維的目標還在於對電極之間的關係和依賴在整個時間區間進行建模。最終,透過計算通道互協方差(CCV)來作為模型的輸入。CCV 是一個正的半定矩陣,它負責編碼電極之間的連線性。定義兩個電極 c1 和 c2 之間的 CCV 為:

Interspeech 20週年,ASR和SD相關論文提前看

2.2 第一級結構(CNN&TCNN)

這一級使用兩種卷積神經網路來 CCV 矩陣的空間特徵和時間特徵。它的作用就是預測 6 種音韻的二分類(出現或者未出現),這 6 種音韻分別是:bilabial(唇音)、nasal(鼻音)、vowel(母音)、/uw/、/iy/、和 voiced(濁音)。如圖 2 所示,兩種卷積神經網路分別是 CNN 和 TCNN。CNN 結構由 2 層 2D CNN 和 2 個全連線隱層組成。所用 TCNN 的結構是 6 個 TCNN 的堆疊,每個 TCNN 都具有空洞因子為 2 的帶洞濾波器。最終兩種 CNN 結構的抽象特徵被拼接在一起形成了聯合時間和空間屬性的單個向量。

這一級別的目標就是在 6 個二分類任務上進行學習,為更高階別的模型結構(DAE)提供輸入,以完成語音標記的預測(11 類)。

2.3 深度自編碼器(DAE)

文中所用的 DAE 由 3 個編碼層和 3 個解碼層組成,它使用的是由第一級結構(CNN 和 TCNN)學習到的時空聯合特徵。均方差(MSE)是其訓練時所用的損失函式。

2.4 基於 XG BOOST 的分類器

這一級別的模型用來得到本文的最終目標——基於 EEG 資料來預測 11 種語音標記(包括 7 個音素和 4 個單詞):/iy/ 、/piy/、 /tiy/、 /diy/、 /uw/、 /m/ 、/n/、 pit 、pat、 knew、 gnaw。

3. 訓練過程和實驗結果

所用的資料集是 KARA ONE 資料集。論文中所述的第一、第二級別的模型都要進行單獨的訓練,相關的超引數如圖 3 所示。其他相關的訓練細節在論文第三部分都一一列舉出來了。圖 4 是 6 種音韻二分類的效能結果。圖 5 是 11 種語音標記的分類效能。

Interspeech 20週年,ASR和SD相關論文提前看

圖 3. 相關引數選擇

Interspeech 20週年,ASR和SD相關論文提前看

圖 4. 音韻二分類效能

Interspeech 20週年,ASR和SD相關論文提前看

圖 5. 11 種語音標記的分類效能

4. 總結

這篇論文提出了一種分級結構來進行想象語音識別。以 EEG 的互協方差矩陣為輸入,第一級結構的 CNN 和 TCNN 分別提取 EEG 資料的空間和時間特徵,在 6 種音韻二分類任務上進行訓練,這兩種模型得到的特徵進行拼接之後使用 DAE 進行降維,最後使用基於 XG Boost 的分類器預測 11 種獨立的語音標記。論文作者使用了比較多的 trick,實驗結果比較先進。儘管這種粗粒度、小規模的實驗可能在驗證論文的假說上面是不夠充分的,但是這種分級的方法看上去還是蠻有意思的。

參考資料

1. Speech synthesis from neural decoding of spoken sentences. Gopala K. Anumanchipalli, Josh Chartier&Edward F. Chang. https://doi.org/10.1038/s41586-019-1119-1

論文 3:使用語料相關的取樣進行多語言語音識別

Interspeech 20週年,ASR和SD相關論文提前看

  • 論文:https://arxiv.org/pdf/1908.01060.pdf

  • 關鍵詞:低資源語音識別

1. 單位介紹和論文主要概括

這篇論文的第一作者 Xinjian Li 目前在卡耐基梅隆大學語言技術研究所(LTI)攻讀博士學位。這篇文章的主要面向的是低資源語音識別問題。使用多語言共享聲學模型已有的研究方法就是先在一些語料上面進行預訓練,然後再針對目標語言精調。但是這篇論文的作者認為以往的這種 pre-train+fine-tune 的思路忽視了訓練集上各種語料獨有的特點和語料之間的相似性。論文中所提出的方法主要是可以利用語料相關性的取樣策略。將輸入的語音特徵和語料 embedding 聯合起來作為整個模型的輸入,輸入具有 4 層雙向 LSTM 的聲學模型結構進行訓練。在訓練的不同階段,使用不同的 temperature 來控制在不同語料上取樣的機率分佈。實驗結果證明,這種取樣策略訓練得到的聲學模型,在音素錯誤率(PER)上與其他的對比實驗相比,有明顯的效能提升,而且還得到了與語料相似性以及域相關性有關的有趣結果。需要注意的是,本文做到了聲學模型這一步,沒有後續的解碼過程。

2. 論文方法介紹

Interspeech 20週年,ASR和SD相關論文提前看

圖 2. 用於最佳化語料向量的聲學模型

這裡的目標就是要為每種語料 C_i 計算出能夠對其語料資訊能夠進行編碼的語料向量 e_i。這些語料向量是可以使用標準的多模態模型進行聯合訓練的。首先,為所有的語料初始化 embedding 矩陣 E,這個矩陣的每一行 e_i 對應的是語料 C_i。接下來,在訓練的過程中,e_i 可以作為輸入特徵的一個偏置,如下所示:

Interspeech 20週年,ASR和SD相關論文提前看

其中 x 是樣本特徵輸入,e_i 是對應的語料 embedding,W 是聲學模型的引數,這裡所用的聲學模型是多語言 CTC 模型,它由 6 層雙向 LSTM 組成。

論文的主要創新點在於語料相關的取樣。每個語料的相似度是用餘弦距離來衡量的:

Interspeech 20週年,ASR和SD相關論文提前看

語料相關的取樣主要反映在對不同語料之間的相似度的處理上。特定語料的取樣機率分佈計算方法如下:

Interspeech 20週年,ASR和SD相關論文提前看

這裡的 T 就是在訓練階段用來標準化取樣分佈的變數 temperature。作者認為不同的 T 值可以構造不同的取樣條件。例如,T 越小,取樣過程在不同的語料上差別就越小。例如,當 T=0 的時候,就相當於均勻取樣,已經與語料相似度無關了:

Interspeech 20週年,ASR和SD相關論文提前看

T 越大,則受語料相似度的影響比較大:

Interspeech 20週年,ASR和SD相關論文提前看

當 T—>∞的時候,這就變成了在某個目標語料上的 fine-tune 過程了。所以,論文作者也寫道:「both the pretrained model and the fine-tuned model are special cases of our approach」。在實際訓練過程中,T 在隨著訓練時間不斷變化,從很小的值到很大的值,相當於逐漸的從 pre-train 變成了 fine-tune:Interspeech 20週年,ASR和SD相關論文提前看

其中 k 值是訓練的迭代次數。a 是一個用來控制 T 值增長率的超引數,論文中用的是 1.5。

3. 實驗和結果

3.1 實驗

為了證明所提出方法的有效性,論文在 16 個語料上做了對比實驗。選擇的語料如圖 3 所示。語料的語句數量分佈有些不均衡,這個對實驗結果會有一定的影響,後面會提到。值得注意的是,每個語料都有一個特定的域,論文中的方法在學習到語料資訊的同時,也抽象得到了不同域的資訊,這個也有對應的實驗結果。

Interspeech 20週年,ASR和SD相關論文提前看

圖 3. 實驗中用到的語料集

3.2 結果

音素錯誤率結果如圖 4 所示:

Interspeech 20週年,ASR和SD相關論文提前看

圖 4. pretrained 模型、fine-tune 模型和預料相關取樣(CRS)訓練得到的模型的音素錯誤率比較

顯然,fine-tune 模型比 pre-trained 模型效能好一大截,CRS 模型要比 fine-tune 模型還好一些。透過分析跟某個語料最相似的兩種語料(不包含該語料本身)可以發現,與該語料 embedding 最相似的大多都是同一語種或者相似的域。如圖 5 所示:

Interspeech 20週年,ASR和SD相關論文提前看

圖 5. 訓練語料之間的相似度

此外,論文作者另外使用更大的語料集合(包含 36 種分佈在 3 個域的語料)對語料 embedding 的與相關性做了分析,結果如圖 6 所示:

Interspeech 20週年,ASR和SD相關論文提前看

圖 6. 語料 embedding 的領域分佈(每個語料 embedding 都被使用 t-SNE 將維度降到了 2)

從圖 6 可以看出可以看出,語料 embedding 也表現出了比較明顯的域聚類結果。

4. 總結

本文提出的方法在多語言共享引數的聲學模型上具有比較好的效果,語料相關取樣(CRS)起了關鍵作用,這其實也屬於一種遷移學習的方法。這種讓取樣分佈逐漸過渡的方案相比於比較極端的 pre-train 和 fine-tune,雖然具有一定的靈活性。但是這個受資料的影響還是很明顯的。

參考資料

[1] S. Dalmia, R. Sanabria, F. Metze, and A. W. Black,「Sequencebased multi-lingual low resource speech recognition,」in 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2018, pp. 4909–4913.

[2] Y. Miao, M. Gowayyed, and F. Metze,「EESEN: End-to-endspeech recognition using deep RNN models and WFST-baseddecoding,」in Automatic Speech Recognition and Understanding(ASRU), 2015 IEEE Workshop on. IEEE, 2015, pp. 167–174

論文 4:那是誰說的?現實會議中的音訊-視覺說話人分割

Interspeech 20週年,ASR和SD相關論文提前看

  • 論文:https://arxiv.org/pdf/1906.10042.pdf

  • 關鍵詞:多模態/說話人分割/系統

簡評:實際環境中特定場景中的說話人分割,不僅僅需要聲學相關的技術,更需要一些系統層面的工作。多模態是一個大的趨勢。

1. 單位簡介和論文概述

本文作者署名單位是韓國的搜尋引擎公司 Naver[1],但是其他檢索結果還顯示 J.S. Chung 本人就讀(職)於牛津機器人研究所。J.S. Chung 是一位技術牛人,他的個人主頁以及 googlescholar 上展示了多篇高水平研究論文的發表 [2]。這篇論文的主要工作是一個基於聽覺-視覺多模態的說話人分割系統。論文使用語音活動監測(類似於靜音檢測)、說話人身份建模(聲紋&人臉)、多模態關聯等技術得到了具有較好魯棒性的說話人分割系統。系統在全景影片、單聲道以及多聲道的音訊作為輸入的現實會議資料中得到了很好的定量和定性的結果,也在公開資料 AMI 中進行了實驗,測試結果超越了所有的對比方法。論文作者還提到,當資料是多聲道音訊的時候,波束成形方法和影片結合起來可以進一步提升效能。

2. 系統描述

Interspeech 20週年,ASR和SD相關論文提前看

圖 2. 系統組成框圖

本論文提出的多模態說話人分割方法主要包含兩個階段:a)第一階段是說話人模型註冊;b)第二個階段是說話人分割。下面主要從這兩個階段展開。

2.1 說話人模型註冊

按照論文描述,系統為每個說話人都開發了說話人模型(speaker model),這也就意味著說話人的數量對系統而言是已知的,如此一來,整個問題也就成了一個經典的分類問題,雖然在泛化能力上會有一定的限制,但是在一個已知的域裡面也會比較好的奏效。

如圖 2 所示,在註冊說話人模型之前,首先需要經過一個 AV correlation 的過程,這一步就是去計算音訊和視覺的相關性,並由此調整得到一個閾值,用這個閾值去衡量一段音訊會不會作為該說話人的註冊資料。使用神經網路將一段語音的 MFCC 特徵轉換成 512 維,同時也使用神經網路影像向量轉換到 512 維度。然後計算兩者的餘弦距離。根據這兩個神經網路的訓練過程,可以將餘弦距離的倒數作為音訊/影像對的相似度。這可以作為某段語音是否被作為註冊音訊的衡量指標。

當然,語音資料是做了很完備的預處理工作的。首先基於科大訊飛基於 LSTM 的模型做了語音增強,然後基於 WebRTC 技術做了非語音切除。在註冊說話人模型的時候,論文作者又在不同的資料集上採用了不同的特徵方案,筆者猜測可能是為了得到最佳的效能而做的這種嘗試吧。所以,和傳統的無監督聚類的說話人身份識別不同的是本論文自始至終都是有監督的分類,犧牲一些泛化能力來提高系統在特定域的效能,在這種系統工作中還是很有必要的。

2.2 多模態說話人分割

在推理過程中,要在每一個時間步長為每一個說話人計算一個置信得分。計算方式如下:

Interspeech 20週年,ASR和SD相關論文提前看

其中,C_sm 是說話人聲學模型計算得到的置信度評分,C_avc 是音訊影片相關度(AV correlation),cos(φ-θ) 是仰角和方位角相位差的餘弦值。最終每個時間步長上的說話人分割就是透過上式所述的多模態融合來計算的。

本文提出的多模態說話人分割方法會面臨比較複雜的實際環境。比如,有時候會看不到人臉,導致無法計算 AVC,有時候硬體不滿足聲源定位的條件,就無法進行波束成形的計算。所以,文中提出的融合方法在第二項和第三項分別新增了限制因子α和β。可以透過對它們置零來應對沒有人臉或者無法進行聲源定位的情況。

3. 實驗

3.1 資料

本文所提出的方法在兩個獨立的資料集上進行了測試,一個是可公開獲取的 AMI 會議資料集,另一個是論文作者組織採集的一個多模態會議資料集。圖 3 展示的就是兩個資料集中各自的一張靜態圖片。

Interspeech 20週年,ASR和SD相關論文提前看圖 3. 資料靜態圖片

3.2 評價指標和實驗結果

主要的評價指標就是 SPKE(speaker error),代表預測的說話人 ID 是錯誤的。主要的實驗結果如圖 4 中的表格所示:

Interspeech 20週年,ASR和SD相關論文提前看

圖 4. 實驗結果

4. 總結

這篇論文提出了多模態說話人分割的方法,這和真實的會議場景有著天然的融洽性。論文作者詳細地闡述了該方法。此外,作為一個系統,它有比較多的功能元件,每個元件都有很多的細節內容。即便作者已經介紹了很多相關的資訊,但是要完全復現這一工作還是需要做很多工作的。不過這種多模態的思路值得被廣泛地借鑑。

參考資料

1. https://www.naver.com

2. http://www.joonson.com

論文 5:無線電廣播存檔中的大規模說話人分割

Interspeech 20週年,ASR和SD相關論文提前看

  • 論文:https://arxiv.org/pdf/1906.07955.pdf

  • 關鍵詞:說話人分割

1. 單位簡介和論文概括

這篇論文是關於大規模說話人分割(SD)任務的。說話人分割就是解決「who speak when」的問題。本文一作是 Emre Yılmaz[1],他目前在新加坡國立大學電子與計算機工程系做研究,導師是李海洲教授。Emre 是一個很有才華的人,除了母語土耳其語之外,他還會英語、荷蘭語、德語、阿非利堪斯語(南非荷蘭語)以及日語。Emre 從讀博士,到畢業,到博士後,再到現在一直從事語音相關的研究工作。

這篇論文的主要工作就是在大規模(3000+hours)的音訊廣播資料集上做了說話人分割的研究。當然,這個大規模的資料集也是本文的基礎工作之一,它是基於之前的 FAME! 專案而來的。這些語音資料記錄了 1950-2016 之間的一些音訊廣播,內容大多為演講或者訪談類,而且是荷蘭語和弗裡西亞語的混合。

這篇論文在方法上的創新主要體現在為在大規模資料上所提出的分階段的說話人分割和識別方法。a). 第一階段是透過基於貝葉斯資訊準則(BIC)的語音分段,再加上透過基於混合高斯模型(GMM)的說話人聚類得到錄音帶級別的說話人分割。b). 第二階段則是說話人連線和識別,具體就是將第一階段得到的分割結果進行綜合,其目標就是為出現在多個錄音帶中的說話人分配相同的標籤。這一階段是透過提取 i-vectors 和 x-vectors,並對計算得到的相似度矩陣進行聚類來完成的。論文實驗部分基於分割錯誤率(DER)和說話人/聚類混雜度(speaker/cluster impurity)做了大量對比實驗,證明了所提方法在大規模說話人分割任務中的有效性。

2. 關於 FAME! SD 語料

FAME! SD 語料是在之前的 FAME! 專案上邊整理而來的。總共包含 6494 個數字錄音帶,總時長超過了 3000 小時。圖 2 是 FAME! SD 語料中錄音帶時長分佈。

Interspeech 20週年,ASR和SD相關論文提前看

圖 2. FAME! SD 語料中的時長分佈

其平均時長是 28 分 57 秒。說話人連線的最終測試是在其中的 82 個部分標註的錄音帶上進行的。這 82 個錄音帶總時長 53 小時,被標註的片段總長 7 小時 20 分鐘。在被標註的資料中,共有 215 位說話人,其中 154 位姓名已知,61 位姓名未知。實際的文字記錄顯示,被標註的說話人中,有 22 位不止出現在一份錄音帶中,有 5 位出現在 5 個或者多於 5 個的錄音帶中。可見,FAME! SD 語料不僅規模大,而且說話人分佈也挺雜亂的。在後續的實驗中,論文作者把做過標註的資料分成了等量的兩部分用於開發和測試。

3. 大規模說話人分割和識別方法

論文中採用的方法如圖 3 所示。

Interspeech 20週年,ASR和SD相關論文提前看

圖 3. 大規模說話人分割和識別系統組成

該方法包括兩個不同的階段,第一個階段是錄音帶級別的分割,第二個階段是說話人連線和識別。

3.1 第一階段:錄音帶級別的分割

在這個階段,採用開源工具 LIUM 對整個資料集做一次錄音帶級別的分割。得到具有一定質量的「偽說話人」標籤。論文作者在做過人工標註的 82 個錄音帶上進行了測試,在錄音帶級別得到了 19.6% 的平均錯誤分割率(DER)。在這批具有標註的資料上得到了 338 個「偽說話人」標籤,而實際上共有 215 位說話人。

這階段的分割過程主要使用了 LIUM 中的以下部分:基於貝葉斯資訊準則的分割、基於混合高斯模型的說話人聚類 [3]。

3.2 第二階段:說話人連線和識別

如圖 3 所示,第二階段(speaker linking)主要由 5 個模組組成:說話人 embedding 的提取、PLDA 打分、相似性矩陣的計算、聚合分層聚類以及最終的說話人標籤生成。圖 3 右側的兩個分支的區別就在於 embedding 的區別,上面的分支採用的是 i-vector,下面的分支採用的是 x-vector。實驗部分也對這兩個分支做了不同指標下的對比。

  • i-vector 的提取:經過 8 次 EM 迭代訓練得到 GMM-UBM,然後採用 Kaldi 的方法(sre16/v1)進行訓練。最終使用的時候會得到 600 維的 i-vector。i-vector 在送往 PLDA 打分之前,做了 mean substraction 和 length normalization。

  • x-vector 的提取:x-vector 的計算也是採用 Kaldi 中的標準方法。所用的 TDNN 詳細結構引數在論文中亦有詳細描述。

4. 實驗

說話人連線(speaker linking)實驗結果如圖 4 所示:

Interspeech 20週年,ASR和SD相關論文提前看

圖 4. 說話人連線實驗結果

從圖(a)和圖(b)展示的結果可以發現,使用了說話人連線的方法,無論是隻在標註過的資料上還是在整個資料集上進行連線,也不管是採用 i-vector 還是 x-vector 方案,其效能(DER)都要優於沒有進行說話人連線的情況。而且兩種連線方案都有對應的最佳聚類閾值。

圖(c)和圖(d)展示了不同方案下不同閾值對應的說話人混雜度和聚類混雜度。

總之,從 DER 和混雜度可以看出,使用 x-vector 可以得到比 i-vector 更好的效能,這一點也是與之前文獻中說話人相關的研究結果相一致的。

參考資料

[1] https://sites.google.com/site/schemreier/

[2]https://www.nwo.nl/en/research-and-results/research-projects/i/44/12644.html

[3] Sylvain Meignier, Teva Merlin. LIUM SPKDIARIZATION: AN OPEN SOURCE TOOLKIT FOR DIARIZATION. CMU SPUD Workshop, 2010, Dallas, United States. Proceedings CMU SPUD Workshop, <hal-01433518>

INTERSPEECH 提前看
INTERSPEECH 提前看

INTERSPEECH 是語音科學和技術領域最大、最全面的國際學術會議。INTERSPEECH 2019 將在奧地利第二大城市格拉茨(Graz)舉辦。在 INTERSPEECH 會議期間,來自全球學術界和產業界的研究人員齊聚一堂,討論語音領域的新技術,包括語音合成、語音識別、語音增強這些細分領域。在會議上展示的研究成果代表著語音相關領域的最新研究水平和未來的發展趨勢。

相關文章