論文翻譯:2020:ECAPA-TDNN: Emphasized Channel Attention, Propagation and Aggregation in TDNN Based Speaker Verification

凌逆戰發表於2023-02-06

論文地址:ECAPA-TDNN:在基於TDNN的說話人驗證中強調通道注意、傳播和聚集

論文程式碼:https://github.com/TaoRuijie/ECAPA-TDNN

引用格式:Desplanques B, Thienpondt J, Demuynck K. Ecapa-tdnn: Emphasized channel attention, propagation and aggregation in tdnn based speaker verification[J]. arXiv preprint arXiv:2005.07143, 2020.

摘要

  目前的說話人驗證技術依賴於神經網路來提取說話人的表徵。成功的x-vector架構是一個時間延遲神經網路(Time Delay Neural Network,TDNN),它應用統計池將變長語音投射到定長說話人特徵embedding中。在本文中,我們基於人臉驗證和計算機視覺相關領域的最新趨勢,對該體系結構提出了多種增強。首先,將初始幀層重構為具有有效跳躍連線的1維Res2Net模組。與SE-ResNet類似,我們在這些模組中引入了Squeeze and Excitation blocks,以顯式地建模通道相互依賴性。SE-block透過根據錄音的全域性屬性重新縮放通道來擴充套件幀層的時間上下文。其次,眾所周知,神經網路可以學習分層特徵,每一層都在不同的複雜程度上執行。為了利用這些互補的資訊,我們聚合和傳播不同層次的特徵。最後,利用通道相關的幀注意力對統計池模組進行了改進。這使得網路在每個通道的統計估計期間專注於不同的幀子集。提出的ECAPA-TDNN架構在VoxCeleb測試集和2019年VoxCeleb說話人識別挑戰賽上的表現明顯優於最先進的基於TDNN的系統。

指標術語:說話人識別、說話人驗證、深度神經網路、x-vector、通道注意力

1  引用

  近年來,x-vector[1]及其後續改進[2,3,4]一直在說話人驗證任務上提供了最先進的結果。對原始時延神經網路(TDNN)架構的改進是一個活躍的研究領域。通常,神經網路是在說話人識別任務上訓練的。收斂後,可以從輸出層之前的瓶頸層提取低維的說話人embedding來表徵輸入錄音中的說話人。說話人驗證可以透過比較 登記和測試錄音相對應的兩個embedding來完成,以接受或拒絕兩個錄音包含同一說話人的假設。一個簡單的餘弦距離測量可以用於這種比較。此外,可以訓練更復雜的評分後端,如機率線性判別分析(PLDA)[5]。

  x-vector系統的日益流行導致了顯著的架構改進和最佳化的訓練過程。系統的拓撲結構透過加入流行的ResNet[7]架構的元素而得到改進。在幀級層之間新增殘餘連線已被證明可以增強embedding[3,4]。此外,殘差連線使反向傳播演算法收斂更快,並有助於避免梯度消失問題[7]。

  x-vector系統中的統計池層透過收集隱藏節點啟用的簡單統計資訊,將變長輸入投影到固定長度表示中。作者在[8,9]中向這個池化層引入了一個時間自注意系統,它允許網路只關注它認為重要的幀。它也可以解釋為語音活動檢測(VAD)的預處理步驟,以檢測不相關的非語音幀。

  在這項工作中,我們對TDNN架構和統計池層提出了進一步的架構增強。我們引入了額外的跳躍連線來在整個系統中傳播和聚合通道。使用全域性上下文的通道注意力被合併到框架層和統計池層中,以進一步改善結果。

  本文組織如下:第2節將描述當前最先進的說話人識別系統,這將被用作基線。第3節將解釋我們所提議的體系結構的新元件。第4節將解釋我們的實驗設定,以測試我們的架構中各個元件對VoxCeleb資料集的影響[10,11,12]。我們將在第5節討論這些實驗的結果。此外,還將提供流行的最新基準系統之間的比較。第6節將簡要概述我們的研究結果。

2  DNN說話人識別系統

  兩種基於DNN的說話人識別架構將作為強有力的基準來衡量我們提出的架構的影響:x-vector和基於ResNet的系統,它們目前都在VoxSRC[12]等說話人驗證任務上提供了最先進的效能。

2.1  擴充套件的TDNN x-vector

  第一個基線系統是Extended TDNN x-vector架構[2,3,4],並在[1]中引入的原始x-vector系統的基礎上進行改進。初始框架層由1維擴張卷積層與密集層交錯組成。每個過濾器都可以訪問前一層或輸入層的所有特徵。擴張卷積層的任務是逐步建立時間上下文。在所有幀級層中引入Residual connections。幀層之後是一個專注的統計池層,該層計算最終幀級特徵的平均值和標準差。注意系統[8]允許模型選擇它認為相關的幀。在統計池化後,引入兩個全連線層,其中第一個層作為瓶頸層,生成低維說話人特徵embedding。

2.2  基於ResNet的r-vector

  第二個基線系統是[4]中提出的r-vector系統。它是基於ResNet架構[7]的ResNet18和ResNet34實現。該網路的卷積幀層將特徵處理為二維訊號,然後在池化層中收集均值和標準差統計資訊。關於拓撲的詳細資訊請參見[4]。

3  提議的ECAPA-TDNN架構

  在本節中,我們將研究x-vector體系結構的一些侷限性,並在ECAPA-TDNN體系結構中納入潛在的解決方案。下面的子節將重點介紹框架級和池級增強。圖2給出了完整體系結構的概述。BN代表批歸一化[13],除非另有說明,非線性是整流線性單元(ReLU)。

圖2:ECAPA-TDNN的網路拓撲

我們表示$k$為核心大小,$d$為Conv1D層或SE-Res2Blocks的dilation間距

C和T分別對應中間特徵圖的通道維度和時間維度。S是訓練說話人的人數

3.1  依賴於通道和上下文的統計資訊池

  在最近的x-vector結構中,軟自注意力被用於計算時間池化層[8]的加權統計量。多頭注意力的成功表明,某些說話人的屬性可以在不同的幀集上提取[9]。基於這些結果,我們認為將這種時間注意力機制進一步擴充套件到通道維度可能是有益的。這使得網路能夠更多地關注在相同或相似的時間例項上不被啟用的說話者特徵,例如母音的特定說話者屬性和子音的特定說話者屬性。

  我們實現了[8]中描述的注意力機制,並使其依賴於通道:

$$公式1:e_{t,c}=v_c^Tf(Wh_t+b)+k_c$$

其中$h_t$是時間步$t$時最後一幀層的啟用。引數$W \in R^{R*C}$和$b \in R^{R*1}$將自我注意力的資訊投射到一個更小的R維表示中,該表示在所有C通道中共享,以減少引數計數和過擬合的風險。在非線性$f(·)$之後,該資訊透過權重為$v_c \in R^{R*1}$和偏差為$k_c$的線性層轉換為通道相關的自我注意力得分。然後透過跨時間應用softmax函式在所有幀上對這個scalar score $e_{t,c}$進行標準化

$$公式2:\alpha_{t,c}=\frac{exp(e_{t,c})}{\sum_\tau^Texp(e_{\tau,c})}$$

自注意力得分$\alpha_{t,c}$表示給定通道的每一幀的重要性,用於計算通道$c$的加權統計量。對於每個語音,加權平均向量$\tilde{\mu}$的通道分量$\tilde{\mu} _c$估計為

$$公式3:\tilde{\mu} =\sum_t^T\alpha_{t,c}h_{t,c}$$

加權標準差向量$\tilde{\sigma }$的通道分量$\tilde{\sigma }_c$構造如下

$$公式4:\tilde{\sigma } _c=\sqrt{\sum_t^T\alpha_{t,c}h^2_{t,c}-\tilde{\mu}_c^2 }$$

將加權均值$\tilde{\mu} $和加權標準差$\tilde{\sigma } $的向量拼接,得到池化層的最終輸出。

  此外,透過允許自注意力檢視語音的全域性屬性,我們擴充套件了池化層的時間上下文。我們將(1)中的區域性輸入$h_t$與整個時域內$h_t$的全域性非加權平均值和標準差連線起來。這個上下文向量應該允許注意機制適應話語的全域性屬性,如噪聲或recording條件。

3.2  一維 Squeeze-Excitation Res2Blocks

  原始x-vector系統中幀層的時間上下文被限制為15幀。由於網路顯然受益於更廣泛的時間上下文[2,4,3],我們認為,在給定recording的全域性屬性的情況下,重新縮放幀級特徵可能是有益的,類似於上面描述的注意力模組中的全域性上下文。為此,我們引入了1維Squeeze-Excitation (SE)塊,因為這種用於建模全域性通道相互依賴性的計算機視覺方法已被證明是成功的[14,15]。

  SE-block的第一個元件是squeeze operation,它為每個通道生成一個描述符。squeeze operation 簡單地包括計算跨時域的幀級特徵的平均向量$z$。

$$公式5:z=\frac{1}{T}\sum_t^Th_t$$

然後在excitation operation中使用$z$中的描述符來計算每個通道的權重。我們定義隨後的excitation operation為

$$公式6:s=\sigma (W_2f(W_1z+b_1)+b_2)$$

$\sigma (·)$表示sigmoid函式,$f(·)$表示非線性,$W_1 \in R^{R*C}$和$W_2 \in R^{C*R}$。此操作作為瓶頸層,$C$和$R$分別表示輸入通道數和降維數。得到的向量$s$包含0到1之間的權重$s_c$,這些權重透過通道乘應用於原始輸入

$$公式7:\tilde{h_c}=s_ch_c $$

  一維SE-block可以以各種方式整合到x-vector體系結構中,在每次擴張卷積後使用它們是最直接的方法。但是,我們希望將它們與residual connections[7]的好處結合起來。同時,與基線系統相比,我們不想過多地增加引數的總量。圖1中顯示的SE-Res2Block包含了上面提到的需求。我們包含了具有前一幀和後一幀上下文的密集層的擴張卷積。第一個密集層可用於降低特徵維數,而第二個密集層則將特徵數量恢復到原始維數。接下來是一個SE-block,用於擴充套件每個通道。整個網路由skip connection覆蓋。

圖1:ECAPA-TDNN架構的SE-Res2Block

標準Conv1D層的核心大小為1

縮放維數s = 8的中央Res2Net [16] Conv1D透過核心大小k和膨脹間距d擴充套件時間上下文

  使用這些傳統的ResBlocks可以很容易地結合這種流行的計算機視覺架構的進步。例如,最近的Res2Net模組[16]增強了中央卷積層,使其可以透過構建分層的類殘差連線來處理多尺度特徵。該模組的整合提高了效能,同時顯著減少了模型引數的數量。

3.3  多層特徵聚合和求和

  原始的x-vector系統只使用最後一幀層的特徵對映來計算彙總的統計資訊。考慮到TDNN的分層性質,這些更深層次的特徵是最複雜的,應該與說話者身份密切相關。然而,由於[17,18]中的證據,我們認為更淺的特徵圖也有助於更健壯的說話人embedding。對於每一幀,我們提出的系統連線所有SE-Res2Block的輸出特徵對映。在這個多層特徵聚合(MFA)之後,一個密集層處理連線的資訊,生成注意力統計池的特徵。

  另一種利用多層資訊的互補方法是使用所有前面的SE-Res2Blocks和初始卷積層的輸出作為每個幀層塊的輸入[17,19]。我們透過將每個SE-Res2Block中的residual connections定義為所有先前塊輸出的和來實現這一點。我們選擇特徵對映的總和,而不是拼接,以限制模型引數的計數。沒有求和residual connections的最終體系結構如圖2所示。

4  實驗步驟

4.1  訓練說話人embedding提取器

  我們應用固定條件的VoxSRC 2019訓練限制[12],只使用VoxCeleb2資料集[11]的開發部分,其中有5994人作為訓練資料。保留約2%的資料子集作為超引數最佳化的驗證集。眾所周知,神經網路受益於產生額外訓練樣本的資料增強。我們為每個話語生成總共6個額外的樣本。第一組增強遵循Kaldi配方[2],結合公開可用的MUSAN資料集(babble, noise)[20]和[21]中提供的RIR資料集(reverb)。其餘三種增強是使用開源SoX(加快速度,減慢速度)和FFmpeg(交替opus或aac壓縮)庫生成的。

  輸入特徵是來自25毫秒視窗的80維mfc,幀移為10毫秒。採用倒譜平均減法對MFCCs特徵向量進行二次隨機歸一化,不進行語音活動檢測。作為最後的增強步驟,我們將SpecAugment[22]應用於樣品的logmel譜圖。該演算法在時域隨機遮蔽0 ~ 5幀幀,在頻域隨機遮蔽0 ~ 10個通道。

  所有模型都使用[23]中描述的tritriar2策略與Adam最佳化器[24]結合,以1e-8和1e-3之間的迴圈學習率進行訓練。一個週期的持續時間設定為130k次迭代。所有系統都使用AAM-softmax[6,25]進行訓練,其裕度為0.2,softmax預縮放為30,共4個週期。為了防止過擬合,我們對2e-5模型中的所有權重應用了權重衰減,除了使用2e-4的AAM-softmax權重。培訓的迷你批次大小為128。

  我們研究了提出的ECAPA-TDNN架構的兩種設定,在卷積幀層中使用512或1024通道。SE-Block和注意力模組中的瓶頸尺寸設定為128。Res2Block[16]的縮放維度s設定為8。最終全連線層的節點數為192。本系統的效能將與第2節中描述的基準進行比較。

4.2  說話人驗證

  說話人embedding從所有系統的最終全連線層中提取。試驗分數是使用embedding之間的餘弦距離產生的。隨後,採用自適應s範數對所有分數進行歸一化[26,27]。冒名頂替者佇列由所有訓練話語的長度標準化embedding的說話者平均組成。對於VoxCeleb測試集,冒名頂替者佇列的規模設定為1000,對於跨資料集VoxSRC 2019評估,則設定為更可靠的50。

4.3  評價方案

  該系統採用流行的VoxCeleb1測試集[10]和VoxSRC 2019評估集[12]進行評估。效能將透過提供相等錯誤率(EER)和最小歸一化檢測成本MinDCF, Ptarget = 10-2和CF A = CM iss = 1來衡量。一個簡明的燒蝕研究被用來獲得一個更深入的理解如何每個提出的改進影響效能。

5  結果

表1:標準VoxCeleb1和VoxSRC 2019測試集上所有系統的EER和MinDCF效能

  表1給出了第2節中描述的基線系統和我們提出的ECAPA-TDNN系統的效能概述,以及embedding提取器中模型引數的數量。我們實現了兩種設定,卷積層中的過濾器C的數量設定為512或1024。我們提出的體系結構在使用更少的模型引數時顯著優於所有基線。更大的ECAPA-TDNN系統在每個測試集的最佳評分基線上,EER和MinDCF的平均相對改善分別為18.7%和12.5%。我們注意到,基線的效能在大多數情況下超過了[3,4]中報導的數字。我們繼續對第3節中介紹的各個成分進行消融研究。表2給出了這些結果的概述。

表2:ECAPA-TDNN結構消融研究

  為了衡量我們提出的注意力模組的影響,我們執行了一個實驗A.1,使用來自[8]的注意力模組。我們還進行了一個單獨的實驗a .2,該實驗不為所提議的注意提供上下文向量。依賴於通道和上下文的統計池系統將EER和MinDCF度量分別提高了9.8%和3.2%。這證實了對每個通道應用不同時間注意力的好處。新增上下文向量的結果是非常小的效能提升,系統相對提高了大約1.9%的EER和1.1%的MinDCF。儘管如此,這加強了我們的信念,即基於tdnn的架構應該嘗試利用全域性上下文資訊。

  實驗B.1證實了這種直覺,實驗B.1清楚地顯示了3.2節中描述的SE-block的重要性。在Res2Blocks中加入se模組後,EER和MinDCF指標分別提高了20.5%和11.9%。這表明,框架級特徵的有限時間上下文是不夠的,應該與基於全域性的話語資訊相補充。在實驗B.2中,我們用ResNet對應物的標準中心擴張1D卷積替換了Res2Blocks的多尺度特徵。多尺度Res2Net方法除了顯著降低了30%的模型引數外,還使EER和MinDCF分別提高了5.6%和3.2%。

  在實驗C.1中,我們只使用最終SERes2Block的輸出,而不是聚合所有SERes2Block的資訊。輸出的彙總導致EER和MinDCF值的相對改善分別為8.2%和2.8%。去除所有殘留連線(實驗C.2)顯示出類似的降解速率。將SE-Res2Blocks中的標準ResNet跳躍連線替換為之前所有SE-Res2Blocks的輸出之和,EER提高了6.5%,而在實驗C.3中,MinDCF分數略有下降。然而,在最近舉行的短時間說話人驗證(SdSV)挑戰2020[28]期間的實驗說服我們將求和殘差納入最終的ECAPA-TDNN架構中。這個挑戰的強大結果表明該體系結構可以很好地推廣到其他領域[29]。

6  結論

  本文提出了一種新的基於tdnn的說話人embedding提取器ECAPA-TDNN。我們進一步構建了原始的x-vector架構,並更加強調通道注意力、傳播和聚合。壓縮激勵塊、多尺度Res2Net特徵、額外的跳躍連線和通道依賴的注意統計池的結合,導致在VoxCeleb和VoxSRC 2019評估集上,與強基線系統相比,EER平均顯著提高了19%。

7  參考文獻

[1] D. Snyder, D. Garcia-Romero, G. Sell, D. Povey, and S. Khudanpur, "X-vectors: Robust DNN embeddings for speaker recognition," in Proc. ICASSP, 2018, pp. 5329 5333.

[2] D. Snyder, D. Garcia-Romero, G. Sell, A. McCree, D. Povey, and S. Khudanpur, "Speaker recognition for multi-speaker conversations using x-vectors," in Proc. ICASSP, 2019, pp. 5796 5800.

[3] D. Garcia-Romero, A. McCree, D. Snyder, and G. Sell, "JHUHLTCOE system for the VoxSRC speaker recognition challenge," in Proc. ICASSP, 2020, pp. 7559 7563.

[4] H. Zeinali, S. Wang, A. Silnova, P. Matjka, and O. Plchot, "BUT system description to VoxCeleb speaker recognition challenge 2019," 2019.

[5] S. Ioffe, "Probabilistic linear discriminant analysis," in ECCV, 2006, pp. 531 542.

[6] J. Deng, J. Guo, N. Xue, and S. Zafeiriou, "ArcFace: Additive angular margin loss for deep face recognition," in 2019 IEEE/CVF CVPR, 2019, pp. 4685 4694.

[7] K. He, X. Zhang, S. Ren, and J. Sun, "Deep residual learning for image recognition," in IEEE/CVF CVPR, 2016, pp. 770 778.

[8] K. Okabe, T. Koshinaka, and K. Shinoda, "Attentive statistics pooling for deep speaker embedding," in Proc. Interspeech, 2018, pp. 2252 2256.

[9] Y. Zhu, T. Ko, D. Snyder, B. K.-W. Mak, and D. Povey, "Selfattentive speaker embeddings for text-independent speaker verification," in Proc. Interspeech, 2018, pp. 3573 3577.

[10] A. Nagrani, J. S. Chung, and A. Zisserman, "VoxCeleb: A largescale speaker identification dataset," in Proc. Interspeech, 2017, pp. 2616 2620.

[11] J. S. Chung, A. Nagrani, and A. Zisserman, "VoxCeleb2: Deep speaker recognition," in Proc. Interspeech, 2018, pp. 1086 1090.

[12] J. S. Chung, A. Nagrani, E. Coto, W. Xie, M. McLaren, D. A. Reynolds, and A. Zisserman, "VoxSRC 2019: The first VoxCeleb speaker recognition challenge," 2019.

[13] S. Ioffe and C. Szegedy, "Batch normalization: Accelerating deep network training by reducing internal covariate shift," in Proc. ICML, 2015, pp. 448 456.

[14] J. Hu, L. Shen, and G. Sun, "Squeeze-and-Excitation networks," in Proc. IEEE/CVF CVPR, 2018, pp. 7132 7141.

[15] J. Zhou, T. Jiang, Z. Li, L. Li, and Q. Hong, "Deep speaker embedding extraction with channel-wise feature responses and additive supervision softmax loss function," in Proc. Interspeech, 2019, pp. 2883 2887.

[16] S. Gao, M.-M. Cheng, K. Zhao, X. Zhang, M.-H. Yang, and P. H. S. Torr, "Res2Net: A new multi-scale backbone architecture," IEEE TPAMI, 2019.

[17] J. Lee and J. Nam, "Multi-level and multi-scale feature aggregation using sample-level deep convolutional neural networks for music classification," 2017.

[18] Z. Gao, Y. Song, I. McLoughlin, P. Li, Y. Jiang, and L.-R. Dai, "Improving Aggregation and Loss Function for Better Embedding Learning in End-to-End Speaker Verification System," in Proc. Interspeech, 2019, pp. 361 365.

[19] D. Povey, G. Cheng, Y. Wang, K. Li, H. Xu, M. Yarmohammadi, and S. Khudanpur, "Semi-orthogonal low-rank matrix factorization for deep neural networks," in Proc. Interspeech, 2018, pp. 3743 3747.

[20] D. Snyder, G. Chen, and D. Povey, "MUSAN: A music, speech, and noise corpus," 2015.

[21] T. Ko, V. Peddinti, D. Povey, M. L. Seltzer, and S. Khudanpur, "A study on data augmentation of reverberant speech for robust speech recognition," in Proc. ICASSP, 2017, pp. 5220 5224.

[22] D. S. Park, W. Chan, Y. Zhang, C.-C. Chiu, B. Zoph, E. D. Cubuk, and Q. V. Le, "SpecAugment: A simple data augmentation method for automatic speech recognition," in Proc. Interspeech, 2019.

[23] L. N. Smith, "Cyclical learning rates for training neural networks," in IEEE WACV, 2017, pp. 464 472.

[24] D. Kingma and J. Ba, "Adam: A method for stochastic optimization," Proc. ICLR, 2014.

[25] X. Xiang, S. Wang, H. Huang, Y. Qian, and K. Yu, "Margin matters: Towards more discriminative deep neural network embeddings for speaker recognition," 2019.

[26] Z. N. Karam, W. M. Campbell, and N. Dehak, "Towards reduced false-alarms using cohorts," in 2011 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2011, pp. 4512 4515.

[27] S. Cumani, P. Batzu, D. Colibro, C. Vair, P. Laface, and V. Vasilakakis, "Comparison of speaker recognition approaches for real applications," in Proc. Interspeech, 2011, pp. 2365 2368.

[28] H. Zeinali, K. A. Lee, J. Alam, and L. Burget, "Short-duration speaker verification (SdSV) challenge 2020: the challenge evaluation plan," 2019.

[29] J. Thienpondt, B. Desplanques, and K. Demuynck, "Cross-lingual speaker verification with domain-balanced hard prototype mining and language-dependent score normalization," in Proc. Interspeech, 2020.

 

相關文章