Deep Embedding Learning for Text-Dependent Speaker Verification

weixin_44223902發表於2020-11-23

Deep Embedding Learning for Text-Dependent Speaker Verification

作者:Peng Zhang, Peng Hu, Xueliang Zhang
INTERSPEECH 2020 October 25–29, 2020, Shanghai, China

解決的問題

為說話人驗證提出了一種有效的深度嵌入學習架構。

創新點

相比基於ResNet和TDNN的聲紋識別,做了倆點改進

  1. 使用全連線網路編碼說話人的短時文字資訊
  2. 使用雙向注意力池化機制建模長時文字資訊並且集中於反應說話人特點的重要幀上。

方法

網路結構

首先將Desnet作為幀級別的提取器,Desnet包含4層DenseBlock,每一個DenseBlock中有5個CNN卷積層(Conv2D), ELU(啟用函式)和IN(),然後使用雙向注意力池化層將幀級別的特徵轉換到固定維的向量中,之後用倆層全連線的隱藏層來形成話語級別的特徵。
雙向注意力池化

資料集

FFSVC2020中任務1和任務3的資料集

相關文章