聲紋識別技術五大發展趨勢總結

快商通發表於2019-10-17

走出實驗室的聲紋識別技術因其廣闊的應用場景和價值,從特定領域到民用領域,在國內外正迎來第一波商用化浪潮。 而與此同時,關於聲紋識別技術研究的成熟度以及安全可靠性,一直是應用領域討論的重點,本文基於時下聲紋識別技術研究的前沿觀點,總結出五大發展趨勢:

1、聲紋識別研究朝著深度學習和端到端方向發展

語音作為語言的聲音表現形式,不僅包含了語言語義資訊,同時也傳達了說話人語種、性別、年齡、情感、通道、嗓音、病理、生理、心理等多種豐富的副語言語音屬性資訊。以上這些語言語音屬性識別問題從整體來看,其核心都是針對不定時長文字無關的句子層面語音訊號的有監督學習問題,只是要識別的屬性標註有不同。

近年來,聲紋識別的研究趨勢正在快速朝著深度學習和端到端方向發展,其中最典型的就是基於句子層面的做法。在網路結構設計、資料增強、損失函式設計等方面還有很多工作去做,還有很大的提升空間。

2、提升聲紋識別系統的短時語音情況

在實際應用中,由於對基於語音的訪問控制需求的不斷增長,提升聲紋識別系統在短時語音情況下的效能變得尤為迫切。短時語音中說話人資訊不足以及註冊和測試語音的文字內容不匹配,對於主流的基於統計建模的聲紋識別系統是一個嚴峻的挑戰。

3、改進現有的深度說話人學習方法

目前採用的深度說話人識別方法首先利用神經網路提取前端的幀級特徵,然後通過池化對映獲得可以表示說話人特性的段級向量,最後採用 LDA/PLDA 等後端建模方法進行度量計算。

相對於傳統的 i-vector 生成過程,基於深度學習說話人識別方法優勢主要體現在區分性訓練和利用多層網路結構對區域性多幀聲學特徵的有效表示上。如何進一步改進現有的深度說話人學習方法是現階段的一個研究熱點。

4、深度對抗學習在聲紋識別技術中的應用

生成式對抗網路 (GAN) 的主要目的是用在資料生成、降噪、等很多場景裡面。它還被用在領域自適應裡面,形成一個新的分佈。第三個廣泛的應用是生成對抗樣本,這會對分類系統產生大的困擾。很多研究者用對抗樣本攻擊機器學習的系統,在原始資料上增加一些擾動,生成樣本,經過神經網路之後就有可能識別成完全不同的結果。這個思想在影像處理領域非常活躍,會造成錯誤識別,引起了自動駕駛,安全等領域的研究人員的廣泛關注。

在語音領域,GAN 可以用在語音識別、口音自適應上,通過多工學習和梯度反轉層來進行口音或通道的自適應,然後加上其他方法可以得到較好的效果。聲紋識別也存在各種不匹配的問題,在聲紋識別上也可以使用這一思想。同樣的思想也用在了 TTS 語音合成領域,目的是把不同的音素解耦成說話人,風格等,去除噪聲對建模的影響。

5、深度嵌入學習是進行聲紋識別和反欺騙的一個重要途徑

說話人識別和欺騙檢測近年來受到學術界和業界的廣泛關注,人們希望在實際應用中設計出高效能的系統。基於深度學習的方法在該領域得到了廣泛的應用,在說話人識別和反欺騙方面取得了新的里程碑。然而,在真實複雜的場景下,面對短語音、噪聲的破壞、通道失配、大規模等困難,開發一個魯棒的系統仍然是非常困難的。深度嵌入學習是進行說話人識別和反欺騙的一個重要途徑,在這方面已有一些著名的研究成果。如之前的 d-vector 特徵和當前普遍使用的 x-vector 特徵。

4190e9fbd3ee47ff9f8139a19c7e8268.jpg

結語:

目前,指紋識別、人臉識別已經被大眾所熟知,但同樣作為生物識別的聲紋識別,還處於技術挑戰的前沿地帶。據聲紋識別企業快商通分析,當下全球生物識別產業規模龐大,僅聲紋識別這一細分方向的市場規模就將近百億美元,預計2020年更是有望超過200億美元(合1346億元人民幣),佔整個生物識別市場的22.4%。

以國內公共安全領域為例,公安部面向全國推廣聲紋技術,與指紋庫、DNA庫類似,聲紋庫建設是一項有著重要實戰價值的工作,具體表現在聲紋特徵具有非接觸式採集的優點,和已有DNA庫、指紋庫相結合,可形成立體生物特徵庫,建成後直接為多警種服務,是利用高科技手段在偵破案件和訴訟活動中應用的一個新的增長點,將能有效提高公安機關偵查破案的效率和能力,成為落實科技強警的重要實踐之一。目前,公安部已在聲紋庫建設方面進行了重點佈局,並選擇快商通等通過公安部標準檢測的廠商作為聲紋採集裝置提供方,力求雙發共同完成這項專業技術性強、應用領域廣、建設難度大的系統工程。

相關文章