網易 AI Lab 斬獲全球頂級聲紋識別競賽冠軍

遊資網發表於2020-07-23
近日,全球最大的語音會議INTERSPEECH 2020公佈了SdSV聲紋識別比賽成績,網易AI Lab 從眾多國際頂級隊伍中脫穎而出,獲文字相關聲紋識別賽道綜合排名第一、單模型第一的雙料冠軍。彰顯了網易AI Lab在語音聲紋識別技術領域的領先地位。

本次國際聲紋識別比賽是業界非常具備權威性的賽事,參賽隊伍來自國際多家知名高校與企業,包括近兩年全球各項聲紋識別比賽中的“常勝將軍”:布林諾工業大學、新加坡通訊研究院、約翰霍普金斯大學等。

比賽中,網易 AI Lab 基於常見的X-Vector和PLDA演算法,創新地提出了一種ASR-free的文字相關聲紋識別演算法。相比傳統的Deep Speaker Embedding方法,該演算法不需要依賴語音識別,就能夠在多語言環境下,同時完成說話人和文字內容的驗證。

比賽採用MinDCF(最小檢測代價)和EER(等錯誤率)作為評測指標。網易AI Lab的單模型在兩個指標均為最佳,其中EER達到了1.67%,相比第二名降低了11.6%,並遠低於比賽 X-Vector基線系統(EER=9.05%)。

評估演算法系統效能時常輸出ROC 曲線,用於描述FAR(誤識率)與FRR(拒識率)之間的關係。

簡單說,在聲紋識別中,誤識率就是“把不應該匹配的聲紋當成匹配聲紋”的比例,拒識率則是“把應該匹配的聲紋當成不匹配聲紋”的比例。

在對安全要求非常高的應用場景,就會把FAR值設定得低一些,因為判斷錯一次的代價很大,但這樣做的同時會導致FRR值上升,使用者體驗度下降。

網易 AI Lab 斬獲全球頂級聲紋識別競賽冠軍

等錯誤率(EER)是系統的誤識率(FAR)和拒識率(FRR)相等時的錯誤率,即ROC曲線與45度角直線相交的點,是衡量聲紋識別演算法系統綜合效能的重要指標。EER數值越小,系統效能越好。

聲紋識別是生物識別技術的一種,也稱為說話人識別,是一種通過聲音判別說話人身份的技術。

目前,人工智慧主要有三個研究方向:視覺識別、智慧語音、NLP自然語言處理。其中,在語音識別領域,聲紋識別屬於相對藍海市場,解決的主要是“我是我”的身份認證問題,多應用在安全驗證場景。

從近幾年的市場趨勢來看,銀行,金融服務,保險已成為聲紋識別應用的領導領域。

隨著技術的不斷成熟和融合,聲紋識別技術將逐漸融入日常生活,根據不同應用場景的特點進行鍼對性開發,將產生巨大的應用價值。

而網易 AI Lab 聲紋識別技術其實早已被運用於遊戲場景中。除了進行遊戲身份驗證,還能夠針對音色對使用者進行分類、豐富玩家畫像,從而更加精準地為玩家推薦志趣相投的好友、匹配實力相當的對手,為玩家帶來更好的遊戲體驗。

相關文章