2020 AESR,即“INTERSPEECH 2020口音英語語音識別挑戰賽(Interspeech2020 Accented English Speech Recognition)”,向參賽者開放八種口音英文資料,設定了“Track1-口音種類識別”和“Track2-口音英語語音識別”兩個賽道。由思必馳組建的“xiaochi”隊伍表現優異,分別獲得“口音種類識別”第一名(全球共30個隊伍參賽),和“口音英語語音識別”第二名(全球42個隊伍參賽)。
在“Track1-口音種類識別”技術挑戰賽中,參賽隊伍需要使用官方提供的各種口音英文的訓練資料,訓練語種分類模型。xiaochi隊伍的準確率高出第二名11個百分點,最終摘得冠軍。
資料策略上,xiaochi對8種口音訓練音訊進行變語速資料增強,利用kaldi工具模擬噪聲和遠場,使用8種口音訓練資料+librispeech資料訓練TTS合成器,並生成8種口音訓練音訊,最後對測試音訊採用sox變語速後與原始音訊拼接。模型訓練時,採用了多機多卡的並行訓練策略,有效降低了模型迭代和實驗速度。最終我們採用深層的TDNN模型,結合AAM loss等進行最佳化,來訓練8種口音的8分類模型。
經過多個不同策略組合的實驗測試,最終發現,“利用PPG等特徵,結合基於tts的資料生成,多嵌入多層聯合最佳化”等方法,能夠最高效快速識別不同口音種類。這也為未來業界進行多語種混合識別提供了很好的參考策略。