AR-Net: 一種口音識別(分類)網路(keras版本)
一、簡介
本文記錄interspeech2020和資料堂舉辦的AESRC2020口音英語識別的參賽方案,實驗程式碼可參考:
碼雲:https://gitee.com/ephemeroptera/arnet.git
github:https://github.com/coolEphemeroptera/ARNet.git
口音識別與語音識別密切相關,如果只做簡單的口音分類,很容易陷入過擬合的情況,因此,我們引入語音識別任務來建立多工模型。
二、模型架構
<輸入>:[N, MAX_TIME, FBANK, 1], 由kaldi提取80維的fbank特徵,再做全域性CMN歸一化得到輸入時頻圖
<隱層>:隱層為CNN+RNN架構,這裡採用resnet和gru來提取特徵
<輸出1:CTC> ctc損失函式作為ocr或者e2e-asr的常用loss,作為口音識別的輔助任務
<輸出2:Accent>: 口音分類任務(softmax+CE)
三、訓練資料
3.1 口音資料:160小時的口音英語資料集
資料堂 為參賽者提供總共160小時的來自8個國家的英語資料,每一種口音大約有20小時的資料,八個國家分別來自:
1.中國
2.印度
3.日本
4.韓國
5.英國
6.俄羅斯
7.葡萄牙
8.美國
3.2 輔助資料:1000小時librispeech語音資料集
Librispeech資料由960小時的訓練資料和40小時的測試資料組成,開源地址:http://www.openslr.org/12/
四、訓練方法
4.1 預訓練:隱層初始化(librispecch)
通過librispeech 的ctc訓練任務來初始化隱層,加強4.2模型效能
4.2 訓練 CTC和口音分類 的多工模型
紅線表示經過4.1初始後的隱藏層
5 實驗結果
相關文章
- 【Python】keras神經網路識別mnistPythonKeras神經網路
- 【Python】keras卷積神經網路識別mnistPythonKeras卷積神經網路
- 【Keras篇】---Keras初始,兩種模型構造方法,利用keras實現手寫數字體識別Keras模型構造方法
- 網路安全漏洞的種類分為哪些?
- TF2.keras 實現基於卷積神經網路的影象分類模型TF2Keras卷積神經網路模型
- TF2.keras 實現基於卷積神經網路的影像分類模型TF2Keras卷積神經網路模型
- 網路安全事件分類事件
- TF2.keras 實現基於深度可分離卷積網路的影象分類模型TF2Keras卷積模型
- TF2.keras 實現基於深度可分離卷積網路的影像分類模型TF2Keras卷積模型
- 【計算機網路知識掃盲】04、計算機網路分類(轉)計算機網路
- [網際網路]網際網路公司的種類
- keras自定義網路層Keras
- keras框架下的深度學習(一)手寫體識別Keras框架深度學習
- [阿里DIEN] 深度興趣進化網路原始碼分析 之 Keras版本阿里原始碼Keras
- 文字分類:Keras+RNN vs傳統機器學習文字分類KerasRNN機器學習
- B類網路快速 子網劃分
- 網路安全SQL隱碼攻擊型別分為幾種?SQL型別
- 機器學習之多類別神經網路:一對多機器學習神經網路
- keras構建神經網路Keras神經網路
- 影像識別垃圾分類app的製作APP
- 【入門知識】網路安全中的漏洞分為哪幾類?
- 牛逼程式設計師分五種不同類別,你屬於哪一種?程式設計師
- 網路:IP地址分類和分段
- TensorFlow2.0 + CNN + keras + 人臉識別CNNKeras
- 「影像分類」 實戰影像分類網路的視覺化視覺化
- 【網路安全知識入門】SQL隱碼攻擊分為幾類?SQL
- m基於深度學習網路的瓜果種類識別系統matlab模擬,帶GUI介面深度學習MatlabGUI
- 用神經網路訓練一個文字分類器神經網路文字分類
- 大腦是如何識別和分類物件? - mpg物件
- Keras輸出網路結構圖Keras
- 一文學會如何識別網路釣魚
- 什麼是網路滲透測試?網路滲透測試分為幾種型別?型別
- 【Python】keras使用Lenet5識別mnistPythonKeras
- 關於網路IP地址的分類
- 網路訂票當心三類陷阱最好當場識別真偽
- 神經網路似乎遵循一種令人費解的簡單策略來對影象進行分類神經網路
- 【網路安全學習】DDoS攻擊具體分為哪幾類?分別是什麼?
- 萬字總結Keras深度學習中文文字分類Keras深度學習文字分類