Kaldi在語音資料庫timit上的聲學和語音模型訓練--1
環境: Ubuntu 12.04, Kaldi
1. 在網上下載timit語音庫,解壓放到/u01/kaldi/egs/timit/s5/data目錄下
jerry@hq:/u01/kaldi/egs/timit/s5/data/timit$ ls
doc readme.doc test TIMIT_phonemes.Table train
2. 切換到timit主目錄下 /u01/kaldi/egs/timit/s5,
修改run.sh中的一項為 timit=/u01/kaldi/egs/timit/s5/data/timit ,即指定訓練資料的目錄。如下所示:
echo ============================================================================
echo " Data & Lexicon & Language Preparation "
echo ============================================================================
#timit=/export/corpora5/LDC/LDC93S1/timit/TIMIT # @JHU
timit=/u01/kaldi/egs/timit/s5/data/timit # @BUT
local/timit_data_prep.sh $timit || exit 1
3. 直接執行./run.sh就可以了
***********************************************************************************************************************************************************
下面講解下run.sh指令碼的一些處理流程:
local/timit_data_prep.sh ----- 從訓練資料庫/u01/kaldi/egs/timit/s5/data/timit中抽取出訓練資料的目錄位置並寫到/u01/kaldi/egs/timit/s5/data/local/data, 這裡使用的命令/u01/kaldi/src/featbin/wav-to-duration
local/timit_prepare_dict.sh ----- 生成字典資料並放至到/u01/kaldi/egs/timit/s5/data/local/dict,使用的命令/u01/kaldi/tools/irstlm/bin/compile-lm, /u01/kaldi/tools/irstlm/bin/build-lm.sh,
utils/prepare_lang.sh ----- 藉助字典資料生成語言模型並放至 /u01/kaldi/egs/timit/s5/data/lang,使用的命令utils/make_lexicon_fst.pl, utils/sym2int.pl, fstcompile, fstaddselfloops, fstarcsort,
steps/make_mfcc.sh, steps/compute_cmvn_stats.sh ---- 藉助local/timit_data_prep.sh生成的資料位置抽取出MFCC特徵,資料放到到 /u01/kaldi/egs/timit/s5/data/train,使用的命令compute-mfcc-feats, compute-cmvn-stats, copy-feats, copy-matrix
單音素訓練與解碼
steps/train_mono.sh ---- 藉助前兩步生成的mfcc和語言模型生成單音素,使用命令gmm-init-mono, compile-train-graphs , align-equal-compiled, gmm-acc-stats-ali, gmm-est, gmm-align-compiled
utils/mkgraph.s ---- 生成decoding graph, 使用的命令fsttablecompose, fstminimizeencoded, fstisstochastic, fstcomposecontext, make-h-transducer, fstdeterminizestar, fstrmsymbols, fstrmepslocal, add-self-loops
steps/decode.sh ---- 解碼資料,使用命令gmm-latgen-faster, gmm-decode-faster, compute-wer
1. 在網上下載timit語音庫,解壓放到/u01/kaldi/egs/timit/s5/data目錄下
jerry@hq:/u01/kaldi/egs/timit/s5/data/timit$ ls
doc readme.doc test TIMIT_phonemes.Table train
2. 切換到timit主目錄下 /u01/kaldi/egs/timit/s5,
修改run.sh中的一項為 timit=/u01/kaldi/egs/timit/s5/data/timit ,即指定訓練資料的目錄。如下所示:
echo ============================================================================
echo " Data & Lexicon & Language Preparation "
echo ============================================================================
#timit=/export/corpora5/LDC/LDC93S1/timit/TIMIT # @JHU
timit=/u01/kaldi/egs/timit/s5/data/timit # @BUT
local/timit_data_prep.sh $timit || exit 1
3. 直接執行./run.sh就可以了
***********************************************************************************************************************************************************
下面講解下run.sh指令碼的一些處理流程:
local/timit_data_prep.sh ----- 從訓練資料庫/u01/kaldi/egs/timit/s5/data/timit中抽取出訓練資料的目錄位置並寫到/u01/kaldi/egs/timit/s5/data/local/data, 這裡使用的命令/u01/kaldi/src/featbin/wav-to-duration
local/timit_prepare_dict.sh ----- 生成字典資料並放至到/u01/kaldi/egs/timit/s5/data/local/dict,使用的命令/u01/kaldi/tools/irstlm/bin/compile-lm, /u01/kaldi/tools/irstlm/bin/build-lm.sh,
utils/prepare_lang.sh ----- 藉助字典資料生成語言模型並放至 /u01/kaldi/egs/timit/s5/data/lang,使用的命令utils/make_lexicon_fst.pl, utils/sym2int.pl, fstcompile, fstaddselfloops, fstarcsort,
steps/make_mfcc.sh, steps/compute_cmvn_stats.sh ---- 藉助local/timit_data_prep.sh生成的資料位置抽取出MFCC特徵,資料放到到 /u01/kaldi/egs/timit/s5/data/train,使用的命令compute-mfcc-feats, compute-cmvn-stats, copy-feats, copy-matrix
單音素訓練與解碼
steps/train_mono.sh ---- 藉助前兩步生成的mfcc和語言模型生成單音素,使用命令gmm-init-mono, compile-train-graphs , align-equal-compiled, gmm-acc-stats-ali, gmm-est, gmm-align-compiled
utils/mkgraph.s ---- 生成decoding graph, 使用的命令fsttablecompose, fstminimizeencoded, fstisstochastic, fstcomposecontext, make-h-transducer, fstdeterminizestar, fstrmsymbols, fstrmepslocal, add-self-loops
steps/decode.sh ---- 解碼資料,使用命令gmm-latgen-faster, gmm-decode-faster, compute-wer
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/16582684/viewspace-1266649/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 海南話語音識別模型——模型訓練(一)模型
- kaldi中文語音識別thchs30模型訓練程式碼功能和配置引數解讀S3模型
- KALDI語音識別庫在LINUX下的安裝和編譯Linux編譯
- 語音的關鍵聲學特徵(語音情感特徵提取)特徵
- 通用模型、全新框架,WavLM語音預訓練模型全解模型框架
- 新一代 Kaldi: 支援 JavaScript 進行本地語音識別和語音合成啦!JavaScript
- GPT-SoVITS —— 5s 聲音樣本就可以訓練模型,復刻聲音的 AI 應用GPT模型AI
- win10系統語音聲音小怎麼設定 win10系統語音聲音特別小處理方法Win10
- 語音識別方向的資料
- 小愛同學語音模型評測 - 董沐模型
- 小林同學智慧AI大模型語音助手AI大模型
- 自訓練 + 預訓練 = 更好的自然語言理解模型模型
- 【預訓練語言模型】 使用Transformers庫進行BERT預訓練模型ORM
- 語音合成在語音助手中的應用及擴充套件套件
- 在MoneyPrinterPlus中使用本地chatTTS語音模型TTS模型
- Kaldi搭建語音識別系統—發音詞典相關檔案準備
- 語音識別--kaldi環境搭建(基於Ubuntu系統)Ubuntu
- 雲知聲推出音庫定製服務,“硬核”智慧語音技術再上新高
- 基於函式計算部署GPT-Sovits語音生成模型實現AI克隆聲音函式GPT模型AI
- 深度瞭解語音識別之發音詞典及語音資料採集標註
- 【機器學習PAI實踐十二】機器學習實現男女聲音識別分類(含語音特徵提取資料和程式碼)機器學習AI特徵
- 【預訓練語言模型】使用Transformers庫進行GPT2預訓練模型ORMGPT
- NLP入門之語音模型原理模型
- aardio實現語音閱讀文字【包含選擇語音庫】
- 有關語音方面的深度學習資料合集深度學習
- 大語言模型訓練資料常見的4種處理方法模型
- Kaldi學習(一)kaldi在ubuntu上的安裝Ubuntu
- 語音識別開源工具PyTorch-Kaldi:兼顧Kaldi效率與PyTorch靈活性開源工具PyTorch
- win10語音有迴音是怎麼回事_win10 qq語音有回聲怎麼解決Win10
- 自然語言處理中的語言模型預訓練方法自然語言處理模型
- 資料庫語句練習資料庫
- 即時通訊的語音回聲消除技術
- 知識增廣的預訓練語言模型K-BERT:將知識圖譜作為訓練語料模型
- 為語音標註提供資料支援
- 知識增強的預訓練語言模型系列之ERNIE:如何為預訓練語言模型注入知識模型
- 用javascrip在瀏覽器上實現語音輸入和語義理解功能(speex壓Java瀏覽器
- GPT-SoVITS語音合成模型實踐GPT模型
- AVFoundation 文字轉語音和音訊錄製 播放音訊