HTK 第三章 模型訓練示例
無論是中文還是英文,以tri-phone為基元的建模方案是目前較為成熟的方案;
模型訓練流程主要有三步:mono-phone訓練、tri-phone訓練和狀態繫結的tri-phone訓練
以中文建模為例,中文有84個phone。
1. mono-phone
Prototype HMM Definition(proto): mono-phone模型的模板,單高斯39維,均值為0,方差為1。
HCompV:計算所有幀的均值和方差,使用全域性均值和方差對所有的高斯成份(Gaussian Component)進行初始化,獲得hmm0 (包含84個mono-phone的模型)。
HERest:將標註從syllable級依據詞典轉換為phone級,進行mono-phone的模型迭代。
例如: sil zhong guo sil --> sil zh ong g u o sil
2. tri-phone
使用HLED工具將標註從mono-phone轉換為tri-phone
例如: sil zh ong g u o sil --> sil sil-zh+ong zh-ong+g ong-g+u g-u+o u-o+sil sil
使用HHED工具初始化tri-phone模型,用tri-phone的中心phone的模型初始化該tri-phone模型。
類似於monophone,進行HERest模型迭代,並統計狀態佔有率state occs(stats)。
3. tied tri-phone
通過狀態的佔有率state occs(stats)和問題集(tree.hed)將triphone和狀態進行繫結。
最後使用HERest對繫結後的triphone和狀態進行迭代更新。
為什麼進行狀態繫結?
使用tri-phone建模,phone的個數為84個,tri-phone個數84*84*84=60W;
按每個tri-phone 5狀態為例,中心3個有效狀態,共180W有效狀態;
按每個狀態4高斯計算,共720W個高斯,模型size接近GB級別,估計這麼多引數,資料是個問題。
因此,必須使用某種策略降低引數規模。
能否減少狀態規模? 使用狀態繫結策略
相關文章
- fasttext訓練模型程式碼AST模型
- 監控大模型訓練大模型
- 自訓練 + 預訓練 = 更好的自然語言理解模型模型
- PyTorch預訓練Bert模型PyTorch模型
- AI打遊戲-肆(模型訓練)AI遊戲模型
- TensorFlow on Android:訓練模型Android模型
- Caffe訓練模型時core dump模型
- 大模型如何提升訓練效率大模型
- PyTorch 模型訓練實⽤教程(程式碼訓練步驟講解)PyTorch模型
- 【AI】Pytorch_預訓練模型AIPyTorch模型
- 隱私計算 FATE - 模型訓練模型
- 預訓練模型 & Fine-tuning模型
- Yolov8訓練識別模型YOLO模型
- 6-3使用GPU訓練模型GPU模型
- 海南話語音識別模型——模型訓練(一)模型
- 【預訓練語言模型】 使用Transformers庫進行BERT預訓練模型ORM
- 機器學習之邏輯迴歸:模型訓練機器學習邏輯迴歸模型
- 訓練模型的儲存與載入模型
- 隱私計算FATE-模型訓練模型
- YOLOv5模型訓練及檢測YOLO模型
- 訓練一個目標檢測模型模型
- 資料模型需要多少訓練資料?模型
- 【預訓練語言模型】使用Transformers庫進行GPT2預訓練模型ORMGPT
- 通用模型、全新框架,WavLM語音預訓練模型全解模型框架
- MxNet預訓練模型到Pytorch模型的轉換模型PyTorch
- TensorFlow2.0教程-使用keras訓練模型Keras模型
- 文字主題抽取:用gensim訓練LDA模型LDA模型
- 阿里巴巴稀疏模型訓練引擎-DeepRec阿里模型
- [原始碼分析] Facebook如何訓練超大模型 --- (3)原始碼大模型
- [原始碼分析] Facebook如何訓練超大模型---(4)原始碼大模型
- [原始碼分析] Facebook如何訓練超大模型--- (5)原始碼大模型
- [原始碼分析] Facebook如何訓練超大模型---(1)原始碼大模型
- [原始碼分析] Facebook如何訓練超大模型 --- (2)原始碼大模型
- TorchVision 預訓練模型進行推斷模型
- 常見預訓練語言模型簡述模型
- Yolov5——訓練目標檢測模型YOLO模型
- 飛槳圖學習大模型訓練框架大模型框架
- 使用AutoDL伺服器進行模型訓練伺服器模型