隨機森林、EM、HMM、LDA

夜空中最亮的不咚發表於2018-03-27

隨機森林(Random Forest)是一種分類和迴歸演算法,它包含了多個決策樹,形成一個森林,隨機森林的類別是所有決策樹分類迴歸結果的眾數決定。

由於它優點很多,適應比較廣泛.

1、能夠處理高維資料,不用做特徵選擇,自動選出那些特徵重要。

2、訓練速度快,分類精度高。

3、能檢測到特徵之間的相互影響。

4、不會產生過擬合。

EM 期望最大化(Expectation-Maximization),也叫最大似然估計。它是一種引數估計方法。

基本思想是:引數的取值應該是使隨機樣本出現的概率最大。因此如果我們知道樣樣本的概率分佈,就可以通過求使概率分佈最大的引數值為最終取值。

參考文章1,已知100個男生的身高分佈概率,當不知道他們的均值和方差,通過最大似然估計認為,均值和方差應該是使這個概率分佈最大。

最大似然估計函式如下:

隨機森林、EM、HMM、LDA

如果是連乘形式,可以求對數簡化為相加形式:

隨機森林、EM、HMM、LDA

求解可以是求導數為0,即牛頓法或者梯度下降法(計算機中使用)。


HMM,隱馬爾科夫模型。HMM在自然語言處理領域應用比較廣泛,如漢語分詞,詞性標註,語音識別。

典型的隱馬爾科夫模型,其下一個狀態只與當前相關,與其他因素不相關。這樣雖然不太正確,可能捨去了很多重要資訊,但能簡化模型和計算量,得出結果,因此實際中也經常用。

參考一個經典的HMM例子,見下圖。

隨機森林、EM、HMM、LDA

HMM能解決三個基本問題:

1、根據觀測序列和模型引數,求模型引數已知條件下的觀測序列後驗概率。

2、求觀測序列已知情況下的狀態序列最合理取值。

3、如何調整模型引數,使觀測序列後驗概率取值最大。

LDA(latent dirichlet allocation)叫主題模型,應用在影像分類、文字分類、主題詞抽取。

是一個三層貝葉斯概率模型,包含詞、主題、文件。

可以解決矩陣稀疏的問題。

是最簡單的話題模型(topic model),話題模型就是發現大量文件集合的主題的演算法。

可以判斷兩個文件的相似性和距離。是基於主題模型的語義挖掘技術,能區別兩篇文章在語義上的區別,而非詞頻的區別。

主題模型常用演算法有兩種:pLSA和LDA。更多內容參考文章6.



1、http://www.cnblogs.com/openeim/p/3921835.html

2、http://www.cnblogs.com/skyme/p/4651331.html(HMM介紹)

3、http://blog.csdn.net/app_12062011/article/details/50408664#t6(HMM在自然語言處理中的應用詳細介紹)

4、http://www.52nlp.cn/hmm-learn-best-practices-and-cui-johnny-blog

5、http://blog.csdn.net/daringpig/article/details/8072794

6、http://blog.csdn.net/huagong_adu/article/details/7937616(LDA與TF-IDF的區別)


相關文章