《機器學習:演算法原理和程式設計實踐》3:決策樹的發展

CopperDong發表於2018-07-07

1、決策樹的演算法框架

決策樹的主函式


計算最優特徵子函式:ID3用資訊增益、C4.5用資訊增益率、CART用節點方差的大小等。

資訊熵:用來表示任何一種能量在空間中分佈的均勻程度。能量分佈得越均勻,熵就越大。在決策樹中,它不僅能用來度量類別的不確定性,也可以用來度量包含不同特徵的資料樣本與類別的不確定性。

CART演算法是目前決策樹演算法中最為成熟的一類演算法,應用範圍也比較廣泛。



      在迴歸樹中,資料集均為連續性的。連續資料的處理方法與離散資料不同,離散資料是按每個特徵的取值來劃分,而連續特徵則要計算出最優劃分點。但在連續資料集上計算線性相關度非常簡單,演算法思想來源於最小二乘法。

剪枝策略:因為使用連續性資料,CART可以生長出大量的分支樹,為了避免過擬合的問題,預測樹採用了剪枝的方法。主流的剪枝方法有兩類:先剪枝和後剪枝。先剪枝給出一個預定義的劃分閾值,當節點的劃分子集某個標準低於預定義的閾值時,子集劃分將終止。後剪枝在完全生成的決策樹上,根據一定的規則標準,剪掉樹中不具備一般代表性的子樹,使用葉子節點取而代之,進而形成一顆規模較小的新樹。



相關文章