決策樹中結點的特徵選擇方法

預知夢_發表於2018-05-09

一、資訊增益

  資訊增益用在ID3決策樹中,資訊增益是依據熵的變化值來決定的值。

  熵:隨機變數不確定性大小的度量。熵越大,變數的不確定性就越大。

  熵的公式表示:

         X的概率分佈為P(x=xi) = pi, i=1,2,3...(x可能的取值),隨機變數X熵為,並且0log0=1。

        條件熵:H(Y|X)表示在隨機變數X的條件下隨機變數Y的不確定性。

        在決策樹中,Y即是資料集,X即是某個特徵,即條件熵就是資料集在特徵A劃分條件下的熵。

        資訊增益:資料集D的熵H(D)與特徵A給定條件下D的條件熵H(D|A)之差。g(D|A)=H(D)-H(D|A)

        因此根據資訊增益決策劃分節點時特徵選擇方法是:對訓練資料集D,計算其每隔特徵的資訊增益,並比較它們的大小,選擇資訊增益最大的特徵。

二、資訊增益比

        以資訊增益作為劃分資料集的特徵,存在偏向於選擇去取值較多的特徵的問題,這時候可以使用資訊增益比對這一問題進行修正。C4.5決策樹正是基於資訊增益比進行特徵的選擇進行結點的分割。

        資訊增益比定義:特徵A對於訓練集D的資訊增益比定義為資訊增益g(D|A)與資料集D關於特徵A的值得熵之比。

        公式定義:,其中

        關於為什麼資訊增益比可以修正資訊增益存在偏向去選擇取值較多的特徵的問題,可以認為當一個特徵取值特別多時,會分出很多個子結點,當資料集不是很大時,每個子結點只能有很少的資料,大數定律滿足條件性更差,不能體現整體資料集的分佈,從而使得不確定性減小,比如這個特徵有N個取值,且資料集恰好有N個例子,從而每個結點只有一個資料,從而每點的熵均為0,從而加起來也為0,從而資訊增益最大。然而,當資料集十分大足夠大時,就不會存在這種問題了。

三、基尼指數(Gini)

        CART樹分為迴歸樹和分類樹,CART分類樹結點選擇特徵進行分裂時選擇特徵的方法就是基尼指數。

        分類問題中,假設有K個類,樣本點屬於第k類的概率為,則概率分佈的基尼指數定義為:

        .

        基尼指數Gini(D)表示集合D的不確定性,基尼指數Gini(D,A)表示經A=a分割後集合D的不確定性,基尼指數越大,樣本集合的不確定性也就越大,與熵類似。

        

相關文章