決策樹中結點的特徵選擇方法
一、資訊增益
資訊增益用在ID3決策樹中,資訊增益是依據熵的變化值來決定的值。
熵:隨機變數不確定性大小的度量。熵越大,變數的不確定性就越大。
熵的公式表示:
X的概率分佈為P(x=xi) = pi, i=1,2,3...(x可能的取值),隨機變數X熵為,並且0log0=1。
條件熵:H(Y|X)表示在隨機變數X的條件下隨機變數Y的不確定性。
在決策樹中,Y即是資料集,X即是某個特徵,即條件熵就是資料集在特徵A劃分條件下的熵。
資訊增益:資料集D的熵H(D)與特徵A給定條件下D的條件熵H(D|A)之差。g(D|A)=H(D)-H(D|A)
因此根據資訊增益決策劃分節點時特徵選擇方法是:對訓練資料集D,計算其每隔特徵的資訊增益,並比較它們的大小,選擇資訊增益最大的特徵。
二、資訊增益比
以資訊增益作為劃分資料集的特徵,存在偏向於選擇去取值較多的特徵的問題,這時候可以使用資訊增益比對這一問題進行修正。C4.5決策樹正是基於資訊增益比進行特徵的選擇進行結點的分割。
資訊增益比定義:特徵A對於訓練集D的資訊增益比定義為資訊增益g(D|A)與資料集D關於特徵A的值得熵之比。
公式定義:,其中。
關於為什麼資訊增益比可以修正資訊增益存在偏向去選擇取值較多的特徵的問題,可以認為當一個特徵取值特別多時,會分出很多個子結點,當資料集不是很大時,每個子結點只能有很少的資料,大數定律滿足條件性更差,不能體現整體資料集的分佈,從而使得不確定性減小,比如這個特徵有N個取值,且資料集恰好有N個例子,從而每個結點只有一個資料,從而每點的熵均為0,從而加起來也為0,從而資訊增益最大。然而,當資料集十分大足夠大時,就不會存在這種問題了。
三、基尼指數(Gini)
CART樹分為迴歸樹和分類樹,CART分類樹結點選擇特徵進行分裂時選擇特徵的方法就是基尼指數。
分類問題中,假設有K個類,樣本點屬於第k類的概率為,則概率分佈的基尼指數定義為:
.
基尼指數Gini(D)表示集合D的不確定性,基尼指數Gini(D,A)表示經A=a分割後集合D的不確定性,基尼指數越大,樣本集合的不確定性也就越大,與熵類似。
相關文章
- 決策樹模型(2)特徵選擇模型特徵
- RF、GBDT、XGboost特徵選擇方法特徵
- 特徵選擇技術總結特徵
- 機器學習中,有哪些特徵選擇的工程方法?機器學習特徵
- xgboost 特徵選擇,篩選特徵的正要性特徵
- 決策樹學習總結
- 特徵工程之特徵選擇特徵工程
- 決策樹模型(3)決策樹的生成與剪枝模型
- 決策樹
- 決策樹在sklearn中的實現
- 決策樹示例
- 特徵選擇和特徵生成問題初探特徵
- 特徵工程 特徵選擇 reliefF演算法特徵工程演算法
- 關於決策樹的理解
- 4. 決策樹
- Decision tree——決策樹
- 決策樹(Decision Tree)
- Vue動態構建混合資料Treeselect選擇樹及巨樹問題的解決方法Vue
- Python機器學習:決策樹001什麼是決策樹Python機器學習
- 遊戲AI之決策結構—行為樹遊戲AI
- 基於條件熵的特徵選擇熵特徵
- C++中的選擇結構C++
- 專欄 | 基於 Jupyter 的特徵工程手冊:特徵選擇(五)特徵工程
- 專欄 | 基於 Jupyter 的特徵工程手冊:特徵選擇(四)特徵工程
- 專欄 | 基於 Jupyter 的特徵工程手冊:特徵選擇(一)特徵工程
- 專欄 | 基於 Jupyter 的特徵工程手冊:特徵選擇(二)特徵工程
- 專欄 | 基於 Jupyter 的特徵工程手冊:特徵選擇(三)特徵工程
- 《統計學習方法》——從零實現決策樹
- 分類——決策樹模型模型
- 決策樹演算法演算法
- ML《決策樹(三)CART》
- Element UI框架中巧用樹選擇器UI框架
- Elasticsearch 中為什麼選擇倒排索引而不選擇 B 樹索引Elasticsearch索引
- 【Python機器學習實戰】決策樹和整合學習(二)——決策樹的實現Python機器學習
- xgboost 特徵重要性選擇 / 看所有特徵哪個重要特徵
- 決策樹中資訊增益、ID3以及C4.5的實現與總結
- 機器學習:決策樹機器學習
- 決策樹和隨機森林隨機森林