ML《決策樹（二）C4.5》

星海千尋發表於2020-12-27

原文網址 : https://blog.csdn.net/qq_29367075/article/details/111772325

上一篇我們學習的ID3演算法呢，有一些缺點。

1：它只能處理離散值。

2：容易過擬合，因為我們拿到了樣本，總是希望最後得到的樣本是非常純的，所以我那個我那個造成了過擬合，訓練樣本擬合很好，泛化能力降低。

3：在每一次的節點選擇中啊，它總是傾向於某個屬性值種類多的特徵。

這裡新增一個缺點
4：就是沒有對缺失值的處理。

因此我們有另外一種決策樹的演算法，C4.5，它也是決策樹演算法。
我們主要來看看C4.5針對ID3的缺點進行的處理和改進吧。

====華麗分割線

其中三個呢，比較好理解，我就先寫出來：
1）對於上述ID3缺點二，C4.5採用的是後剪枝策略，也就是在形成了一顆決策樹後，對其做精簡化處理，用遞迴的方式從低往上針對每一個非葉子節點，評估用一個最佳葉子節點去代替這課子樹是否有益。如果剪枝後與剪枝前相比其錯誤率是保持或者下降，則這棵子樹就可以被替換掉。C4.5 通過訓練資料集上的錯誤分類數量來估算未知樣本上的錯誤率。

後剪枝決策樹的欠擬合風險很小，泛化效能往往比較好。但同時其訓練時間會大的多。

2）對於上述ID3缺點一，C4.5採用的是連續數值離散化的方式，假設在樣本集合D中，某個特徵屬性A有M個取值，那麼將這個M的取值進行排序，分別計算相鄰兩個數值的平均值，於是我們可以得到M-1個點，這M-1個點作為劃分點，分別計算器作為二分類時候的資訊增益，並選擇資訊增益最大的劃分點來作為該連續特徵的二元分類離散點。

舉個例子，屬性A有M個取值，從小到大是：
V1，V2，V3，。。。。。。，VM
在這裡插入圖片描述

劃分點Q點有M-1個，該特徵A則有2M-2個二元分類點，分別是：
數值小於Q1的範圍，數值大於等於Q1的範圍；
數值小於Q2的範圍，數值大於等於Q2的範圍；
數值小於Q3的範圍，數值大於等於Q3的範圍；
數值小於Q4的範圍，數值大於等於Q4的範圍；
。。。。。。。。
分別計算其資訊熵，也就是離散值取V等於某個值，連續值取V大於或者小於某個劃分點。
這就是連續紙的離散化。

3）對於ID3的缺點四，C4.5採用了估計的方式，當然了，不是估計缺失值。

我們要解決兩個小問題
一個問題是一個屬性值有缺失，這個屬性值應該是歸於那個子節點呢（計算資訊熵有用）；
另一個問題是，屬性值缺失，那麼這個屬性的固有資訊熵怎麼計算（後面要說到資訊增益率，要用這個值）。

C4.5是這麼處理的，對於問題一，將樣本同時劃分到所有子節點，不過要調整樣本的權重值，其實也就是以不同概率劃分到不同節點中，也就是按照概率猜測出其屬性值咯。

對於問題二，既然這個值缺失了，那麼就用沒缺失的樣本來估計下這個屬性的固有資訊熵咯。

4）對於ID3的缺點3，這也是致命的缺點，C4.5採用了資訊增益率的方式。
在這裡插入圖片描述

C4.5呢在ID3的基礎上作了很多的缺點彌補，但是自身以天然存在不足：
1：C4.5只能用於分類問題
2：引入的計算量大，還有排序操作，CPU和記憶體資源消耗大。

ML《決策樹（三）CART》
2020-12-30
ML《決策樹（一）ID3》
2020-12-27
ML《決策樹（四）Bagging 和 Random Forest》
2021-01-02
randomREST
決策樹C4.5演算法的技術深度剖析、實戰解讀
2023-11-20
演算法
【面試考】【入門】決策樹演算法ID3，C4.5和CART
2020-05-24
面試演算法
決策樹
2024-07-27
深入淺出學習決策樹（二）
2019-03-18
《機器學習Python實現_09_01_決策樹_ID3與C4.5》
2020-05-26
機器學習Python
決策樹中資訊增益、ID3以及C4.5的實現與總結
2020-02-21
決策樹模型(3)決策樹的生成與剪枝
2024-03-28
模型
決策樹示例
2021-01-16
【Python機器學習實戰】決策樹和整合學習（二）——決策樹的實現
2021-08-25
Python機器學習
4. 決策樹
2020-10-26
Decision tree——決策樹
2020-04-30
決策樹（Decision Tree）
2021-07-13
Python機器學習：決策樹001什麼是決策樹
2020-12-24
Python機器學習
分類——決策樹模型
2020-10-23
模型
決策樹演算法
2022-03-07
演算法
通俗地說決策樹演算法（二）例項解析
2019-07-29
演算法
機器學習：決策樹
2020-08-01
機器學習
關於決策樹的理解
2024-10-25
決策樹學習總結
2018-04-02
決策樹和隨機森林
2020-12-11
隨機森林
決策樹模型(2)特徵選擇
2024-03-26
模型特徵
機器學習——決策樹模型
2023-12-26
機器學習模型
機器學習之決策樹
2024-06-09
機器學習
大資料————決策樹（decision tree）
2022-10-20
大資料
機器學習西瓜書吃瓜筆記之(二)決策樹分類附一鍵生成決策樹&視覺化python程式碼實現
2020-10-13
機器學習筆記視覺化Python
02決策樹-初識與構建
2018-10-30
決策樹在sklearn中的實現
2019-03-07
決策樹模型(1)總體介紹
2024-03-23
模型
決策樹模型(4)Cart演算法
2024-04-09
模型演算法
決策樹演算法-實戰篇
2020-11-16
演算法
決策樹詳解，從熵說起
2020-10-25
熵
決策樹演算法-理論篇
2020-11-09
演算法
深入淺出學習決策樹（一）
2019-03-14
【西瓜書筆記】3. 決策樹
2020-12-06
筆記
基於資訊增益和基尼指數的二叉決策樹
2024-11-07

ML《決策樹（二）C4.5》

相關文章