【機器學習基礎】CART--分類迴歸樹完全解讀

杉杉不要bug發表於2019-05-07

原文網址 : http://juejin.im/post/5cd0e858f265da03741890d5

CART樹全名是分類與迴歸樹，可用於分類或迴歸，是二叉樹，根據是否滿足某個條件將集合不斷二分。無論分類還是迴歸，其中心思想是找到最優切分變數和最優切分點，只不過在分類問題中用基尼指數最小化作為依據，在迴歸問題中用平方誤差最小化作為準則。接下來分別舉例說明兩種樹。

一、分類樹

先驗知識：基尼係數

基尼係數，又叫基尼不純度，表示樣本集合中被隨機選中的一個樣本被錯誤分類的概率，值越小表示被分錯的概率越小，基尼指數=被選中的概率*被分錯的概率，如下公式中， pk表示選中的樣本屬於k類別的概率，則這個樣本被分錯的概率是(1-pk)。

CART分類樹生成演算法

輸入：訓練資料集D，停止計算的條件；

輸出：CART決策樹；

根據訓練資料集，從根結點開始，遞迴地對每個結點進行以下操作，構建二叉決策樹：

1.設結點的訓練資料集為D，計算現有特徵對該資料集的基尼指數。此時，對每一個特徵A，對其可能取的每個值a，根據樣本點對A=a的測試為“是”或“否”將D分割成D1和D2兩部分，之後計算基尼指數。

2.在所有可能的特徵A以及它們所有可能的切分點a中，選擇基尼指數最小的特徵及其對應的切分點作為最有特徵與最優切分點。依照最優特徵與最優切分點，從現有結點生成兩個子節點，將訓練資料集按照特徵分配到兩個子節點中去

3.對兩個子結點遞迴地呼叫兩個子結點，將訓練資料集按特徵分配到兩個子節點中去。

4.生成CART決策樹。演算法停止計算的條件是節點中的樣本個數小於閾值或者基尼指數小於閾值，或者沒有更多特徵可用於分類了。

舉個例子幫助理解

原始資料：

解答過程：

二、迴歸樹

CART迴歸樹生成演算法

對各個特徵找最優切分點，找最優切分點的依據就是按照這個切分原則，將集合分為兩部分，分別對兩部分的標籤取均值，作為預測值，計算兩部分的預測值與真實值之間的誤差平方總和，能使得這個誤差最小的，即為最優切分變數與最優切分點。

舉個例子幫助理解

原始資料：

用sklearn中的庫函式，限定最深深度為3，生成的CART迴歸樹如下圖：

過程詳解：

1.選擇第一個最優切分變數時，根據平方誤差最小原則，選擇6.5為切分點，和呼叫sklearn庫得到的決策樹根結點一致，並且此時的平方誤差值為19.11，與上圖中mse1.911相同。

2.以根結點的左分支對<6.5的集合再切分，再詳細寫一個，以便理解，

其他節點同理，當平方誤差值達到一定閾值，可以停止節點再切分。

參考資料：

非常感謝有這麼多願意分享的大佬，爭取做一個喜歡分享的小菜鳥

1.統計學習方法李航

2.師兄的博文哈哈哈 juejin.im/post/5a16b2…

機器學習-樹迴歸
2020-12-25
機器學習
【機器學習基礎】GBDT--梯度提升樹例項分析完全解讀
2019-05-08
機器學習梯度
機器學習之分類迴歸樹(python實現CART)
2018-03-04
機器學習Python
【機器學習基礎】邏輯迴歸——LogisticRegression
2021-10-20
機器學習邏輯迴歸
機器學習演算法（一）: 基於邏輯迴歸的分類預測
2020-11-09
機器學習演算法邏輯迴歸
學習筆記——機器學習演算法（一）: 基於邏輯迴歸的分類預測
2020-12-15
筆記機器學習演算法邏輯迴歸
【火爐煉AI】機器學習009-用邏輯迴歸分類器解決多分類問題
2018-08-06
AI機器學習邏輯迴歸
機器學習筆記-多類邏輯迴歸
2021-09-09
機器學習筆記邏輯迴歸
機器學習簡介之基礎理論- 線性迴歸、邏輯迴歸、神經網路
2019-04-02
機器學習邏輯迴歸神經網路
機器學習：迴歸問題
2020-08-09
機器學習
機器學習：線性迴歸
2024-11-19
機器學習
機器學習之Logistic迴歸
2018-03-28
機器學習
機器學習：邏輯迴歸
2024-12-02
機器學習邏輯迴歸
機器學習 | 線性迴歸與邏輯迴歸
2020-09-23
機器學習邏輯迴歸
從零開始學機器學習——瞭解迴歸
2024-09-25
機器學習
機器學習(三)：理解邏輯迴歸及二分類、多分類程式碼實踐
2021-02-01
機器學習邏輯迴歸
機器學習——線性迴歸-KNN-決策樹(例項)
2018-10-09
機器學習KNN
機器學習之邏輯迴歸
2019-01-22
機器學習邏輯迴歸
機器學習之迴歸指標
2020-02-14
機器學習指標
機器學習之線性迴歸
2020-02-07
機器學習
機器學習：線性迴歸（下）
2024-11-26
機器學習
機器學習整理（邏輯迴歸）
2022-03-23
機器學習邏輯迴歸
機器學習整理（線性迴歸）
2022-03-12
機器學習
《應用迴歸及分類》學習筆記1
2020-10-11
筆記
機器學習 Day 9 | 決策樹基礎
2018-08-16
機器學習
迴歸演算法全解析！一文讀懂機器學習中的迴歸模型
2023-11-29
演算法機器學習模型
通用機器學習演算法：線性迴歸+決策樹+Xgboost
2021-09-09
機器學習演算法
機器學習實戰之Logistic迴歸
2018-06-25
機器學習
機器學習第5篇：knn迴歸
2020-11-02
機器學習KNN
機器學習筆記(2): Logistic 迴歸
2024-06-07
機器學習筆記
【機器學習】線性迴歸預測
2022-06-23
機器學習
機器學習6-迴歸改進
2021-01-21
機器學習
機器學習5-線性迴歸
2021-01-20
機器學習
人工智慧之機器學習線代基礎——矩陣分類
2024-11-20
人工智慧機器學習矩陣
機器學習讀書筆記：貝葉斯分類器
2020-10-05
機器學習筆記
從零開始學機器學習——分類器詳解
2024-10-16
機器學習
機器學習演算法：Logistic迴歸學習筆記
2018-05-29
機器學習演算法筆記
【機器學習】線性迴歸python實現
2019-01-17
機器學習Python

【機器學習基礎】CART--分類迴歸樹完全解讀

相關文章