「AI 科普」一文看懂決策樹（3個步驟+3種典型演算法+10個優缺點）

AIBigbull2050發表於2019-09-18

原文網址 : http://blog.itpub.net/69946223/viewspace-2657368/

AI演算法

2019-09-17 20:01:00

決策樹是一種邏輯簡單的機器學習演算法，它是一種樹形結構，所以叫決策樹。

本文將介紹決策樹的基本概念、決策樹學習的 3 個步驟、3 種典型的決策樹演算法、決策樹的 10 個優缺點。

什麼是決策樹？

決策樹是一種解決分類問題的演算法，決策樹演算法採用樹形結構，使用層層推理來實現最終的分類。決策樹由下面幾種元素構成：

根節點：包含樣本的全集
內部節點：對應特徵屬性測試
葉節點：代表決策的結果

預測時，在樹的內部節點處用某一屬性值進行判斷，根據判斷結果決定進入哪個分支節點，直到到達葉節點處，得到分類結果。

這是一種基於 if-then-else 規則的有監督學習演算法，決策樹的這些規則通過訓練得到，而不是人工制定的。

決策樹是最簡單的機器學習演算法，它易於實現，可解釋性強，完全符合人類的直觀思維，有著廣泛的應用。

舉個例子：

上面的說法過於抽象，下面來看一個實際的例子。銀行要用機器學習演算法來確定是否給客戶發放貸款，為此需要考察客戶的年收入，是否有房產這兩個指標。領導安排你實現這個演算法，你想到了最簡單的線性模型，很快就完成了這個任務。

首先判斷客戶的年收入指標。如果大於20萬，可以貸款；否則繼續判斷。然後判斷客戶是否有房產。如果有房產，可以貸款；否則不能貸款。

這個例子的決策樹如下圖所示：

決策樹學習的 3 個步驟

特徵選擇

特徵選擇決定了使用哪些特徵來做判斷。在訓練資料集中，每個樣本的屬性可能有很多個，不同屬性的作用有大有小。因而特徵選擇的作用就是篩選出跟分類結果相關性較高的特徵，也就是分類能力較強的特徵。

在特徵選擇中通常使用的準則是：資訊增益。

決策樹生成

選擇好特徵後，就從根節點觸發，對節點計算所有特徵的資訊增益，選擇資訊增益最大的特徵作為節點特徵，根據該特徵的不同取值建立子節點；對每個子節點使用相同的方式生成新的子節點，直到資訊增益很小或者沒有特徵可以選擇為止。

決策樹剪枝

剪枝的主要目的是對抗「過擬合」，通過主動去掉部分分支來降低過擬合的風險。

3 種典型的決策樹演算法

ID3 演算法

ID3 是最早提出的決策樹演算法，他就是利用資訊增益來選擇特徵的。

C4.5 演算法

他是 ID3 的改進版，他不是直接使用資訊增益，而是引入“資訊增益比”指標作為特徵的選擇依據。

CART（Classification and Regression Tree）

這種演算法即可以用於分類，也可以用於迴歸問題。CART 演算法使用了基尼係數取代了資訊熵模型。

決策樹的優缺點

優點

決策樹易於理解和解釋，可以視覺化分析，容易提取出規則；
可以同時處理標稱型和數值型資料；
比較適合處理有缺失屬性的樣本；
能夠處理不相關的特徵；
測試資料集時，執行速度比較快；
在相對短的時間內能夠對大型資料來源做出可行且效果良好的結果。

缺點

容易發生過擬合（隨機森林可以很大程度上減少過擬合）；
容易忽略資料集中屬性的相互關聯；
對於那些各類別樣本數量不一致的資料，在決策樹中，進行屬性劃分時，不同的判定準則會帶來不同的屬性選擇傾向；資訊增益準則對可取數目較多的屬性有所偏好（典型代表ID3演算法），而增益率準則（CART）則對可取數目較少的屬性有所偏好，但CART進行屬性劃分時候不再簡單地直接利用增益率盡心劃分，而是採用一種啟發式規則）（只要是使用了資訊增益，都有這個缺點，如RF）。
ID3演算法計算資訊增益時結果偏向數值比較多的特徵。

https://www.toutiao.com/a6737575749210866179/

來自 “ ITPUB部落格 ” ，連結：http://blog.itpub.net/69946223/viewspace-2657368/，如需轉載，請註明出處，否則將追究法律責任。

一文看懂自然語言生成 - NLG（6個實現步驟+3個典型應用）
2019-08-02
一文看懂自然語言處理-NLP（4個典型應用+5個難點+6個實現步驟）
2019-09-20
自然語言處理
一文看懂NLP裡的分詞（中英文區別+3 大難點+3 種典型方法）
2019-08-09
分詞
Python 的 3 個主要缺點及其解決方案
2020-05-04
Python
決策樹模型(3)決策樹的生成與剪枝
2024-03-28
模型
無伺服器計算的5個優點和3個缺點 - TechRepublic
2019-07-03
伺服器
鵝廠優文 | 決策樹及ID3演算法學習
2018-03-20
演算法
一文看懂人工智慧裡的演算法（4個特徵+3個演算法選擇 Tips）
2020-03-19
人工智慧演算法特徵
一文看懂RPA的3種部署模式
2019-09-02
模式
一文帶你看懂Springboot核心功能及優缺點
2020-04-06
Spring Boot
ML《決策樹（一）ID3》
2020-12-27
【西瓜書筆記】3. 決策樹
2020-12-06
筆記
決策樹演算法
2022-03-07
演算法
YOLO演算法(三)—— Yolov3 & Yolo系列網路優缺點
2020-10-06
YOLO演算法
樹脂3D印表機的優缺點是什麼樹脂3D印表機的區別
2022-03-25
3D
一文看懂YOLO v3
2020-10-11
YOLO
winscp教程，winscp教程，小白都能學會的3個步驟
2020-09-18
成為專業人士的3個步驟，拿走不謝！
2022-12-21
Kmeans演算法優缺點
2020-02-23
演算法
一文看懂個稅改革
2019-01-03
將你的應用遷移到 Python 3 的三個步驟
2019-12-20
Python
恆訊科技分享：vps搭建wordpress網站的3個步驟
2021-06-23
網站
商業智慧BI的五個優缺點
2022-02-21
【面試考】【入門】決策樹演算法ID3，C4.5和CART
2020-05-24
面試演算法
決策樹模型(4)Cart演算法
2024-04-09
模型演算法
決策樹演算法-實戰篇
2020-11-16
演算法
決策樹演算法-理論篇
2020-11-09
演算法
3個步驟輕鬆整合Push Kit，實現App訊息推送
2024-10-10
APP
一個Tomcat 如何部署多個專案？附多種解決方案及詳細步驟！
2020-06-09
Tomcat
一文掌握5種常用的機器學習模型及其優缺點
2020-09-15
機器學習模型
分享6個Java框架及優缺點介紹
2019-05-07
Java框架
Windows、Linux、Unix哪個更好用?優缺點分析！
2021-03-30
WindowsLinux
決策樹
2024-07-27
Oracle9i RMAN 的優缺點及RMAN 備份及恢復步驟
2018-07-16
Oracle
優思學院｜3步驟計算出Cpk｜學習Minitab
2024-02-29
迴歸樹（Regression Trees）模型的優缺點
2020-02-24
模型
機器學習之決策樹ID3(python實現)
2019-02-27
機器學習Python
基於資訊增益的ID3決策樹介紹。
2018-03-17

「AI 科普」一文看懂決策樹（3個步驟+3種典型演算法+10個優缺點）

什麼是決策樹？

決策樹學習的 3 個步驟

3 種典型的決策樹演算法

決策樹的優缺點

相關文章