機器學習——決策樹模型

qqq123qqq發表於2023-12-26

談起 過年 回家的年輕人最怕什麼、最煩 什麼?無外乎 就是面對 那些七大姑、八大姨的催結婚、催生子、催相親、催買房 …… 說起這些親戚們是如何判斷催什麼,不得不讓我們想起經典的決策樹模型。

決策樹是一個用於分類和迴歸的機器學習模型。透過對輸入 物件 資料特徵進行一系列 條件劃分 構建一個樹狀結構的決策模型。每個內部節點表示一個特徵或屬性,每個分支代表該特徵的一個可能取值,而每個葉節點代表一個類別標籤或數值輸出。 我們的親戚就是透過條件分類,從而判斷出 “催什麼”。

決策樹的構建過程通常從根節點開始,根據某個特徵的取值將資料集分成不同的子集。然後對每個子集遞迴地應用相同的步驟,直到滿足某個停止條件,例如達到最大深度、子集樣本數量小於某個閾值等。在構建過程中,可以使用不同的劃分準則來選擇最優的特徵和劃分點,例如資訊增益、基尼指數等。

決策樹的優點包括可解釋性強、處理離散和連續特徵都較好、對缺失值和異常值有較好的容錯能力。然而,決策樹容易過擬合、對於某些問題可能存在區域性最優解,並且對於特徵之間的關聯關係不夠敏感。

為了減少過擬合,可以採用剪枝操作,即透過降低模型複雜度來提高泛化能力。常見的剪枝方法有預剪枝和後剪枝。預剪枝在構建過程中進行模型評估,若劃分不再有效則停止劃分;後剪枝則先構建完整的決策樹,然後透過剪去子樹並比較泛化能力來判斷是否進行剪枝操作。

決策樹模型經典的演算法一般認為包含: ID3 演算法 C4.5 演算法 CART 演算法

ID3 演算法 核心是在決策樹各個節點上應用資訊增益準則選擇特徵,遞迴地構建決策樹。演算法表示如下:

C4.5 演算法 在生成決策樹的過程中,改用資訊增益比來選擇特徵。 簡單說是透過輸入訓練資料集、 特徵集A 閾值 ,從而輸出:決策樹 T

CART 演算法 由特徵選擇既可用於分類也可用於迴歸,透過構建樹、修剪樹、評估樹來構建二叉樹。當終結點是連續變數時,該樹為迴歸樹;當終結點是分類變數,該樹為分類樹

 


來自 “ ITPUB部落格 ” ,連結:https://blog.itpub.net/70031268/viewspace-3001550/,如需轉載,請註明出處,否則將追究法律責任。

相關文章