演算法雜貨鋪：分類演算法之決策樹(Decision tree)

發表於2015-04-28

3.1、摘要

在前面兩篇文章中，分別介紹和討論了樸素貝葉斯分類與貝葉斯網路兩種分類演算法。這兩種演算法都以貝葉斯定理為基礎，可以對分類及決策問題進行概率推斷。在這一篇文章中，將討論另一種被廣泛使用的分類演算法——決策樹（decision tree）。相比貝葉斯演算法，決策樹的優勢在於構造過程不需要任何領域知識或引數設定，因此在實際應用中，對於探測式的知識發現，決策樹更加適用。

3.2、決策樹引導

通俗來說，決策樹分類的思想類似於找物件。現想象一個女孩的母親要給這個女孩介紹男朋友，於是有了下面的對話：

女兒：多大年紀了？

母親：26。

女兒：長的帥不帥？

母親：挺帥的。

女兒：收入高不？

母親：不算很高，中等情況。

女兒：是公務員不？

母親：是，在稅務局上班呢。

女兒：那好，我去見見。

這個女孩的決策過程就是典型的分類樹決策。相當於通過年齡、長相、收入和是否公務員對將男人分為兩個類別：見和不見。假設這個女孩對男人的要求是：30歲以下、長相中等以上並且是高收入者或中等以上收入的公務員，那麼這個可以用下圖表示女孩的決策邏輯（宣告：此決策樹純屬為了寫文章而YY的產物，沒有任何根據，也不代表任何女孩的擇偶傾向，請各位女同胞莫質問我^_^）：

上圖完整表達了這個女孩決定是否見一個約會物件的策略，其中綠色節點表示判斷條件，橙色節點表示決策結果，箭頭表示在一個判斷條件在不同情況下的決策路徑，圖中紅色箭頭表示了上面例子中女孩的決策過程。

這幅圖基本可以算是一顆決策樹，說它“基本可以算”是因為圖中的判定條件沒有量化，如收入高中低等等，還不能算是嚴格意義上的決策樹，如果將所有條件量化，則就變成真正的決策樹了。

有了上面直觀的認識，我們可以正式定義決策樹了：

決策樹（decision tree）是一個樹結構（可以是二叉樹或非二叉樹）。其每個非葉節點表示一個特徵屬性上的測試，每個分支代表這個特徵屬性在某個值域上的輸出，而每個葉節點存放一個類別。使用決策樹進行決策的過程就是從根節點開始，測試待分類項中相應的特徵屬性，並按照其值選擇輸出分支，直到到達葉子節點，將葉子節點存放的類別作為決策結果。

可以看到，決策樹的決策過程非常直觀，容易被人理解。目前決策樹已經成功運用於醫學、製造產業、天文學、分支生物學以及商業等諸多領域。知道了決策樹的定義以及其應用方法，下面介紹決策樹的構造演算法。

3.3、決策樹的構造

不同於貝葉斯演算法，決策樹的構造過程不依賴領域知識，它使用屬性選擇度量來選擇將元組最好地劃分成不同的類的屬性。所謂決策樹的構造就是進行屬性選擇度量確定各個特徵屬性之間的拓撲結構。

構造決策樹的關鍵步驟是分裂屬性。所謂分裂屬性就是在某個節點處按照某一特徵屬性的不同劃分構造不同的分支，其目標是讓各個分裂子集儘可能地“純”。儘可能“純”就是儘量讓一個分裂子集中待分類項屬於同一類別。分裂屬性分為三種不同的情況：

1、屬性是離散值且不要求生成二叉決策樹。此時用屬性的每一個劃分作為一個分支。

2、屬性是離散值且要求生成二叉決策樹。此時使用屬性劃分的一個子集進行測試，按照“屬於此子集”和“不屬於此子集”分成兩個分支。

3、屬性是連續值。此時確定一個值作為分裂點split_point，按照>split_point和<=split_point生成兩個分支。

構造決策樹的關鍵性內容是進行屬性選擇度量，屬性選擇度量是一種選擇分裂準則，是將給定的類標記的訓練集合的資料劃分D“最好”地分成個體類的啟發式方法，它決定了拓撲結構及分裂點split_point的選擇。

屬性選擇度量演算法有很多，一般使用自頂向下遞迴分治法，並採用不回溯的貪心策略。這裡介紹ID3和C4.5兩種常用演算法。

3.3.1、ID3演算法

從資訊理論知識中我們直到，期望資訊越小，資訊增益越大，從而純度越高。所以ID3演算法的核心思想就是以資訊增益度量屬性選擇，選擇分裂後資訊增益最大的屬性進行分裂。下面先定義幾個要用到的概念。

設D為用類別對訓練元組進行的劃分，則D的熵（entropy）表示為：

$info(D)=-\sum ^m_{i=1}p_ilog_2(p_i)$

其中pi表示第i個類別在整個訓練元組中出現的概率，可以用屬於此類別元素的數量除以訓練元組元素總數量作為估計。熵的實際意義表示是D中元組的類標號所需要的平均資訊量。

現在我們假設將訓練元組D按屬性A進行劃分，則A對D劃分的期望資訊為：

$info_A(D)=\sum ^v_{j=1}\frac{|D_j|}{|D|}info(D_j)$

而資訊增益即為兩者的差值：

ID3演算法就是在每次需要分裂時，計算每個屬性的增益率，然後選擇增益率最大的屬性進行分裂。下面我們繼續用SNS社群中不真實賬號檢測的例子說明如何使用ID3演算法構造決策樹。為了簡單起見，我們假設訓練集合包含10個元素：

其中s、m和l分別表示小、中和大。

設L、F、H和R表示日誌密度、好友密度、是否使用真實頭像和賬號是否真實，下面計算各屬性的資訊增益。

$info_L(D)=0.3*(-\frac{0}{3}log_2\frac{0}{3}-\frac{3}{3}log_2\frac{3}{3})+0.4*(-\frac{1}{4}log_2\frac{1}{4}-\frac{3}{4}log_2\frac{3}{4})+0.3*(-\frac{1}{3}log_2\frac{1}{3}-\frac{2}{3}log_2\frac{2}{3})=0+0.326+0.277=0.603$