決策樹演算法-實戰篇

碼農充電站發表於2020-11-16

公號:碼農充電站pro
主頁:https://codeshellme.github.io

上篇文章介紹了決策樹演算法的理論篇,本節來介紹如何用決策樹解決實際問題。

決策樹是常用的機器學習演算法之一,決策樹模型的決策過程非常類似人類做判斷的過程,比較好理解。

決策樹可用於很多場景,比如金融風險評估,房屋價格評估,醫療輔助診斷等。

要使用決策樹演算法,我們先來介紹一下 scikit-learn

1,scikit-learn

scikit-learn 是基於Python 的一個機器學習庫,簡稱為sklearn,其中實現了很多機器學習演算法。我們可以通過sklearn 官方手冊 來學習如何使用它。

sklearn 自帶資料集

要進行資料探勘,首先得有資料。sklearn 庫的datasets 模組中自帶了一些資料集,可以方便我們使用。

sklearn 自帶資料集:

  1. 鳶尾花資料集:load_iris()
  2. 乳腺癌資料集:load_breast_cancer()
  3. 手寫數字資料集:load_digits()
  4. 糖尿病資料集:load_diabetes()
  5. 波士頓房價資料集:load_boston()
  6. 體能訓練資料集:load_linnerud()
  7. 葡萄酒產地資料集:load_wine()

冒號後邊是每個資料集對應的函式,可以使用相應的函式來匯入資料。

比如我們用如下程式碼匯入鳶尾花資料集

from sklearn.datasets import load_iris
iris = load_iris()

使用dir(iris) 檢視iris 中包含哪些屬性:

>>> dir(iris)
['DESCR', 'data', 'feature_names', 'filename', 'frame', 'target', 'target_names']

2,sklearn 中的決策樹

sklearn 庫的tree 模組實現了兩種決策樹:

  • sklearn.tree.DecisionTreeClassifier 類:分類樹的實現。
  • sklearn.tree.DecisionTreeRegressor 類:迴歸樹的實現。

分類樹用於預測離散型數值,迴歸樹用於預測連續性數值。

sklearn 只實現了預剪枝,沒有實現後剪枝

DecisionTreeClassifier 類的建構函式

def __init__(self, *,
       criterion="gini",
       splitter="best",
       max_depth=None,
       min_samples_split=2,
       min_samples_leaf=1,
       min_weight_fraction_leaf=0.,
       max_features=None,
       random_state=None,
       max_leaf_nodes=None,
       min_impurity_decrease=0.,
       min_impurity_split=None,
       class_weight=None,
       ccp_alpha=0.0):

DecisionTreeClassifier 類的建構函式中的criterion 引數有2 個取值:

  • entropy:表示使用 ID3 演算法(資訊增益)構造決策樹。
  • gini:表示使用CART 演算法(基尼係數)構造決策樹,為預設值。

其它引數可使用預設值。

sklearn 庫中的決策分類樹只實現了ID3 演算法和CART 演算法。

DecisionTreeRegressor 類的建構函式

def __init__(self, *,
      criterion="mse",
      splitter="best",
      max_depth=None,
      min_samples_split=2,
      min_samples_leaf=1,
      min_weight_fraction_leaf=0.,
      max_features=None,
      random_state=None,
      max_leaf_nodes=None,
      min_impurity_decrease=0.,
      min_impurity_split=None,
      ccp_alpha=0.0):

DecisionTreeRegressor 類的建構函式中的criterion 引數有4 個取值:

  • mse:表示均方誤差演算法,為預設值。
  • friedman_mse:表示費爾德曼均方誤差演算法。
  • mae:表示平均誤差演算法。
  • poisson:表示泊松偏差演算法。

其它引數可使用預設值。

3,構造分類樹

我們使用 sklearn.datasets 模組中自帶的鳶尾花資料集 構造一顆決策樹。


在這裡插入圖片描述


3.1,鳶尾花資料集

鳶尾花資料集目的是通過花瓣的長度和寬度,及花萼的長度和寬度,預測出花的品種。

這個資料集包含150條資料,將鳶尾花分成了三類(每類是50條資料),分別是:

  • setosa,用數字0 表示。
  • versicolor,用數字1 表示。
  • virginica,用數字2 表示。

我們抽出3 條資料如下:

5.1,3.5,1.4,0.2,0
6.9,3.1,4.9,1.5,1
5.9,3.0,5.1,1.8,2

資料的含義:

  • 每條資料包含5 列,列與列之間用逗號隔開。
  • 從第1 列到第5 列,每列代表的含義是:花萼長度花萼寬度花瓣長度花瓣寬度花的品種
  • 在機器學習中,前4列稱為特徵值,最後1列稱為目標值。我們的目的就是用特徵值預測出目標值。

將上面3 條資料,用表格表示就是:

花萼長度 花萼寬度 花瓣長度 花瓣寬度 花的品種
5.1 3.5 1.4 0.2 0
6.9 3.1 4.9 1.5 1
5.9 3.0 5.1 1.8 2

3.2,構造分類樹

首先匯入必要的類和函式:

from sklearn.tree import DecisionTreeClassifier
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

其中:

  • DecisionTreeClassifier 類用於構造決策樹。
  • load_iris() 函式用於匯入資料。
  • train_test_split() 函式用於將資料集拆分成訓練集與測試集。
  • accuracy_score() 函式用於為模型的準確度進行評分。

匯入資料集:

iris = load_iris()   	# 準備資料集
features = iris.data	# 獲取特徵集
labels = iris.target    # 獲取目標集

將資料分成訓練集測試集,訓練集用於訓練模型,測試集用於測試模型的準確度。

train_features, test_features, train_labels, test_labels = 
	train_test_split(features, labels, test_size=0.33, random_state=0)

我們向train_test_split() 函式中傳遞了4 個引數,分別是:

  • features:特徵集。
  • labels:目標集。
  • test_size=0.33:測試集資料所佔百分比,剩下的資料分給訓練集。
  • random_state=0:隨機數種子。

該函式返回4 個值,分別是:

  • train_features:訓練特徵集。
  • test_features:測試特徵集。
  • train_labels:訓練目標集。
  • test_labels:測試目標集。

接下來構造決策樹:

# 用CART 演算法構建分類樹(你也可以使用ID3 演算法構建)
clf = DecisionTreeClassifier(criterion='gini')

# 用訓練集擬合構造CART分類樹
clf = clf.fit(train_features, train_labels)

上面兩句程式碼已經在註釋中說明,最終我們得到了決策樹clfclassifier 的縮寫)。

clf 預測測試集資料,test_predict 為預測結果:

test_predict = clf.predict(test_features)

計算預測結果的準確率:

score = accuracy_score(test_labels, test_predict)
score2 = clf.score(test_features, test_labels)
print(score, score2)

最終得出,sorcescore2都為 0.96,意思就是我們訓練出的模型的準確率為96%

函式accuracy_score()clf.score() 都可以計算模型的準確率,但注意這兩個函式的引數不同。

4,列印決策樹

為了清楚的知道,我們構造出的這個決策樹cfl 到底是什麼樣子,可使用 graphviz 模組將決策樹畫出來。

程式碼如下:

from sklearn.tree import export_graphviz
import graphviz

# clf 為決策樹物件
dot_data = export_graphviz(clf)
graph = graphviz.Source(dot_data)

# 生成 Source.gv.pdf 檔案,並開啟
graph.view()

為了畫出決策樹,除了需要安裝相應的 Python 模組外,還需要安裝Graphviz 軟體。

由上面的程式碼,我們得到的決策樹圖如下:


在這裡插入圖片描述


我們以根節點為例,來解釋一下每個方框裡的四行資料(葉子節點是三行資料)都是什麼意思。


在這裡插入圖片描述


四行資料所代表的含義:

  • 第一行X[3]<=0.75:鳶尾花資料集的特徵集有4 個屬性,所以對於X[n]中的n的取值範圍為0<=n<=3X[0] 表示第1個屬性,X[3] 表示第4 個屬性。X[3]<=0.75 的意思就是當X[3] 屬性的值小於等於0.75 的時候,走左子樹,否則走右子樹。
    • X[0] 表示花萼長度。
    • X[1] 表示花萼寬度。
    • X[2] 表示花瓣長度。
    • X[3] 表示花瓣寬度。
  • 第二行gini=0.666,表示當前的gini 係數值。
  • 第三行samples=100samples 表示當前的樣本數。我們知道整個資料集有150 條資料,我們選擇了0.33 百分比作為測試集,那麼訓練集的資料就佔0.67,也就是100 條資料。根節點包含所有樣本集,所以根節點的samples 值為100。
  • 第四行valuevalue 表示屬於該節點的每個類別的樣本個數,value 是一個陣列,陣列中的元素之和為samples 值。我們知道該資料集的目標集中共有3 個類別,分別為:setosaversicolorvirginica。所以:
    • value[0] 表示該節點中setosa 種類的資料量,即34。
    • value[1] 表示該節點中versicolor 種類的資料量,即31。
    • value[2] 表示該節點中virginica 種類的資料量,即35。

4.1,列印特徵重要性

我們構造出來的決策樹物件clf 中,有一個feature_importances_ 屬性,如下:

>>> clf.feature_importances_
array([0, 0.02252929, 0.88894654, 0.08852417])

clf.feature_importances_ 是一個陣列型別,裡邊的元素分別代表對應特徵的重要性,所有元素之和為1。元素的值越大,則對應的特徵越重要。

所以,從這個陣列,我們可以知道,四個特徵的重要性排序為:

  • 花瓣長度 > 花瓣寬度 > 花萼寬度 > 花萼長度

我們可以使用下面這個函式,將該陣列畫成柱狀圖:

import matplotlib.pyplot as plt
import numpy as np

# mode 是我們訓練出的模型,即決策樹物件
# data 是原始資料集
def plot_feature_importances(model, data):
    n_features = data.data.shape[1]
    plt.barh(range(n_features), model.feature_importances_, align='center')
    plt.yticks(np.arange(n_features), data.feature_names)
    plt.xlabel("Feature importance")
    plt.ylabel("Feature")

    plt.show()

plot_feature_importances(clf, iris)

下圖是用plot_feature_importances() 函式生成的柱狀圖(紅字是我新增的),從圖中可以清楚的看出每個特種的重要性。

在這裡插入圖片描述
從該圖中也可以看出,為什麼決策樹的根節點的特徵是X[3]

5,構造迴歸樹

我們已經用鳶尾花資料集構造了一棵分類樹,下面我們用波士頓房價資料集構造一顆迴歸樹。

來看幾條資料:

在這裡插入圖片描述

首先,我們認為房價是有很多因素影響的,在這個資料集中,影響房價的因素有13 個:

  1. "CRIM",人均犯罪率。
  2. "ZN",住宅用地佔比。
  3. "INDUS",非商業用地佔比。
  4. "CHAS",查爾斯河虛擬變數,用於迴歸分析。
  5. "NOX",環保指數。
  6. "RM",每個住宅的房間數。
  7. "AGE",1940 年之前建成的房屋比例。
  8. "DIS",距離五個波士頓就業中心的加權距離。
  9. "RAD",距離高速公路的便利指數。
  10. "TAX",每一萬美元的不動產稅率。
  11. "PTRATIO",城鎮中教師學生比例。
  12. "B",城鎮中黑人比例。
  13. "LSTAT",地區有多少百分比的房東屬於是低收入階層。

資料中的最後一列的資料是房價:

  1. "MEDV" ,自住房屋房價的中位數。

因為房價是一個連續值,而不是離散值,所以需要構建一棵迴歸樹

下面對資料進行建模,構造迴歸樹使用DecisionTreeRegressor 類:

from sklearn.tree import DecisionTreeRegressor
from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split
from sklearn.metrics import r2_score, mean_absolute_error, mean_squared_error

# 準備資料集
boston = load_boston()

# 獲取特徵集和房價
features = boston.data
prices = boston.target

# 隨機抽取33% 的資料作為測試集,其餘為訓練集
train_features, test_features, train_price, test_price = 
    train_test_split(features, prices, test_size=0.33)

# 建立CART迴歸樹
dtr = DecisionTreeRegressor()

# 擬合構造CART迴歸樹
dtr.fit(train_features, train_price)

# 預測測試集中的房價
predict_price = dtr.predict(test_features)

# 測試集的結果評價
print('迴歸樹準確率:', dtr.score(test_features, test_price)) 
print('迴歸樹r2_score:', r2_score(test_price, predict_price)) 
print('迴歸樹二乘偏差均值:', mean_squared_error(test_price, predict_price))
print('迴歸樹絕對值偏差均值:', mean_absolute_error(test_price, predict_price)) 

最後四行程式碼是計算模型的準確度,這裡用了4 種方法,輸出如下:

迴歸樹準確率: 0.7030833400349499
迴歸樹r2_score: 0.7030833400349499
迴歸樹二乘偏差均值: 28.40730538922156
迴歸樹絕對值偏差均值: 3.6275449101796404

需要注意,迴歸樹與分類樹預測準確度的方法不一樣:

  • dtr.score():與分類樹類似,不多說。
  • r2_score():表示R 方誤差,結果與 dtr.score() 一樣,取值範圍是0 到1。
  • mean_squared_error():表示均方誤差,數值越小,代表準確度越高。
  • mean_absolute_error():表示平均絕對誤差,數值越小,代表準確度越高。

可以用下面程式碼,將構建好的決策樹畫成圖:

from sklearn.tree import export_graphviz
import graphviz

# dtr 為決策樹物件
dot_data = export_graphviz(dtr)
graph = graphviz.Source(dot_data)

# 生成 Source.gv.pdf 檔案,並開啟
graph.view()

這棵二叉樹比較大,你可以自己生成看一下。

再來執行下面程式碼,看下特徵重要性:

import matplotlib.pyplot as plt
import numpy as np

# mode 是我們訓練出的模型,即決策樹物件
# data 是原始資料集
def plot_feature_importances(model, data):
    n_features = data.data.shape[1]
    plt.barh(range(n_features), model.feature_importances_, align='center')
    plt.yticks(np.arange(n_features), data.feature_names)
    plt.xlabel("Feature importance")
    plt.ylabel("Feature")

    plt.show()

plot_feature_importances(dtr, boston)

從生成的柱狀圖,可以看到LSTAT 對房價的影響最大:
在這裡插入圖片描述

6,關於資料準備

本文中用到的資料是sklearn 中自帶的資料,資料完整性比較好,所以我們沒有對資料進行預處理。實際專案中,可能資料比較雜亂,所以在構建模型之前,先要對資料進行預處理。

  1. 要對資料有個清楚的認識,每個特徵的含義。如果有特別明顯的特徵對我們要預測的目標集沒有影響,則要將這些資料從訓練集中刪除。

  2. 如果某些特徵有資料缺失,需要對資料進行補全,可以使用著名的 Pandas 模組對資料進行預處理。如果某特徵的資料缺失嚴重,則應該將其從訓練集中刪除。對於需要補全的值:

    • 如果缺失的值是離散型資料,可以用出現次數最多的值去補全缺失值。
    • 如果缺失的值是連續型資料,可以用該特徵的平均值去補全缺失值。
  3. 如果某些特徵的值是字串型別資料,則需要將這些資料轉為數值型資料。

    • 可以使用 sklearn.feature_extraction 模組中的 DictVectorizer 類來處理(轉換成數字0/1)。
  4. 在測試模型的準確率時,如果測試集中只有特徵值沒有目標值,就不好對測試結果進行驗證。此時有兩種方法來測試模型準確率:

    • 在構造模型之前,用 train_test_split() 函式將原始資料集(含有目標集)拆分成訓練集和測試集。
    • 使用 sklearn.model_selection 模組中的 cross_val_score 函式進行K 折交叉驗證來計算準確率。

K 折交叉驗證原理很簡單

  1. 將資料集平均分成K 個等份,K 一般取10
  2. 使用K 份中的1 份作為測試資料,其餘為訓練資料,然後進行準確率計算。
  3. 進行多次以上步驟,求平均值。

7,總結

本篇文章介紹瞭如何用決策樹來處理實際問題。主要介紹了以下知識點:

  • sklearn 是基於 Python 的一個機器學習庫。
  • sklearn.datasets 模組中有一些自帶資料集供我們使用。
  • sklearn.tree 中的兩個類來構建分類樹和迴歸樹:
    • DecisionTreeClassifier 類:構造決策分類樹,用於預測離散值。
    • DecisionTreeRegressor 類:構造決策迴歸樹,用於預測連續值。
  • 分別介紹了兩個類的建構函式中的 criterion 引數的含義。
  • 介紹了幾個重要函式的用途:
    • train_test_split() 函式用於拆分資料集。
    • o.fit() 用於擬合決策樹。(o 表示決策樹物件)
    • o.predict() 用於預測資料。
    • o.score() 用於給模型的準確度評分。
    • accuracy_score() 函式用於給分類樹模型評分。
    • r2_score() 函式用於給迴歸樹模型評分。
    • mean_squared_error() 函式用於給迴歸樹模型評分。
    • mean_absolute_error() 函式用於給迴歸樹模型評分。
  • 介紹瞭如何給決策樹畫圖。
  • 介紹瞭如何給特徵重要性畫圖。

(本節完。)


推薦閱讀:

決策樹演算法-理論篇


歡迎關注作者公眾號,獲取更多技術乾貨。

碼農充電站pro

相關文章