《資料探勘概念與技術》第八章 分類:基本概念

JoyceCoder發表於2019-01-10

分類

本章中講到了三種分類方法:

決策樹分類

在決策樹分類中詳細介紹了三種決策樹的屬性選擇度量:

資訊增益

分割槽D為標記類元組的訓練集。
D的熵,即所需要的期望資訊為:
在這裡插入圖片描述

按某屬性A劃分D,則該期望值為:
在這裡插入圖片描述
屬性A的資訊增益值為:
在這裡插入圖片描述
ID3採用資訊增益。
資訊增益度量偏向於具有許多輸出的測試,即偏向具有大量值的屬性。

增益率

但若每個屬性的元組個數為1,此時的資訊增益無法對屬性的劃分提供有效資訊。
以屬性A劃分D,劃分點的值:
在這裡插入圖片描述
增益率:
在這裡插入圖片描述
C4.5採用增益率。
增益率的出現即試圖克服資訊增益的偏倚。但增益率傾向於產生不平衡的劃分,其中一個分割槽比其他分割槽小得多。
資訊增益度量關於分類基於同樣劃分的所獲得的資訊。

Gini指數

Gini指數定義為:
在這裡插入圖片描述
以屬性A劃分的基尼指數為:
在這裡插入圖片描述
屬性A的不純度為:
在這裡插入圖片描述
CART使用基尼指數。
基尼指數度量資料分割槽或訓練元組集D的不純度。最終選擇基尼指數最小的指數,會產生較大的不純度。
基尼指數偏向於多值屬性,並且當類的數量過大時,由於計算量較大,會有困難。傾向於導致相等大小的分割槽和純度。

樸素貝葉斯分類

首先介紹貝葉斯定理中的基本概念:
在這裡插入圖片描述
即將預測X 具有最高後驗概率的類。

後驗概率

P(H|X)是後驗概率。或在條件X下,H的後驗概率。假設資料元組限於分別由屬性age和income描述的顧客,而X是一位25歲,收入為4萬元的顧客。令H為某種假設,如顧客將購買計算機。
則P(H|X)反映當已知顧客X的屬性值時,顧客X購買計算機的概率。

先驗概率

P(H),H的先驗概率。是任意給定顧客將購買計算機的概率,而不管他們的年齡、收入等。P(H)獨立於X。

樸素貝葉斯樸素在哪裡?

樸素貝葉斯假定一個屬性值在給定類上的影響獨立於其他屬性的值。這一假定成為類條件獨立性。
也就是簡化了P(X|H)的計算。

對於存在零概率值時,應如何處理?

拉普拉斯估計法:對q個類的計數都加上1,在對應分母上都加上q。

IF-THEN規則分類

模型評估與選擇

評估分類器效能度量

混淆矩陣用來評估分類器的質量,對於二分類問題,它顯示真正例TP、真負例TN、假正例FP、假負例FN。
在這裡插入圖片描述
而評估效能度量包括:
準確率、靈敏度(召回率)、特效性、精度、F1和Fp。
在這裡插入圖片描述

當感興趣的主類佔少數時,過分依賴準確率度量可能受騙
3%例子。

資料集劃分

  • 保持
  • 隨機抽樣
  • 交叉驗證(k-fold)
  • 自助法

顯著性檢驗和ROC、AUC曲線

顯著性檢驗用來評估兩個分類器準確率的差別是否出於偶然。(這個很有用)
ROC曲線繪製一個或多個分類器的真正例率與假正例率。

提升模型準確度:組合方法

  • 裝袋(有放回抽樣)
  • 提升(有權重)
  • 隨機森林(決策樹)

類不平衡問題

  • 過抽樣和欠抽樣
  • 閾值移動
  • 組合技術

相關文章