《資料探勘概念與技術》第八章 分類:基本概念
分類
本章中講到了三種分類方法:
決策樹分類
在決策樹分類中詳細介紹了三種決策樹的屬性選擇度量:
資訊增益
分割槽D為標記類元組的訓練集。
D的熵,即所需要的期望資訊為:
按某屬性A劃分D,則該期望值為:
屬性A的資訊增益值為:
ID3採用資訊增益。
資訊增益度量偏向於具有許多輸出的測試,即偏向具有大量值的屬性。
增益率
但若每個屬性的元組個數為1,此時的資訊增益無法對屬性的劃分提供有效資訊。
以屬性A劃分D,劃分點的值:
增益率:
C4.5採用增益率。
增益率的出現即試圖克服資訊增益的偏倚。但增益率傾向於產生不平衡的劃分,其中一個分割槽比其他分割槽小得多。
資訊增益度量關於分類基於同樣劃分的所獲得的資訊。
Gini指數
Gini指數定義為:
、
以屬性A劃分的基尼指數為:
屬性A的不純度為:
CART使用基尼指數。
基尼指數度量資料分割槽或訓練元組集D的不純度。最終選擇基尼指數最小的指數,會產生較大的不純度。
基尼指數偏向於多值屬性,並且當類的數量過大時,由於計算量較大,會有困難。傾向於導致相等大小的分割槽和純度。
樸素貝葉斯分類
首先介紹貝葉斯定理中的基本概念:
即將預測X 具有最高後驗概率的類。
後驗概率
P(H|X)是後驗概率。或在條件X下,H的後驗概率。假設資料元組限於分別由屬性age和income描述的顧客,而X是一位25歲,收入為4萬元的顧客。令H為某種假設,如顧客將購買計算機。
則P(H|X)反映當已知顧客X的屬性值時,顧客X購買計算機的概率。
先驗概率
P(H),H的先驗概率。是任意給定顧客將購買計算機的概率,而不管他們的年齡、收入等。P(H)獨立於X。
樸素貝葉斯樸素在哪裡?
樸素貝葉斯假定一個屬性值在給定類上的影響獨立於其他屬性的值。這一假定成為類條件獨立性。
也就是簡化了P(X|H)的計算。
對於存在零概率值時,應如何處理?
拉普拉斯估計法:對q個類的計數都加上1,在對應分母上都加上q。
IF-THEN規則分類
模型評估與選擇
評估分類器效能度量
混淆矩陣用來評估分類器的質量,對於二分類問題,它顯示真正例TP、真負例TN、假正例FP、假負例FN。
而評估效能度量包括:
準確率、靈敏度(召回率)、特效性、精度、F1和Fp。
當感興趣的主類佔少數時,過分依賴準確率度量可能受騙。
3%例子。
資料集劃分
- 保持
- 隨機抽樣
- 交叉驗證(k-fold)
- 自助法
顯著性檢驗和ROC、AUC曲線
顯著性檢驗用來評估兩個分類器準確率的差別是否出於偶然。(這個很有用)
ROC曲線繪製一個或多個分類器的真正例率與假正例率。
提升模型準確度:組合方法
- 裝袋(有放回抽樣)
- 提升(有權重)
- 隨機森林(決策樹)
類不平衡問題
- 過抽樣和欠抽樣
- 閾值移動
- 組合技術
相關文章
- 資料探勘概念與技術 - chapter 8 - 分類:基本概念APT
- 《資料探勘——概念與技術》書評
- 《資料探勘概念與技術》讀書筆記筆記
- 資料探勘:概念與技術(原書第3版)
- 資料探勘(1):關聯規則挖掘基本概念與Aprior演算法演算法
- 資料探勘概念
- 資料探勘與分析 概念與演算法演算法
- XML與面向Web的資料探勘技術(轉)XMLWeb
- 資料倉儲技術分類術語
- 資料結構-基本概念和術語資料結構
- 《資料探勘概念與技術(中文第三版)》 百度網盤連結
- 資料探勘技術功能有哪些
- 大資料探勘有哪些技術大資料
- 資料探勘技術簡介(轉)
- 資料分析基本概念
- 《資料探勘:實用機器學習技術》——資料探勘、機器學習一舉兩得機器學習
- 大資料要學習哪些技術呢?大資料技術的分類與選擇路線大資料
- 資料探勘(7):分類演算法評價演算法
- 資料探勘技術:客戶價值分析
- Python爬蟲的基本概念、分類、學習路線以及爬取資料思路Python爬蟲
- Android 事件分發(1)—— 基本概念與流程Android事件
- 資料探勘中的資料歸約技術總結
- 資料探勘(6):決策樹分類演算法演算法
- 工業智聯網: 基本概念、關鍵技術與核心應用
- 《資料庫技術原理與應用教程第2版》——第3章資料管理中的資料模型3.1資料模型的基本概念...資料庫模型
- 資料結構的基本概念資料結構
- 「Oracle」Oracle資料庫基本概念Oracle資料庫
- 「Oracle」Oracle 資料庫基本概念Oracle資料庫
- 資料治理與資料分類分級!
- 大資料簡介,技術體系分類整理大資料
- 資料容災技術及容災方案分類
- Oracle資料庫-----資料庫的基本概念Oracle資料庫
- 資料倉儲面試資料(基本概念)(轉)面試
- 資料探勘——KNN演算法(手寫數字分類)KNN演算法
- 後端技術雜談12:捋一捋大資料研發的基本概念後端大資料
- 資料探勘(8):樸素貝葉斯分類演算法原理與實踐演算法
- 資料庫(01)基本概念丨MySQL資料庫MySql
- 資料探勘與生活