《資料探勘概念與技術》第八章 分類:基本概念
分類
本章中講到了三種分類方法:
決策樹分類
在決策樹分類中詳細介紹了三種決策樹的屬性選擇度量:
資訊增益
分割槽D為標記類元組的訓練集。
D的熵,即所需要的期望資訊為:
按某屬性A劃分D,則該期望值為:
屬性A的資訊增益值為:
ID3採用資訊增益。
資訊增益度量偏向於具有許多輸出的測試,即偏向具有大量值的屬性。
增益率
但若每個屬性的元組個數為1,此時的資訊增益無法對屬性的劃分提供有效資訊。
以屬性A劃分D,劃分點的值:
增益率:
C4.5採用增益率。
增益率的出現即試圖克服資訊增益的偏倚。但增益率傾向於產生不平衡的劃分,其中一個分割槽比其他分割槽小得多。
資訊增益度量關於分類基於同樣劃分的所獲得的資訊。
Gini指數
Gini指數定義為:
、
以屬性A劃分的基尼指數為:
屬性A的不純度為:
CART使用基尼指數。
基尼指數度量資料分割槽或訓練元組集D的不純度。最終選擇基尼指數最小的指數,會產生較大的不純度。
基尼指數偏向於多值屬性,並且當類的數量過大時,由於計算量較大,會有困難。傾向於導致相等大小的分割槽和純度。
樸素貝葉斯分類
首先介紹貝葉斯定理中的基本概念:
即將預測X 具有最高後驗概率的類。
後驗概率
P(H|X)是後驗概率。或在條件X下,H的後驗概率。假設資料元組限於分別由屬性age和income描述的顧客,而X是一位25歲,收入為4萬元的顧客。令H為某種假設,如顧客將購買計算機。
則P(H|X)反映當已知顧客X的屬性值時,顧客X購買計算機的概率。
先驗概率
P(H),H的先驗概率。是任意給定顧客將購買計算機的概率,而不管他們的年齡、收入等。P(H)獨立於X。
樸素貝葉斯樸素在哪裡?
樸素貝葉斯假定一個屬性值在給定類上的影響獨立於其他屬性的值。這一假定成為類條件獨立性。
也就是簡化了P(X|H)的計算。
對於存在零概率值時,應如何處理?
拉普拉斯估計法:對q個類的計數都加上1,在對應分母上都加上q。
IF-THEN規則分類
模型評估與選擇
評估分類器效能度量
混淆矩陣用來評估分類器的質量,對於二分類問題,它顯示真正例TP、真負例TN、假正例FP、假負例FN。
而評估效能度量包括:
準確率、靈敏度(召回率)、特效性、精度、F1和Fp。
當感興趣的主類佔少數時,過分依賴準確率度量可能受騙。
3%例子。
資料集劃分
- 保持
- 隨機抽樣
- 交叉驗證(k-fold)
- 自助法
顯著性檢驗和ROC、AUC曲線
顯著性檢驗用來評估兩個分類器準確率的差別是否出於偶然。(這個很有用)
ROC曲線繪製一個或多個分類器的真正例率與假正例率。
提升模型準確度:組合方法
- 裝袋(有放回抽樣)
- 提升(有權重)
- 隨機森林(決策樹)
類不平衡問題
- 過抽樣和欠抽樣
- 閾值移動
- 組合技術
相關文章
- 資料探勘概念與技術 - chapter 8 - 分類:基本概念APT
- 資料探勘技術
- 資料探勘與分析 概念與演算法演算法
- 大資料探勘有哪些技術大資料
- 資料探勘技術功能有哪些
- 《資料探勘概念與技術(中文第三版)》 百度網盤連結
- 資料結構-基本概念和術語資料結構
- 資料結構基本概念和術語資料結構
- 資料分析基本概念
- Python爬蟲的基本概念、分類、學習路線以及爬取資料思路Python爬蟲
- Android 事件分發(1)—— 基本概念與流程Android事件
- 工業智聯網: 基本概念、關鍵技術與核心應用
- 資料結構的基本概念資料結構
- 「Oracle」Oracle資料庫基本概念Oracle資料庫
- 「Oracle」Oracle 資料庫基本概念Oracle資料庫
- 資料探勘——KNN演算法(手寫數字分類)KNN演算法
- 資料探勘與生活
- 資料探勘-層次聚類聚類
- 大資料簡介,技術體系分類整理大資料
- Oracle資料庫-----資料庫的基本概念Oracle資料庫
- Python資料探勘入門與實踐---使用scikit-learn 估計器分類Python
- 資料治理與資料分類分級!
- 後端技術雜談12:捋一捋大資料研發的基本概念後端大資料
- 資料庫(01)基本概念丨MySQL資料庫MySql
- 資料探勘技術在軌跡資料上的應用實踐
- 初學web前端開發,你必要了解的基本概念與工具技術Web前端
- 資料探勘之 層次聚類聚類
- 資料探勘—邏輯迴歸分類—信用卡欺詐分析邏輯迴歸
- 微機原理與介面技術-第八章常用介面技術
- IPv6技術詳解:基本概念、應用現狀、技術實踐(下篇)
- 資料結構——圖相關基本概念資料結構
- Docker基礎與基本概念Docker
- Kubernetes的基本概念和術語
- PHP 手冊 (類與物件) 學習筆記一:基本概念PHP物件筆記
- 理解「業務」與「技術」概念
- 『現學現忘』Docker相關概念 — 6、虛擬化技術分類Docker
- 資料探勘和資料提取該怎麼區分?
- 資料結構之第一講 基本概念資料結構