《資料探勘概念與技術》讀書筆記

傲慢的上校發表於2017-03-12

最近在學習資料探勘和資料分析相關內容,在很多地方有很多朋友都推薦該書,遂購書一本,以作學習之用,把讀書過程中一些習得記錄在此,以備查閱。

第一章 引論

1.1 為什麼進行資料探勘

現在的我們生活在一個資訊時代,每天都有各種各樣大量的資料產生並儲存到計算機網路和各種儲存裝置中,然而如何從這些海量資料中發現有價值資訊,並使之轉換為有組織的知識,這就是資料探勘產生的原因。

1.1.2 資料探勘是資訊科技的進化

隨著最初的資料庫技術不斷的發展:資料收集和資料庫建立資料管理高階資料分析

資料庫管理系統建立以後,資料庫技術就轉向高階資料庫系統、支援高階資料分析的資料倉儲和資料探勘、基於Web的資料庫

資料倉儲:一種多個異構資料來源在單個站點以統一的模式組織的儲存,以支援管理決策。包括資料清理、資料整合和聯機分析處理(OLAP(On-Line Analytical Processing))。

1.2 什麼是資料探勘

資料探勘是從大量資料中挖掘有趣模式和知識的過程,應當更正確地命名為“從資料中挖掘知識”,很多人把其視為資料中的知識發現(KDD) 的同義詞。

知識發現由以下步驟的迭代序列組成:

-(1) 資料清理 (消除噪聲)
-(2) 資料整合 (多種資料來源可以組合在一起)
-(3) 資料選擇 (從資料庫中提取與分析任務相關的資料)
-(4) 資料變換 (通過彙總或聚集操作,把資料變換和統一成適合挖掘的形式)
-(5) 資料探勘 (基本步驟,使用智慧方法提取資料模式)
-(6) 模式評估 (根據某種興趣度度量,識別代表知識的真正有趣的模式)
-(7) 知識表示 (使用視覺化和知識表示技術,向使用者提供挖掘的知識)

1.3 可以挖掘什麼型別的資料

1.3.1 資料庫系統

資料庫系統,也稱為資料庫管理系統(DBMS),由一組內部相關的資料(稱為資料庫)和一組管理和存取資料的軟體程式組成。

關聯式資料庫是表的彙集,每個表被賦予一個唯一的名字。

1.3.2 資料倉儲

資料倉儲是一個從多個資料來源收集的資料儲存庫,存放在一致的模式下,並且通常組留在單個站點上。通常,資料倉儲用稱作為資料立方體(data cube)的多維資料結構建模。其中,一個維對應於模式中的一個或一組屬性,而每個單元存放某種聚集度量值。

多維資料探勘(又稱探索式多維資料探勘以OLAP風格在多維空間進行資料探勘)

1.3.3 事務資料

事務資料庫的每個記錄代表一個事務,如顧客的一次購物、一個航班訂票,或一個使用者的網頁點選。

1.4 可以挖掘什麼型別的模式

資料探勘功能:特徵化與區分、頻繁模式、關聯和相關性挖掘,分類與迴歸,聚類分析,離群點分析。

分為描述性(descriptive)預測性(predictive)

描述性挖掘任務刻畫目標資料中資料的一般性質
預測性挖掘任務在當前資料上進行歸納,以便做出預測。

1.4.1 類/概念描述:特徵化與區分

類/概念描述可以通過下述方法得到:
(1) 資料特徵化,一般地彙總所研究類(通常稱為目標類)的資料
(2) 資料區分,將目標類與一個或多個可比較類(通常稱為對比類)進行比較
(3) 資料特徵化和區分

資料特徵化(data characterization)是目標類資料的一般特性或特徵的彙總。資料特徵化的輸出可以用多種形式提供,如餅圖、條圖、曲線、多維資料立方體和包括交叉表在內的多維表。結果描述也可以用廣義關係或規則(稱做特徵規則)形式提供。

資料區分(data discrimination)是將目標類資料物件的一般特性與一個或多個對壁壘物件的一般特性進行比較。

用規則表示的區分描述稱為區分規則(discriminant rule)

1.4.2 挖掘頻繁模式、關聯和相關性

頻繁模式(frequent pattern) 是在資料中頻繁出現的模式。包含頻繁項集、頻繁子系列(又稱序列模式)和頻繁子結構。頻繁項集挖掘是頻繁模式挖掘的基礎。

1.4.3 用於預測分析的分類與迴歸

分類(classification) 是這樣的過程,它找出描述和區分資料類或概念的模型,以便能夠使用模型預測類標號未知的物件的類標號。

分類預測型別(離散的、無序的)標號,而回歸建立連續值函式模型。

迴歸分析(regression analysis)是一種最常使用的數值預測的統計學方法。迴歸也包含基於可用資料的分佈趨勢識別。

相關分析(relevance analysis)可能需要在分類和迴歸之前進行,它試圖識別與分類和迴歸過程顯著相關的屬性。

1.4.4 聚類分析

聚類(clustering)分析資料物件,而不考慮類標號。

物件根據最大化類內相似性、最小化類間相似性的原則進行聚類或分組

1.4.5 離群點分析

離群點(outlier):資料集中可能包含一些資料物件,它們與資料的一般行為或模型不一致,這些資料物件被稱為離群點。

離群點資料分析稱作離群點分析異常挖掘

1.4.6 所有的模式都是有趣的嗎

如果一個模式是有趣的(interesting),它可能符合以下幾點:

  • (1) 易於被人理解;
  • (2) 在某種確信度上,對於新的或檢驗資料是有效的
  • (3) 是潛在有用的
  • (4) 是新穎的

有趣的模式代表知識

模式興趣度的客觀度量
- (1) 規則的支援度(support):事務資料庫中滿足規則的事務所佔的百分比
- (2) 置信度(confidence):它評估所發現的規則的確信程度
- (3) 其他興趣度度量包括分類(IF-THEN)規則的準確率覆蓋率

主觀興趣度度量基於使用者對資料的信念。如果它們是出乎意料的(與使用者的信念相矛盾),或者提供使用者可以採取行動的至關重要的資訊。在後一種情況下,這樣的模式稱為可行動的(actionable)

1.5 使用什麼技術

資料探勘吸納了諸如統計學、機器學習、模式識別、資料庫和資料倉儲、資訊檢索、視覺化、演算法、高效能運算和許多應用領域的大量技術。

1.5.1 統計學

統計學研究資料的收集、分析、解釋和表示。

統計模型是一組數學函式,它們用隨機變數及其概率分佈刻畫目標類物件的行為。統計模型廣泛用於對資料和資料類建模。

統計學研究開發一些使用資料和統計模型進行預測和預報的工具。

推理統計學(或預測統計學)用某種方式對資料建模,解釋觀測中的隨機性和確定性,並用來提取關於所考察的過程或總體的結論。

統計學方法也可以用來驗證資料探勘結果。
統計假設檢驗(有時稱為證實資料分析)使用實驗資料進行統計判決。

1.5.2 機器學習

機器學習考察計算機如何基於資料學習(或提高它們的效能)。其主要研究領域之一是:計算機程式基於資料自動地學習識別複雜的模式,並做出智慧的決斷。

幾個概念:

  • 監督學習(supervised learning) 基本上是分類的同義詞
  • 無監督學習(unsupervised learning) 基本上是聚類的同義詞
  • 半監督學習(semi-supervised learning)是一類機器學習技術,在學習模式時,它使用標記和未標記的例項
  • 主動學習(active learning)是一種機器學習方法,它讓使用者在學習過程中扮演主動角色

1.5.3 資料庫系統與資料倉儲

資料庫系統研究 關注為單位和終端使用者建立、維護和使用資料庫。
資料倉儲整合來自多種資料來源和各個時間段的資料。

1.5.4 資訊檢索

資訊(IR) 檢索是搜尋文件或文件中資訊的科學。
文件的語言模型是生成文件中詞的包的概率密度函式。
一個文字文件集的主題可以用詞彙表上的概率分佈建模,稱為主題模型

1.6 面向什麼型別的應用

1.6.1 商務智慧

商務智慧(BI)技術提供商務運作的歷史、現狀和預測檢視。
資料探勘是商務智慧的核心。

1.6.2 Web搜尋引擎

web搜尋引擎本質上是大型資料探勘應用。

1.7 資料探勘的主要問題

包含一下五個方面:挖掘方法、使用者互動、有效性與可伸縮性、資料型別的多樣性、資料探勘與社會。

1.7.1 挖掘方法

挖掘方法應該考慮諸如資料的不確定性、噪聲和不完全性等問題。

資料探勘方法的考察點:

  • 挖掘各種新的知識型別:資料探勘廣泛涵蓋資料分析和知識發現的任務,從資料特徵化與區分到關聯與相關性分析、分類、迴歸、聚類、離群點分析、序列分析以及趨勢和演變分析。
  • 挖掘多維空間中的知識:在大型資料集中搜尋知識時,我們可能探索多維空間中的資料。被稱為(探索式)多維資料探勘。
  • 資料探勘–跨學科的努力:通過整合來自多學科的新方法可以顯著增強資料探勘的能力。
  • 提升網路環境下的發現能力: 大部分物件之間駐留在連結或互連的環境中,無論是Web、資料庫關係、檔案還是文件。
  • 處理不確定性、噪聲或不完全資料:資料常常包含噪聲、錯誤、異常、不確定性,或者是不完全的。資料清理、資料預處理、離群點檢測與刪除以及不確定性推理都是需要與資料探勘過程整合的技術。
  • 模式評估和模式或約束指導的挖掘:資料探勘過程產生的所有模式並非都是有趣的。認定哪些模式有趣可能因使用者而異。因此,需要一種技術來評估基於主觀度量所發現的模式的興趣度。

1.7.2 使用者介面

  • 互動挖掘
  • 結合背景知識
  • 特定的資料探勘和資料探勘查詢語言
  • 資料探勘結果的表示和視覺化

1.7.3 有效性和可伸縮性

  • 資料探勘演算法的有效性和可伸縮性
  • 並行、分散式和增量挖掘方法

1.7.4 資料庫型別的多樣性

  • 處理複雜的資料型別
  • 挖掘動態的、網路的、全球的資料庫

1.7.5 資料探勘與社會

  • 資料探勘的社會影響
  • 保護隱私的資料探勘
  • 無形的資料探勘

相關文章