資料探勘的功能

qq_23473123發表於2017-03-19

特徵化

描述

根據目標類資料的特徵或特性進行彙總。

例子

彙總各班男生身高高於175cm的愛好、身體體質等情況。

區分

描述

相同或者不同類物件同一“現象”進行比較分析得出想要的結論。

例子

今年華東地區為啥橘子比蘋果買的好,分析今年的橘子比蘋果的優勢大?人們的消費水平變化了?人們的吃水果的觀念變化了?

頻繁模式、關聯和相關性分析

頻繁模式:資料中頻繁出現的模式,存在多種型別,包括頻繁項集、頻繁子序列、頻繁子結構。

頻繁項集:一般指頻繁地事務資料集中在一起出現的不同類物件集合,如超市許多顧客一起頻繁購買的是奶粉和尿不溼。

頻繁子序列:如顧客傾向於先購買便攜機,再購買數位相機,然後再購買記憶體卡。

頻繁子結構:可能涉及不同的結構形式如列表、圖、樹等,如果一個子結構頻繁出現則稱它為頻繁子結構。

挖掘頻繁模式導致發現資料中有趣的關聯和相關性。

分類

描述

它找出描述區分資料類或概念的模型,以便能夠使用模型*預測*類標號未知的物件的類標號。

對已發生過的事物分析得出結論用於推測類似新事物得出”預測”。

匯出模型就需要分類規則:if-then 規則、決策樹(類似於流程)、數學公式或者神經網路。

這裡寫圖片描述

例子

超市商品售賣情況分為好、中、差三類,你想根據商品特性如價格、產地、品牌、種類來為這三類匯出分類模型。

迴歸

描述

它找出某一情況同一影響屬性影響程度變化的連續”函式“。

例子

想知道蘋果在不同價格的銷量。

分類與迴歸的區別

分類是大概的區分資料,資料值不需要連續主要目的是得到分類模型去對”新事物“進行歸類,而回歸力求得到一個函式,去預測屬性值達到新的值時結果值是多少。

迴歸偏向於資料值,分類偏向于歸類。

聚類

描述

物件根據最大化類內相似性、最小類間相似性的原則進行聚類和分組。

例子

人口集中分佈圖。

離群距點分析

資料集中可能包含一些資料物件,它與資料的一般行為和模型不一致~異常挖掘。

異常挖掘也是有意義的比如就可以通過資料分析及時發現異常,及時預防,避免沒必要的情況。

相關文章