資料探勘——認識資料

K戰神發表於2014-08-28

一、資料集有資料物件組成。一個資料物件(樣本、例項、資料點、物件、資料元組)有代表一個實體。

 

二、屬性型別

屬性是一個資料欄位,表示資料物件的一個特徵。屬性可以是:標稱、二元、序數、數值

觀測是給定屬性的觀測值。

1、標稱屬性:一些物件的名稱。

2、二元屬性:布林屬性。

3、序數屬性:值之間存在有意義的程度評定。

4、數值屬性:存在大小的定量。(區間標度、比率標度)

   { 

    區間標度:可以比較合定量之間的差。沒有固有的零點。

    比率標度:有固有的零點,可以計算倍數比例。

   }

5、離散屬性:有限或者無限可數個值,可以不用整數表示。

6、連續屬性:數值屬性,一般用浮點數值。

7、數學期望:均值。

 

三、基本統計描述

基本統計描述可以用來識別資料的性質,篩選不符合主要性質的資料(噪聲和離群點)

基本統計描述大體可分為:中心趨勢、資料散佈、圖形顯示

1、中心趨勢:

      均值—平均值

      中位數—最中間位置的數值

      眾數—出現次數最多的數

      中列數—最值的均值

2、資料散佈:

      極差—最大值和最小值的差值

      分位數:屬性值與概率的對應關係。概率:p=1/2N,0<p<1。

      四分位數—數值依次大小排序,四等分

      四分位數極差—Q3(0.75處的值)-Q1(0.25處的值)

          五數概括—Min,Q1,中位數,Q3,Max

      盒圖—  Min----------|Q1      |中位數      Q3|-------------------Max    

      方差—各個資料與平均值查的平方的平均值。屬性和均值的偏離程度。

      標準差—方差的平方根      

3、圖形顯示:

      條形圖(柱形圖、頻率直方圖):頻率資料展示。

      餅狀圖、分位數圖、分為數-分位數圖、

      散點圖:兩個屬性的關係趨勢。

                                  

四、資料的相似性和相異性

1、資料矩陣:物件與屬性的陣列,即N個物件*P個屬性

  例如: Name    Age    Sex

                 A          16       1   —物件O1

      B          16       1   —物件O2

      C          16       1   —物件O3

             [   O1Name ,O1Age,O1Sex 

      O2Name ,O2Age,O2Sex 

      O3Name ,O3Age,O3Sex ]

2、相異性矩陣:物件與物件的陣列,即N個物件*N個物件。N個物件兩兩之間的相近度。

 

  例如: Name    Age    Sex

                 A          16       1   —物件O1

 

      B          16       1   —物件O2

 

      C          16       1   —物件O3

 

             [   0

 

      d(2,1)   0

 

      d(3,1)   d(3,2)  0   ]

d(i,j)是物件i與j之間的相異性度量。值越大差別越大。反之,相似性度量sim(i,j)=1-d(i,j)

下面就具體解釋一下d(i,j)................

(1)標稱屬性的鄰近性度量:用不匹配率來計算。公式: d(i,j)=(p-m)/p  

    p—屬性總數,m—相同屬性數。p-m即不相同的屬性數。 

(2)布林屬性的鄰近性度量:

 

   

物件i                                                                    物件j
  1 0 sum
1 q r q+r
0 s t s+t
sum q+s r+t p=q+s+t+r

       

 

 

 

    現在我們找一下相似性:q和t。即,相似性度量:d(i,j)=(q+t)/p=(q+t)/(q+s+t+r)

  反之,相異性,就是不一樣的度量值.。即,s和r,d(i,j)=(s+r)/p

  當然當前我們計算的是對稱的二元相異性。什麼是對稱的二元屬性?無論是否,現實中都具有意義和重要性,同等重要。

  接下來,非對稱的二元相似性,假設,布林值為0的在現實生活中沒有太大的意義。

  這樣,非對稱的二元相似性:sim(i,j)=q/p,因為原來的相似性可取值是:q和t,但是t沒有太大的意義。

(3)數值屬性的鄰近性度量:歐幾里得距離、曼哈頓距離、閔可夫斯基距離。。。

  對於數值屬性的鄰近性計算,首先爭取可以縮小數值域。比如[100,101]---->[0.1,0.101]

  歐幾里得距離:兩個物件被p個物件所描述。即,i=(Xi1,Xi2...,Xip)   ,    j=(Xj1,Xj2...,Xjp)  

  那麼兩個物件的歐幾里得距離:d(i,j)=sqrt( (Xi1-Xj1)^2+(Xi2-Xj2)^2 )

  這樣得出歐幾里德有下面幾個特徵:

  d(i,j)>=0    ;     d(i,i)=0     ;     d(i,j)=d(j,i)   ;

  d(i,j)<=d(i,k)+d(k,j)    

   

相關文章