一、資料集有資料物件組成。一個資料物件(樣本、例項、資料點、物件、資料元組)有代表一個實體。
二、屬性型別
屬性是一個資料欄位,表示資料物件的一個特徵。屬性可以是:標稱、二元、序數、數值
觀測是給定屬性的觀測值。
1、標稱屬性:一些物件的名稱。
2、二元屬性:布林屬性。
3、序數屬性:值之間存在有意義的程度評定。
4、數值屬性:存在大小的定量。(區間標度、比率標度)
{
區間標度:可以比較合定量之間的差。沒有固有的零點。
比率標度:有固有的零點,可以計算倍數比例。
}
5、離散屬性:有限或者無限可數個值,可以不用整數表示。
6、連續屬性:數值屬性,一般用浮點數值。
7、數學期望:均值。
三、基本統計描述
基本統計描述可以用來識別資料的性質,篩選不符合主要性質的資料(噪聲和離群點)
基本統計描述大體可分為:中心趨勢、資料散佈、圖形顯示
1、中心趨勢:
均值—平均值
中位數—最中間位置的數值
眾數—出現次數最多的數
中列數—最值的均值
2、資料散佈:
極差—最大值和最小值的差值
分位數:屬性值與概率的對應關係。概率:p=1/2N,0<p<1。
四分位數—數值依次大小排序,四等分
四分位數極差—Q3(0.75處的值)-Q1(0.25處的值)
五數概括—Min,Q1,中位數,Q3,Max
盒圖— Min----------|Q1 |中位數 Q3|-------------------Max
方差—各個資料與平均值查的平方的平均值。屬性和均值的偏離程度。
標準差—方差的平方根
3、圖形顯示:
條形圖(柱形圖、頻率直方圖):頻率資料展示。
餅狀圖、分位數圖、分為數-分位數圖、
散點圖:兩個屬性的關係趨勢。
四、資料的相似性和相異性
1、資料矩陣:物件與屬性的陣列,即N個物件*P個屬性
例如: Name Age Sex
A 16 1 —物件O1
B 16 1 —物件O2
C 16 1 —物件O3
[ O1Name ,O1Age,O1Sex
O2Name ,O2Age,O2Sex
O3Name ,O3Age,O3Sex ]
2、相異性矩陣:物件與物件的陣列,即N個物件*N個物件。N個物件兩兩之間的相近度。
例如: Name Age Sex
A 16 1 —物件O1
B 16 1 —物件O2
C 16 1 —物件O3
[ 0
d(2,1) 0
d(3,1) d(3,2) 0 ]
d(i,j)是物件i與j之間的相異性度量。值越大差別越大。反之,相似性度量sim(i,j)=1-d(i,j)
下面就具體解釋一下d(i,j)................
(1)標稱屬性的鄰近性度量:用不匹配率來計算。公式: d(i,j)=(p-m)/p
p—屬性總數,m—相同屬性數。p-m即不相同的屬性數。
(2)布林屬性的鄰近性度量:
物件i | 物件j | |||
1 | 0 | sum | ||
1 | q | r | q+r | |
0 | s | t | s+t | |
sum | q+s | r+t | p=q+s+t+r |
現在我們找一下相似性:q和t。即,相似性度量:d(i,j)=(q+t)/p=(q+t)/(q+s+t+r)
反之,相異性,就是不一樣的度量值.。即,s和r,d(i,j)=(s+r)/p
當然當前我們計算的是對稱的二元相異性。什麼是對稱的二元屬性?無論是否,現實中都具有意義和重要性,同等重要。
接下來,非對稱的二元相似性,假設,布林值為0的在現實生活中沒有太大的意義。
這樣,非對稱的二元相似性:sim(i,j)=q/p,因為原來的相似性可取值是:q和t,但是t沒有太大的意義。
(3)數值屬性的鄰近性度量:歐幾里得距離、曼哈頓距離、閔可夫斯基距離。。。
對於數值屬性的鄰近性計算,首先爭取可以縮小數值域。比如[100,101]---->[0.1,0.101]
歐幾里得距離:兩個物件被p個物件所描述。即,i=(Xi1,Xi2...,Xip) , j=(Xj1,Xj2...,Xjp)
那麼兩個物件的歐幾里得距離:d(i,j)=sqrt( (Xi1-Xj1)^2+(Xi2-Xj2)^2 )
這樣得出歐幾里德有下面幾個特徵:
d(i,j)>=0 ; d(i,i)=0 ; d(i,j)=d(j,i) ;
d(i,j)<=d(i,k)+d(k,j)