在這個世界上有無限多的資料,而每種資料都有屬於自己的屬性。那麼做資料探勘資料分析的時候,要對雜亂無章資料由一定的敏感度,學會分析資料屬於哪一種型別也是一種技能。多留意身邊的一些資料,試試給他分個型別也是挺好玩的一件事。
如果從巨集觀角度分析,資料型別分為定性和定量兩種。
定性:變數是品質特徵,如性別分男和女,是一種特質;
定量:變數是數值,可以量化,如身高體重等。
定量又可以分為離散型和連續型,離散型一般為計數結果,如男朋友毀約的次數,連續型一般為測試結果,如女朋友身高體重的測量。
那麼又是怎麼去對這些資料型別進行度量,也就是對資料型別劃分一定的層次
一般可以將資料型別的度量分為四種:定類,定序,定距,和定比,這四種型別是從低到高的遞進關係,高階的型別可以用低階型別的分析方法來分析,而反過來卻不行,理解下面這些型別對於後面學習統計分析方法尤為重要。
1、定類變數
定類就是將給資料定義一個類別。這種資料型別將所研究的物件分類,也即只能決定研究物件是同類抑或不同類。例如把性別分成男女兩類;把動物分成哺乳類和爬行類等等。
注意!定類變數遵循兩個原則:
(1)類與類之間互斥,不存在即是男又是女的東西(人妖特例不算)
(2)每個物件都必須要有類別,就像每個動物都有自己的界門綱目科屬種
2、 定序變數
定序變數是將同一個類別下的物件分一個次序,即變數的值能把研究物件排列高低或大小,具有>與<的數學特質。它是比定類變數層次更高的變數,因此也具有定類變數的特質,即區分類別(=,≠)。
例如文化程度可以分為大學、高中、初中、小學、文盲;工廠規模可以分為大、中、小;年齡可以分為老、中、青。這些變數的值,既可以區分異同,也可以區別研究物件的高低或大小。
注意!各個定序變數的值之間沒有確切的間隔距離。比如大學究竟比高中高出多少,大學與高中之間的距離和初中與小學之間的距離是否相等,通常是沒有確切的尺度來測量的。定序變數在各個案上所取的變數值只具有大於或小於的性質,只能排列出它們的順序,而不能反映出大於或小於的數量或距離。
3、 定距變數
定距變數是區別同一類別下個案中等級次序及其距離的變數。它除了包括定序變數的特性外,還能確切測量同一類別各個案高低、大小次序之間的距離,因而具有加與減的數學特質。但是,定距變數沒有一個真正的零點。
例如,攝氏溫度這一定距變數說明,攝氏40度比30度高10度,攝氏30度比20度又高10度,它們之間高出的距離相等,而攝氏零度並不是沒有溫度。又比如調查數個地區的工人佔全部勞動人口的比率時,發現甲、乙,丙、丁、戊五個地區的比率分別是2%、10%、35%、20%、10%。甲區與丙區相差33%,丙區與丁區相差15%。這也是一個定距變數。
注意!定距變數各類別之間的距離,只能加減而不能乘除或倍數的形式來說明它們之間的關係。
4.、定比變數
定比變數是區別同一類別個案中等級次序及其距離的變數。定比變數除了具有定距變數的特性外,還具有一個真正的零點,因而它具有乘與除(×、÷)的數學特質。例如年齡和收入這兩個變數,固然是定距變數,同時又是定比變數,因為其零點是絕對的,可以作乘除的運算。
如A月收入是60元,而B是30元,我們可以算出前者是後者的兩倍。智力商數這個變數是定距變數,但不是定比變數,因為其0分只具有相對的意義,不是絕對的或固定的,不能說某人的智商是0分就是沒有智力;同時,由於其零點是不固定的,即使A是140分而B是70分,我們也不能說前者的智力是後者的兩倍,只能說兩者相差70分。因為0值是不固定的,如果將其向上移高20分,則A的智商變為120分而B變成50分,兩者的相差仍是70分,但A卻是B的2.4倍,而不是原先的兩倍了。攝氏溫度這一變數也如此。
這裡沒注意了!定比變數是最高測量層次的變數。