資料探勘實驗(一)資料規範化【最小-最大規範化、零-均值規範化、小數定標規範化】

nefu_ljw發表於2020-10-30

本文程式碼均已在 MATLAB R2019b 測試通過,如有錯誤,歡迎指正。

一、資料規範化的原理

資料規範化處理是資料探勘的一項基礎工作。不同的屬性變數往往具有不同的取值範圍,數值間的差別可能很大,不進行處理可能會影響到資料分析的結果。為了消除指標之間由於取值範圍帶來的差異,需要進行標準化處理。將資料按照比例進行縮放,使之落入一個特定的區域,便於進行綜合分析。

(1)最小-最大規範化
假定min和max分別為屬性A的最小值和最大值,則通過下面公式將屬性A上的值v對映到區間[new_min, new_max]中的v’:

\[v'=\frac {v-min} {max-min}(new\_max-new\_min)+new\_min \]

(2)零-均值規範化
將屬性A的值根據其平均值mean和標準差std進行規範化:

\[v'=\frac {v-mean} {std} \]

(3)小數定標規範化
通過移動屬性A的小數點位置進行規範化,小數點的移動依賴於A的最大絕對值:

\[v'=\frac {v} {10^j} \]

其中,j是使 Max(| v' |)<1的最小整數。

二、Matlab程式碼實現

1.最小-最大規範化

Matlab的程式碼可以寫簡單一點,不用像C++那樣寫兩個for迴圈。

  • mi=min(A)預設求矩陣A每列的最小值,返回一個行向量mi。
  • repmat(mi,n,1)重複mi,重複行n次,重複列1次,從而形成與A相同大小的矩陣。
  • ./可直接將兩個矩陣所有相同位置的元素相除(不用寫兩個for迴圈)。
clear;clc;

%% 資料存入A
A=[78 521 602 2863
144 -600 -521 2245
95 -457 468 -1283
69 596 695 1054
190 527 691 2051
101 403 470 2487
146 413 435 2571];

fprintf("原資料:"); A

new=input("請輸入需要對映到的新區間。輸入格式示例:[0,1]\n");
new_mi=new(1);
new_mx=new(2);

[n,m]=size(A);
mi=min(A); % 求出A每列的最小值,形成行向量mi(不用for迴圈)
mx=max(A); % 求出A每列的最大值,形成行向量mx
mi=repmat(mi,n,1); % 將矩陣mi重複,行n次,列1次,調整到與A相同大小(之後就不用for迴圈了)
mx=repmat(mx,n,1); % 將矩陣mx重複,行n次,列1次,調整到與A相同大小
B=(A-mi)./(mx-mi)*(new_mx-new_mi)+new_mi; % ./的含義是將兩個矩陣所有相同位置的元素相除

fprintf("\n經過最小最大規範化後:"); B

Matlab也有現成的mapminmax()函式直接實現最小-最大規範化:

B1=mapminmax(A')'; % 每列規範化到[-1,1]
B2=mapminmax(A',0,1)'; % 每列規範化到[0,1]

解釋一下:

  • mapminmax()函式,預設按行最小最大規範化到[-1,1]。
  • 由於預設是按行,如果要按列規範化,傳參時需將A進行轉置,將mapminmax()函式返回的結果再轉置一下即可。
  • B2=mapminmax(A',0,1)',後面加上兩個參數列示新區間的左右端點。

程式碼執行結果

輸入的新區間範圍為[0,1]:

原資料:
A =

          78         521         602        2863
         144        -600        -521        2245
          95        -457         468       -1283
          69         596         695        1054
         190         527         691        2051
         101         403         470        2487
         146         413         435        2571

請輸入需要對映到的新區間。輸入格式示例:[0,1]
[0,1]

經過最小最大規範化後:
B =

    0.0744    0.9373    0.9235    1.0000
    0.6198         0         0    0.8509
    0.2149    0.1196    0.8133         0
         0    1.0000    1.0000    0.5637
    1.0000    0.9423    0.9967    0.8041
    0.2645    0.8386    0.8150    0.9093
    0.6364    0.8470    0.7862    0.9296

2.零-均值規範化

clear;clc;

%% 資料存入A
A=[78 521 602 2863
144 -600 -521 2245
95 -457 468 -1283
69 596 695 1054
190 527 691 2051
101 403 470 2487
146 413 435 2571];

A_mean=mean(A); % mean求的是每列的均值
A_std=std(A); % std求的是每列的標準差
[n,m]=size(A);
B=(A-repmat(A_mean,n,1))./repmat(A_std,n,1);

fprintf("原資料:"); A
fprintf("經過零均值規範化後:"); B

Matlab也有現成的zscore()函式直接實現零-均值規範化:

[B,A_mean,A_std]=zscore(A); % 返回按列進行零均值規範化後的矩陣、每列均值、每列標準差
B=zscore(A); % 只返回按列進行零均值規範化後的矩陣

程式碼執行結果

原資料:
A =

          78         521         602        2863
         144        -600        -521        2245
          95        -457         468       -1283
          69         596         695        1054
         190         527         691        2051
         101         403         470        2487
         146         413         435        2571

經過零均值規範化後:
B =

   -0.9054    0.6359    0.4645    0.7981
    0.6047   -1.5877   -2.1932    0.3694
   -0.5164   -1.3040    0.1474   -2.0783
   -1.1113    0.7846    0.6846   -0.4569
    1.6571    0.6478    0.6752    0.2348
   -0.3791    0.4018    0.1521    0.5373
    0.6504    0.4216    0.0693    0.5956

3.小數定標規範化

clear;clc;

A=[78 521 602 2863
144 -600 -521 2245
95 -457 468 -1283
69 596 695 1054
190 527 691 2051
101 403 470 2487
146 413 435 2571];

mx=max(abs(A)); % 求每列絕對值最大的數mx
len=floor(log10(mx))+1; % 求mx的位數len
B=A./(10.^len); % 將A中每個元素除以10^len

fprintf("原資料:"); A
fprintf("經過小數定標規範化後:"); B

程式碼執行結果

原資料:
A =

          78         521         602        2863
         144        -600        -521        2245
          95        -457         468       -1283
          69         596         695        1054
         190         527         691        2051
         101         403         470        2487
         146         413         435        2571

經過小數定標規範化後:
B =

    0.0780    0.5210    0.6020    0.2863
    0.1440   -0.6000   -0.5210    0.2245
    0.0950   -0.4570    0.4680   -0.1283
    0.0690    0.5960    0.6950    0.1054
    0.1900    0.5270    0.6910    0.2051
    0.1010    0.4030    0.4700    0.2487
    0.1460    0.4130    0.4350    0.2571

相關文章