-
4.1 資料清洗:
刪除原始資料集中的無關資料、重複資料、平滑噪聲資料,篩選掉與挖掘無關的資料,處理缺失值、異常值
- 缺失值處理(刪除記錄、資料插補、不處理)
常見的插補方法:均值/中位數/眾數 插補;使用固定值;最近鄰插補;迴歸方法;插值法
拉格朗日插值法,牛頓插值法
2. 異常值處理(刪除含有異常值的記錄、視為缺失值、平均值修正、不處理)
缺點:觀測值少,刪除的方法not suitable.(方法的優劣性評價尺度:樣本數量少)
在正常情況下,要先分析異常值出現的可能原因,再判斷異常值是否應該捨棄
-
4.2 資料整合:
考慮實體識別問題和屬性冗餘問題,從而將資料來源在最低層加以轉換、提煉和整合
- 實體識別:同名異義、異名同義、單位不統一
- 冗餘屬性識別:同一屬性多次出現、同一屬性命名不一致導致重複
-
4.3 資料變換:
將資料轉換為“適當的”形式,以適用於挖掘任務及演算法的需要
- 簡單函式變換:將原始資料進行某些數學函式變換(如平方,開方,取對數,差分運算),將不具有正態分佈的資料變換為具有正態分佈的資料。
如:收入在【100, 10億】區間很大,使用對數變換對其進行壓縮完成
2. 規範化:消除資料量綱和取值範圍差異的影響,將資料按照比例進行縮放,使之落在一個特定的區域,如【-1, 1】或者【0, 1】
- 最小-最大規範化 = 離差標準化
轉換公式: x* = (x – min) / (max - min)
缺點:若資料比較集中且某個值很大,則規約後各值會接近於0,並且都會相差不大(方法的優劣性評價尺度:樣本差異小)
若遇到遇到超出【min, max】取值範圍時,會引起系統出錯,需要重新定義min, max(方法的優劣性評價尺度:新樣本加入時,魯棒性)
- 【用的最多】零-均值規範化 = 標準差標準化: 經過處理的資料的均值 μ = 0, 標準差 σ = 1
轉換公式: x* = ( x–μ ) / σ
- 小數定標規範化:通過移動屬性值的小數位數,將屬性值對映到【-1,1】,移動小數位的位數取決於屬性值絕對值的最大值
轉換公式: x* = x / 10k
對於一個含有N個記錄P個屬性的資料集,分別對每一個屬性的取值進行規約化。
3. 連續屬性離散化:【使用背景:一些演算法要求資料是離散的】
資料離散化就是在資料的取值範圍內設定若干個離散的劃分點,將取值範圍劃分為一些離散化的區間,最後用不同的符號或者整數值代表落在每個子區間的資料值。
資料離散化= 確定分類數+如何將連續屬性值對映到這些分類值
常見的離散化方法:等寬法;等頻法;(一維)聚類
比較:等寬法,等頻法:需要人工干預(設定劃定分割槽間的個數);
等寬法對離群點比較敏感,可能有些區間包含許多資料,而另一些區間的資料很少;
等頻法則可能出現相同的資料值出現在不同的區間;
基於聚類的分析方法,先使用kmeans等聚類得到簇,在對簇進行處理,同樣需要指定簇的個數;
4. 屬性構造:利用資料來源中的已知屬性建構函式
如:已有屬性供入電量, 供出電量, 建構函式 線損率 = (供入電量 - 供出電量)/供入電量 *100%
5. 【待補充】小波變換:通過小波變換(伸縮、平移)把非平穩訊號分解為表達不同層次、不同頻帶資訊的資料序列,即小波係數。選取適當的小波係數,完成資訊的特徵提取。
(1) 基於小波變換的特徵提取方法:
基於小波變換的多尺度空間能量分佈特徵提取方法:
基於小波變換的多尺度空間模極大值特徵提取方法:模極大值的尺度引數s、平移引數t及振幅作為目標的特徵值
基於小波包變換的特徵提取方法:利用小波分解
基於適應性小波神經網路的特徵提取方法:
(2) 小波基函式:
(3) 小波變換:
-
【待補充】4.4 資料規約:
(1)屬性規約:通過屬性合併來建立新屬性維度;或者直接通過刪除不相關的屬性(維)來減少資料維數;
方法: 合併屬性;逐步向前選擇;逐步向後刪除;決策樹歸納;主成分分析;
分析: 逐步向前選擇,逐步向後刪除,決策樹歸納 ------ 直接刪除不相關屬性(維)方法;
主成分分析:是一種用於連續屬性的資料降維方法;
(2)數值規約:
-
4.5 Python 主要預處理函式:
函式名
函式功能
所屬擴充套件庫
interpolate
一維、高維資料插值
Scipy
unique
去除資料中的重複元素
Pandas/Numpy
isnull
判斷是否空值
Pandas
notunll
判斷是否非空值
Pandas
PCA
對指標變數矩陣進行主成分分析
Scikit-Learn
random
生成隨機矩陣
Numpy