第四章: 資料預處理【待補充】

阿里瓜瓜發表於2016-12-10
  • 4.1 資料清洗:

    刪除原始資料集中的無關資料、重複資料、平滑噪聲資料,篩選掉與挖掘無關的資料,處理缺失值、異常值

    1. 缺失值處理(刪除記錄、資料插補、不處理) 

           常見的插補方法:均值/中位數/眾數 插補;使用固定值;最近鄰插補;迴歸方法;插值法

           拉格朗日插值法,牛頓插值法

        2.  異常值處理(刪除含有異常值的記錄、視為缺失值、平均值修正、不處理)

                 缺點:觀測值少,刪除的方法not suitable.(方法的優劣性評價尺度:樣本數量少

           在正常情況下,要先分析異常值出現的可能原因,再判斷異常值是否應該捨棄

  • 4.2 資料整合:

      考慮實體識別問題和屬性冗餘問題,從而將資料來源在最低層加以轉換、提煉和整合

  1. 實體識別:同名異義、異名同義、單位不統一
  2. 冗餘屬性識別:同一屬性多次出現、同一屬性命名不一致導致重複
  • 4.3 資料變換:

       將資料轉換為“適當的”形式,以適用於挖掘任務及演算法的需要

  1. 簡單函式變換:將原始資料進行某些數學函式變換(如平方,開方,取對數,差分運算),將不具有正態分佈的資料變換為具有正態分佈的資料。

          如:收入在【100, 10億】區間很大,使用對數變換對其進行壓縮完成

   2. 規範化:消除資料量綱和取值範圍差異的影響,將資料按照比例進行縮放,使之落在一個特定的區域,如【-1, 1】或者【0, 1】

    • 最小-最大規範化 = 離差標準化

                轉換公式: x* =  (x – min) / (max - min)

                缺點:若資料比較集中且某個值很大,則規約後各值會接近於0,並且都會相差不大(方法的優劣性評價尺度:樣本差異小

                        若遇到遇到超出【min, max】取值範圍時,會引起系統出錯,需要重新定義min, max(方法的優劣性評價尺度:新樣本加入時,魯棒性

    • 【用的最多】零-均值規範化 = 標準差標準化: 經過處理的資料的均值 μ = 0, 標準差 σ = 1

                轉換公式: x* =  ( x–μ ) / σ                                       

    • 小數定標規範化:通過移動屬性值的小數位數,將屬性值對映到【-1,1】,移動小數位的位數取決於屬性值絕對值的最大值

                轉換公式: x* = x  / 10k

             對於一個含有N個記錄P個屬性的資料集,分別對每一個屬性的取值進行規約化。

   3. 連續屬性離散化:【使用背景:一些演算法要求資料是離散的】

         資料離散化就是在資料的取值範圍內設定若干個離散的劃分點,將取值範圍劃分為一些離散化的區間,最後用不同的符號或者整數值代表落在每個子區間的資料值。

         資料離散化= 確定分類數+如何將連續屬性值對映到這些分類值

         常見的離散化方法:等寬法;等頻法;(一維)聚類

                               比較:等寬法,等頻法:需要人工干預(設定劃定分割槽間的個數);

                                        等寬法對離群點比較敏感,可能有些區間包含許多資料,而另一些區間的資料很少;

                                        等頻法則可能出現相同的資料值出現在不同的區間;

                                        基於聚類的分析方法,先使用kmeans等聚類得到簇,在對簇進行處理,同樣需要指定簇的個數;

   4. 屬性構造:利用資料來源中的已知屬性建構函式

             如:已有屬性供入電量, 供出電量,   建構函式 線損率 = (供入電量 - 供出電量)/供入電量 *100%

   5. 【待補充】小波變換:通過小波變換(伸縮、平移)把非平穩訊號分解為表達不同層次、不同頻帶資訊的資料序列,即小波係數。選取適當的小波係數,完成資訊的特徵提取。

         (1) 基於小波變換的特徵提取方法:           

                    基於小波變換的多尺度空間能量分佈特徵提取方法:

                    基於小波變換的多尺度空間模極大值特徵提取方法:模極大值的尺度引數s、平移引數t及振幅作為目標的特徵值

                    基於小波包變換的特徵提取方法:利用小波分解

                    基於適應性小波神經網路的特徵提取方法:

       (2) 小波基函式:

       (3) 小波變換:

  • 【待補充】4.4 資料規約:

      (1)屬性規約:通過屬性合併來建立新屬性維度;或者直接通過刪除不相關的屬性(維)來減少資料維數;

              方法: 合併屬性;逐步向前選擇;逐步向後刪除;決策樹歸納;主成分分析;

              分析: 逐步向前選擇,逐步向後刪除,決策樹歸納 ------ 直接刪除不相關屬性(維)方法;

                       主成分分析:是一種用於連續屬性的資料降維方法;

      (2)數值規約:

  • 4.5 Python 主要預處理函式:

    函式名

    函式功能

    所屬擴充套件庫

    interpolate

    一維、高維資料插值

    Scipy

    unique

    去除資料中的重複元素

    Pandas/Numpy

    isnull

    判斷是否空值

    Pandas

    notunll

    判斷是否非空值

    Pandas

    PCA

    對指標變數矩陣進行主成分分析

    Scikit-Learn

    random

    生成隨機矩陣

    Numpy

相關文章