--[@more@]

一、資料歸約基本知識：

對於小型或中型資料集，一般的資料預處理步驟已經足夠。但對真正大型資料集來講，在應用資料探勘技術以前，更可能採取一箇中間的、額外的步驟-資料歸約。本步驟中簡化資料的主題是維歸約，主要問題是是否可在沒有犧牲成果質量的前提下，丟棄這些已準備和預處理的資料，能否在適量的時間和空間裡檢查已準備的資料和已建立的子集。

對資料的描述，特徵的挑選，歸約或轉換是決定資料探勘方案質量的最重要問題。在實踐中，特徵的數量可達到數百，如果我們只需要上百條樣本用於分析，就需要進行維歸約，以挖掘出可靠的模型；另一方面，高維度引起的資料超負，會使一些資料探勘演算法不實用，唯一的方法也就是進行維歸約。預處理資料集的3個主要維度通常以平面檔案的形式出現：列（特徵），行（樣本）和特徵的值，資料歸約過程也就是三個基本操作：刪除列，刪除行，減少列中的值。

在進行資料探勘準備時進行標準資料歸約操作，我們需要知道從這些操作中我們會得到和失去什麼，全面的比較和分析涉及到如下幾個方面的引數：

（1）計算時間：較簡單的資料，即經過資料歸約後的結果，可減少資料探勘消耗的時間。

（2）預測/描述精度：估量了資料歸納和概括為模型的好壞。

（3）資料探勘模型的描述：簡單的描述通常來自資料歸約，這樣模型能得到更好理解。

資料歸約演算法特徵：

（1）可測性

（2）可識別性

（3）單調性

（4）一致性

（5）收益增減

（6）中斷性

（7）優先權

二、資料歸約方法：

1、特徵歸約：

用相應特徵檢索資料通常不只為資料探勘目的而收集，單獨處理相關特徵可以更有效，我們希望選擇與資料探勘應用相關的資料，以達到用最小的測量和處理量獲得最好的效能。特徵歸約處理的效果：

（1）更少的資料，提高挖掘效率

（2）更高的資料探勘處理精度

（3）簡單的資料探勘處理結果

（4）更少的特徵。

和生成歸約後的特徵集有關的標準任務有兩個：

（1）特徵選擇：基於應用領域的知識和挖掘目標，分析者可以選擇初始資料集中的一個特徵子集。特徵排列演算法，最小子集演算法

（2）特徵構成：特徵構成依賴於應用知識。

特徵選擇的目標是要找出特徵的一個子集，此子集在資料探勘的效能上比得上整個特徵集。特徵選擇的一種可行技術是基於平均值和方差的比較，此方法的主要缺點是特徵的分佈未知。最優方法的近似：

（1）只對有前景的特徵子集進行檢查

（2）用計算簡單的距離度量替換誤差度量

（3）只根據大量資料的子集選擇特徵。

特徵歸約處理期望達到的效果：

（1）提高模型生成過程和所得模型本身的效能

（2）在不降低模型質量的情況下減少模型維度

（3）幫助使用者視覺化有更少維數的可能結果，改進決策。

2、主成分分析：

主成分分析是大型資料集歸約的一種統計方法。是將以向量樣本表示的初始資料集轉換為一個新的匯出維度的向量樣本集，轉換的目標是將不同樣本中的資訊集中在較小的維度中。

一個n維向量樣本集X={x1,x2,x3,…,xm}，轉換為另一個相同維度的集Y={y1,y2,…,ym}

Y把大部分資訊內容存在前幾個維中，可以讓我們以低資訊損失講資料集減小到較小的維度。

Y=A*X

3、值歸約：

特徵離散化技術：減少已知特徵的離散值數目，將連續型特徵的值離散化，使之成為少量的區間，每個區間對映到一個離散符號。這樣就簡化了資料描述並易於理解資料和最終資料探勘的結果。

（1）分割點選擇

（2）怎樣選擇區間描述

幾種自動離散化技術：

（1）特徵離散化

ChiMerge演算法：

a.對已知特別資料進行升序排列

b.定義初始區間，使特徵的每個值都在一個單獨的區間內

c.重複進行直到任何兩個相臨區間的X2都不小於閾值。

4、案例歸約：

初始資料集中最大和最關鍵的維度數就是案例或樣本的數目。在案例規約之前，我們消除了異常點，有時也需要消除有丟失值的樣本。取樣誤差是固有的。

取樣方法分類：

（1）普通用途取樣

a.系統化取樣

b.隨機取樣：不回放/回放

基本形式有增量取樣，平均取樣，

c.分層取樣

d.逆取樣

（2）特殊用途取樣

資料探勘中的資料歸約技術總結

相關文章