資料探勘之資料準備——原始資料的特性

laima科技發表於2017-04-06

最初為資料探勘準備的所有原始資料集通常很大,它們中的許多都和人有關,且比較雜亂。

初始資料集應包含丟失值,失真,誤記錄和不正當樣本等。要得到高質量的資料,必須在分析者看到它們之前,先整理和預處理資料,使其就像設計合理,準備充分的資料倉儲中的資料一樣。

雜亂資料的來源和含義。資料雜亂的原因如下:

    1、資料丟失的原因包括測量或者記錄出錯,有時候都無法獲得資料值。在資料建模處理此問題時,必須能根據已有的資料甚至丟失的資料來建模。

    2、資料的誤記錄,這在大資料集中非常常見。我們必須有能發現這些“異常”值的機制,某些情況下,甚至要用這些機制消除“異常”值對最終結果的影響

    3、資料可能並不來自假定的樣本母體。這裡異常點就是典型的例子,分析人員要對它們進行仔細的分析,才能決定是將它們作為異常,從資料探勘中剔除,還是將它們保留為所研究的樣本母體的不尋常樣本。

對於現代的大型資料集來說,必須依賴計算機程式來自動檢查資料。

失真資料,方法上錯誤的步驟選擇,濫用資料探勘工具,模型過於理想化,未考慮資料中各種不確定性和模糊性的模型-所有這些都可能在資料探勘過程中導致方向錯誤。因此,資料探勘不只是簡單地對已知問題應用一系列工具,而是一個批判性的鑑定,考查,檢驗和評估過程。資料在本質上應該是定義明確的,一致的和非易失性的。資料量要足夠大,以支援資料分析,查詢,彙報以及與長期歷史資料進行比較。

資料探勘過程中一個最關鍵的步驟是初始資料集的準備和轉換。

原始資料並不總是能進行資料探勘的最佳資料集,要對其進行許多轉換,才能產生對所選的資料探勘方法更有用的特徵。

用不同的方式計算,採用不同的樣本大小,選擇重要的比率,針對時間相關資料改變資料視窗的大小,包活移動平均數的變化——所有這些都可能有助於獲得更好的資料探勘結果。

在資料探勘應用的現實世界中,形勢恰恰相反。資料準備比應用資料探勘方法更加的耗時耗力。

資料準備階段有兩個中心任務:

 1、把資料組織成一種標準形式,以便於資料探勘工具和其他基於計算機的工具處理

 2、準備資料集,使其能得到最佳的資料探勘效果。


相關文章