資料探勘之資料準備——原始資料的特性
最初為資料探勘準備的所有原始資料集通常很大,它們中的許多都和人有關,且比較雜亂。
初始資料集應包含丟失值,失真,誤記錄和不正當樣本等。要得到高質量的資料,必須在分析者看到它們之前,先整理和預處理資料,使其就像設計合理,準備充分的資料倉儲中的資料一樣。
雜亂資料的來源和含義。資料雜亂的原因如下:
1、資料丟失的原因包括測量或者記錄出錯,有時候都無法獲得資料值。在資料建模處理此問題時,必須能根據已有的資料甚至丟失的資料來建模。
2、資料的誤記錄,這在大資料集中非常常見。我們必須有能發現這些“異常”值的機制,某些情況下,甚至要用這些機制消除“異常”值對最終結果的影響
3、資料可能並不來自假定的樣本母體。這裡異常點就是典型的例子,分析人員要對它們進行仔細的分析,才能決定是將它們作為異常,從資料探勘中剔除,還是將它們保留為所研究的樣本母體的不尋常樣本。
對於現代的大型資料集來說,必須依賴計算機程式來自動檢查資料。
失真資料,方法上錯誤的步驟選擇,濫用資料探勘工具,模型過於理想化,未考慮資料中各種不確定性和模糊性的模型-所有這些都可能在資料探勘過程中導致方向錯誤。因此,資料探勘不只是簡單地對已知問題應用一系列工具,而是一個批判性的鑑定,考查,檢驗和評估過程。資料在本質上應該是定義明確的,一致的和非易失性的。資料量要足夠大,以支援資料分析,查詢,彙報以及與長期歷史資料進行比較。
資料探勘過程中一個最關鍵的步驟是初始資料集的準備和轉換。
原始資料並不總是能進行資料探勘的最佳資料集,要對其進行許多轉換,才能產生對所選的資料探勘方法更有用的特徵。
用不同的方式計算,採用不同的樣本大小,選擇重要的比率,針對時間相關資料改變資料視窗的大小,包活移動平均數的變化——所有這些都可能有助於獲得更好的資料探勘結果。
在資料探勘應用的現實世界中,形勢恰恰相反。資料準備比應用資料探勘方法更加的耗時耗力。
資料準備階段有兩個中心任務:
1、把資料組織成一種標準形式,以便於資料探勘工具和其他基於計算機的工具處理
2、準備資料集,使其能得到最佳的資料探勘效果。
相關文章
- 資料探勘的資料分析方法
- 大資料、資料分析、資料探勘的差別大資料
- 資料探勘——認識資料
- 資料探勘標準流程規範
- 資料探勘與資料抽樣
- 資料探勘之預測篇
- 資料探勘的功能
- 神奇的資料探勘
- 資料探勘資料集下載資源
- 淺談大資料、資料分析、資料探勘的區別!大資料
- 資料探勘者與資料探勘青年的對話(轉)
- 大資料應用——資料探勘之推薦系統大資料
- Oracle DB 資料準備Oracle
- 自學資料探勘
- Web資料探勘Web
- 序列資料探勘
- 資料探勘概念
- 測試基準資料的準備
- 資料:資料探勘綜述彙編
- 資料探勘比賽預備知識
- 《資料探勘導論》實驗課——實驗四、資料探勘之KNN,Naive BayesKNNAI
- 資料探勘之 層次聚類聚類
- 資料探勘之關聯規則
- 資料探勘和資料提取能做什麼?
- Spark ML包,資料探勘示例資料AffairsSparkAI
- 資料探勘資源彙總
- 資料探勘( TO DO LIST)
- 資料探勘與生活
- 資料探勘概述 (轉)
- 資料探勘方向分析
- 資料探勘技術
- Openfire安裝準備-MySQL資料庫準備MySql資料庫
- 《資料之美》:資料探勘、資料視覺化、雲端儲存及其他資料處理相關專案視覺化
- OLAP和資料探勘——資料倉儲手冊
- 資料探勘中的資料歸約技術總結
- 《資料探勘:實用機器學習技術》——資料探勘、機器學習一舉兩得機器學習
- 資料清洗和準備 (待更新)
- 資料結構之資料、資料元素、資料項、資料物件之間的關係資料結構物件