資料探勘與資料抽樣
--[@more@] 前段時間在做一個挖掘模型時,模型的特徵決定了選擇的資料是嚴重有偏的,怎樣在這樣的資料上進行抽樣,得到能比較好地反映真實情況的資料樣本是很關鍵的。自己對統計學僅僅限於大學課程的學習,很少做過實驗,在做資料預處理走了一些彎路。下面對資料探勘中的抽樣發表一點淺見。謝謝苦瓜兄弟解答,希望和大家多多交流:)
在資料探勘的資料預處理過程中,寬表資料往往是幾十萬,上百萬級記錄的。要對所有資料進行訓練,時間上很難滿足要求,因此對資料進行抽樣就很必要了,不同的資料抽樣方法對訓練結果模型的精度有很大影響。可以考慮用一些資料瀏覽工具,統計工具對資料分佈做一定的探索,在對資料做充分的瞭解後,再考慮採用合適的資料抽樣方法,抽取樣本資料進行建模實驗。對一般的模型,比如客戶細分,主要是資料的聚類,我在做抽樣時用了隨機抽樣,也可以考慮整群抽樣;而做離網預警模型或者金融欺詐預測模型時,資料分佈是嚴重有偏的,而且這種有偏資料對這類模型來說恰恰是至關重要的。一般採用分層抽樣和過度抽樣結合有不錯的效果,分層抽樣和過度抽樣的區別自己也不是很瞭解,現在只能是做個概述了。
幾種常用的抽樣方法:
1.簡單隨機抽樣(simple random sampling)
將所有調查總體編號,再用抽籤法或隨機數字表隨機抽取部分觀察資料組成樣本。
優點:操作簡單,均數、率及相應的標準誤計算簡單。
缺點:總體較大時,難以一一編號。
2.系統抽樣(systematic sampling)
又稱機械抽樣、等距抽樣,即先將總體的觀察單位按某一順序號分成n個部分,再從第一部分隨機抽取第k號觀察單位,依次用相等間距從每一部分各抽取一個觀察單位組成樣本。
優點:易於理解、簡便易行。
缺點:總體有周期或增減趨勢時,易產生偏性。
3.整群抽樣(cluster sampling)
先將總體依照一種或幾種特徵分為幾個子總體(類.群),每一個子總體稱為一層,然後從每一層中隨機抽取一個子樣本,將它們合在一起,即為總體的樣本,稱為分層樣本
優點:便於組織、節省經費。
缺點:抽樣誤差大於單純隨機抽樣。
4.分層抽樣(stratified sampling)
將總體樣本按其屬性特徵分成若干型別或層,然後在型別或層中隨機抽取樣本單位,合起來組成樣本。有按比例分配和最優分配(過度抽樣是否就是最優分配方法?)兩種方案。
特點:由於透過劃類分層,增大了各型別中單位間的共同性,容易抽出具有代表性的調查樣本。該方法適用於總體情況複雜,各類別之間差異較大(比如金融客戶風險/非風險樣本的差異),類別較多的情況。
優點:樣本代表性好,抽樣誤差減少。
在資料探勘的資料預處理過程中,寬表資料往往是幾十萬,上百萬級記錄的。要對所有資料進行訓練,時間上很難滿足要求,因此對資料進行抽樣就很必要了,不同的資料抽樣方法對訓練結果模型的精度有很大影響。可以考慮用一些資料瀏覽工具,統計工具對資料分佈做一定的探索,在對資料做充分的瞭解後,再考慮採用合適的資料抽樣方法,抽取樣本資料進行建模實驗。對一般的模型,比如客戶細分,主要是資料的聚類,我在做抽樣時用了隨機抽樣,也可以考慮整群抽樣;而做離網預警模型或者金融欺詐預測模型時,資料分佈是嚴重有偏的,而且這種有偏資料對這類模型來說恰恰是至關重要的。一般採用分層抽樣和過度抽樣結合有不錯的效果,分層抽樣和過度抽樣的區別自己也不是很瞭解,現在只能是做個概述了。
幾種常用的抽樣方法:
1.簡單隨機抽樣(simple random sampling)
將所有調查總體編號,再用抽籤法或隨機數字表隨機抽取部分觀察資料組成樣本。
優點:操作簡單,均數、率及相應的標準誤計算簡單。
缺點:總體較大時,難以一一編號。
2.系統抽樣(systematic sampling)
又稱機械抽樣、等距抽樣,即先將總體的觀察單位按某一順序號分成n個部分,再從第一部分隨機抽取第k號觀察單位,依次用相等間距從每一部分各抽取一個觀察單位組成樣本。
優點:易於理解、簡便易行。
缺點:總體有周期或增減趨勢時,易產生偏性。
3.整群抽樣(cluster sampling)
先將總體依照一種或幾種特徵分為幾個子總體(類.群),每一個子總體稱為一層,然後從每一層中隨機抽取一個子樣本,將它們合在一起,即為總體的樣本,稱為分層樣本
優點:便於組織、節省經費。
缺點:抽樣誤差大於單純隨機抽樣。
4.分層抽樣(stratified sampling)
將總體樣本按其屬性特徵分成若干型別或層,然後在型別或層中隨機抽取樣本單位,合起來組成樣本。有按比例分配和最優分配(過度抽樣是否就是最優分配方法?)兩種方案。
特點:由於透過劃類分層,增大了各型別中單位間的共同性,容易抽出具有代表性的調查樣本。該方法適用於總體情況複雜,各類別之間差異較大(比如金融客戶風險/非風險樣本的差異),類別較多的情況。
優點:樣本代表性好,抽樣誤差減少。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/7600305/viewspace-931830/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 資料探勘與生活
- 資料探勘者與資料探勘青年的對話(轉)
- 統計學與資料探勘
- 資料探勘中常用的取樣方法
- 資料探勘——認識資料
- 大資料時代,如何做資料探勘與分析!大資料
- 資料分析與資料探勘 - 04科學計算
- Yahoo前任資料官:資料探勘與分析技巧(下)IF
- 自學資料探勘
- Web資料探勘Web
- 序列資料探勘
- 資料探勘概念
- 《資料分析與資料探勘》--天津大學公開課
- 資料探勘的資料分析方法
- 資料探勘資料集下載資源
- 資料探勘與分析 概念與演算法演算法
- 資料探勘與資料分析的主要區別是什麼
- 大資料、資料分析、資料探勘的差別大資料
- 資料:資料探勘綜述彙編
- 《資料探勘——概念與技術》書評
- 社交網站的資料探勘與分析網站
- .NET資料探勘與機器學習開源框架機器學習框架
- 資料探勘( TO DO LIST)
- 資料探勘的功能
- 神奇的資料探勘
- 資料探勘概述 (轉)
- 資料探勘方向分析
- 資料探勘技術
- 資料探勘資源彙總
- 資料探勘之資料準備——原始資料的特性
- 用Excel做資料說明――抽樣說明工具Excel
- 資料探勘和資料提取能做什麼?
- Spark ML包,資料探勘示例資料AffairsSparkAI
- 大資料探勘的大致步驟是怎樣的?大資料
- 紐約消防局是怎樣利用資料探勘的?
- 資料探勘與預測分析(第2版)
- 統計學與資料探勘的區別
- 淺談大資料、資料分析、資料探勘的區別!大資料