--[@more@] 前段時間在做一個挖掘模型時，模型的特徵決定了選擇的資料是嚴重有偏的，怎樣在這樣的資料上進行抽樣，得到能比較好地反映真實情況的資料樣本是很關鍵的。自己對統計學僅僅限於大學課程的學習，很少做過實驗，在做資料預處理走了一些彎路。下面對資料探勘中的抽樣發表一點淺見。謝謝苦瓜兄弟解答，希望和大家多多交流：）
在資料探勘的資料預處理過程中，寬表資料往往是幾十萬，上百萬級記錄的。要對所有資料進行訓練，時間上很難滿足要求，因此對資料進行抽樣就很必要了，不同的資料抽樣方法對訓練結果模型的精度有很大影響。可以考慮用一些資料瀏覽工具，統計工具對資料分佈做一定的探索，在對資料做充分的瞭解後，再考慮採用合適的資料抽樣方法，抽取樣本資料進行建模實驗。對一般的模型，比如客戶細分，主要是資料的聚類，我在做抽樣時用了隨機抽樣，也可以考慮整群抽樣；而做離網預警模型或者金融欺詐預測模型時，資料分佈是嚴重有偏的，而且這種有偏資料對這類模型來說恰恰是至關重要的。一般採用分層抽樣和過度抽樣結合有不錯的效果，分層抽樣和過度抽樣的區別自己也不是很瞭解，現在只能是做個概述了。
幾種常用的抽樣方法：
1.簡單隨機抽樣（simple random sampling）
將所有調查總體編號，再用抽籤法或隨機數字表隨機抽取部分觀察資料組成樣本。
優點：操作簡單，均數、率及相應的標準誤計算簡單。
缺點：總體較大時，難以一一編號。
2.系統抽樣（systematic sampling）
又稱機械抽樣、等距抽樣，即先將總體的觀察單位按某一順序號分成n個部分，再從第一部分隨機抽取第k號觀察單位，依次用相等間距從每一部分各抽取一個觀察單位組成樣本。
優點：易於理解、簡便易行。
缺點：總體有周期或增減趨勢時，易產生偏性。
3.整群抽樣(cluster sampling)
先將總體依照一種或幾種特徵分為幾個子總體（類．群），每一個子總體稱為一層，然後從每一層中隨機抽取一個子樣本，將它們合在一起，即為總體的樣本，稱為分層樣本
優點：便於組織、節省經費。
缺點：抽樣誤差大於單純隨機抽樣。
4.分層抽樣（stratified sampling）
將總體樣本按其屬性特徵分成若干型別或層，然後在型別或層中隨機抽取樣本單位，合起來組成樣本。有按比例分配和最優分配（過度抽樣是否就是最優分配方法？）兩種方案。
特點：由於透過劃類分層，增大了各型別中單位間的共同性，容易抽出具有代表性的調查樣本。該方法適用於總體情況複雜，各類別之間差異較大（比如金融客戶風險/非風險樣本的差異），類別較多的情況。
優點：樣本代表性好，抽樣誤差減少。

資料探勘與資料抽樣

相關文章