資料探勘中常用的取樣方法

mysas發表於2007-11-17
近期看了一些關於資料取樣的資料,順便研究了一下SAS EM模組Sampling節點,SAS EM裡提供了隨機取樣,等距取樣,分層取樣以及聚類取樣等集中取樣方法,這裡分別介紹一下[@more@]

在資料探勘的資料分析階段,資料量通常都很大,一般為幾十萬甚至上百萬。透過資料分析,使用者可以瞭解資料集的特徵,變數特徵,並對資料進行初步的處理,以便在建模階段有導向的提取特徵變數進行建模。但如果建模的資料量過大,一方面要對所有資料進行訓練,時間上很難滿足,另一方面,資料量過大,容易造成模型的過度擬合。因此在建模之前對資料進行取樣在資料探勘過程中是十分必要的。

常用的資料取樣方法可以分成兩類:

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/11748324/viewspace-982889/,如需轉載,請註明出處,否則將追究法律責任。

相關文章