資料歸約是指在儘可能保持資料原貌的前提下,最大限度地精簡資料量。原資料可以用來得到資料集的歸約表示,它接近於保持原資料的完整性,但資料量比原資料小得多,與非歸約資料相比,在歸約的資料上進行挖掘,所需的時間和記憶體資源更少,挖掘將更有效,併產生相同或幾乎相同的分析結果。
資料規約常用方法如下:
常用維歸約
常用維歸約、 數值歸約等方法實現:維歸約也稱為特徵規約,是指透過減少屬性特徵的方式壓縮資料量,透過移除不相關的屬性, 可以提高模型效率。維歸約的方法很多。例如,AIC準則可以通c過選擇最優模型來選擇屬性: LASS透過定約束條件選擇變數:分類樹、隨機森林透過對分類效果的影響大小篩選屬性;小波變換、主成分分析透過把原資料變換或投影到較小的空間來降低維數。
數值歸約
數值歸約也稱為樣本規約,樣本歸約就是從資料集中選出一個有代表性的樣本的子集。子集大小的確定要考慮計算成本、儲存要求、估計量的精度及其他一些與演算法和資料特性有關的因素。例如,引數方法中使用模型估計資料,就可以只存放模型引數代替存放實際資料,如迴歸模型和對數線性模型都可以用來進行引數化資料歸約。對於非引數方法,可以使用直方圖、聚類、抽樣和資料立方體聚集為方法。
本作品採用《CC 協議》,轉載必須註明作者和本文連結
文章!!首發於我的部落格Stray_Camel(^U^)ノ~YO。