作為機器學習重要的一環,特徵工程也遵循二八法則。即80%的時間用來處理資料和特徵,20%用來進行模型訓練和優化(可能nlp和cv領域除外)。特徵工程主要包括以下幾個方面:
-
特徵清洗:處理資料中的對齊、異常值和缺失值,提升資料質量。
-
特徵處理:將特徵變換成適當的形式,方便機器處理和理解。
-
特徵抽取:從現有特徵中派生出有價值的額外特徵(跟特徵處理不同,特徵抽取一般要保留原始特徵,而特徵處理一般不會保留原有特徵,這兩者界限比較模糊)。
-
特徵選擇:從大量特徵中選取價值最高的特徵組,減少模型計算量,一定程度上減少過擬合。
-
特徵壓縮(降維):將大量稀疏的特徵對映到少量稠密的特徵空間(實際業務中應用較少,另外經過對映後,特徵的解釋性變弱,不利於debug)。因此後面的介紹中該節略去。
參考資料:
-
https://segmentfault.com/a/1190000024522693