機器學習之特徵工程（一）

一個人的場域發表於2017-02-11

原文網址 : https://blog.csdn.net/leiting_imecas/article/details/54981723

機器學習特徵工程

一什麼是特徵工程

特徵是指資料中抽取出來的對結果預測有用的資訊

特徵工程是使用專業背景和技巧處理資料，使得特徵能在機器學習演算法上發揮更好的作用的過程。

特徵工程的意義：1.更好的特徵意味著更強的靈活性 2更好的特徵意味著只需要簡單模型 3更好的特徵意味著更好的結果

應用機器學習的主要工作就是特徵工程

資料和特徵決定了演算法能達到的上限，演算法和模型的選擇只是無限接近這個上限

如何特徵十分清晰、易辨別，可能不需要神經網路這樣複雜的演算法，只需要常見的機器學習演算法就能達到很好的結果

二特徵工程在實際工作中的作用

工作中可能70%的時間處理資料，30%的時間建模、模型狀態評估、ensemble。

演算法、模型的研究是一些演算法專家、專業人員在做

大部分人的工作：

1. 跑資料，各種map-reduce, hive sql，資料庫搬磚

2. 資料清洗，資料清洗，資料清洗...

3.業務分析，分析case，找特徵，找特徵...

4. 一招LR打天下（一般機器學習部分都有一個LR作為baseline, 可控； svm在小的資料集上效果很好，但很大的資料，例如電商每天資料很大，不太實用svm）

工業界的特徵工程有多大作用呢？

例如某搜尋引擎，廣告部門，2周內可以完成一次特徵迭代，有效的情況下AUC提升3-5%；而一個月左右完成模型的小優化，有效的情況下AUC提升5%

貼近業務場景進行特徵分析可能比演算法的優化更有效

三特徵工程的重要環節

1. 資料採集

考慮哪些資料有用；

埋點，資料打標籤

2 資料格式化

確定儲存格式，例如時間格式

大多數情況下，需要關聯非常多的hive表和叢集檔案

3. 資料清洗（data cleaning)

garbage in, garbage out

演算法大多數情況下就是一個加工機器，最後的產品往往取決於原材料的好壞。所以理解業務更加透徹、資料清洗對結果影響很大

主要是去除髒資料

1. 錯誤資料，例如人身高5m，這樣的資料無論是否真實，對模型訓練不利

2. 組合或統計屬性判定例如購買籃球鞋的人應該男生佔多數才對

3. 補齊可對應的預設值不可信的樣本丟掉，預設極多的欄位考慮不用

4. 資料取樣

1.很多情況下，正負樣本是不均衡的，例如電商的使用者點選/買過的商品和沒有行為的商品

2.大多數模型對正負樣本比是敏感的比如LR，如果有99個正樣本，1個負樣本，那預測時全部預測正，準確率也可以達到99%，這不能反映模型的好壞

正負樣本不平衡的處理方法：

1. 正負樣本量很大，一類樣本數量 >> 另一類樣本數量，採用下采樣，即對偏多的資料進行取樣，使兩類樣本數量達到一定比例，例如1：1， 3：2等

2. 正負樣本量不大，一類樣本數量>>另一類樣本，

1）採集更多的資料

2）oversampling，即硬生生的增加量少的一方的樣本，比如增加幾倍的量少的樣本（或簡單處理量少的資料，例如影象識別中的映象、旋轉），容易過擬合

3）修改loss function，例如增加量大的樣本的懲罰權重

機器學習之特徵工程
2020-06-14
機器學習特徵工程
機器學習 | 特徵工程
2019-08-22
機器學習特徵工程
機器學習——特徵工程
2020-11-02
機器學習特徵工程
機器學習特徵工程
2018-03-03
機器學習特徵工程
面向機器學習的特徵工程一、引言
2018-06-21
機器學習特徵工程
機器學習2-特徵工程
2021-01-17
機器學習特徵工程
SparkML機器學習之特徵工程（一）特徵提取（TF-IDF、Word2Vec、CountVectorizer）
2018-04-08
Spark機器學習特徵工程
python基礎學習之特徵工程
2019-08-28
Python特徵工程
百面機器學習總結--第一章特徵工程
2020-10-24
機器學習特徵工程
機器學習之良好特徵的特點
2020-06-16
機器學習特徵
機器學習-特徵提取
2019-09-07
機器學習特徵
機器學習中，有哪些特徵選擇的工程方法？
2018-07-09
機器學習特徵
機器學習之基於xgboost的特徵篩選
2020-03-19
機器學習特徵
機器學習之特徵組合:組合獨熱向量
2020-06-17
機器學習特徵
機器學習的靜態特徵和動態特徵
2022-11-13
機器學習特徵
美團機器學習實踐第二章-特徵工程總結
2019-01-18
機器學習特徵工程
在大型金融資料集上使用機器學習的特徵工程測試
2018-09-23
機器學習特徵工程
機器學習筆記——特徵標準化
2018-10-24
機器學習筆記特徵
機器學習的未來——深度特徵融合
2018-03-07
機器學習特徵
機器學習1-sklearn&字典特徵抽取
2021-01-16
機器學習特徵
為什麼說自動化特徵工程將改變機器學習的方式
2019-02-12
特徵工程機器學習
【機器學習】--Python機器學習庫之Numpy
2018-04-06
機器學習Python
機器學習之學習速率
2020-06-12
機器學習
一名前端工程師的機器學習之旅
2019-03-02
前端工程師機器學習
回顧·機器學習/深度學習工程實戰
2019-02-21
機器學習深度學習
機器學習之學習曲線
2019-09-18
機器學習
機器學習框架ML.NET學習筆記【3】文字特徵分析
2019-05-30
機器學習框架筆記特徵
機器學習之pca
2024-06-17
機器學習PCA
機器學習之皮毛
2021-04-14
機器學習
（一）機器學習和機器學習介紹
2021-09-09
機器學習
機器學習之特徵組合: 多非線性規律進行編碼
2020-06-16
機器學習特徵
什麼是機器學習的特徵工程？【資料集特徵抽取（字典，文字TF-Idf）、特徵預處理（標準化，歸一化）、特徵降維（低方差，相關係數，PCA）】
2022-04-04
機器學習特徵工程PCA
哪些特徵對我的機器學習模型影響最大？
2018-12-14
特徵機器學習模型
機器學習工程師方向文章清單
2019-11-05
機器學習工程師
機器學習之梯度下降
2020-02-08
機器學習梯度
機器學習之迭代方法
2020-06-12
機器學習
機器學習之泛化
2020-06-13
機器學習
機器學習-習題(一)
2022-05-04
機器學習
人工智慧-機器學習-Python-第三方庫-scikit-learn(用於特徵工程)
2020-11-17
人工智慧機器學習Python特徵工程

機器學習之特徵工程（一）

二 特徵工程在實際工作中的作用

三 特徵工程的重要環節

相關文章

二特徵工程在實際工作中的作用

三特徵工程的重要環節