[特徵工程系列三]顯性特徵的衍生
前一文講的是一些特徵的基礎處理方式,包括怎麼降維、怎麼處理髒資料等等。其實特徵工程真正的難點是如何結合業務需求衍生出新的特徵。結合業務需求講的是利用專家經驗來提取出資料裡對結果影響更大的特徵,往往是原有資料欄位通過加減乘除等操作生成新的欄位,這些欄位在結合一些線性演算法做訓練的時候往往能起到提升模型效果的作用,接下來就簡單介紹下特徵衍生。
因為衍生特徵這個方法是需要結合業務特點的,範圍太廣,所以本文就用一個例子來介紹。今天就用一份NBA比賽資料做例子吧,因為讀者大部分是男同學,對於籃球應該比較熟悉,如果是妹子讀者的話可以諮詢下你的男朋友~
球員 | 投籃數 | 命中數 | 比賽場次 | 全明星 |
科比 | 800 | 400 | 500 | 否 |
喬丹 | 500 | 300 | 200 | 是 |
上面這份資料我就隨便寫兩個球員哈(非黑),然後隨便寫了三個特徵資料分別是投籃數、命中數、比賽場次,目標列就是是否是明星球員。現在要思考這樣的問題,如果只用原始的這三個輸入特徵去做訓練,資訊量可能略顯單薄。先拿“命中率”來講,我們都知道在投籃比賽中命中投籃越多表示這個球員越厲害,原始資料中科比的命中數多於喬丹,而只有喬丹是明星,如果這樣的資料帶入很有可能學出來的效果是“命中球數越多,越不可能成為全明星”,這個理論與我們熟悉的客觀事實不符。
真正熟悉籃球的同學肯定會了解,影響一個球員能否成為明星的關鍵,不是他浪投進了多少,而是更關鍵的是這個球員的命中率。如果我們衍生一個欄位叫命中率,它的計算方式是“命中數/投籃數”,那這個特徵對於資料的刻畫可能更深刻。於是資料變成了:
球員 | 投籃數 | 命中數 | 命中率 | 比賽場次 | 全明星 |
科比 | 800 | 400 | 0.5 | 500 | 否 |
喬丹 | 500 | 300 | 0.6 | 200 | 是 |
在真實業務場景中,特徵衍生往往要覆蓋業務的各個方面,可能要衍生出成百上千的新特徵才能更好的描述訓練資料集的意義。
相關文章
- [特徵工程系列二]顯性特徵的基本處理方法特徵工程
- [特徵工程系列一] 論特徵的重要性特徵工程
- 特徵工程系列:(三)特徵對齊與表徵特徵工程
- 特徵工程之特徵表達特徵工程
- 特徵工程之特徵選擇特徵工程
- 特徵工程特徵工程
- 【特徵工程】(資料)使用Xgboost篩選特徵重要性特徵工程
- 08 特徵工程 - 特徵降維 - LDA特徵工程LDA
- 特徵工程之特徵預處理特徵工程
- 機器學習 特徵工程之特徵選擇機器學習特徵工程
- 特徵工程:互動特徵與多項式特徵理解特徵工程
- 專欄 | 基於 Jupyter 的特徵工程手冊:特徵選擇(三)特徵工程
- 機器學習 | 特徵工程機器學習特徵工程
- 機器學習——特徵工程機器學習特徵工程
- 特徵工程梗概特徵工程
- 機器學習特徵工程機器學習特徵工程
- 特徵工程思路特徵工程
- 特徵工程 特徵選擇 reliefF演算法特徵工程演算法
- 機器學習之特徵工程機器學習特徵工程
- [特徵工程] encoding特徵工程Encoding
- 量化投資中的特徵工程特徵工程
- xgboost 特徵選擇,篩選特徵的正要性特徵
- 雲的三大特徵特徵
- 機器學習2-特徵工程機器學習特徵工程
- 機器學習之特徵工程(一)機器學習特徵工程
- 面向機器學習的特徵工程一、引言機器學習特徵工程
- 特徵工程:基於梯度提升的模型的特徵編碼效果測試特徵工程梯度模型
- 【特徵值 / 特徵向量】- 圖解線性代數 11特徵圖解
- 資料分析特徵工程方法特徵工程
- 專欄 | 基於 Jupyter 的特徵工程手冊:特徵選擇(一)特徵工程
- 專欄 | 基於 Jupyter 的特徵工程手冊:特徵選擇(二)特徵工程
- 專欄 | 基於 Jupyter 的特徵工程手冊:特徵選擇(四)特徵工程
- 專欄 | 基於 Jupyter 的特徵工程手冊:特徵選擇(五)特徵工程
- 【區域性特徵】ASIFT特徵
- TensorFlow 訓練單特徵和多特徵的線性迴歸特徵
- XGBoost 輸出特徵重要性以及篩選特徵特徵
- (特徵工程實戰)ML最實用的資料預處理與特徵工程常用函式!特徵工程函式
- 物件導向的三大特徵物件特徵