[特徵工程系列一] 論特徵的重要性

李博Garvin發表於2018-02-01

滿打滿算，還有十天左右就要過年了，這些天大家或多或少都有點浮躁。反過來想，趁大家都懈怠的時候，正是學習的最佳時機。趁著這幾天，也給自己加點碼，去認真的再看一下特徵工程。我給自己列了下面的這一份學習清單，也會在過年前後逐一分享給大家。

《特徵工程系列二，顯性特徵的基本處理方法》：講一下如何處理資料特徵，以及最基本的概念

《特徵工程三，顯性特徵的衍生》：準備通過NBA球星的資料，展示下特徵的衍生的一些概念

《特徵工程四，Wide&Deep Learning for Recommender Systems》：講一下如何通過線性演算法的顯性特徵以及深度學習NN演算法中的提取的隱式特徵做推薦系統

《特徵工程五，基於蒙特卡洛樹搜尋的半自動特徵工程方案》：特徵工程需要大量的人工干預和專家經驗，那麼能不能有一種方案去實現自動特徵工程呢，純自己YY了一套可能的方案。

下面我們進入今天的正題，特徵工程有多重要，可以引用一句話來表達：“資料和特徵決定了模型的上限，演算法只是在幫忙逼近這個上限。”好的特徵是決定一個模型準確率的關鍵，那問題來了？什麼是特徵呢，特徵就是資料對於結果的一種描述。比如我們形容一個人是否漂亮，那她的眼睛大小、鼻子的形狀、臉型都是特徵。通常，當獲得一份結構化資料的時候，如果這份資料裡存在目標列，那麼除了目標列每個欄位都可以看做是特徵，特徵工程要做的事情是找到對結果影響最大的特徵。

瞭解了特徵的重要性，我們就可以開啟這一系列文章的分享了，不過在此之前，有幾個概念需要再明確下。特徵分哪幾種呢？

1. 顯性特徵：可以理解為使用者直接可以拿到的資料欄位

2. 半隱性特徵：使用者資料在通過GBDT等演算法的計算過程中產出的一些特徵

3. 隱性特徵：深度學習在很大程度上可以簡化人肉特徵工程的工作量，因為深度學習可以在計算過程中自動生成一些特徵向量，這些特徵的表達往往是不可解釋的，那這些特徵就是隱性特徵。

Ok~同步完這些概念，開啟衝刺，年前要好好學習並分享特徵工程的系列文章。

【特徵工程】（資料）使用Xgboost篩選特徵重要性
2019-12-14
特徵工程
特徵工程系列：（三）特徵對齊與表徵
2021-07-19
特徵工程
特徵工程之特徵表達
2021-09-09
特徵工程
特徵工程之特徵選擇
2018-10-26
特徵工程
特徵工程
2020-10-06
特徵工程
xgboost特徵重要性
2019-02-16
特徵
08 特徵工程 - 特徵降維 - LDA
2019-01-04
特徵工程LDA
特徵工程之特徵預處理
2018-05-26
特徵工程
XGBoost 輸出特徵重要性以及篩選特徵
2018-08-26
特徵
特徵工程：互動特徵與多項式特徵理解
2020-12-29
特徵工程
特徵工程思路
2024-03-04
特徵工程
[特徵工程] encoding
2021-12-12
特徵工程Encoding
特徵工程梗概
2022-03-15
特徵工程
專欄 | 基於 Jupyter 的特徵工程手冊：特徵選擇（一）
2020-04-22
特徵工程
xgboost 特徵重要性選擇 / 看所有特徵哪個重要
2018-06-06
特徵
特徵工程特徵選擇 reliefF演算法
2020-11-07
特徵工程演算法
xgboost 特徵重要性計算
2018-11-13
特徵
一文讀懂特徵工程
2018-07-31
特徵工程
XGBoost學習（六）：輸出特徵重要性以及篩選特徵
2020-09-03
特徵
面向機器學習的特徵工程一、引言
2018-06-21
機器學習特徵工程
量化投資中的特徵工程
2019-01-30
特徵工程
專欄 | 基於 Jupyter 的特徵工程手冊：特徵選擇（五）
2020-05-24
特徵工程
專欄 | 基於 Jupyter 的特徵工程手冊：特徵選擇（四）
2020-05-07
特徵工程
專欄 | 基於 Jupyter 的特徵工程手冊：特徵選擇（二）
2020-04-24
特徵工程
專欄 | 基於 Jupyter 的特徵工程手冊：特徵選擇（三）
2020-04-24
特徵工程
特徵工程：基於梯度提升的模型的特徵編碼效果測試
2022-11-23
特徵工程梯度模型
xgboost模型特徵重要性的不同計算方式
2019-09-17
模型特徵
特徵工程中的「歸一化」有什麼作用
2024-10-28
特徵工程
機器學習 | 特徵工程
2019-08-22
機器學習特徵工程
機器學習——特徵工程
2020-11-02
機器學習特徵工程
資料分析特徵工程方法
2021-01-21
特徵工程
機器學習特徵工程
2018-03-03
機器學習特徵工程
【完結篇】專欄 | 基於 Jupyter 的特徵工程手冊：特徵降維
2020-06-28
特徵工程
（特徵工程實戰）ML最實用的資料預處理與特徵工程常用函式！
2020-12-13
特徵工程函式
FeatHub：流批一體的實時特徵工程平臺
2023-03-14
特徵工程
機器學習之特徵工程
2020-06-14
機器學習特徵工程
用Dask並行化特徵工程！
2018-08-20
並行特徵工程
SparkML機器學習之特徵工程（一）特徵提取（TF-IDF、Word2Vec、CountVectorizer）
2018-04-08
Spark機器學習特徵工程
掌握時間序列特徵工程：常用特徵總結與 Feature-engine 的應用
2024-04-20
特徵工程

[特徵工程系列一] 論特徵的重要性

相關文章