[特徵工程系列一] 論特徵的重要性
滿打滿算,還有十天左右就要過年了,這些天大家或多或少都有點浮躁。反過來想,趁大家都懈怠的時候,正是學習的最佳時機。趁著這幾天,也給自己加點碼,去認真的再看一下特徵工程。我給自己列了下面的這一份學習清單,也會在過年前後逐一分享給大家。
《特徵工程系列二,顯性特徵的基本處理方法》:講一下如何處理資料特徵,以及最基本的概念
《特徵工程三,顯性特徵的衍生》:準備通過NBA球星的資料,展示下特徵的衍生的一些概念
《特徵工程四,Wide&Deep Learning for Recommender Systems》:講一下如何通過線性演算法的顯性特徵以及深度學習NN演算法中的提取的隱式特徵做推薦系統
《特徵工程五,基於蒙特卡洛樹搜尋的半自動特徵工程方案》:特徵工程需要大量的人工干預和專家經驗,那麼能不能有一種方案去實現自動特徵工程呢,純自己YY了一套可能的方案。
下面我們進入今天的正題,特徵工程有多重要,可以引用一句話來表達:“資料和特徵決定了模型的上限,演算法只是在幫忙逼近這個上限。”好的特徵是決定一個模型準確率的關鍵,那問題來了?什麼是特徵呢,特徵就是資料對於結果的一種描述。比如我們形容一個人是否漂亮,那她的眼睛大小、鼻子的形狀、臉型都是特徵。通常,當獲得一份結構化資料的時候,如果這份資料裡存在目標列,那麼除了目標列每個欄位都可以看做是特徵,特徵工程要做的事情是找到對結果影響最大的特徵。
瞭解了特徵的重要性,我們就可以開啟這一系列文章的分享了,不過在此之前,有幾個概念需要再明確下。特徵分哪幾種呢?
1. 顯性特徵:可以理解為使用者直接可以拿到的資料欄位
2. 半隱性特徵:使用者資料在通過GBDT等演算法的計算過程中產出的一些特徵
3. 隱性特徵:深度學習在很大程度上可以簡化人肉特徵工程的工作量,因為深度學習可以在計算過程中自動生成一些特徵向量,這些特徵的表達往往是不可解釋的,那這些特徵就是隱性特徵。
Ok~同步完這些概念,開啟衝刺,年前要好好學習並分享特徵工程的系列文章。
相關文章
- 【特徵工程】(資料)使用Xgboost篩選特徵重要性特徵工程
- 特徵工程系列:(三)特徵對齊與表徵特徵工程
- 特徵工程之特徵表達特徵工程
- 特徵工程之特徵選擇特徵工程
- 特徵工程特徵工程
- xgboost特徵重要性特徵
- 08 特徵工程 - 特徵降維 - LDA特徵工程LDA
- 特徵工程之特徵預處理特徵工程
- XGBoost 輸出特徵重要性以及篩選特徵特徵
- 特徵工程:互動特徵與多項式特徵理解特徵工程
- 特徵工程思路特徵工程
- [特徵工程] encoding特徵工程Encoding
- 特徵工程梗概特徵工程
- 專欄 | 基於 Jupyter 的特徵工程手冊:特徵選擇(一)特徵工程
- xgboost 特徵重要性選擇 / 看所有特徵哪個重要特徵
- 特徵工程 特徵選擇 reliefF演算法特徵工程演算法
- xgboost 特徵重要性計算特徵
- 一文讀懂特徵工程特徵工程
- XGBoost學習(六):輸出特徵重要性以及篩選特徵特徵
- 面向機器學習的特徵工程一、引言機器學習特徵工程
- 量化投資中的特徵工程特徵工程
- 專欄 | 基於 Jupyter 的特徵工程手冊:特徵選擇(五)特徵工程
- 專欄 | 基於 Jupyter 的特徵工程手冊:特徵選擇(四)特徵工程
- 專欄 | 基於 Jupyter 的特徵工程手冊:特徵選擇(二)特徵工程
- 專欄 | 基於 Jupyter 的特徵工程手冊:特徵選擇(三)特徵工程
- 特徵工程:基於梯度提升的模型的特徵編碼效果測試特徵工程梯度模型
- xgboost模型特徵重要性的不同計算方式模型特徵
- 特徵工程中的「歸一化」有什麼作用特徵工程
- 機器學習 | 特徵工程機器學習特徵工程
- 機器學習——特徵工程機器學習特徵工程
- 資料分析特徵工程方法特徵工程
- 機器學習特徵工程機器學習特徵工程
- 【完結篇】專欄 | 基於 Jupyter 的特徵工程手冊:特徵降維特徵工程
- (特徵工程實戰)ML最實用的資料預處理與特徵工程常用函式!特徵工程函式
- FeatHub:流批一體的實時特徵工程平臺特徵工程
- 機器學習之特徵工程機器學習特徵工程
- 用Dask並行化特徵工程!並行特徵工程
- SparkML機器學習之特徵工程(一)特徵提取(TF-IDF、Word2Vec、CountVectorizer)Spark機器學習特徵工程
- 掌握時間序列特徵工程:常用特徵總結與 Feature-engine 的應用特徵工程