[特徵工程系列一] 論特徵的重要性

李博Garvin發表於2018-02-01

滿打滿算,還有十天左右就要過年了,這些天大家或多或少都有點浮躁。反過來想,趁大家都懈怠的時候,正是學習的最佳時機。趁著這幾天,也給自己加點碼,去認真的再看一下特徵工程。我給自己列了下面的這一份學習清單,也會在過年前後逐一分享給大家。


《特徵工程系列二,顯性特徵的基本處理方法》:講一下如何處理資料特徵,以及最基本的概念

《特徵工程三,顯性特徵的衍生》:準備通過NBA球星的資料,展示下特徵的衍生的一些概念

《特徵工程四,Wide&Deep Learning for Recommender Systems》:講一下如何通過線性演算法的顯性特徵以及深度學習NN演算法中的提取的隱式特徵做推薦系統

《特徵工程五,基於蒙特卡洛樹搜尋的半自動特徵工程方案》:特徵工程需要大量的人工干預和專家經驗,那麼能不能有一種方案去實現自動特徵工程呢,純自己YY了一套可能的方案。

 

下面我們進入今天的正題,特徵工程有多重要,可以引用一句話來表達:“資料和特徵決定了模型的上限,演算法只是在幫忙逼近這個上限。”好的特徵是決定一個模型準確率的關鍵,那問題來了?什麼是特徵呢,特徵就是資料對於結果的一種描述。比如我們形容一個人是否漂亮,那她的眼睛大小、鼻子的形狀、臉型都是特徵。通常,當獲得一份結構化資料的時候,如果這份資料裡存在目標列,那麼除了目標列每個欄位都可以看做是特徵,特徵工程要做的事情是找到對結果影響最大的特徵。

 

瞭解了特徵的重要性,我們就可以開啟這一系列文章的分享了,不過在此之前,有幾個概念需要再明確下。特徵分哪幾種呢?

1.    顯性特徵:可以理解為使用者直接可以拿到的資料欄位

2.    半隱性特徵:使用者資料在通過GBDT等演算法的計算過程中產出的一些特徵

3.    隱性特徵:深度學習在很大程度上可以簡化人肉特徵工程的工作量,因為深度學習可以在計算過程中自動生成一些特徵向量,這些特徵的表達往往是不可解釋的,那這些特徵就是隱性特徵。

Ok~同步完這些概念,開啟衝刺,年前要好好學習並分享特徵工程的系列文章。

相關文章