【電子書獎勵計劃】特徵工程入門與實踐1

childishjin發表於2019-08-05
很高興參加圖靈社群的電子書獎勵計劃,簡直是免費讀新書啊。既能激勵自己,又可以持續不斷的學習新知識,關鍵還不花錢,太棒了吧。我的第一本:特徵工程入門與實踐。因為一直在學習機器學習,但是在特徵工程這方面還存在一些不理解,因此果斷入手這本。![特徵工程入門與實踐][1]

第一章主要是對於特徵工程的介紹,闡述了特徵工程的重要性。在機器學習工程師和資料科學家日常工作中,超過50%的時間事實上都是在資料的準備階段。這其中包括儲存,清洗,組織資料等等。特徵工程就是這樣的一個過程:將資料轉換為能更好地表示潛在問題的特徵,從而提高機器學習的學習效能。一個完整的特徵工程包括對於資料中特徵的理解,特徵增強:清洗資料,特徵選擇,特徵構建,特徵轉換,特徵學習。最後本章還介紹了特徵工程的評估。

第二章對於資料集特徵的理解進行了介紹。通過本章的學習,可以掌握對於資料等級的劃分,包括定類,定序,定距,定比等級。最後,不同等級的資料可以進行的描述性分析以及常用圖表給出了介紹,加強了我的理解。

第三章是對於特徵增強:清洗資料的介紹。本章從對於缺失值的識別開始,介紹了缺失值的刪除,缺失值的常用填充方法,資料歸一化處理(z-score,min-max,行歸一化),並且介紹了使用sklearn完成上述步驟的方法。最後使用Pipeline進行了演示,直觀且容易理解。

第四章則是從特徵構建的角度,介紹了常用的特徵構建方法,並以流水線的方式進行了總結,學完這章真的收穫滿滿啊!

第五章進一步對選擇合適的方法進行了介紹,介紹了兩種型別:基於統計和基於模型的特徵選擇。

第六章從特徵轉換,維度縮減降維的角度進行了介紹。並以機器學習中常用的鳶尾花資料集為例,使用PCA和LDA進行了學習。

第七章則從特徵學習的角度,以神經網路深度學習來建立新特徵。

第八章給出了在特徵工程中兩個實際案例,通過實際操作介紹了完整的特徵工程處理流程。

學完全書,對特徵工程有了更深的理解,對於整個操作流程有了認識,雖然是本入門的書,介紹的案例也比較簡單,但是誰還不是從最基礎開始呢?期待下一個電子書學習計劃!!!感謝圖靈社群啊啊啊!!

相關文章