機器學習入門準備

xdmonkey發表於2018-04-10

原文網址 : https://juejin.im/post/5acc938bf265da23a1423bb1

機器學習

特徵工程

歸一化

歸一化就是將資料經過某種演算法限制在一定範圍內，一是為了處理資料的方便，二也可以保證程式執行時收斂速度加快（比如梯度下降演算法），精度加高，本質上似乎為了使得各個特徵維度對目標函式的影響權重是一致的

標準化

和歸一化看上去十分地類似，不過其實和歸一化也沒有必要區分地特別清楚，標準化是對特徵維度大小的伸縮，使得特徵之間具備可比性，其實沒有必要和歸一化劃分地過於清晰

特徵離散化

　　一些特徵是分類的特徵，這部分特徵我們要進行離散化處理，這種我們比較好理解。對於另外一些特徵，雖然是數值型的，但是這些特徵的取值相加減是沒有實際意義的，那麼該數值新特徵也要看成離散特徵，採用離散化的技術：比如年齡20歲和年齡30歲往往對一個廣告的興趣差距不會那麼大，這種時候我們也要進行特徵離散化。

特徵交叉

　　交叉從理論上而言是為了引入特徵之間的互動，即為了引入非線性，這也便是特徵交叉的意義。知乎上有一個最簡單的例子，性別和年齡，可以組成性別_年齡的一個新特徵，即可以得到新的特徵屬性，然後再對這個特徵做one-hot編碼，即可以得到新的特徵屬性值。

不同特徵型別的不同處理方式

連續特徵，除了歸一化（去中心，方差歸一），不用做太多特殊處理，可以直接把連續特徵扔到模型裡使用。
無序特徵，可以使用one-hot的方法把每個無序特徵轉化為一個資料向量。實際上這種方法在NLP中用的很多，就是所謂的詞向量模型。變換後的向量長度對於詞典長度，每個詞對應於向量中的一個元素。
無序特徵，有些特徵雖然也像無序特徵那樣只取限定的幾個值，但是這些值之間有順序的含義，比如狀態有三種取值，bad、normal、good，顯然我們有關係bad< normal< good。這時最簡單的處理方式就是忽略其中的順序關係，把它看做是無序的，這樣我們就可以使用處理無序特徵的方式來處理它，這樣的處理方式也使用得很多，而又寫問題裡面有序可能會很重要，這個時候就不應該把其中的順序關係丟掉，這個時候可能我們就不會簡單的使用one-hot，而是簡單地改一下，

【機器學習】資料準備--python爬蟲
2022-06-22
機器學習Python爬蟲
機器學習之小白入門
2020-02-27
機器學習
機器學習入門規劃
2020-10-11
機器學習
機器學習PAI快速入門
2019-07-05
機器學習AI
機器學習01-入門
2021-09-22
機器學習
機器學習和深度學習概念入門
2018-04-12
機器學習深度學習
超詳細！如何準備機器學習競賽？
2018-05-03
機器學習
如何準備機器學習工程師的面試？
2018-04-18
機器學習工程師面試
聊聊經典機器學習入門
2024-08-08
機器學習
【乾貨】機器學習和深度學習概念入門
2018-12-31
機器學習深度學習
【機器學習】超詳細！上線一個機器學習專案你需要哪些準備？
2018-04-26
機器學習
機器學習入門實戰疑問
2020-04-30
機器學習
機器學習入門之sklearn介紹
2019-03-05
機器學習
從零開始學機器學習——入門NLP
2024-11-21
機器學習
PIC微控制器入門教程（一）—— 準備工作
2018-06-10
我的機器學習入門路線圖
2018-08-06
機器學習
Java機器學習VisRec API快速入門 - foojay
2020-10-10
Java機器學習API
包郵送書啦 |《機器學習入門》
2020-09-13
機器學習
Python機器學習會應用到哪些庫?Python入門學習
2021-01-04
Python機器學習
從零開始學機器學習——準備和視覺化資料
2024-09-27
機器學習視覺化
初學者的機器學習入門實戰教程！
2019-03-22
機器學習
《機器學習有意思！ 01》- 世界上最簡單的機器學習入門
2019-03-02
機器學習
機器學習入門(二) — 迴歸模型 (理論)
2018-12-07
機器學習模型
機器學習入門筆記——如何理解梯度下降
2018-03-11
機器學習筆記梯度
一文帶你入門圖機器學習
2023-01-29
機器學習
Scikit-Learn 與 TensorFlow 機器學習實用指南學習筆記 5 —— 如何為機器學習演算法準備資料？
2019-01-02
機器學習筆記演算法
Python學習手冊（入門&爬蟲&資料分析&機器學習&深度學習）
2021-12-20
Python爬蟲機器學習深度學習
機器學習入門系列(2)--如何構建一個完整的機器學習專案(一)
2019-01-26
機器學習
TensorFlow.NET機器學習入門【8】採用GPU進行學習
2021-12-31
機器學習GPU
機器學習之分類：準確率
2020-06-27
機器學習
kubernetes入門預先準備環境
2019-04-06
機器學習面試準備大全 – 技能要求、面試例題詳解
2019-02-27
機器學習面試
機器學習面試準備大全 - 技能要求、面試例題詳解
2018-08-02
機器學習面試
機器學習入門 - 快速掌握邏輯迴歸模型
2019-01-15
機器學習邏輯迴歸模型
機器學習入門(三) — 迴歸模型(進階案例)
2018-12-07
機器學習模型
機器學習PAI快速入門與業務實戰
2018-09-17
機器學習AI
機器學習最好的入門課程是什麼？
2020-11-18
機器學習
機器學習入門(六)——評價分類結果
2020-10-04
機器學習

機器學習入門準備

特徵工程

歸一化

標準化

特徵離散化

特徵交叉

不同特徵型別的不同處理方式

相關文章