前言
在進行缺失,異常處理之後,往往要對資料進行變換。
變換有多種情況,主要是以下兩種:
- 規範化:對資料進行一定比例的縮放,讓它實質落入某個具體區間。
- 離散化:將連續型資料轉化為離散化。
規範化
資料規範化非常容易實現,呼叫scale函式即可:
它的具體變換步驟是特徵值減去所有特徵的均值再除以標準差。
結果區間為-1到1。如果要0-1的,則將結果平方。
離散化
離散化可自行寫程式碼來實現:
小結
較之前面幾個預處理階段,本文所講解的標準化階段還是比較容易掌握的。