資料清洗和資料處理

qq_36227329發表於2020-03-03

1.資料清洗

  • 對資料進行檢查,刪除重複資訊和糾正錯誤資訊,提供資料一致性。

2.資料清洗方法

  • 解決缺失值:平均值,最大值,最小值或複雜的概率估計來代替缺失值
  • 去重:合併或清除
  • 解決錯誤值:統計分析方法識別可能的錯誤值或異常值,如偏差分析,識別不遵守分佈或迴歸的值,也可以用簡單的規則庫檢查資料值,使用不同屬性間的約束,外部的資料來檢測和清理資料
  • 解決資料的不一致性:比如資料是類別型或者次序型

3.資料清洗的八大場景

  • 刪除多列
  • 更改資料型別
  • 將分類變數轉換為數字變數
  • 檢查缺失資料
  • 刪除列中的字串
  • 刪除列中空格
  • 用字串連線兩列
  • 轉換時間戳(字串到日期)

4.資料處理方法

  • 對數變換
  • 標準縮放
  • 轉換資料型別
  • 獨熱編碼
  • 標籤編碼

相關文章