第四篇：資料預處理(一) - 缺失值處理

穆晨發表於2017-05-20

前言

在對資料有了大致的瞭解以後，就需要對獲取到的資料進行一個預處理了。預處理的過程並不簡單，大致來說分成缺失值處理，異常值處理，資料歸約等等 (可根據實際情況對這些階段進行科學的取捨)。

下面將對這幾個階段一個個講解。(本文中測試資料集nhanes2來自包lattice)

缺失值處理

1. 首先要了解到資料集的缺失情況。

下面兩行命令分別獲取到缺失的欄位數和完整樣本數：

顯然缺失欄位個數為27，完整樣本數為13。

2. 使用mice包的md.pattern函式來獲取具體的缺失情況：

第一行第一列表示完整樣本數(缺失/非缺失欄位描述參考2-4列，1表示沒缺失，0表示缺失)；最後一列表示該種描述中缺失的欄位數。
第二行至第五行情況類似。
最後一行中，2-4列表示對應的欄位缺失數，最後一列表示總的欄位缺失數。

3. 缺失值的處理：

a) 刪除法

b) 插補法(均值插補為例)

上述程式碼首先將資料分為有缺失欄位樣本集和無缺失欄位樣本集，然後將有缺失欄位的樣本集的第四個欄位進行均值補全。其他欄位的補全同理。

小結

R語言中提供的缺失值處理方案遠不止於此。

在何種條件下選擇何種插補策略是個很有挑戰的問題，本文不展開探討。

【scikit-learn基礎】--『預處理』之缺失值處理
2023-12-22
機器學習第3篇：資料預處理（使用插補法處理缺失值）
2020-12-28
機器學習
機器學習第2篇：資料預處理（缺失值）
2020-12-27
機器學習
Python資料分析基礎: 資料缺失值處理
2020-10-31
Python
【Python資料分析基礎】: 資料缺失值處理
2018-07-28
Python
機器學習第4篇：資料預處理（sklearn 插補缺失值）
2020-12-29
機器學習
資料預處理
2021-09-09
資料分析缺失值處理(Missing Values)——刪除法、填充法、插值法
2023-05-17
Pandas高階教程之:處理缺失資料
2021-06-24
Pandas 基礎 (5) - 處理缺失的資料
2019-03-08
資料預處理 demo
2020-02-19
資料分析--資料預處理
2023-12-14
資料預處理-資料清理
2020-01-19
Pandas缺失值處理 | 輕鬆玩轉Pandas（3）
2018-07-24
nlp 中文資料預處理
2019-12-02
TANet資料預處理流程
2020-10-07
資料預處理-資料歸約
2020-01-19
機器學習一：資料預處理
2019-02-27
機器學習
處理資料缺失的結構化解決辦法
2018-10-26
Python資料處理（二）：處理 Excel 資料
2019-02-16
PythonExcel
深度學習--資料預處理
2024-07-28
深度學習
資料預處理方法彙總
2020-03-16
資料預處理和特徵工程
2020-07-24
特徵工程
Sklearn之資料預處理——StandardScaler歸一化
2020-10-18
Python資料處理(一)：處理 JSON、XML、CSV 三種格式資料
2019-01-27
PythonJSONXML
資料處理
2024-07-18
資料預處理利器 Amazon Glue DataBrew
2022-05-31
資料預處理之 pandas 讀表
2020-03-01
人工智慧 (01) 資料預處理
2019-12-18
人工智慧
NUS-WIDE資料集預處理
2020-11-24
IDE
特徵工程之資料預處理（下）
2019-02-13
特徵工程
深度學習——資料預處理篇
2019-02-18
深度學習
sklearn中常用資料預處理方法
2018-03-27
springboot統一異常處理及返回資料的處理
2020-10-15
Spring Boot
機器學習中資料缺失的處理及建模方法
2021-01-31
機器學習
[Python] Pandas 對資料進行查詢、替換、篩選、排序、重複值和缺失值處理
2021-02-11
Python排序
影像預處理
2018-10-08
多對一處理和一對多處理的處理
2020-06-20
資料預處理-資料整合與資料變換
2020-01-19

第四篇：資料預處理(一) - 缺失值處理

前言

缺失值處理

小結

相關文章