專案總結 | 九種缺失值處理方法總有一種適合你

忽逢桃林發表於2020-07-26

原文網址 : https://www.cnblogs.com/PythonLearner/p/13358415.html

為什麼要處理缺失值

這一段完全是廢話了。含有缺失資料的樣本，你要麼刪了，要了就填充上什麼值。刪了就會損失一部分的樣本資訊，填充要是填充的不合適，會給樣本增加噪音。

所以這就是一個選擇的問題：

選擇刪除還是填充；
選擇填充方式

處理缺失值的8種方法

這裡先說一下，我總結了自己在競賽中的操作，以及一些大佬的處理方法，建議處理缺失值的方法是：

先嚐試刪除有缺失項的資料，然後訓練模型，先把baseline做出來；
然後會依次嘗試：特殊值填充，（特殊）平均值填充和最近鄰法。

1. 不處理

補齊處理只是將未知值補以我們的主觀估計值，不一定完全符合客觀事實，在對不完備資訊進行補齊處理的同時，我們或多或少地改變了原始的資訊系統。
對空值不正確的填充往往將新的噪聲引入資料中，使挖掘任務產生錯誤的結果。因此，在許多情況下，我們還是希望在保持原始資訊不發生變化的前提下對資訊系統進行處理。

但是訓練模型的時候，可能不處理並不能進行。所以一般不會選擇不處理。

2. 特殊值填充

這個是認為資料的空值也是具有一定的資訊的，它之所以為空，是因為它不同於其他的任何資料。所以將空值作為一種特殊的屬性值來處理，它不同於其他的任何屬性值。如所有的空值都用“unknown”填充。

3. 平均值填充

如果空值是數值型的，就根據該屬性在其他所有物件的取值的平均值來填充該缺失的屬性值
如果空值是非數值型的，就根據統計學中的眾數原理，用該屬性在其他所有物件的取值次數最多的值(即出現頻率最高的值)來補齊該缺失的屬性值。

比方說，一個樣本的特徵a缺失了，那麼a就填充上所有樣本的特徵a的平均值。

此外有一種叫做條件平均值填充的方法，是隻考慮和缺失樣本具有相同特徵的樣本的平均值。比方說某一個樣本的特徵a缺失了，用和這個樣本的特徵b相同的所有樣本的特徵a的平均值來填充這個缺失值。（因為這些樣本和缺失資料的樣本具有相同的特徵，所有認為他們會更為相似）。

4. 熱卡填充

對於一個包含空值的物件，熱卡填充法在完整資料中找到一個與它最相似的物件，然後用這個相似物件的值來進行填充。

【優缺點】

優點：該方法概念上很簡單，且利用了資料間的關係來進行空值估計
缺點：在於難以定義相似標準，主觀因素較多。

5. 最近鄰法

先根據歐式距離或相關分析來確定距離具有缺失資料樣本最近的K個樣本，將這K個值加權平均來估計該樣本的缺失資料。

這個方法與熱卡填充有些相似，如果最近鄰法僅僅考慮最近的一個樣本，那麼就會退化成熱卡填充。不過最近鄰法和熱卡填充面臨同樣的問題，如何衡量相似度。

6. 使用所有可能的值填充

用空缺屬性值的所有可能的屬性取值來填充，能夠得到較好的補齊效果。

但是，當資料量很大或者遺漏的屬性值較多時，其計算的代價很大，可能的測試方案很多。

7. 模型預測

基於完整的資料集，建立預測模型。對於包含空值的物件，將已知屬性值代入方程來估計未知屬性值，以此估計值來進行填充。

其實就是假設特徵之間也存在一定的關係，可以通過預測來得到缺失值。但是我個人不建議使用這個方法，因為有些麻煩，而且不確定這樣得到的填充值的效果。又可能出現模型過擬合等新問題。

8. 多重插補

這個我看大資料競賽中，並沒有大神做這個填充缺失項的。一般對於小資料會使用這個方法，因為多重插補會反覆訓練模型，然後評價模型的效果。因此需要大量的時間。

9. 人工填寫

在大資料中，個人不太推薦。。。

五種JavaScript富文字編輯器,總有一款適合你
2019-06-02
JavaScript
Android資料庫框架總結，總有一個適合你！
2018-10-08
Android資料庫框架
SpringMVC-方法四種型別返回值總結，你用過幾種？
2019-05-06
SpringMVC型別
把 Console 部署成 Windows 服務，四種方式總有一款適合你！
2020-11-02
Windows
js精準查詢與模糊查詢,總有一種適合你的需求
2020-04-03
JS
推薦幾款專案管理工具總有一款適合你
2019-01-22
專案管理
SpringMVC-方法四種型別返回值總結
2021-05-22
SpringMVC型別
【Vue專案總結】元件通訊處理方案
2019-05-30
Vue元件
總有一種啤酒能滿足你的味蕾！
2023-04-13
總結49種軟體測試方法，你知道幾個？
2019-09-19
這麼多監控元件，總有一款適合你
2018-11-16
元件
總有一款適合你的協同設計工具
2018-08-06
十五款好看的鍵帽，總有一款適合你✔
2024-10-03
四種博弈總結
2020-04-06
beego專案管理工具bee安裝失敗解決辦法，總有一個適合你
2020-10-09
Go專案管理
EXCEL快速提取中英文、數字的4個方法，總有一個適合你！
2024-11-09
Excel
【收藏】機器學習開源框架大彙總，總有一款適合你
2019-02-14
機器學習框架
2024年不同行業都適用的10款專案管理工具推薦，總有一款適合你！
2024-11-29
行業專案管理
nginx部署vue專案方法總結
2019-03-12
NginxVue
【Vue專案總結】後臺管理專案總結
2019-06-18
Vue
處理一份內心煎熬的工作有兩種方法——只有一種是正確的
2019-04-07
JUC鎖種類總結
2020-11-21
OpenGL ES專案總結一
2019-08-07
處理VM的一種特殊方法和思路
2021-07-14
Laravel 控制器 Controller 傳值到檢視 View 的幾種方法總結
2018-10-16
LaravelControllerView
shell字串處理總結
2021-04-08
字串
專案review步驟還有專案交接總結
2018-08-07
View
這幾種Java異常處理方法，你會嗎？
2021-10-15
Java
python的__init__幾種方法總結【轉載】
2018-03-10
Python
這麼多TiDB負載均衡方案總有一款適合你
2021-10-18
TiDB負載
Hive表小檔案合併方法總結
2020-10-17
Hive
去除csdn廣告的方法，多種方法比較總結
2019-04-14
JS實現陣列去重方法總結(六種方法)
2018-05-17
JS陣列
BBS專案專案總結
2024-03-29
【scikit-learn基礎】--『預處理』之缺失值處理
2023-12-22
總結刪除檔案或資料夾的7種方法-JAVA IO基礎總結第4篇
2020-09-01
Java
“過年肥”成為幸福的煩惱？別擔心，這5種“減肥”飲食模式，總有一款適合你……
2023-02-10
模式
一個React專案總結（toB）
2019-11-13
React