缺失值填充

ben犇發表於2024-03-26

原文網址 : https://www.cnblogs.com/benbenlzw/p/18097401

缺失值填充

拿到的資料或多或少都不是立即可以用的，對於一些可能因為各種主觀或者客觀原因導致缺失的情況我們需要進行缺失值處理，儘可能地保留更多地資料。

多重插補法

（1）插補：將不完整資料集缺失的觀測行估算填充m次。請注意，填充值是從某種分佈中提取的。模擬隨機抽取並不包含模型引數的不確定性。更好的方法是採用馬爾科夫鏈蒙特卡洛模擬（MCMC，Markov Chain Monte Carlo Simulation）。這一步驟將生成m個完整的資料集。
（2）分析：分別對（m個）每一個完整資料集進行分析。
（3）合併：對來自各個填補資料集的結果進行綜合，產生最終的統計推斷，這一推斷考慮到了由於資料填補而產生的不確定性。該方法將空缺值視為隨機樣本，這樣計算出來的統計推斷可能受到空缺值的不確定性的影響。

from fancyimpute import IterativeImputer

file_path = '../Data.xlsx' 

df = pd.read_excel(file_path) # 注意路徑

columns_to_impute = ['xxx', 'xxx', '...']  

# 建立多重插補器
imputer = IterativeImputer()

# 對指定的列進行多重插補
df[columns_to_impute] = imputer.fit_transform(df[columns_to_impute])

df.to_excel('../Data2.xlsx', index=False)

平均值法

如字面意思，用該列的平均值填充該列的缺失。

file_path2 = '../Data.xlsx'

df = pd.read_excel(file_path2)

columns_to_fill_median = ['xxx', 'xxx', '...']

# 將指定列中的空值填充為該列的平均值
for column in columns_to_fill_median:
    mean_value = df[column].mean()
    df[column] = df[column].fillna(mean_value)

output_file_path = '../Data2.xlsx'
df.to_excel(output_file_path, index=False)

KNN法

K最近距離法：先根據歐式距離或相關分析來確定距離具有缺失資料樣本最近的K個樣本，將這K個值加權平均來估計該樣本的缺失資料。

from sklearn.impute import KNNImputer

file_path2 = '../Data.xlsx' 

df = pd.read_excel(file_path2) # 注意路徑

columns_to_impute = ['xxx', 'xxx', '...']  

imputer = KNNImputer()

df[columns_to_impute] = imputer.fit_transform(df[columns_to_impute])

df.to_excel('../Data_2.xlsx', index=False)

刪除

如果你的資料足夠多，也可以簡單點直接把有空缺值的都刪了。

Reference

Sklearn中有許多填充方法：https://scikit-learn.org/stable/modules/impute.html

LeetCode-2887. 填充缺失值
2024-05-31
LeetCode
關於python中填充缺失值的問題
2024-04-05
Python
資料分析缺失值處理(Missing Values)——刪除法、填充法、插值法
2023-05-17
如何應對缺失值帶來的分佈變化？探索填充缺失值的最佳插補演算法
2024-06-10
演算法
mybatisplus欄位值自動填充
2020-12-18
MyBatis
python時間序列缺失值補零
2024-03-18
Python
<a>為空使用href屬性值填充
2020-02-18
找出長時序遙感影像的缺失日期並用畫素均為0的柵格填充缺失日期的檔案
2024-05-31
Pandas缺失值處理 | 輕鬆玩轉Pandas（3）
2018-07-24
【Python資料分析基礎】: 資料缺失值處理
2018-07-28
Python
Double型別數值相加導致精度缺失問題
2024-03-26
型別
Python資料分析基礎: 資料缺失值處理
2020-10-31
Python
Python—關於Pandas缺失值問題(國內唯一)
2021-04-03
Python
【scikit-learn基礎】--『預處理』之缺失值處理
2023-12-22
mybatis自動填充多個表相同欄位的值
2024-05-03
MyBatis
機器學習第2篇：資料預處理（缺失值）
2020-12-27
機器學習
[Python] Pandas 對資料進行查詢、替換、篩選、排序、重複值和缺失值處理
2021-02-11
Python排序
小書MybatisPlus第9篇-常用欄位預設值自動填充
2020-07-27
MyBatis
seaborn和pandas-missingno 的資料視覺化--使用畫圖--缺失值分析
2019-01-01
視覺化
機器學習第4篇：資料預處理（sklearn 插補缺失值）
2020-12-29
機器學習
SpreadJS 在資料填充時的公式填充方案
2024-11-05
JS公式
專案總結 | 九種缺失值處理方法總有一種適合你
2020-07-26
StringUtils填充方法
2020-10-22
機器學習第3篇：資料預處理（使用插補法處理缺失值）
2020-12-28
機器學習
canvas fillText() 填充文字
2018-11-03
Canvas
canvas fillText() 文字填充
2018-11-03
Canvas
C# 填充Excel
2018-06-27
C#Excel
Laravel 指定類填充
2020-02-18
Laravel
canvas填充樣式
2018-03-29
Canvas
AUTOCAD——超級填充
2022-03-22
Faker資料填充
2021-04-29
excel填充顏色快捷鍵表格快速填充顏色快捷鍵
2022-05-04
Excel
Excel表格如何隔行填充顏色？Excel表格底色隔行填充方法教程
2020-06-13
Excel
canvas 描邊與填充
2018-08-10
Canvas
cad.net 拉伸填充
2024-10-27
jasperreport填充空白行
2024-08-15
CAD填充比例調整
2022-02-28
【封裝那些事】缺失封裝
2018-05-15
封裝

缺失值填充

缺失值填充

多重插補法

平均值法

KNN法

刪除

Reference

相關文章