如何應對缺失值帶來的分佈變化？探索填充缺失值的最佳插補演算法

deephub發表於2024-06-10

原文網址 : https://www.cnblogs.com/deephub/p/18240570

本文將探討了缺失值插補的不同方法，並比較了它們在復原資料真實分佈方面的效果，處理插補是一個不確定性的問題，尤其是在樣本量較小或資料複雜性高時的挑戰，應選擇能夠適應資料分佈變化並準確插補缺失值的方法。

我們假設存在一個潛在的分佈P，從中得出觀察值X。此外，還繪製了一個與X相同維數的0/1向量，我們稱這個向量為M，實際觀測到的資料向量X被M掩碼為X。我們觀測到聯合向量(X,M)的n個獨立同分布(i.i.d)副本。如果我們把它寫成一個資料矩陣，它可能看起來像這樣:

較小的x，m表示“觀察到的”，而較大的值則表示隨機數量。大家討論的缺失機制就是對(X*，M)的關係或聯合分佈的假設:

完全隨機缺失(MCAR):一個值丟失的機率就像拋硬幣一樣，與資料集中的任何變數無關。缺失值只是一件麻煩事。你可以忽略它們，只關注資料集中完全觀察到的部分，這樣就不會有偏差。在數學中，對於所有m和x:

隨機缺失(MAR):缺失的機率現在可以依賴於資料集中觀察到的變數。一個典型的例子是兩個變數，比如收入和年齡，其中年齡總是被觀察到，但收入可能會因為年齡的某些值而丟失。這可能聽起來很合理，但這裡可能會變得複雜。在數學中，對於所有m和x:

非隨機缺失(MNAR):這裡一切皆有可能，我們不能籠統地概括。但是最終我們需要學習給定一個模式m '中觀測值的缺失值的條件分佈，以便在另一個模式m中推算。

實現這一點的著名的方法稱為鏈式方程多重插補（Multiple Imputation by Chained Equations, MICE）：首先使用簡單的插補方法填充值，例如均值插補。然後對於每一次迭代t，對每一個變數j，根據所有其他已插補的變數進行迴歸分析（這些變數已被插補）。然後將這些變數的值填入已學習的插補器中，用於所有未觀察到的X_j。在R語言中，可以方便地使用mice包來實現。我這種方法在實際應用中效果非常好，MICE中重現某些例項的底層分佈的能力非常驚人。我們下面會用一個非常簡單的例子（只有一個變數缺失，因此我們可以手動編碼），模擬MICE通常會迭代執行的過程，以更好地瞭解他的工作原理。

https://avoid.overfit.cn/post/9f66c5f8cd204ed685af0744b935ddd5

缺失值填充
2024-03-26
LeetCode-2887. 填充缺失值
2024-05-31
LeetCode
資料分析缺失值處理(Missing Values)——刪除法、填充法、插值法
2023-05-17
關於python中填充缺失值的問題
2024-04-05
Python
python時間序列缺失值補零
2024-03-18
Python
機器學習第4篇：資料預處理（sklearn 插補缺失值）
2020-12-29
機器學習
機器學習第3篇：資料預處理（使用插補法處理缺失值）
2020-12-28
機器學習
CVPR 2019 | 全新缺失影象資料插補框架—CollaGAN
2019-05-05
框架
CVPR 2019 | 全新缺失影像資料插補框架—CollaGAN
2019-05-05
框架
seaborn和pandas-missingno 的資料視覺化--使用畫圖--缺失值分析
2019-01-01
視覺化
Pandas缺失值處理 | 輕鬆玩轉Pandas（3）
2018-07-24
【Python資料分析基礎】: 資料缺失值處理
2018-07-28
Python
Double型別數值相加導致精度缺失問題
2024-03-26
型別
Python資料分析基礎: 資料缺失值處理
2020-10-31
Python
Python—關於Pandas缺失值問題(國內唯一)
2021-04-03
Python
[Python] Pandas 對資料進行查詢、替換、篩選、排序、重複值和缺失值處理
2021-02-11
Python排序
找出長時序遙感影像的缺失日期並用畫素均為0的柵格填充缺失日期的檔案
2024-05-31
【scikit-learn基礎】--『預處理』之缺失值處理
2023-12-22
插值查詢演算法
2019-12-13
演算法
DPOS 共識演算法 - 缺失的白皮書
2021-09-09
演算法
常用演算法插值演算法
2024-07-12
演算法
機器學習第2篇：資料預處理（缺失值）
2020-12-27
機器學習
JS演算法之找出缺失的整數
2020-06-17
JS演算法
演算法41. 缺失的第一個正數
2020-05-21
演算法
SCSS #{} 插值
2019-02-22
CSS
mapboxgl 中插值表示式的應用場景
2022-05-10
查詢演算法__插值查詢
2019-03-06
演算法
javascript　將變數值作為物件屬性　獲取物件對應的值
2024-05-15
JavaScript變數物件
製造業應當如何應對氣候變化帶來的勞動力健康問題？
2023-11-09
MATLAB一維插值和二維插值比較
2018-09-12
Matlab
九種常見二維插值方法及雙線性插值的理解
2024-11-30
如何應對AI帶來的衝擊
2023-03-02
AI
當前鍵值對的下一個值演算法
2021-07-17
演算法
對CXListCtrl的項ComboBox顯示值改變的響應方法
2020-12-11
二、插值操作
2021-01-03
greenplum分佈鍵的hash值計算分析
2021-11-01
演算法-查詢（線性、二分、插值、斐波那契）
2020-10-04
演算法
Android探索之旅 | Android Studio配合Lint檢測缺失Permission
2019-02-28
Android

如何應對缺失值帶來的分佈變化？探索填充缺失值的最佳插補演算法

相關文章