機器學習中資料缺失的處理及建模方法

早起的小蟲子發表於2021-01-31

　　在機器學習中建模的時候，往往面臨兩個困難，一是選擇哪個模型，二是怎樣處理資料。處於資料包括資料獲取、資料清洗和資料分析。其實對於不同的場景和不同的資料，選擇的模型也是不一樣的，本文簡單聊一聊在資料缺失的時候該怎樣選擇合適的模型。

一、缺失資料處理及建模方法

　　資料缺失時，處理資料的方式有如下三種：

　　(1) 若資料的特點已經知道，可以根據已知資料比較準確的得到未知資料時，可以使用預測的方式，先填補未知資料，再根據資料和場景的特點，以不存在資料缺失的方式選擇合適的模型。

　　(2) 若資料量遠遠超出要研究問題的規模，而存在缺失的資料條目比較少，去掉存在缺失資料的記錄對要研究的問題不存在影響，則可以把存在缺失值的記錄去掉，然後以不存在資料缺失的方式選擇合適的模型。

　　(3) 使用可以處理有缺失資料的工具包或者演算法對存在缺失資料的資料集進行建模。

　　方式(1)和(2)是把存在缺失資料的資料集轉換成不具有缺失值的方式進行建模，然而對於(1)，預測的值並不是真實值，這還是會導致資料的不確定性，所以這種方式要慎用。對於(2)，在機器學習中，資料是最寶貴的財富，所以要說資料太多了是假話，所以這種方式只是在最無奈的時候才選擇。接下來詳細講解使用工具包或者特殊演算法對存在缺失值的資料集進行建模方法。

　　使用工具包或者特殊的演算法對存在缺失資料的資料集進行建模

　　首先，要明確一點，工具包和特殊的演算法也許是可以對存在缺失值的資料集進行建模的。但是工具包進行了封裝，內部的結構和實現過程是不透明的。實際上，工具包之所以可以處理有缺失值的資料集，是因為加了缺失值處理函式。要明白，工具/演算法本身是不應該處理缺失值的，應該處理缺失值的是使用者。工具或者某些特殊的演算法為了方便使用者的使用，提供了預設的缺失值處理函式，如果使用者沒有提供自己的缺失值處理函式，就使用工具或者演算法預設的缺失值處理函式。

　　常用的處理具有缺失資料的工具或者演算法有兩種：(1)決策樹；(2)xgboost。

　　(1) 決策樹處理缺失資料

　　在決策樹中，以隨機森林為例簡單說明。在隨機森林中，處理缺失值的方式如下：

　　方法一（快速簡單但效果差）：把數值型變數中的缺失值用對應類別中的中位數替換；把非數值型資料的缺失值使用出現次數最多的資料替換。這種處理方式快速、簡單，但是效果較差。以數值型變數為例：

　　方法二（耗時費力但效果好）：雖然依然是使用中位數和出現次數最多的數來進行替換，方法2引入了權重。即對需要替換的資料先和其他資料做相似度測量(proximity measurement)也就是下面公式中的Weight( W），在補全缺失點是相似的點的資料會有更好的權重W。以數值型變數為例：

　　(2) Xgboost處理缺失資料

　　Xgboost把缺失值當做稀疏矩陣來對待，本身的在節點分裂時不考慮的缺失值的數值。缺失值資料會被分到左子樹和右子樹分別計算損失，選擇較優的那一個。如果訓練中沒有資料缺失，預測時出現了資料缺失，那麼預設被分類到右子樹。

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

　　這樣的處理方法固然巧妙，但也有風險：即我們假設了訓練資料和預測資料的分佈相同，比如缺失值的分佈也相同。

　　使用工具處理缺失資料的優缺點

　　優點：

　　1、可以節省使用者的時間，快速建模；

　　2、防止因使用者匯入的資料集存在缺失值導致模型訓練失敗。

　　缺點：

　　1、工具提供的缺失值處理方法也許並不適用所有的資料，可能使模型訓練時間延長；

　　2、工具提供的方法要應對的是所有可能的情況，對特殊的情形並不事最佳的選擇方案；

　　3、簡單粗暴的處理模式會影響模型的結果，自動化的資料清理不可靠；

　　4、使用者應該提供符合模型要求的資料，這不是演算法工具庫的責任。演算法工具包的預設要求就是使用者提供適合的資料，因為使用者對資料有更深刻的理解；

　　5、可能會大幅度增加模型的運算時間。

二、模型選擇

　　主流的機器學習模型千千萬，很難一概而論。但有一些經驗法則(rule of thumb)供參考：

樹模型對於缺失值的敏感度較低，大部分時候可以在資料有缺失時使用。
涉及到距離度量(distance measurement)時，如計算兩個點之間的距離，缺失資料就變得比較重要。因為涉及到“距離”這個概念，那麼缺失值處理不當就會導致效果很差，如K近鄰演算法(KNN)和支援向量機(SVM)。
線性模型的代價函式(loss function)往往涉及到距離(distance)的計算，計算預測值和真實值之間的差別，這容易導致對缺失值敏感。
神經網路的魯棒性強，對於缺失資料不是非常敏感，但一般沒有那麼多資料可供使用。
貝葉斯模型對於缺失資料也比較穩定，資料量很小的時候首推貝葉斯模型。

　　總結來看，對於有缺失值的資料在經過缺失值處理後：

資料量很小，用樸素貝葉斯
資料量適中或者較大，用樹模型，優先 xgboost
資料量較大，也可以用神經網路
避免使用距離度量相關的模型，如KNN和SVM

參考：

https://www.pianshen.com/article/78051638258/

https://blog.csdn.net/jp_666/article/details/78244530

機器學習第2篇：資料預處理（缺失值）
2020-12-27
機器學習
機器學習第3篇：資料預處理（使用插補法處理缺失值）
2020-12-28
機器學習
機器學習第4篇：資料預處理（sklearn 插補缺失值）
2020-12-29
機器學習
機器學習一：資料預處理
2019-02-27
機器學習
機器學習：探索資料和資料預處理
2020-12-13
機器學習
機器學習筆記---資料預處理
2022-04-30
機器學習筆記
機器學習中如何處理不平衡資料（imbalanced data）？
2018-07-14
機器學習
機器學習導圖系列（1）：資料處理
2019-04-06
機器學習
6種方式處理機器學習中不平衡的資料集 - svpino
2021-07-08
機器學習
Pandas 基礎 (5) - 處理缺失的資料
2019-03-08
【Python資料分析基礎】: 資料缺失值處理
2018-07-28
Python
Python資料分析基礎: 資料缺失值處理
2020-10-31
Python
100天搞定機器學習|Day1資料預處理
2019-07-05
機器學習
Pandas高階教程之:處理缺失資料
2021-06-24
機器學習：處理不平衡資料的5個重要技術
2019-02-15
機器學習
處理資料缺失的結構化解決辦法
2018-10-26
（轉）機器學習：偏差處理（2）
2018-05-29
機器學習
機器學習演算法筆記之6：資料預處理
2020-04-06
機器學習演算法筆記
[原始碼解析] 機器學習引數伺服器Paracel (3)------資料處理
2021-08-21
原始碼機器學習伺服器
深度學習--資料預處理
2024-07-28
深度學習
SpringMVC入門學習---資料的處理
2019-05-11
SpringMVC
機器學習中資料清洗的藝術
2019-08-23
機器學習
pandas學習task07缺失資料
2021-01-03
深度學習——資料預處理篇
2019-02-18
深度學習
機器學習在高德使用者反饋資訊處理中的實踐
2020-01-07
機器學習
java學習：虛擬機器對於方法中引數為類型別的如何處理的
2019-10-11
Java虛擬機型別
機器學習/深度學習書單推薦及學習方法
2018-04-12
機器學習深度學習
13、資料，學習和建模
2019-02-23
《Python機器學習手冊：從資料預處理到深度學習》
2019-12-17
Python機器學習深度學習
解析機器學習中的資料漂移問題
2023-02-06
機器學習
機器學習策略篇：詳解處理資料不匹配問題（Addressing data mismatch）
2024-07-16
機器學習
資料預處理（資料清洗）的一般方法及python實現
2019-01-28
Python
醫學影像處理中的資料讀寫
2022-03-12
機器學習工作坊 - 自然語言處理
2022-04-21
機器學習自然語言處理
小資料在機器學習中的重要性
2022-03-01
機器學習
Python深度學習（處理文字資料）--學習筆記（十二）
2020-11-12
Python深度學習筆記
機器學習-資料清洗
2019-03-02
機器學習
機器學習大資料
2019-05-10
機器學習大資料

機器學習中資料缺失的處理及建模方法

一、缺失資料處理及建模方法

二、模型選擇

相關文章