【scikit-learn基礎】--『預處理』之離散化

wang_yb發表於2023-12-21

原文網址 : https://www.cnblogs.com/wang_yb/p/17918354.html

資料的預處理是資料分析，或者機器學習訓練前的重要步驟。
透過資料預處理，可以

提高資料質量，處理資料的缺失值、異常值和重複值等問題，增加資料的準確性和可靠性
整合不同資料，資料的來源和結構可能多種多樣，分析和訓練前要整合成一個資料集
提高資料效能，對資料的值進行變換，規約等（比如無量綱化），讓演演算法更加高效

本篇介紹的離散化處理，是一種資料預處理技術，用於將連續的、連續的數值型資料轉換為離散的、分類的標籤。
這種處理方式主要應用於一些需要轉化為分類問題的資料集，如機器學習和資料探勘中的輸入變數。

1. 原理

離散化的原理主要是透過將連續的數值屬性轉化為離散的數值屬性來實現資料的轉化。

這個過程通常會採用分箱（Binning）的方法。
在分箱中，原始資料的值被分配到一些離散的、預定義的類別中，這些類別通常被稱為“箱子”或“桶”，
箱子的數量和大小可以根據資料的分佈和實際需求進行調整。

我們平時常用的離散化處理有兩種：

1.1. 二值化處理

二值化就是根據閾值將一系列連續的資料分為兩種類別。
二值化處理的實際應用場景很多，比如垃圾郵件的判定，信用卡欺詐的判定，還有各種的醫療檢測結果（陰性陽性）。

使用scikit-learn中的Binarizer對資料進行二值化處理：

from sklearn import preprocessing as pp
import numpy as np

data = np.random.randint(0, 100, size=(3, 3))
b = pp.Binarizer(threshold=80)
result = b.fit_transform(data)

print("原始資料: {}".format(data))
print("二值化後資料: {}".format(result))

# 執行結果
原始資料: 
[[12 28 84]
 [ 2 18 81]
 [74 92 74]]

二值化後資料: 
[[0 0 1]
 [0 0 1]
 [0 1 0]]

Binarizer的引數threshold就是分類的閾值。
上面的例子中，threshold=80，則大於80的值為1，小於等於80的值為0。

1.2. K-bins處理

K-bins離散化處理則可以控制資料分成多個類別。

它在實際中的應用比如電商領域，根據使用者的購買行為將使用者分為不同的消費類別；在統計學習成績時，按照成績分為不同的等級（優/良/中/差）等等。
這些場景下，不能簡單的進行二值化，需要離散化為多個分類。

對於K-bins離散化，可以使用scikit-learn中的KBinsDiscretizer。

data = np.random.randint(0, 100, 10).reshape(-1, 1)
b = pp.KBinsDiscretizer(n_bins=3, encode="ordinal")
result = b.fit_transform(data)

print("原始資料: {}".format(data))
print("K-bins離散化後資料: {}".format(result))

# 執行結果
原始資料: [[12]
 [82]
 [19]
 [32]
 [81]
 [84]
 [92]
 [25]
 [61]
 [31]]
K-bins離散化後資料: [[0.]
 [2.]
 [0.]
 [1.]
 [2.]
 [2.]
 [2.]
 [0.]
 [1.]
 [1.]]

KBinsDiscretizer的引數n_bins表示分為幾類，上面的示例中設定分為了3類。
另一個引數encode表示離散化後的資料編碼，上面的示例中"ordinal"表示用順序的整數來編碼。

可以設定encode為onehot，使得離散化的資料變為獨熱編碼。

2. 作用

資料離散化的主要作用有：

降低計算量和複雜度：連續的數值資料轉化為離散的類別資料後，簡化了資料，從而降低計算量和複雜度，特別是在處理大規模資料集時效果更為顯著。
解決異常值和缺失值問題：將連續的數值資料中的異常值和缺失值進行合理的處理，從而避免對後續的影響。
提高模型的解釋性：連續的數值資料轉化為離散的類別資料後，使模型結果更加直觀和易於解釋。
克服資料中的缺陷：將連續的數值資料轉化為離散的類別資料，能夠有效地克服資料中隱藏的缺陷，使模型結果更加穩定。
提高演演算法效率和精度：將連續的數值資料進行分段，並採用最佳化方法進行離散化處理，從而可以提高演演算法的效率和精度。

當然，離散化處理簡化了資料，可能會導致原始資料中的一些細節資訊的丟失。
其次，離散化處理可能會引入一些主觀性和不穩定性，因為分類的數量和大小通常是基於經驗和實際需求進行調整的，不同的決策可能會導致不同的結果。

3. 總結

總之，關注離散化處理給我們帶來的種種好處之時，在實際應用中也需要注意其侷限性，如可能會造成資料的丟失和失真等問題。

因此，在具體的實踐中，需要根據實際情況和需求進行合理的選擇和應用。

【scikit-learn基礎】--『預處理』之正則化
2023-12-18
【scikit-learn基礎】--『預處理』之標準化
2023-12-13
【scikit-learn基礎】--『預處理』之缺失值處理
2023-12-22
【scikit-learn基礎】--『預處理』之分類編碼
2023-12-20
【scikit-learn基礎】--『預處理』之資料縮放
2023-12-15
離散數學（數論基礎）
2021-06-24
python 基礎之異常處理
2018-12-15
Python
離散化
2024-11-11
資料處理 | pandas入門專題——離散化與one-hot
2020-08-28
特徵預處理之歸一化&標準化
2021-01-23
特徵
圖形影像處理之繪圖基礎
2020-05-02
繪圖
Sklearn之資料預處理——StandardScaler歸一化
2020-10-18
離散意義下的基礎機率與期望
2024-08-02
【精讀】自然語言處理基礎之RNN
2019-05-22
自然語言處理RNN
【scipy 基礎】--影像處理
2023-11-14
【scikit-learn基礎】--『監督學習』之 LASSO迴歸
2023-12-28
【scikit-learn基礎】--『監督學習』之嶺迴歸
2023-12-26
計算機基礎:離散數學和完備性
2020-11-25
計算機
Python基礎之使用期物處理併發
2019-02-16
Python
大話css預編譯處理（三）：基礎語法篇
2019-02-17
CSS編譯
netty系列之:分離websocket處理器
2022-01-10
NettyWeb
C#基礎之前處理器，異常處理
2024-12-01
C#
Python基礎 -- 異常處理
2024-05-07
Python
【scipy 基礎】--訊號處理
2023-11-21
影像處理基礎篇（一）
2020-10-08
[資料處理]python基礎
2019-02-02
Python
處理器基礎知識
2022-11-24
【scikit-learn基礎】--『資料載入』之玩具資料集
2023-12-04
離散數學 | (一)數理邏輯
2020-11-14
【scikit-learn基礎】--『資料載入』之真實資料集
2023-12-06
【scikit-learn基礎】--『資料載入』之樣本生成器
2023-12-08
PHP基礎：異常處理Exception
2019-02-16
PHPException
webpack基礎–css相關處理
2018-07-16
WebCSS
sklearn基礎及資料處理
2019-09-03
MATLAB及其訊號處理基礎
2020-10-01
Matlab
Flutter基礎-039-json處理
2021-03-01
FlutterJSON
SPM12之fMRI批次預處理——NII檔案處理
2024-07-25
JAVA基礎之七-Collection和它的並行和流處理
2024-09-23
Java並行