機器學習筆記——資料集分割

技術小能手發表於2018-09-25

原文網址 : https://flycode.co/archives/206499

機器學習筆記

在模型訓練之前，要首先劃分訓練集與測試集，如何對原始資料集進行訓練集與測試集的劃分？訓練集與測試集的比例各佔多少？如何保證各自內部標籤分佈平衡都會影響模型訓練的最終效果。

好在R和Python中有現成的資料集分割函式，避免手動寫函式導致劃分比例不合理、訓練集與測試集的樣本的結構與總體不均衡的問題。

R語言中caTools包中的sample.split函式可以用來自動將原始資料集分割成訓練集和測試集。

方法一——caTools中的sample.split函式

library("caTools") set.seed(123)

data(iris)
table(iris$Species)

setosa versicolor virginica
50 50 50

split = sample.split(iris$Species,SplitRatio = .8)
train_data = subset(iris,split == TRUE)
test_data = subset(iris,split == FALSE)

table(train_data$Species)
setosa versicolor virginica
40 40 40

table(test_data$Species)
setosa versicolor virginica
10 10 10

劃分方法二——createDataPartition函式

library("caret")
split1 <- createDataPartition(y=iris$Species,p=0.8,list = FALSE)

train_data <- iris[split1,]
table(train_data$Species)
 setosa versicolor virginica 
 40 40 40 


test_data <- iris[-split1,]
table(test_data$Species)
 setosa versicolor virginica 
 10 10 10

可以看到無論是caTools包中的sample.split函式還是caret包中的createDataPartition函式，都針對分類標籤做了混合後的分層隨機抽樣，這樣可以保證訓練集與測試集內的各類標籤分佈比例與樣本總體的分佈比例嚴格一致，否則如果僅僅使用sample函式，無法達到分層隨機抽樣的目的。

Python的sk-learn庫中也有現成的資料集分割工具可用。

from sklearn.model_selection import train_test_split
from sklearn.datasets import load_iris
import pandas as pd

iris = load_iris()
data = iris[`data`]
iris_data = pd.DataFrame(
 data = data,
 columns = [`sepal_length`,`sepal_width`,`petal_length`,`petal_width`]
 )
iris_data["Species"] = iris[ `target`]
iris_data["Species"] = iris_data["Species"].map({0:"setosa",1:"versicolor",2:"virginica"})

iris_data["Species"].value_counts()
versicolor 50
virginica 50
setosa 50
Name: Species, dtype: int64

x,y = iris_data.iloc[:,0:-1],iris_data.iloc[:,-1]
train_data,test_data,train_target,test_target = train_test_split(x,y,test_size = 0.2,stratify = y)

train_target.value_counts()
test_target.value_counts()

這裡有一個細節，其中train_test_split函式中有兩個特殊的引數：shuffle和stratify。

shuffle引數相當於對原始資料進行混合抽樣，相當於撲克牌發牌前的洗牌，保證隨機性。

stratify引數則可以保證訓練集&測試集中樣本標籤結構比例與指定的總體中樣本標籤結構比例一致，特別是在原始資料中樣本標籤分佈不均衡時非常有用，達到分層隨機抽樣的目的。

而對於訓練集與測試集的劃分比例上來看，目前沒有一個統一的比例標準，在機器學習類的參考資料中，推薦的比例是訓練集和測試集的比例保持在1:2~1:4之間為佳。

倘若使用驗證集，則建議保持6:2:2左右的訓練集、驗證集及測試集比例。

原文釋出時間為：2018-09-23

本文作者：杜雨

本文來自雲棲社群合作伙伴“資料小魔方”，瞭解相關資訊可以關注“資料小魔方”。

機器學習筆記 - Pascal VOC資料集使用FCN語義分割
2021-08-18
機器學習筆記
機器學習筆記---資料預處理
2022-04-30
機器學習筆記
機器學習學習筆記
2021-06-01
機器學習筆記
機器學習筆記
2024-08-25
機器學習筆記
資料結構——並查集學習筆記
2024-07-09
資料結構並查集筆記
33個機器學習常用資料集
2019-04-19
機器學習
分散式機器學習常用資料集
2021-11-28
分散式機器學習
《機器學習初步》筆記
2024-10-07
機器學習筆記
機器學習之資料集的劃分
2020-06-14
機器學習
機器學習課程筆記
2018-05-15
機器學習筆記
學習筆記-虛擬機器
2020-11-01
筆記虛擬機
Machine Learning 機器學習筆記
2018-03-27
Mac機器學習筆記
李巨集毅機器學習-學習筆記
2018-11-13
機器學習筆記
機器學習學習筆記——基本知識
2024-04-15
機器學習筆記
機器學習演算法學習筆記
2023-03-13
機器學習演算法筆記
最強資料集集合：50個最佳機器學習公共資料集
2018-11-08
機器學習
Docker 學習筆記（第五集：資料卷）
2020-09-03
Docker筆記
機器學習整合學習—Apple的學習筆記
2018-11-01
機器學習APP筆記
機器學習 | 吳恩達機器學習第九周學習筆記
2018-11-22
機器學習吳恩達筆記
資料庫學習筆記
2018-10-18
資料庫筆記
祕籍 | 機器學習資料集網址大全
2019-01-27
機器學習
機器學習演算法筆記之6：資料預處理
2020-04-06
機器學習演算法筆記
Python機器學習筆記：sklearn庫的學習
2018-12-29
Python機器學習筆記
(五)numpy知識學習2-python資料分析與機器學習實戰(學習筆記)
2018-05-02
Python機器學習筆記
大資料測試學習筆記之測試工具集
2019-05-15
大資料筆記
【筆記】《Python大戰機器學習》
2018-03-12
筆記Python機器學習
JAVA虛擬機器學習筆記
2018-04-01
Java虛擬機機器學習筆記
飛機的 PHP 學習筆記八：資料庫
2020-01-30
PHP筆記資料庫
機器學習中的有標註資料集和無標註資料集
2023-05-08
機器學習
吳恩達機器學習筆記 —— 18 大規模機器學習
2018-08-04
吳恩達機器學習筆記
【機器學習】支援向量機（個人筆記）
2024-06-12
機器學習筆記
機器學習高質量資料集大合輯
2018-10-24
機器學習
Scikit-Learn 與 TensorFlow 機器學習實用指南學習筆記 5 —— 如何為機器學習演算法準備資料？
2019-01-02
機器學習筆記演算法
PHP 資料加密 (學習筆記)
2019-07-30
PHP加密筆記
1029學習筆記資料庫
2020-11-03
筆記資料庫
資料結構學習筆記
2018-04-22
資料結構筆記
python學習筆記：資料庫
2018-04-19
Python筆記資料庫
MySQL資料庫學習筆記
2020-12-10
MySql資料庫筆記

機器學習筆記——資料集分割

相關文章