機器學習筆記——資料集分割
在模型訓練之前,要首先劃分訓練集與測試集,如何對原始資料集進行訓練集與測試集的劃分?訓練集與測試集的比例各佔多少?如何保證各自內部標籤分佈平衡都會影響模型訓練的最終效果。
好在R和Python中有現成的資料集分割函式,避免手動寫函式導致劃分比例不合理、訓練集與測試集的樣本的結構與總體不均衡的問題。
R語言中caTools包中的sample.split函式可以用來自動將原始資料集分割成訓練集和測試集。
方法一——caTools中的sample.split函式
library("caTools")
set.seed(123)
data(iris)
table(iris$Species)
setosa versicolor virginica
50 50 50
split = sample.split(iris$Species,SplitRatio = .8)
train_data = subset(iris,split == TRUE)
test_data = subset(iris,split == FALSE)
table(train_data$Species)
setosa versicolor virginica
40 40 40
table(test_data$Species)
setosa versicolor virginica
10 10 10
劃分方法二——createDataPartition函式
library("caret")
split1 <- createDataPartition(y=iris$Species,p=0.8,list = FALSE)
train_data <- iris[split1,]
table(train_data$Species)
setosa versicolor virginica
40 40 40
test_data <- iris[-split1,]
table(test_data$Species)
setosa versicolor virginica
10 10 10
可以看到無論是caTools包中的sample.split函式還是caret包中的createDataPartition函式,都針對分類標籤做了混合後的分層隨機抽樣,這樣可以保證訓練集與測試集內的各類標籤分佈比例與樣本總體的分佈比例嚴格一致,否則如果僅僅使用sample函式,無法達到分層隨機抽樣的目的。
Python的sk-learn庫中也有現成的資料集分割工具可用。
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_iris
import pandas as pd
iris = load_iris()
data = iris[`data`]
iris_data = pd.DataFrame(
data = data,
columns = [`sepal_length`,`sepal_width`,`petal_length`,`petal_width`]
)
iris_data["Species"] = iris[ `target`]
iris_data["Species"] = iris_data["Species"].map({0:"setosa",1:"versicolor",2:"virginica"})
iris_data["Species"].value_counts()
versicolor 50
virginica 50
setosa 50
Name: Species, dtype: int64
x,y = iris_data.iloc[:,0:-1],iris_data.iloc[:,-1]
train_data,test_data,train_target,test_target = train_test_split(x,y,test_size = 0.2,stratify = y)
train_target.value_counts()
test_target.value_counts()
這裡有一個細節,其中train_test_split函式中有兩個特殊的引數:shuffle和stratify。
shuffle引數相當於對原始資料進行混合抽樣,相當於撲克牌發牌前的洗牌,保證隨機性。
stratify引數則可以保證訓練集&測試集中樣本標籤結構比例與指定的總體中樣本標籤結構比例一致,特別是在原始資料中樣本標籤分佈不均衡時非常有用,達到分層隨機抽樣的目的。
而對於訓練集與測試集的劃分比例上來看,目前沒有一個統一的比例標準,在機器學習類的參考資料中,推薦的比例是訓練集和測試集的比例保持在1:2~1:4之間為佳。
倘若使用驗證集,則建議保持6:2:2左右的訓練集、驗證集及測試集比例。
原文釋出時間為:2018-09-23
本文作者:杜雨
本文來自雲棲社群合作伙伴“資料小魔方”,瞭解相關資訊可以關注“資料小魔方”。
相關文章
- 機器學習筆記 - Pascal VOC資料集使用FCN語義分割機器學習筆記
- 機器學習筆記---資料預處理機器學習筆記
- 常用語義分割資料集
- 33個機器學習常用資料集機器學習
- 分散式機器學習常用資料集分散式機器學習
- 機器學習筆記機器學習筆記
- 最強資料集集合:50個最佳機器學習公共資料集機器學習
- 《Python網路資料採集》筆記一Python筆記
- 機器學習之資料集的劃分機器學習
- train_test_split資料集分割AI
- 機器學習演算法筆記之6:資料預處理機器學習演算法筆記
- 機器學習筆記(一)機器學習筆記
- 機器學習中的有標註資料集和無標註資料集機器學習
- mongoDB研究筆記:複製集資料同步機制MongoDB筆記
- 祕籍 | 機器學習資料集網址大全機器學習
- 機器學習,深度學習必備資料集機器學習深度學習
- 機器學習&資料探勘筆記_16(常見面試之機器學習演算法思想簡單梳理)機器學習筆記面試演算法
- 機器學習總結 (機器學習實踐筆記)機器學習筆記
- Docker 學習筆記(第五集:資料卷)Docker筆記
- 機器學習學習筆記機器學習筆記
- [心得]機器學習精華筆記機器學習筆記
- 機器學習課程筆記機器學習筆記
- MySQL資料表分割槽手記MySql
- 機器學習高質量資料集大合輯機器學習
- mysql分割槽表筆記MySql筆記
- 人工智慧大資料,公開的海量資料集下載,ImageNet資料集下載,資料探勘機器學習資料集下載人工智慧大資料機器學習
- 大資料測試學習筆記之測試工具集大資料筆記
- KITTI-二進位制點雲資料集使用筆記筆記
- python網路資料採集 - 讀書筆記 - 糾錯與記錄Python筆記
- JAVA虛擬機器學習筆記Java虛擬機機器學習筆記
- Machine Learning 機器學習筆記Mac機器學習筆記
- 機器學習筆記--決策樹機器學習筆記
- 《機器學習基石》學習筆記機器學習筆記
- 訓練機器學習的資料集大小很重要 - svpino機器學習
- 機器學習實戰原始碼和資料集下載機器學習原始碼
- 非平衡資料集的機器學習常用處理方法機器學習
- 陣列分割——解題筆記陣列筆記
- 分割槽索引學習筆記索引筆記