機器學習筆記——資料集分割
在模型訓練之前,要首先劃分訓練集與測試集,如何對原始資料集進行訓練集與測試集的劃分?訓練集與測試集的比例各佔多少?如何保證各自內部標籤分佈平衡都會影響模型訓練的最終效果。
好在R和Python中有現成的資料集分割函式,避免手動寫函式導致劃分比例不合理、訓練集與測試集的樣本的結構與總體不均衡的問題。
R語言中caTools包中的sample.split函式可以用來自動將原始資料集分割成訓練集和測試集。
方法一——caTools中的sample.split函式
library("caTools")
set.seed(123)
data(iris)
table(iris$Species)
setosa versicolor virginica
50 50 50
split = sample.split(iris$Species,SplitRatio = .8)
train_data = subset(iris,split == TRUE)
test_data = subset(iris,split == FALSE)
table(train_data$Species)
setosa versicolor virginica
40 40 40
table(test_data$Species)
setosa versicolor virginica
10 10 10
劃分方法二——createDataPartition函式
library("caret")
split1 <- createDataPartition(y=iris$Species,p=0.8,list = FALSE)
train_data <- iris[split1,]
table(train_data$Species)
setosa versicolor virginica
40 40 40
test_data <- iris[-split1,]
table(test_data$Species)
setosa versicolor virginica
10 10 10
可以看到無論是caTools包中的sample.split函式還是caret包中的createDataPartition函式,都針對分類標籤做了混合後的分層隨機抽樣,這樣可以保證訓練集與測試集內的各類標籤分佈比例與樣本總體的分佈比例嚴格一致,否則如果僅僅使用sample函式,無法達到分層隨機抽樣的目的。
Python的sk-learn庫中也有現成的資料集分割工具可用。
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_iris
import pandas as pd
iris = load_iris()
data = iris[`data`]
iris_data = pd.DataFrame(
data = data,
columns = [`sepal_length`,`sepal_width`,`petal_length`,`petal_width`]
)
iris_data["Species"] = iris[ `target`]
iris_data["Species"] = iris_data["Species"].map({0:"setosa",1:"versicolor",2:"virginica"})
iris_data["Species"].value_counts()
versicolor 50
virginica 50
setosa 50
Name: Species, dtype: int64
x,y = iris_data.iloc[:,0:-1],iris_data.iloc[:,-1]
train_data,test_data,train_target,test_target = train_test_split(x,y,test_size = 0.2,stratify = y)
train_target.value_counts()
test_target.value_counts()
這裡有一個細節,其中train_test_split函式中有兩個特殊的引數:shuffle和stratify。
shuffle引數相當於對原始資料進行混合抽樣,相當於撲克牌發牌前的洗牌,保證隨機性。
stratify引數則可以保證訓練集&測試集中樣本標籤結構比例與指定的總體中樣本標籤結構比例一致,特別是在原始資料中樣本標籤分佈不均衡時非常有用,達到分層隨機抽樣的目的。
而對於訓練集與測試集的劃分比例上來看,目前沒有一個統一的比例標準,在機器學習類的參考資料中,推薦的比例是訓練集和測試集的比例保持在1:2~1:4之間為佳。
倘若使用驗證集,則建議保持6:2:2左右的訓練集、驗證集及測試集比例。
原文釋出時間為:2018-09-23
本文作者:杜雨
本文來自雲棲社群合作伙伴“資料小魔方”,瞭解相關資訊可以關注“資料小魔方”。
相關文章
- 機器學習筆記 - Pascal VOC資料集使用FCN語義分割機器學習筆記
- 機器學習筆記---資料預處理機器學習筆記
- 機器學習學習筆記機器學習筆記
- 機器學習筆記機器學習筆記
- 資料結構——並查集 學習筆記資料結構並查集筆記
- 33個機器學習常用資料集機器學習
- 分散式機器學習常用資料集分散式機器學習
- 《機器學習初步》筆記機器學習筆記
- 機器學習之資料集的劃分機器學習
- 機器學習課程筆記機器學習筆記
- 學習筆記-虛擬機器筆記虛擬機
- Machine Learning 機器學習筆記Mac機器學習筆記
- 最強資料集集合:50個最佳機器學習公共資料集機器學習
- 李巨集毅機器學習-學習筆記機器學習筆記
- 機器學習學習筆記——基本知識機器學習筆記
- 機器學習演算法學習筆記機器學習演算法筆記
- Docker 學習筆記(第五集:資料卷)Docker筆記
- 機器學習整合學習—Apple的學習筆記機器學習APP筆記
- 機器學習 | 吳恩達機器學習第九周學習筆記機器學習吳恩達筆記
- 資料庫學習筆記資料庫筆記
- 祕籍 | 機器學習資料集網址大全機器學習
- 機器學習演算法筆記之6:資料預處理機器學習演算法筆記
- Python機器學習筆記:sklearn庫的學習Python機器學習筆記
- (五)numpy知識學習2-python資料分析與機器學習實戰(學習筆記)Python機器學習筆記
- 大資料測試學習筆記之測試工具集大資料筆記
- 【筆記】《Python大戰機器學習》筆記Python機器學習
- JAVA虛擬機器學習筆記Java虛擬機機器學習筆記
- 飛機的 PHP 學習筆記八:資料庫PHP筆記資料庫
- 機器學習中的有標註資料集和無標註資料集機器學習
- 吳恩達機器學習筆記 —— 18 大規模機器學習吳恩達機器學習筆記
- 【機器學習】支援向量機(個人筆記)機器學習筆記
- 機器學習高質量資料集大合輯機器學習
- Scikit-Learn 與 TensorFlow 機器學習實用指南學習筆記 5 —— 如何為機器學習演算法準備資料?機器學習筆記演算法
- PHP 資料加密 (學習筆記)PHP加密筆記
- 1029學習筆記 資料庫筆記資料庫
- 資料結構學習筆記資料結構筆記
- python學習筆記:資料庫Python筆記資料庫
- MySQL資料庫學習筆記MySql資料庫筆記