train_test_split資料集分割
函式名:train_test_split
所在包:sklearn.model_selection
功能:劃分資料的訓練集與測試集
引數解讀:train_test_split (*arrays,test_size, train_size, rondom_state=None, shuffle=True, stratify=None)
- arrays:特徵資料和標籤資料(array,list,dataframe等型別),要求所有資料長度相同。
- test_size / train_size: 測試集/訓練集的大小,若輸入小數表示比例,若輸入整數表示資料個數。
- rondom_state:隨機種子(一個整數),其實就是一個劃分標記,對於同一個資料集,如果rondom_state相同,則劃分結果也相同。
- shuffle:是否打亂資料的順序,再劃分,預設True。
- stratify:none或者array/series型別的資料,表示按這列進行分層取樣。
舉個栗子:
特徵資料:data
a b c
0 1 2 3
1 1 3 6
2 2 3 8
3 1 5 7
4 2 4 8
5 2 3 6
6 1 4 8
7 2 3 6
標籤資料:label
[2,3,5,6,8,0,2,3]
#劃分
xtrain,xtest,ytrain,ytest=train_test_split(data,label,test_size=0.2,stratify=data['a'],random_state=1)
訓練特徵集:
a b c
0 1 2 3
2 2 3 8
3 1 5 7
5 2 3 6
6 1 4 8
4 2 4 8
測試特徵集:
a b c
1 1 3 6
7 2 3 6
訓練集與測試集按照a列來分層取樣,且無論重複多少次上述語句,劃分結果都相同。
相關文章
- 機器學習筆記——資料集分割機器學習筆記
- 常用語義分割資料集
- 分割模型的資料集由json轉為txt模型JSON
- 機器學習筆記 - Pascal VOC資料集使用FCN語義分割機器學習筆記
- Ai影像分割模型PaddleSeg——自定義資料集處理AI模型
- 資料表分割槽分割與刪除歷史資料
- 開源髮絲分割資料集CelebAHairMask-HQ(國慶獻禮)AI
- voc資料集轉換成coco資料集
- MySql資料分割槽操作之新增分割槽操作MySql
- 分割槽表入無分割槽的資料庫資料庫
- UCI資料集整理(附論文常用資料集)
- php資料集PHP
- SST資料集
- oracle資料集Oracle
- PDF 分割拆分 API 資料介面API
- 自動備份、截斷分割槽表分割槽資料
- 人工智慧大資料,公開的海量資料集下載,ImageNet資料集下載,資料探勘機器學習資料集下載人工智慧大資料機器學習
- 最強資料集集合:50個最佳機器學習公共資料集機器學習
- 使用coco資料集建立賦值黏貼篡改資料集賦值
- 資料探勘資料集下載資源
- MySQL資料表分割槽手記MySql
- mysql資料庫分割槽技術MySql資料庫
- 資料庫分割槽的文章收集資料庫
- 海量資料處理_表分割槽
- 分割槽表匯入資料庫資料庫
- 分割槽丟失資料恢復資料恢復
- 資料庫表分割技術淺析(水平分割/垂直分割/庫表雜湊)資料庫
- 資料集簡介
- 常見資料集
- [轉]Golang資料集Golang
- 操作大資料集大資料
- 資料庫叢集資料庫
- 資料集訓練
- tinyshakespeare資料集
- 調整分割槽後分割槽不見的資料找到方法
- 資料庫分割槽表 什麼情況下需要分割槽資料庫
- 插入遠端資料庫資料遇到分割槽表bug資料庫
- 【資料集合】並集、交集、差集、子集