《機器學習實戰》中的splitDataSet函式

王明輝發表於2018-02-02

機器學習函式

splitDataSet這個函式困擾了我好一陣子，為什麼以某一特徵值為標準進行劃分資料集以後，變成了區域性？例如，如果以第1個特徵為0為標準進行劃分，那麼返回的結果集就是不含有此特徵的結果集，如下圖紅框部分所示：

程式碼表示為：[[1, 'no'], [1, 'no']]

同理，如果以第1個特徵為1作為標準，那麼返回的結果集如下圖所示：

程式碼表示為：[[1, 'yes'], [1, 'yes'], [0, 'no']]

後經此文提示：http://blog.csdn.net/guo1988kui/article/details/75110361

瞭解到這是因為把那個特徵值作為分界線以後，它自身不再作為特徵出現在資料集中。

但是我沒想明白為什麼要這樣做，是什麼道理？為什麼分界線就不再進入資料集了？穿紅衣服的同學一組，藍衣服的同學一組，那麼這個分界線就是“衣服”，為什麼要把“衣服”排除在外？

同時，實際上，它是否進入資料集，對熵並沒有影響。

它統計的是符合特徵的樣本數量佔樣本總體的比例，得到概率，與特徵數量本身沒有關係。

存疑。隨著學習的深入，希望有一天能夠解開。

繼續往下看就知道了，因為要構建決策樹，資料集中的特徵應當逐步減少。

機器學習基本函式介紹
2020-12-05
機器學習函式
《機器學習實戰》學習大綱
2018-12-01
機器學習
SAP戰略中的機器學習
2019-04-12
機器學習
python機器學習實戰（二）
2018-12-26
Python機器學習
分散式機器學習中的模型聚合
2021-12-02
分散式機器學習模型
回顧·機器學習/深度學習工程實戰
2019-02-21
機器學習深度學習
[譯] 機器學習可以建模簡單的數學函式嗎？
2019-05-04
機器學習函式
《機器學習實戰》第一章機器學習基礎
2018-11-25
機器學習
面向機器智慧的TensorFlow實戰4：機器學習基礎
2018-05-25
機器學習
Python 中級學習之函式裝飾器
2021-03-17
Python函式
初學者的機器學習入門實戰教程！
2019-03-22
機器學習
spark RDD的學習，filter函式的學習，split函式的學習
2018-08-01
SparkFilter函式
分散式機器學習中的模型架構
2021-12-05
分散式機器學習模型架構
深度學習之PyTorch實戰（5）——對CrossEntropyLoss損失函式的理解與學習
2023-04-09
深度學習PyTorchROS函式
機器學習實戰之Logistic迴歸
2018-06-25
機器學習
機器學習30天進階實戰
2020-04-04
機器學習
機器學習入門實戰疑問
2020-04-30
機器學習
機器學習實戰（十三）：Convolutional Neural Networks
2020-12-27
機器學習
函式的學習
2021-01-05
函式
機器學習中的元學習
2024-03-13
機器學習
【機器學習】帶你3分鐘看完《機器學習實戰》總結篇
2018-03-10
機器學習
Scikit-Learn 與 TensorFlow 機器學習實用指南學習筆記2 — 機器學習的主要挑戰
2018-11-26
機器學習筆記
【Python機器學習實戰】感知機和支援向量機學習筆記（三）之SVM的實現
2021-08-11
Python機器學習筆記
機器學習之簡單介紹啟用函式
2018-04-09
機器學習函式
Python機器學習筆記：SVM（2）——SVM核函式
2020-06-06
Python機器學習筆記函式
機器學習--起手式
2023-01-05
機器學習
機器學習實戰6（SMO演算法）
2018-03-20
機器學習演算法
《scikit-learn機器學習實戰》簡介
2022-06-22
機器學習
機器學習實戰 | SKLearn最全應用指南
2022-03-21
機器學習
基於Sklearn機器學習程式碼實戰
2022-11-25
機器學習
機器學習實戰（一）—— 線性迴歸
2020-12-01
機器學習
js中windows的函式(隨機數，計時器的實現)
2018-10-29
JSWindows函式隨機
【Python機器學習實戰】決策樹和整合學習（一）
2021-08-19
Python機器學習
觀遠AI實戰 | 機器學習系統的工程實踐
2019-01-16
AI機器學習
學習筆記：javascript中的Generator函式
2019-06-21
筆記JavaScript函式
機器學習者都應該知道的五種損失函式！
2018-06-19
機器學習函式
Spark機器學習實戰 (十一) - 文字情感分類專案實戰
2019-04-19
Spark機器學習
【機器學習基礎】常見損失函式總結
2021-11-09
機器學習函式
機器學習中的 CatBoost
2024-03-07
機器學習

《機器學習實戰》中的splitDataSet函式

相關文章