機器學習之資料明確
1、為什麼要資料明確?
當資料是文字(中文、英文的文字,非數值)的時候,我們需要進行資料明確,因為系統的底層是處理數字的數值,需要規範到0到1之間

2、轉換之後的資料成為“虛擬變數”(n-1)
python程式碼:
import numpy as np #矩陣
import matplotlib.pyplot as plt #資料展示、視覺化
import pandas as pd #資料預處理
#import dataset
datasets = pd.read_csv('Data.csv')
#missing data 丟失資料處理 1、去最大值 最小值,2、平均數 3、刪除
X = datasets.iloc[:,:-1].values #取出獨立變數
Y = datasets.iloc[:,3].values
#資料預處理,補充缺失資料
from sklearn.preprocessing import Imputer
#mean 缺失的用平均數填充
#怎麼處理資料
imputer = Imputer(missing_values = 'NaN', strategy = 'mean', axis = 0)
#處理哪裡的資料
imputer = imputer.fit( X[:, 1:3])
X[:,1:3] = imputer.transform( X[:,1:3])
#資料明確 (文字轉數字 n-1 “虛擬變數”,系統的底層都是處理數字的數值,規範0到1之間)
from sklearn.preprocessing import LabelEncoder,OneHotEncoder
#把這個庫轉成物件類用
labelencodee_X = LabelEncoder()
X[:,0] = labelencoder_X.fit_transform(X[:, 0])
onehotencoder = OneHotEncoder()
X = onehotencoder.fit_transform(X).toarray
R語言資料明確之後的資料:
array([[ 1., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 1., 0., 0.],
[ 0., 0., 1., 1., 0., 0., 0., 0., 0., 0., 0., 0., 1.,
0., 0., 0., 0., 0., 0., 0., 0., 0.],
[ 0., 1., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 1., 0., 0., 0., 0., 0., 0., 0.],
[ 0., 0., 1., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0.,
0., 0., 0., 1., 0., 0., 0., 0., 0.],
[ 0., 1., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0.,
0., 0., 0., 0., 1., 0., 0., 0., 0.],
[ 1., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 1., 0., 0., 0., 0., 0., 0.],
[ 0., 0., 1., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0.,
1., 0., 0., 0., 0., 0., 0., 0., 0.],
[ 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 1., 0.],
[ 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 1.],
[ 1., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 1., 0., 0., 0.]])
R語言程式碼:
datasets = read.csv('Data.csv')
#missData 缺失資料填充
datasets$Age = ifelse(is.na(datasets$Age),ave(datasets$Age,FUN = function(x) mean(x, na.rm = TRUE)),
datasets$Age)
datasets$Salary = ifelse(is.na(datasets$Salary),ave(datasets$Salary,FUN = function(x) mean(x, na.rm = TRUE)),
datasets$Salary)
#資料明確
datasets$Country = factor(datasets$Country,levels = c('France','Spain','Germany'), labels = c(1,2,3))
R語言資料明確之後的資料

相關文章
- 機器學習之清理資料機器學習
- 明確解釋:機器學習與統計建模有何不同機器學習
- 機器學習之資料集的劃分機器學習
- 機器學習-資料清洗機器學習
- 機器學習 大資料機器學習大資料
- 【機器學習】--Python機器學習庫之Numpy機器學習Python
- 機器學習之學習速率機器學習
- 機器學習-- 資料轉換機器學習
- 簡明機器學習——01機器學習的幾個基本要素機器學習
- 機器學習之分類:準確率機器學習
- 做資料分析需要學習機器學習嗎?機器學習
- [大資料][機器學習]之Model Card(模型卡片)介紹大資料機器學習模型
- 機器學習之學習曲線機器學習
- 機器學習之pca機器學習PCA
- 機器學習之皮毛機器學習
- 八個機器學習資料清洗機器學習
- ENVI新機器學習:ENVITask 使用說明機器學習
- 大資料分析/機器學習基礎之matplotlib繪圖篇大資料機器學習繪圖
- 機器學習:探索資料和資料預處理機器學習
- 機器學習之特徵工程機器學習特徵工程
- 機器學習之梯度下降機器學習梯度
- 機器學習之迭代方法機器學習
- 機器學習之泛化機器學習
- 機器學習一:資料預處理機器學習
- 機器學習筆記——資料集分割機器學習筆記
- 機器學習基礎-資料降維機器學習
- 33個機器學習常用資料集機器學習
- 分散式機器學習常用資料集分散式機器學習
- 想入門資料科學領域?明確方向更重要資料科學
- 機器學習演算法筆記之6:資料預處理機器學習演算法筆記
- 機器學習 # 為什麼機器學習要求資料是獨立同分布的?機器學習
- 機器學習資源機器學習
- python機器學習速成|1|資料匯入Python機器學習
- 機器學習中資料清洗的藝術機器學習
- 具身智慧和機器人學習資料機器人
- 機器學習筆記---資料預處理機器學習筆記
- 【機器學習】資料準備--python爬蟲機器學習Python爬蟲
- 機器學習之分類:精確率和召回率機器學習
- 機器學習之牛頓法機器學習