機器學習之資料明確

weixin_34402408發表於2017-10-26

原文網址 : https://blog.csdn.net/weixin_34402408/article/details/88233061

機器學習

1、為什麼要資料明確？

當資料是文字（中文、英文的文字，非數值）的時候，我們需要進行資料明確，因為系統的底層是處理數字的數值，需要規範到0到1之間

資料明確

2、轉換之後的資料成為“虛擬變數”（n-1）

python程式碼：

import numpy as np #矩陣

import matplotlib.pyplot as plt #資料展示、視覺化

import pandas as pd #資料預處理

#import dataset

datasets = pd.read_csv('Data.csv')

#missing data 丟失資料處理 1、去最大值最小值，2、平均數 3、刪除

X = datasets.iloc[:,:-1].values #取出獨立變數

Y = datasets.iloc[:,3].values

#資料預處理,補充缺失資料

from sklearn.preprocessing import Imputer

#mean 缺失的用平均數填充

#怎麼處理資料

imputer = Imputer(missing_values = 'NaN', strategy = 'mean', axis = 0)

#處理哪裡的資料

imputer = imputer.fit( X[:, 1:3])

X[:,1:3] = imputer.transform( X[:,1:3])

#資料明確（文字轉數字 n-1 “虛擬變數”，系統的底層都是處理數字的數值，規範0到1之間）

from sklearn.preprocessing import LabelEncoder,OneHotEncoder

#把這個庫轉成物件類用

labelencodee_X = LabelEncoder()

X[:,0] = labelencoder_X.fit_transform(X[:, 0])

onehotencoder = OneHotEncoder()

X = onehotencoder.fit_transform(X).toarray

R語言資料明確之後的資料：

array([[ 1., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0.,

0., 0., 0., 0., 0., 0., 1., 0., 0.],

[ 0., 0., 1., 1., 0., 0., 0., 0., 0., 0., 0., 0., 1.,

0., 0., 0., 0., 0., 0., 0., 0., 0.],

[ 0., 1., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0.,

0., 1., 0., 0., 0., 0., 0., 0., 0.],

[ 0., 0., 1., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0.,

0., 0., 0., 1., 0., 0., 0., 0., 0.],

[ 0., 1., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0.,

0., 0., 0., 0., 1., 0., 0., 0., 0.],

[ 1., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0.,

0., 0., 1., 0., 0., 0., 0., 0., 0.],

[ 0., 0., 1., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0.,

1., 0., 0., 0., 0., 0., 0., 0., 0.],

[ 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0.,

0., 0., 0., 0., 0., 0., 0., 1., 0.],

[ 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0.,

0., 0., 0., 0., 0., 0., 0., 0., 1.],

[ 1., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0.,

0., 0., 0., 0., 0., 1., 0., 0., 0.]])

R語言程式碼：

datasets = read.csv('Data.csv')

#missData 缺失資料填充

datasets$Age = ifelse(is.na(datasets$Age),ave(datasets$Age,FUN = function(x) mean(x, na.rm = TRUE)),

datasets$Age)

datasets$Salary = ifelse(is.na(datasets$Salary),ave(datasets$Salary,FUN = function(x) mean(x, na.rm = TRUE)),

datasets$Salary)

#資料明確

datasets$Country = factor(datasets$Country,levels = c('France','Spain','Germany'), labels = c(1,2,3))

R語言資料明確之後的資料

機器學習之清理資料
2020-06-16
機器學習
明確解釋：機器學習與統計建模有何不同
2020-06-04
機器學習
機器學習之資料集的劃分
2020-06-14
機器學習
機器學習-資料清洗
2019-03-02
機器學習
機器學習大資料
2019-05-10
機器學習大資料
【機器學習】--Python機器學習庫之Numpy
2018-04-06
機器學習Python
機器學習之學習速率
2020-06-12
機器學習
機器學習-- 資料轉換
2018-11-17
機器學習
簡明機器學習——01機器學習的幾個基本要素
2020-02-25
機器學習
機器學習之分類：準確率
2020-06-27
機器學習
做資料分析需要學習機器學習嗎？
2020-01-15
機器學習
[大資料][機器學習]之Model Card（模型卡片）介紹
2024-07-09
大資料機器學習模型
機器學習之學習曲線
2019-09-18
機器學習
機器學習之pca
2024-06-17
機器學習PCA
機器學習之皮毛
2021-04-14
機器學習
八個機器學習資料清洗
2019-06-19
機器學習
ENVI新機器學習：ENVITask 使用說明
2024-06-27
機器學習
大資料分析/機器學習基礎之matplotlib繪圖篇
2023-11-25
大資料機器學習繪圖
機器學習：探索資料和資料預處理
2020-12-13
機器學習
機器學習之特徵工程
2020-06-14
機器學習特徵工程
機器學習之梯度下降
2020-02-08
機器學習梯度
機器學習之迭代方法
2020-06-12
機器學習
機器學習之泛化
2020-06-13
機器學習
機器學習一：資料預處理
2019-02-27
機器學習
機器學習筆記——資料集分割
2018-09-25
機器學習筆記
機器學習基礎-資料降維
2019-05-02
機器學習
33個機器學習常用資料集
2019-04-19
機器學習
分散式機器學習常用資料集
2021-11-28
分散式機器學習
想入門資料科學領域？明確方向更重要
2018-12-18
資料科學
機器學習演算法筆記之6：資料預處理
2020-04-06
機器學習演算法筆記
機器學習 # 為什麼機器學習要求資料是獨立同分布的？
2020-11-26
機器學習
機器學習資源
2019-02-16
機器學習
python機器學習速成|1|資料匯入
2018-10-17
Python機器學習
機器學習中資料清洗的藝術
2019-08-23
機器學習
具身智慧和機器人學習資料
2024-11-26
機器人
機器學習筆記---資料預處理
2022-04-30
機器學習筆記
【機器學習】資料準備--python爬蟲
2022-06-22
機器學習Python爬蟲
機器學習之分類：精確率和召回率
2020-06-27
機器學習
機器學習之牛頓法
2019-03-03
機器學習

機器學習之資料明確

相關文章