機器學習之資料明確
1、為什麼要資料明確?
當資料是文字(中文、英文的文字,非數值)的時候,我們需要進行資料明確,因為系統的底層是處理數字的數值,需要規範到0到1之間
2、轉換之後的資料成為“虛擬變數”(n-1)
python程式碼:
import numpy as np #矩陣
import matplotlib.pyplot as plt #資料展示、視覺化
import pandas as pd #資料預處理
#import dataset
datasets = pd.read_csv('Data.csv')
#missing data 丟失資料處理 1、去最大值 最小值,2、平均數 3、刪除
X = datasets.iloc[:,:-1].values #取出獨立變數
Y = datasets.iloc[:,3].values
#資料預處理,補充缺失資料
from sklearn.preprocessing import Imputer
#mean 缺失的用平均數填充
#怎麼處理資料
imputer = Imputer(missing_values = 'NaN', strategy = 'mean', axis = 0)
#處理哪裡的資料
imputer = imputer.fit( X[:, 1:3])
X[:,1:3] = imputer.transform( X[:,1:3])
#資料明確 (文字轉數字 n-1 “虛擬變數”,系統的底層都是處理數字的數值,規範0到1之間)
from sklearn.preprocessing import LabelEncoder,OneHotEncoder
#把這個庫轉成物件類用
labelencodee_X = LabelEncoder()
X[:,0] = labelencoder_X.fit_transform(X[:, 0])
onehotencoder = OneHotEncoder()
X = onehotencoder.fit_transform(X).toarray
R語言資料明確之後的資料:
array([[ 1., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0.,
0., 0., 0., 0., 0., 0., 1., 0., 0.],
[ 0., 0., 1., 1., 0., 0., 0., 0., 0., 0., 0., 0., 1.,
0., 0., 0., 0., 0., 0., 0., 0., 0.],
[ 0., 1., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0.,
0., 1., 0., 0., 0., 0., 0., 0., 0.],
[ 0., 0., 1., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0.,
0., 0., 0., 1., 0., 0., 0., 0., 0.],
[ 0., 1., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0.,
0., 0., 0., 0., 1., 0., 0., 0., 0.],
[ 1., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0.,
0., 0., 1., 0., 0., 0., 0., 0., 0.],
[ 0., 0., 1., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0.,
1., 0., 0., 0., 0., 0., 0., 0., 0.],
[ 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0.,
0., 0., 0., 0., 0., 0., 0., 1., 0.],
[ 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0.,
0., 0., 0., 0., 0., 0., 0., 0., 1.],
[ 1., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0.,
0., 0., 0., 0., 0., 1., 0., 0., 0.]])
R語言程式碼:
datasets = read.csv('Data.csv')
#missData 缺失資料填充
datasets$Age = ifelse(is.na(datasets$Age),ave(datasets$Age,FUN = function(x) mean(x, na.rm = TRUE)),
datasets$Age)
datasets$Salary = ifelse(is.na(datasets$Salary),ave(datasets$Salary,FUN = function(x) mean(x, na.rm = TRUE)),
datasets$Salary)
#資料明確
datasets$Country = factor(datasets$Country,levels = c('France','Spain','Germany'), labels = c(1,2,3))
R語言資料明確之後的資料
相關文章
- 機器學習之清理資料機器學習
- 《資料資產》專題:《資料資產》如何確權、估值? 《資料產權》如何明確、保護?
- 明確解釋:機器學習與統計建模有何不同機器學習
- 【海量資料學院】DBA學習方法論系列之:明確的學習目標
- 機器學習之資料集的劃分機器學習
- 機器學習之資料清洗與特徵提取機器學習特徵
- 以明確大資料法律屬性遏制資訊洩露大資料
- 想入門資料科學領域?明確方向更重要資料科學
- DLP資料防洩漏之正確概念
- 明確應用程式型別與資料庫結構設計型別資料庫
- [大資料][機器學習]之Model Card(模型卡片)介紹大資料機器學習模型
- 機器學習-資料清洗機器學習
- 機器學習 大資料機器學習大資料
- 機器學習之分類:準確率機器學習
- 機器學習-- 資料轉換機器學習
- 機器學習資料彙總機器學習
- 機器學習資料精選機器學習
- 我愛機器學習--機器學習方向資料彙總機器學習
- 如何確保在對資料誤操之後可以快速的恢復資料
- 機器學習之機器學習概念機器學習
- 機器學習演算法筆記之6:資料預處理機器學習演算法筆記
- 大資料分析/機器學習基礎之matplotlib繪圖篇大資料機器學習繪圖
- 簡明機器學習——01機器學習的幾個基本要素機器學習
- 機器學習&資料探勘筆記_16(常見面試之機器學習演算法思想簡單梳理)機器學習筆記面試演算法
- 機器學習系列(7)_機器學習路線圖(附資料)機器學習
- 《資料探勘:實用機器學習技術》——資料探勘、機器學習一舉兩得機器學習
- ENVI新機器學習:ENVITask 使用說明機器學習
- 資料分頁說明
- 八個機器學習資料清洗機器學習
- 機器學習資料合計(一)機器學習
- 機器學習——大資料與MapReduce機器學習大資料
- 機器學習資料合計(二)機器學習
- 機器學習、資料探勘及其他機器學習
- 泛微oa流程表單之js操作明細資料1JS
- 海量資料相似度計算之simhash和海明距離
- Oracle AWR報告及統計資料之DB Time說明Oracle
- 大資料分析與機器學習之間的區別與聯絡大資料機器學習
- 共享辦公,明確空間定位