scikit-learn中KNN演算法資料歸一化的分裝
現在已經通過大量資料訓練出模型,那麼在做資料歸一化時,要考慮對訓練資料和測試資料都要歸一化。
但是測試資料在後面是需要當作測試模型效能的工具,它的存在是模擬真實環境。
1,真實環境是很可能無法得到所有測試資料的均值和方差的。
2,而且資料歸一化是KNN演算法的一部分。
比如,預測一朵花的型別,由一個資料是不能得到方差和均值的。
所以,對於測試資料應該使用訓練資料的均值和方差進行資料歸一化。
Xscale = (X_test - mean_train)/std_train
經過資料歸一化的預測流程如下:
只涉及到了均值方差的方法
import numpy as np
class StandardScaler:
def __init__(self):
"""初始化"""
"""用符號和下劃線表示非使用者傳入的引數"""
self.mean_ = None
self.std_ = None
def fit(self,X):
"""根據訓練資料獲得每一列的均值和方差"""
"""只處理2維的資料"""
assert X.ndim == 2
self.mean_ = np.array([np.mean(X[:,i]) for i in X.shape[1]])
self.std_ = np.array([np.std(X[:,i]) for i in X.shape[1]])
return self
def transform(self,X):
"""根據公式和求的均值方差求出資料歸一化的矩陣"""
assert X.ndim == 2
assert self.mean_ and self.std_ is not None
"""建立一個和X大小,資料型別一樣的矩陣,用來存放歸一化後的資料"""
resx = np.empty(shape = X.shape,dtype= float)
for col in range(X.shape[1]):
resx[:,col] = (X[:,col] - self.mean_[col]) /self.std_[col]
return resx
相關文章
- KNN演算法的資料歸一化--Feature ScalingKNN演算法
- 資料探勘——KNN演算法(手寫數字分類)KNN演算法
- 手勢識別演算法: 資料濾波演算法、資料分演算法——KNN演算法KNN
- 資料歸一化
- KNN演算法——分類部分KNN演算法
- 機器學習演算法-K近鄰(KNN)演算法(三):馬絞痛資料--kNN資料預處理+kNN分類pipeline(程式碼附詳細註釋)機器學習演算法KNN
- 最基礎的分類演算法(KNN)演算法KNN
- 資料變換-歸一化與標準化
- 演算法實踐:KNN分類(day08)演算法KNN
- 資料結構與演算法-kd二叉樹(kNN)資料結構演算法二叉樹KNN
- Sklearn之資料預處理——StandardScaler歸一化
- (一)kNNKNN
- KNN演算法實驗KNN演算法
- 大資料之路 ——(一)演算法建模中的資料清洗大資料演算法
- scikit-learn: 使用conda安裝scikit-learn
- sklearn學習 第一篇:knn分類KNN
- 機器學習 第5篇:knn迴歸機器學習KNN
- MySQL 中如何歸檔資料MySql
- 演算法金 | 再見!!!KNN演算法KNN
- KNN 演算法-理論篇-如何給電影進行分類KNN演算法
- python中的scikit-learn庫來實現SVM分類器。Python
- 演算法(八):圖解KNN演算法演算法圖解KNN
- 特徵工程中的「歸一化」有什麼作用特徵工程
- Python資料預處理:徹底理解標準化和歸一化Python
- 【資料結構與演算法】歸併排序資料結構演算法排序
- SMOGN演算法Python實現:解決迴歸分析中的資料不平衡演算法Python
- scikit-learn 中 Boston Housing 資料集問題解決方案
- 資料結構與演算法——排序演算法-歸併排序資料結構演算法排序
- KNN演算法推理與實現KNN演算法
- 影像歸一化
- 機器學習 | 資料歸一化的重要性你瞭解多少?機器學習
- 一個Python中優雅的資料分塊方法Python
- Python資料探勘入門與實踐---使用scikit-learn 估計器分類Python
- python機器學習演算法——KNN演算法Python機器學習演算法KNN
- 迴歸演算法全解析!一文讀懂機器學習中的迴歸模型演算法機器學習模型
- 【scikit-learn基礎】--『資料載入』之外部資料集
- 【scikit-learn基礎】--『資料載入』之玩具資料集
- 海量資料庫的查詢優化及分頁演算法方案(轉)資料庫優化演算法