python 資料分析基礎 day17-對模型自變數進行標準化
今天是讀《python資料分析基礎》的第17天,讀書筆記的內容為變數的標準化。
在進行
在建模的時候,會遇到不同的自變數之間的量綱差距很大的情況,如輸入變數有年齡和身高(身高以m為單位)時,年齡的範圍為(0-100],而身高的範圍則是(0,2.5]。此時兩個變數之間的取值範圍差了一個數量級。若採用這兩個變數進行建模,則有可能出現這樣的情況:年齡對預測值的影響遠高於身高。這意味著年齡的影響程度被高估,身高的影響程度被低估。
為使得變數的影響程度能被正確估計,提高模型的預測精度,對自變數進行標準化是一個有效且可行的方式。
以下將用python演示對自變數進行標準化的操作:
min-max標準化(又名離差標準化)
公式如下:
x*=(x-min)/(max-min)
程式碼如下:
import pandas as pd
#匯入資料
inputFile='資料檔案路徑'
wine=pd.read_csv(inputFile)
#將'tpye'和'quality'欄位以外的欄位進行標準化
#去除'tupe'和'quality'欄位
wineInd=wine[wine.columns.difference(['type','quality'])]
#min-max標準化
wineIndMinMax=(wineInd-wineInd.mean())/wineInd.std()
print(wineIndMinMax.head(5))
z-score 標準化(又名標準差標準化)
公式如下:
x*=(x-mean)/std
其中,mean按為樣本均值,std為樣本標準差
程式碼如下:
#自變數標準化
import pandas as pd
#匯入資料
inputFile=‘資料檔案路徑’
wine=pd.read_csv(inputFile)
#將'tpye'和'quality'欄位以外的欄位進行標準化
#去除'tupe'和'quality'欄位
wineInd=wine[wine.columns.difference(['type','quality'])]
#z-score標準化
wineIndZScore=(wineInd-wineInd.min())/(wineInd.max()-wineInd.min())
print(wineIndZScore.head(5))
相關文章
- 如何對資料目標進行分析
- 大資料分析標準如何進行分類大資料
- python資料分析與視覺化基礎Python視覺化
- 利用python進行資料分析之準備工作(1)Python
- 資料變換-歸一化與標準化
- Python基礎:變數Python變數
- python變數基礎Python變數
- Python標準資料型別-數字Python資料型別
- 資料分析 | 基於智慧標籤,精準管理資料
- python_基礎_變數Python變數
- python對資料集進行清洗與視覺化Python視覺化
- 如何用Python進行資料分析?Python
- 圖解資料分析 | 資料分析的數學基礎圖解
- python基礎語法 - 資料儲存模型Python模型
- 基於Spark對消費者行為資料進行資料分析開發案例Spark
- 資料分析的標準SOP!
- 讓行業大模型更“聰明”,雲測資料提供標準化資料解決方案行業大模型
- Python資料分析難嗎?需要英語數學基礎嗎?Python
- 關於使用sklearn進行資料預處理 —— 歸一化/標準化/正則化
- 對比歸一化和標準化 —— 量化分析
- 【Python資料分析基礎】: 資料缺失值處理Python
- Python資料分析基礎: 資料缺失值處理Python
- Go變數與基礎資料型別Go變數資料型別
- Python對Hadoop資料進行讀寫PythonHadoop
- 用 Python 進行資料分析 pandas (一)Python
- 薦書 | 《利用Python進行資料分析》Python
- 大資料之JAVA基礎(一):資料和變數大資料Java變數
- Python基礎(一)可變與不可變資料型別Python資料型別
- python基礎學習_01變數Python變數
- Python資料分析師主要做什麼?Python基礎Python
- 如何利用python對HTTP代理進行自動化維護?PythonHTTP
- 資料是自動化與智慧化的基礎
- 資料分析-皮膚資料變截距模型模型
- 使用 Python 進行資料視覺化Python視覺化
- 使用 Python 進行資料分析:入門指南Python
- 【資料分析】針對家庭用電資料進行時序分析(1)
- Python基礎:資料型別-數字(5)Python資料型別
- 基礎的python知識2 (變數)Python變數