Python資料科學（六）資料清理(Ⅰ)

一隻寫程式的猿發表於2017-12-14

原文網址 : https://juejin.im/post/5a3100926fb9a04500030d01

傳送門：

Python資料科學（一）- python與資料科學應用(Ⅰ)

Python資料科學（二）- python與資料科學應用(Ⅱ)

Python資料科學（三）- python與資料科學應用(Ⅲ)

Python資料科學（四）- 資料收集系列

Python資料科學（五）- 資料處理和資料採集

Python資料科學（六）- 資料清理(Ⅰ)

Python資料科學（七）- 資料清理(Ⅱ)

成功爬取到我們所需要的資料以後，接下來應該做的是對資料進行清理和轉換，很多人遇到這種情況最自然地反應就是“寫個指令碼”，當然這也算是一個很好的解決方法，但是，python中還有一些第三方庫，像Numpy,Pandas等，不僅可以快速簡單地清理資料，還可以讓非程式設計的人員輕鬆地看見和使用你的資料。接下來就讓我們一起學習使用Pandas!

1.Pandas

什麼是Pandas? 百度百科：Python Data Analysis Library 或 pandas 是基於NumPy 的一種工具，該工具是為了解決資料分析任務而建立的。Pandas 納入了大量庫和一些標準的資料模型，提供了高效地操作大型資料集所需的工具。pandas提供了大量能使我們快速便捷地處理資料的函式和方法。你很快就會發現，它是使Python成為強大而高效的資料分析環境的重要因素之一。

以下我們主要通過一些範例進行學習。

1.資料篩選

#儲存元素與切割
import pandas as pd
df = pd.DataFrame(info)
df.ix[1]
複製程式碼

# 檢視特定的列
df[['name', 'age']]
複製程式碼

# 檢視特定列的特定內容
df.ix[1:2, ['name', 'age'] ]
複製程式碼

使用 & 取條件交集

df[(df['gender'] == 'M')&(df['age'] >= 30)]
複製程式碼

使用 | 取條件集合

df[(df['gender'] == 'M')|(df['age'] >= 30)]
複製程式碼

新增/刪除欄位

 # 新增欄位
df['employee'] = True

# 刪除欄位
del df['employee']    OR   df = df.drop('employee', 1)

# 新增第六列
df.loc[6] = {'age':20, 'gender':'F', 'name':'qoo'}
OR
df.append(pd.DataFrame([{'age':20, 'gender':'F', 'name':'qoo'}]), ignore_index=True)

# 刪除第六列
df = df.drop(6)
複製程式碼

設定新的索引

# 新增的欄位
df['userid'] = range(101, 107) 

# 設定新的索引
df. set_index('userid', inplace=True)
複製程式碼

根據位置取值

# iloc可以根據位置取值
df.iloc[1]
複製程式碼

# 檢視1,3,5 列的資料
df.iloc[[1,3,5]]
複製程式碼

根據索引取值

# 使用ix取值,通過行號索引 
df.ix[[101,103,105]]

# 使用loc取值，即使用標籤索引行資料
df.loc[[101,103,105]]
複製程式碼

2.偵測遺失值

缺失值是指資料中有特定或者一個範圍的值是不完全的
缺失值可能會導致資料分析時產生偏誤的推論
缺失值可能來自機械的缺失或者人為的缺失
- 機械缺失 例：機械故障，導致資料無法被完整儲存
- 人為缺失 例：受訪者拒絕透露部分資訊

import pandas as pd
import numpy as np
df = pd.DataFrame([\
                  ['frank', 'M', np.nan],\
                  ['mary', np.nan, np.nan],\
                  ['tom', 'M', 35],\
                  ['ted', 'M', 33],\
                  ['jean', np.nan, 21],\
                  ['lisa', 'F', 20]]
)
df. columns = ['name', 'gender', 'age']
df 
複製程式碼

檢查序列是否有缺失值

# 檢查非缺失值資料
df['gender'].notnull()

# 檢查缺失值資料
df['gender'].isnull()
複製程式碼

檢查欄位是否含有缺失值

# 檢查欄位是否含有缺失值
df['age'].isnull().values.any()

# 檢查DataFrame 是否還有缺失值 返回True/False
df.isnull().values.any()
複製程式碼

計算缺失值的數量

# 檢查某個欄位缺失值的數量
df['age'].isnull().sum()

# 檢查欄位缺失值的數量
df.isnull().sum()

# 計算所有缺失值的數量
df.isnull().sum().sum()
複製程式碼

3.補齊遺失值

處理缺失值常規的有以下幾種方法

捨棄缺失值
- 這種情況適用於當缺失值佔資料比例很低時
使用平均數、中位數、眾數等敘述性統計補齊缺失值
使用內插法補齊缺失值
- 如果欄位資料成線性規律

1.捨棄缺失值

捨棄含有任意缺失值的行

df.dropna()
複製程式碼

捨棄所有欄位都含有缺失值的行

df.dropna(how='all')
複製程式碼

捨棄超過兩欄缺失值的行

df.dropna(thresh=2)
複製程式碼

2.捨棄含有缺失值的列

增加一包含缺失值的列

df['employee'] = np.nan
複製程式碼

捨棄皆為缺失值的列

df.dropna(axis=1, how = 'all')
複製程式碼

使用0值表示沿著每一列或行標籤\索引值向下執行方法

使用1值表示沿著每一行或者列標籤模向執行對應的方法

下圖代表在DataFrame當中axis為0和1時分別代表的含義(axis引數作用方向圖示):

3.填補缺失值

用0填補缺失值

df.fillna(0)
複製程式碼

用平均數缺失值 df['age'].mean()是age這個欄位平均值

df['age'].fillna(df['age'].mean())  
複製程式碼

用各性別年齡平均填缺失值

df['age'].fillna(df.groupby('gender')['age'].transform('mean'), inplace = True)
複製程式碼

4.向前/向後填值

向後填補缺失值

df.fillna(method='pad')
複製程式碼

向前填補缺失值

df.fillna(method='bfill', limit=2)
複製程式碼

pad/ffill：往後填值

bfill/backfill：往前填值

注意：這裡的往前往後是指的從上往下

5.使用內插法填補缺失值

df2 = pd.DataFrame([[1,870],\
                   [2,900],\
                   [np.nan,np.nan],\
                   [4,950],\
                   [5,1080],\
                   [6,1200]])
df2.columns = ['time', 'val']
df2.interpolate()
複製程式碼

6.總結

上一階段我們已經爬取了房天下的二手房資訊，這裡對我們抓取到的二手房資訊進行處理

# 把暫無資料替換成物業費
df[df['物業費'] == ‘暫無資料’， ‘物業費’] = np.nan

# 在開啟檔案的時候，直接把暫無資料替換成缺失值
df = pandas.read_csv('data/house_data.csv', na_values = '暫無資料'， index_col = 0)

# 檢視前三行資料
df.head(3)

# 檢視後三行資料
df.tail(3)
複製程式碼

檢視DataFrame資訊

df.info()
複製程式碼

檢視欄位名稱

df.columns
複製程式碼

檢視欄位型態

df.dtypes
複製程式碼

取得敘述性統計

df.describe()
複製程式碼

判斷欄位是否有缺失值的存在

df.isnull().any()
複製程式碼

統計欄位缺失值的數量

df.isnull().sum()
複製程式碼

捨棄參考月供這一列

df = df.drop('參考月供', axis = 1)
複製程式碼

篩選欄位,篩選出產權性質中各種產權所佔的數量

df['產權性質'].value_counts()
複製程式碼

篩選出建築面積大於100且總價大於2000萬的房產資訊注意：ix[ ,]中,前是條件，,是欄位

df.ix[(df['建築面積'] > 100) & (df['總價'] > 2000), ].head(1)
複製程式碼

篩選出產權性質為個人產權的房產資訊

df = df[df['產權性質'] == ‘個人產權’]
複製程式碼

對總價中缺失值進行合理的補全

df['總價'] = df['總價'].fillna(df['建築面積'] * (df['總價'] / df['建築面積']).mean())
複製程式碼

將資料寫入CSV中

df.to_csv('house_final.csv', index_label = False)
複製程式碼

Python 資料科學之 Pandas
2020-03-16
Python資料科學
【Python資料科學】之Numpy
2019-04-29
Python資料科學
Python資料科學（八）- 資料探索與資料視覺化
2019-03-02
Python資料科學視覺化
用 Python 入門資料科學
2019-09-30
Python資料科學
資料科學
2021-09-09
資料科學
資料科學、資料工程學習路線
2022-05-07
資料科學
資料科學與Python（習題彙總）
2024-11-27
資料科學Python
10大Python資料科學原始碼教程
2022-03-30
Python資料科學原始碼
python應用資料科學的優勢
2021-09-11
Python資料科學
【資料科學家】如何成為一名資料科學家？
2018-05-05
資料科學
通往資料科學之路
2020-06-16
資料科學
資料預處理-資料清理
2020-01-19
資料分析 | 資料清理的方法
2024-06-27
機器學習之清理資料
2020-06-16
機器學習
（資料科學學習手札163）ibis：極具潛力的Python資料分析框架
2024-08-07
資料科學Python框架
（資料科學學習手札125）在Python中操縱json資料的最佳方式
2021-08-01
資料科學PythonJSON
資料科學的原理與技巧一、資料科學的生命週期
2018-05-30
資料科學
《Python入門與資料科學庫》學習筆記
2021-02-12
Python資料科學筆記
資料科學家已死？AutoML使得資料科學更加普及化 - enterpriseai
2021-02-27
資料科學TOMLAI
資料科學的原理與技巧二、資料生成
2018-06-03
資料科學
資料分析與資料探勘 - 04科學計算
2020-09-09
每週一書《Python資料科學手冊》分享！
2019-02-22
Python資料科學
[譯] 鮮為人知的資料科學 Python 庫
2018-12-05
資料科學Python
資料科學大Battle，你站Python還是R
2018-06-30
資料科學BATPython
本週Github上資料科學Python有趣專案
2024-03-16
Github資料科學Python
盤點5個常用的Python資料科學庫！
2022-09-30
Python資料科學
Python---資料科學領域常用的15個Python包
2018-09-07
Python資料科學
資深專家分享：從numpy開啟Python資料科學之旅！
2018-07-03
Python資料科學
（資料科學學習手札161）高效能資料分析利器DuckDB在Python中的使用
2024-06-05
資料科學Python
（資料科學學習手札126）Python中JSON結構資料的高效增刪改操作
2021-08-08
資料科學PythonJSON
（資料科學學習手札120）Python+Dash快速web應用開發——整合資料庫
2021-05-09
資料科學PythonWeb資料庫
Python機器學習 5個資料科學家案例解析
2018-10-16
Python機器學習資料科學
六種 AI+ 資料科學方式改變體育行業
2020-06-10
AI資料科學行業
資料預處理- 資料清理資料整合資料變換資料規約
2020-01-15
CPDA資料分析師：為什麼Python在資料科學方面超越R和SQL?
2021-09-09
Python資料科學SQL
資料科學求職建議：掌握5種型別的資料科學專案
2018-06-29
資料科學求職型別
3 個用於資料科學的頂級 Python 庫
2018-10-04
資料科學Python
資料科學領域，你該選 Python 還是 R ？
2018-08-02
資料科學Python
在資料科學方面，python和R有何區別?
2020-08-21
資料科學Python

Python資料科學（六） 資料清理(Ⅰ)