Python 資料分析：讓你像寫 Sql 語句一樣，使用 Pandas 做資料分析

yxhsea發表於2019-06-14

原文網址 : https://learnku.com/articles/29825

一、載入資料

import pandas as pd
import numpy as np

url = ('https://raw.github.com/pandas-dev/pandas/master/pandas/tests/data/tips.csv')
tips = pd.read_csv(url)
output = tips.head()

Output:

   total_bill   tip     sex smoker  day    time  size
0       16.99  1.01  Female     No  Sun  Dinner     2
1       10.34  1.66    Male     No  Sun  Dinner     3
2       21.01  3.50    Male     No  Sun  Dinner     3
3       23.68  3.31    Male     No  Sun  Dinner     2
4       24.59  3.61  Female     No  Sun  Dinner     4

二、SELECT 的使用方式

sql 語句： SELECT total_bill, tip, smoker, time FROM tips LIMIT 5;。

output = tips[['total_bill', 'tip', 'smoker', 'time']].head(5)

Output:

   total_bill   tip smoker    time
0       16.99  1.01     No  Dinner
1       10.34  1.66     No  Dinner
2       21.01  3.50     No  Dinner
3       23.68  3.31     No  Dinner
4       24.59  3.61     No  Dinner

三、WHERE 的使用方式

1. 舉個栗子

sql 語句： SELECT * FROM tips WHERE time = 'Dinner' LIMIT 5;

output = tips[tips['time'] == 'Dinner'].head(5)
# 或者
output = tips.query("time == 'Dinner'").head(5)

Output:

   total_bill   tip     sex smoker  day    time  size
0       16.99  1.01  Female     No  Sun  Dinner     2
1       10.34  1.66    Male     No  Sun  Dinner     3
2       21.01  3.50    Male     No  Sun  Dinner     3
3       23.68  3.31    Male     No  Sun  Dinner     2
4       24.59  3.61  Female     No  Sun  Dinner     4

2. 比較運算子：等於 `==`、大於 `>`、大於等於 `>=`、小於等於 `<=`、不等於 `!=`

2.1 等於 `==`

sql 語句：SELECT * FROM tips WHERE time = 'Dinner';。

output = tips[(tips['time'] == 'Dinner')]

2.2 大於 `>`

sql 語句：SELECT * FROM tips WHERE tip > 5.00;。

output = tips[(tips['tip'] > 5.00)]

2.3 大於等於 `>=`

sql 語句：SELECT * FROM tips WHERE tip >= 5.00;。

output = tips[(tips['size'] >= 5)]

2.4 小於等於 `<=`

sql 語句：SELECT * FROM tips WHERE tip <= 5.00;。

output = tips[(tips['size'] <= 5)]

2.5 不等於 `!=`

sql 語句：SELECT * FROM tips WHERE tip <> 5.00;。

output = tips[(tips['size'] != 5)]

3. 邏輯運算子：且 `&`、或 `|`、非 `-`

3.1 且 `&`

sql 語句：SELECT * FROM tips WHERE time = 'Dinner' AND tip > 5.00;

output = tips[(tips['time'] == 'Dinner') & (tips['tip'] > 5.00)]

3.2 或 `|`

sql 語句：SELECT * FROM tips WHERE size >= 5 OR total_bill > 45;。

output = tips[(tips['size'] >= 5) | (tips['total_bill'] > 45)]

3.3 非 `-`

sql 語句：SELECT * FROM tips WHERE not (size <> 5 AND size > 4);

output = df[-((df['size'] != 5) & (df['size'] > 4))]

4. Null 的判斷

這裡重新定義一個包含 NaN 資料的 DataFrame。

frame = pd.DataFrame({
                        'col1': ['A', 'B', np.NaN, 'C', 'D'],
                        'col2': ['F', np.NaN, 'G', 'H', 'I']
                    })
output = frame

Output:

  col1 col2
0    A    F
1    B  NaN
2  NaN    G
3    C    H
4    D    I

4.1 判斷列是 Null

sql 語句：SELECT * FROM frame WHERE col2 IS NULL;。

output = frame[frame['col2'].isna()]

Output:

  col1 col2
1    B  NaN

4.2 判斷列不是 Null

sql 語句：SELECT * FROM frame WHERE col1 IS NOT NULL;。

output = frame[frame['col1'].notna()]

Output:

  col1 col2
0    A    F
1    B  NaN
3    C    H
4    D    I

5. In、Like 操作

5.1 In

sql 語句：SELECT * FROM tips WHERE siez in (5, 6);。

output = tips[tips['size'].isin([2, 5])]

5.2 Like

sql 語句：SELECT * FROM tips WHERE time like 'Din%';。

output = tips[tips.time.str.contains('Din*')]

四、GROUP BY 的使用方式

sql 語句：SELECT sex, count(*) FROM tips GROUP BY sex;

output = tips.groupby('sex').size()

# 獲取相應的結果
output['Male']
output['Female']

output = tips.groupby('sex').count()

# 獲取相應的結果
output['tip']['Female']

output = tips.groupby('sex')['total_bill'].count()

# 獲取相應的結果
output['Male']
output['Female']

sql 語句：SELECT day, AVG(tip), COUNT(*) FROM tips GROUP BY day;

output = tips.groupby('day').agg({'tip': np.mean, 'day': np.size})

# 獲取相應的結果
output['day']['Fri']
output['tip']['Fri']

sql 語句：SELECT smoker, day, COUNT(*), AVG(tip) FROM tips GROUP BY smoker, day;

output = tips.groupby(['smoker', 'day']).agg({'tip': [np.size, np.mean]})

# 獲取相應的結果
output['tip']['size']['No']['Fri']

sql 語句：SELECT tip, count(distinct sex) FROM tips GROUP BY tip;

output = tips.groupby('tip').agg({'sex': pd.Series.nunique})

五、JOIN 連線的使用方式

定義兩個 DataFrame。

df1 = pd.DataFrame({'key': ['A', 'B', 'C', 'D'], 'value': np.random.randn(4)})
df2 = pd.DataFrame({'key': ['B', 'D', 'D', 'E'], 'value': np.random.randn(4)})

1. 內連線 Inner Join

sql 語句：SELECT * FROM df1 INNER JOIN df2 ON df1.key = df2.key;

output = pd.merge(df1, df2, on='key')
# 或
indexed_df2 = df2.set_index('key')
pd.merge(df1, indexed_df2, left_on='key', right_index=True)

2. 左連線 Left Outer Join

sql 語句：SELECT * FROM df1 LEFT OUTER JOIN df2 ON df1.key = df2.key;

output = pd.merge(df1, df2, on='key', how='left')
# 或
output = df1.join(df2, on='key', how='left')

3. 右連線 Right Join

sql 語句：SELECT * FROM df1 RIGHT OUTER JOIN df2 ON df1.key = df2.key;

output = pd.merge(df1, df2, on='key', how='right')

4. 全連線 Full Join

sql 語句：SELECT * FROM df1 FULL OUTER JOIN df2 ON df1.key = df2.key;

output = pd.merge(df1, df2, on='key', how='outer')

五、UNION 的使用方式

df1 = pd.DataFrame({'city': ['Chicago', 'San Francisco', 'New York City'], 'rank': range(1, 4)})
df2 = pd.DataFrame({'city': ['Chicago', 'Boston', 'Los Angeles'], 'rank': [1, 4, 5]})

sql 語句：SELECT city, rank FROM df1 UNION ALL SELECT city, rank FROM df2;

output = pd.concat([df1, df2])

sql 語句：SELECT city, rank FROM df1 UNION SELECT city, rank FROM df2;

output = pd.concat([df1, df2]).drop_duplicates()

六、與 SQL 等價的其他語法

1. 去重 Distinct

sql 語句：SELECT DISTINCT sex FROM tips;

output = tips.drop_duplicates(subset=['sex'], keep='first', inplace=False)

2. 修改列別名 As

sql 語句：SELECT total_bill AS total, sex AS xes FROM tips;

output = tips.rename(columns={'total_bill': 'total', 'sex': 'xes'}, inplace=False)

3. Limit 與 Offset

sql 語句：SELECT * FROM tips ORDER BY tip DESC LIMIT 10 OFFSET 5;

output = tips.nlargest(10 + 5, columns='tip').tail(10)

4. 每個 Group 的前幾行

sql 語句：

SELECT * FROM (
  SELECT
    t.*,
    ROW_NUMBER() OVER(PARTITION BY day ORDER BY total_bill DESC) AS rn
  FROM tips t
)
WHERE rn < 3
ORDER BY day, rn;

output = tips.assign(rn=tips.sort_values(['total_bill'], ascending=False).\
                     groupby(['day']).cumcount() + 1).\
    query('rn < 3').\
    sort_values(['day', 'rn'])

七、Update 的使用方式

sql 語句：UPDATE tips SET tip = tip*2 WHERE tip < 2;

output = tips.loc[tips['tip'] < 2, 'tip'] *= 2

八、Delete 的使用方式

sql 語句：DELETE FROM tips WHERE tip > 9;

output = tips = tips.loc[tips['tip'] <= 9]

九、參考文章

如何透過一條資料庫語句做資料分析
2019-12-26
資料庫
Python - pandas 資料分析
2020-04-05
Python
Python資料分析之pandas
2018-07-23
Python
如何像資料分析師一樣思考？
2020-10-15
用 Python 進行資料分析 pandas (一)
2019-06-04
Python
Python資料分析之Pandas篇
2020-10-05
Python
使用pandas進行資料分析
2024-10-27
使用SQL以及函式等做資料分析
2022-03-01
SQL函式
為什麼使用Python做資料分析?
2020-11-30
Python
資料庫查詢優化：使用explain分析sql語句執行效率
2018-06-05
資料庫優化AISQL
Python利用pandas處理資料與分析
2024-03-25
Python
Python入門教程—資料分析工具Pandas
2021-08-11
Python
python-資料分析-Pandas-3、DataFrame-資料重塑
2024-06-10
Python
如何用python做資料分析
2021-09-11
Python
【資料庫】SQL語句
2018-05-30
資料庫SQL
資料分析---pandas模組
2024-05-29
資料分析利器之Pandas
2022-12-05
python-資料分析-Pandas-4、DataFrame-資料透視
2024-06-10
Python
python-資料分析-Pandas-1、Series物件
2024-06-09
Python物件
Python資料分析庫之pandas，你該這麼學！No.1
2019-05-15
Python
oracle v$sqlare 分析SQL語句使用資源情況
2018-10-11
OracleSQL
NLA自然語言分析，讓資料分析更智慧！
2022-06-02
SQL與Pandas大資料分析效能對比（Haki Benita）
2021-04-30
SQL大資料
python資料分析-Anaconda使用
2020-11-02
Python
基於python的大資料分析實戰學習筆記-pandas（資料分析包）
2019-08-28
Python大資料筆記
Python大資料分析學習.Pandas 資料匯入問題 (1)
2018-05-19
Python大資料
1.4 資料庫和常用SQL語句（正文）——MySQL資料庫命令和SQL語句
2021-03-07
資料庫MySql
pandas基本使用（一）-- 利用python進行資料分析筆記（第五章）
2020-10-02
Python筆記
[譯] 使用 Pandas 對 Kaggle 資料集進行統計資料分析
2018-11-12
Python培訓分享：如何做資料分析，資料分析流程是什麼?
2021-11-15
Python
Python疫情資料分析，並做資料視覺化展示
2022-03-08
Python視覺化
Smartbi對話式分析，讓資料分析如同聊天一樣簡單！
2022-03-22
Python資料分析 Pandas模組基礎資料結構與簡介
2018-12-14
Python資料結構
mysql使用phpmyadmin批次替換資料sql語句
2021-05-08
MySqlPHP
多快好省地使用pandas分析大型資料集
2020-10-31
資料庫常用操作SQL語句
2019-02-12
資料庫SQL
pandas-profiling資料分析預覽
2020-10-25
Sql Server 資料庫獲取字串中小寫字母的SQL語句
2018-12-27
SQLServer資料庫字串

Python 資料分析：讓你像寫 Sql 語句一樣，使用 Pandas 做資料分析

一、載入資料

二、SELECT 的使用方式

三、WHERE 的使用方式

1. 舉個栗子

2. 比較運算子：等於 ==、 大於 >、 大於等於 >=、小於等於 <=、不等於 !=

2.1 等於 ==

2.2 大於 >

2.3 大於等於 >=

2.4 小於等於 <=

2.5 不等於 !=

3. 邏輯運算子：且 &、或 |、非 -

3.1 且 &

3.2 或 |

3.3 非 -

4. Null 的判斷

4.1 判斷列是 Null

4.2 判斷列不是 Null

5. In、Like 操作

5.1 In

5.2 Like

四、GROUP BY 的使用方式

五、JOIN 連線的使用方式

1. 內連線 Inner Join

2. 左連線 Left Outer Join

3. 右連線 Right Join

4. 全連線 Full Join

五、UNION 的使用方式

六、與 SQL 等價的其他語法

1. 去重 Distinct

2. 修改列別名 As

3. Limit 與 Offset

4. 每個 Group 的前幾行

七、Update 的使用方式

八、Delete 的使用方式

九、參考文章

相關文章

2. 比較運算子：等於 `==`、大於 `>`、大於等於 `>=`、小於等於 `<=`、不等於 `!=`

2.1 等於 `==`

2.2 大於 `>`

2.3 大於等於 `>=`

2.4 小於等於 `<=`

2.5 不等於 `!=`

3. 邏輯運算子：且 `&`、或 `|`、非 `-`

3.1 且 `&`

3.2 或 `|`

3.3 非 `-`