6個冷門但實用的pandas知識點

費弗裡發表於2020-10-27

原文網址 : https://www.cnblogs.com/feffery/p/13883667.html

1 簡介

　　pandas作為開展資料分析的利器，蘊含了與資料處理相關的豐富多樣的API，使得我們可以靈活方便地對資料進行各種加工，但很多pandas中的實用方法其實大部分人都是不知道的，今天就來給大家介紹6個不太為人們所所熟知的實用pandas小技巧。

圖1

2 6個實用的`pandas`小知識

2.1 Series與DataFrame的互轉

　　很多時候我們計算過程中產生的結果是Series格式的，而接下來的很多操作尤其是使用鏈式語法時，需要銜接著傳入DataFrame格式的變數，這種時候我們就可以使用到pandas中Series向DataFrame轉換的方法：

利用to_frame()實現Series轉DataFrame

s = pd.Series([0, 1, 2])

# Series轉為DataFrame，name引數用於指定轉換後的欄位名
s = s.to_frame(name='列名')
s

圖2

　　順便介紹一下單列資料組成的資料框轉為Series的方法：

利用squeeze()實現單列資料DataFrame轉Series

# 只有單列資料的DataFrame轉為Series
s.squeeze()

圖3

2.2 隨機打亂DataFrame的記錄行順序

　　有時候我們需要對資料框整體的行順序進行打亂，譬如在訓練機器學習模型時，打亂原始資料順序後取前若干行作為訓練集後若干行作為測試集，這在pandas中可以利用sample()方法快捷實現。

　　sample()方法的本質功能是從原始資料中抽樣行記錄，預設為不放回抽樣，其引數frac用於控制抽樣比例，我們將其設定為1則等價於打亂順序：

df = pd.DataFrame({
    'V1': range(5),
    'V2': range(5)
})
df.sample(frac=1)

圖4

2.3 利用類別型資料減少記憶體消耗

　　當我們的資料框中某些列是由少數幾種值大量重複形成時，會消耗大量的記憶體，就像下面的例子一樣：

import numpy as np

pool = ['A', 'B', 'C', 'D']

# V1列由ABCD大量重複形成
df = pd.DataFrame({
    'V1': np.random.choice(pool, 1000000)
})

# 檢視記憶體使用情況
df.memory_usage(deep=True)

圖5　　

　　這種時候我們可以使用到pandas資料型別中的類別型來極大程度上減小記憶體消耗：

df['V1'] = df['V1'].astype('category')
df.memory_usage(deep=True)

圖6　　

　　可以看到，轉換型別之後記憶體消耗減少了將近98.3%！

2.4 pandas中的object型別陷阱

　　在日常使用pandas處理資料的過程中，經常會遇到object這種資料型別，很多初學者都會把它視為字串，事實上object在pandas中可以代表不確定的資料型別，即型別為object的Series中可以混雜著多種資料型別：

s = pd.Series(['111100', '111100', 111100, '111100'])
s

圖7

　　檢視型別分佈：

s.apply(lambda s: type(s))

圖8

　　這種情況下，如果貿然當作字串列來處理，對應的無法處理的元素只會變成缺失值而不報錯，給我們的分析過程帶來隱患：

s.str.replace('00', '11')

圖9

　　這種時候就一定要先轉成對應的型別，再執行相應的方法：

s.astype('str').str.replace('00', '11')

圖10

2.5 快速判斷每一列是否有缺失值

　　在pandas中我們可以對單個Series檢視hanans屬性來了解其是否包含缺失值，而結合apply()，我們就可以快速檢視整個資料框中哪些列含有缺失值：

df = pd.DataFrame({
    'V1': [1, 2, None, 4],
    'V2': [1, 2, 3, 4],
    'V3': [None, 1, 2, 3]
})

df.apply(lambda s: s.hasnans)

圖11

2.6 使用rank()計算排名時的五種策略

　　在pandas中我們可以利用rank()方法計算某一列資料對應的排名資訊，但在rank()中有引數method來控制具體的結果計算策略，有以下5種策略，在具體使用的時候要根據需要靈活選擇：

average

　　在average策略下，相同數值的元素的排名是其內部排名的均值：

s = pd.Series([1, 2, 2, 2, 3, 4, 4, 5, 6])
s.rank(method='average')

圖12

min

　　在min策略下，相同元素的排名為其內部排名的最小值：

s.rank(method='min')

圖13

max

　　max策略與min正好相反，取的是相同元素內部排名的最大值：

s.rank(method='max')

圖14

dense

　　在dense策略下，相當於對序列去重後進行排名，再將每個元素的排名賦給相同的每個元素，這種方式也是比較貼合實際需求的：

s.rank(method='dense')

圖15

first

　　在first策略下，當多個元素相同時，會根據這些相同元素在實際Series中的順序分配排名：

s = pd.Series([2, 2, 2, 1, 3])
s.rank(method='first')

圖16

　　關於pandas還有很多實用的小知識，以後會慢慢給大家不定期分享~歡迎在評論區與我進行討論

初識python必知的6個知識點
2022-04-29
Python
有趣的8個IT冷知識
2019-03-18
python中pandas的知識點整理
2021-09-11
Python
PHP程式設計師遇到問題的冷門知識點
2019-11-02
PHP程式設計師
Nginx中關於虛擬主機的一點冷門知識
2022-02-26
Nginx
Python的冷知識
2019-10-14
Python
分享一個冷門知識——文字框的選擇文字在業務中的應用
2019-03-08
JS知識點：ES6 中常見的知識點
2019-09-11
JS
初識python你應該知道的6個知識點！
2021-06-11
Python
Spring 冷知識：一個提前 AOP 的機會
2023-11-02
Spring
Pandas知識點彙總（2）——布林索引
2021-09-09
索引
Python入門必須知道的11個知識點
2019-03-18
Python
前端知識科普：HTML5中重要的6個點！
2019-04-19
前端HTML
冷門前端知識，介紹雙執行緒的小程式！
2019-04-30
前端執行緒
JavaScript 有趣的冷知識：模板字串
2022-12-27
JavaScript字串
ES6知識點概述
2018-08-01
十個關於網際網路圈的冷知識
2022-01-06
Git的11個知識點
2019-03-07
Git
Python入門必知的知識點！Python基礎入門
2021-07-13
Python
React入門知識點整理
2018-05-17
React
Linux新手入門必須要掌握的10個知識點！
2022-02-15
Linux
入門Java你需要了解的幾個知識要點！
2021-10-13
Java
ES6的Promise知識點總結
2018-04-19
Promise
JavaScript 有趣的冷知識：tagged template literals
2022-03-02
JavaScript
HTTP協議冷知識大全
2018-03-28
HTTP協議
蘋果產品冷知識
2021-02-02
蘋果
五個UICollectionView常用的知識點
2019-02-10
UIView
Python中冷門但非常好用的內建函式
2021-12-17
Python函式
Flutter入門，開發者需要知道的10個知識點
2019-03-21
Flutter
Java入門基礎知識點
2023-04-27
Java
Python入門知識點彙總
2019-06-16
Python
Dubbo基礎入門知識點
2020-12-19
上海寶付書寫html實用知識點
2019-08-28
HTML
【冷啟動#2】實用的springboot tutorial入門demo
2024-07-04
Spring Boot
前端冷知識（持續更新2020.12.13）
2020-12-13
前端
盤點一個Pandas實戰需求的問題
2024-03-15
前端實用知識
2019-02-16
前端
關於range的一個知識點
2018-05-02