切片操作專題之numpy、pandas

AI_ape發表於2020-12-31

原文網址 : https://blog.csdn.net/WANGWUSHAN/article/details/112006758

切片操作專題

1.for迴圈也能實現陣列賦值，為什麼還要切片？

以numpy為例，切片除了使程式碼更簡潔，還能帶來其他好處嗎？

for迴圈作為最直接的賦值手段，難道不能cover所有的問題？

帶著疑問，用事實說話：

1.1 中小型陣列的賦值

如下，原始陣列為20000*100 ，將它其中的20列賦值給一個陣列20000*20。

透過for迴圈以及numpy陣列切片的執行時間各位多少呢？

import time
import numpy as np
import random
size=20000
a=np.random.randint(0,100,(size,100),dtype=np.int8)
b=np.random.choice(range(100),20)

t0=time.time()

c1=np.zeros((size,len(b)))
for i in range(len(b)):
    c1[:,i]=a[:,b[i]]
t1=time.time()

c2=a[:,b]
t2=time.time()

print(f"time cost1:{t1-t0}s")
print(f"time cost2:{t2-t1}s")

輸出結果如下：

time cost1:0.0020225048065185547s
time cost2:0.000997304916381836s

cost1、cost2分別為for迴圈以及numpy陣列切片的執行時間。

可見對於中小型陣列，執行時間差別不大。

但是如果對於特別大的陣列呢？

1.2 大型陣列的賦值

原始陣列現在變為20000000*100 ，同樣將其20列賦值給另外一個陣列。

import time
import numpy as np
import random
size=20000000
a=np.random.randint(0,100,(size,100),dtype=np.int8)
b=np.random.choice(range(100),20)

t0=time.time()

c1=np.zeros((size,len(b)))
for i in range(len(b)):
    c1[:,i]=a[:,b[i]]
t1=time.time()

c2=a[:,b]
t2=time.time()

print(f"time cost1:{t1-t0}s")
print(f"time cost2:{t2-t1}s")

輸出結果如下：

time cost1:7.487896680831909s
time cost2:2.3806240558624268s

這個時間就有相當大的差別了。

如果需要讀取大量檔案，再從檔案中抽取部分資料，資料讀取、提取這個時間會佔到程式執行的相當一部分。

這時，使用切片的效益就非常可觀了。

1.3 為什麼會這樣？

Book《Python資料科學手冊》給出如下解釋：

numpy:關於陣列切片有一點很重要也非常有用，那就是陣列切片返回的是陣列資料的檢視，而不是數值資料的副本。

這一點也是 NumPy 陣列切片和 Python 列表切片的不同之處：在 Python 列表中，切片是值的副本。

這種預設的處理方式實際上非常有用：它意味著在處理非常大的資料集時，可以獲取或處理這些資料集的片段，而不用複製底層的資料快取。

所以，我們就愉快地切片吧~

2.numpy之切片

上面例子中已有涉及，這裡再贅述一點。
隨機產生一個10*10的numpy陣列：

import numpy as np
a=np.random.randint(0,10,(8,8))
#out:
array([[7, 4, 3, 6, 8, 6, 7, 3],
       [7, 0, 5, 3, 1, 2, 9, 5],
       [1, 7, 5, 4, 1, 9, 4, 4],
       [4, 7, 3, 5, 6, 7, 5, 1],
       [5, 1, 8, 7, 4, 7, 0, 8],
       [4, 4, 7, 8, 2, 0, 3, 1],
       [1, 3, 1, 4, 3, 9, 4, 5],
       [1, 2, 6, 9, 7, 8, 8, 3]])

如果是針對連續單元切片，如擷取2到4行：

a[2:5,:]
#out：
array([[1, 7, 5, 4, 1, 9, 4, 4],
       [4, 7, 3, 5, 6, 7, 5, 1],
       [5, 1, 8, 7, 4, 7, 0, 8]])

但是如果擷取指定行或者指定列呢？如擷取2,4,7行：

b=[2,4,7]
a[b,:]
#out：
array([[1, 7, 5, 4, 1, 9, 4, 4],
       [5, 1, 8, 7, 4, 7, 0, 8],
       [1, 2, 6, 9, 7, 8, 8, 3]])

這裡b=[2,4,7]，np.array([2,4,7])，還是b=(2,4,7)，對於切片操作來說，都是類似於:3這樣的可迭代單元。

3.pandas之切片

首先建立一個pandas DataFrame物件。

import pandas as pd 
a=pd.Series([1,2,3])
b=pd.Series(["a","b","c"])
c=pd.Series(["A","B","C"])
d=pd.Series(["#","￥","%"])
df=pd.DataFrame({"num":a,"lower":b,"upper":c,"other":d})
#out：
   num lower upper other
0    1     a     A     #
1    2     b     B     ￥
2    3     c     C     %

如果要讀取其第0列和第2列，有兩種切片方法：

3.1 採用關鍵字

col=["num","upper"]
df[col].values
#out：
array([[1, 'A'],
       [2, 'B'],
       [3, 'C']], dtype=object)

3.2 轉成numpy之後，採用第2節方法

df.values[:,[0,2]]
#out：
array([[1, 'A'],
       [2, 'B'],
       [3, 'C']], dtype=object)

Pandas切片操作：很容易忽視的SettingWithCopyWarning
2020-05-06
Python學習之Pandas和Numpy的區別！
2021-05-08
Python
python綜合學習四之Numpy和Pandas(下)
2019-02-16
Python
numpy、pandas常用函式功能
2020-10-11
函式
NumPy之:ndarray多維陣列操作
2021-05-19
陣列
Numpy與Pandas學習網站
2021-01-05
學習網站
Numpy學習（2）numpy向量化、numpy操作
2020-10-13
NumPy常用操作
2021-06-06
pandas操作txt檔案的方便之處
2018-06-21
切片操作及原理
2018-08-20
Python列表切片操作
2020-10-31
Python
03.切片操作
2024-07-08
pandas 列操作
2020-12-17
Numpy陣列操作
2020-10-25
陣列
44 pandas DataFrame分層索引切片選擇（tcy）
2019-01-06
索引
python之Numpy 排序搜尋計數及集合操作
2020-11-11
Python排序
【numpy學習筆記】陣列的切片，索引，迭代
2018-07-10
筆記陣列索引
NumPy 陣列切片及資料型別介紹
2024-05-07
陣列資料型別
NumPy之:NumPy簡介教程
2021-04-21
Numpy的基本操作（五）
2020-10-04
PyTorch資料和NumPy資料之間的互操作
2020-12-05
PyTorch
Pandas之:Pandas簡潔教程
2021-06-05
pandas的基礎使用，資料庫連線，檔案讀取，切片的使用等基本操作----01
2021-01-02
資料庫
（新手)使用pandas操作EXCEL
2019-01-08
Excel
pandas操作csv檔案
2019-04-11
簡述 Python 的 Numpy、SciPy、Pandas、Matplotlib 的區別
2019-02-16
Python
numpy的學習筆記\pandas學習筆記
2018-03-18
筆記
pandas筆記（一）-- 大的國家（邏輯索引、切片）
2024-03-06
筆記索引
Python3之字串str、列表list、元組tuple的切片操作
2018-09-01
Python字串
Python Numpy 切片和索引（高階索引、布林索引、花式索引）
2023-05-16
Python索引
React專題：操作DOM
2018-09-06
React
切片面試題
2022-01-06
面試題
[譯] 使用 NumPy 和 Pandas 進行 Python 式資料清理
2018-04-17
Python
如何用python pandas操作excel?
2021-09-11
PythonExcel
golang—踩坑之切片
2024-04-03
Golang
31_Pandas.DataFrame，Series和NumPy陣列ndarray相互轉換
2020-12-20
陣列
Lesson12——NumPy 字串函式之 Part1：字串操作函式
2022-02-15
字串函式
Pandas 分組聚合操作詳解
2023-11-15

切片操作專題之numpy、pandas