Panda資料處理

leagueandlegends發表於2024-07-15

原文網址 : https://www.cnblogs.com/longlyseul/p/18302942

一、 Pandas簡介

Pandas，python+data+analysis的組合縮寫，是python中基於numpy和matplotlib第三方資料分析庫，與後者共同構成python資料分析基礎工具包。pandas是在numpy基礎上實現的，其核心資料結構與numpy的ndarray十分相似，但pandas與numpy的關係不是替代，而是互為補充。Pandas就資料處理上比numpy更強大智慧，而numpy比pandas更為基礎強大。

二、安裝Pandas

使用pip install numpy和pip install pandas安裝numpy和pandas庫

安裝完成後會有pandas、numpy、python-deteutil、six這幾個三方庫

引入pandas

import numpy as num
import pandas as pd

二、pandas讀寫資料

Pandas支援非常豐富的檔案型別，也就是說，他可以讀取儲存多種型別的資料，比如excel檔案、CSV檔案，或者json檔案、sql檔案、html檔案等。這對我們獲取資料很方便，這裡只講解excel的一些常用用法，其他型別檔案大同小異。

1、 read_excel()：讀取excel

a、 sheet_name：訪問指定excel某張工作表。Sheet_name可以是str、int、list、None型別，預設值是0

舉例如下：

1、讀取一張sheet頁

新建一張excel表，表名為test1，sheet頁名為test1

import pandas as pd
df=pd.read_excel("test1.xlsx",sheet_name="test1")
print(df)

輸出結果如下：

2、讀取多張表

新增sheet頁2 test2

import pandas as pd
df=pd.read_excel("test1.xlsx",sheet_name=["test1","test2"])
print(df)

輸出結果：

3、指定頁籤讀取資料，下標籤從0開始

import pandas as pd

df2=pd.read_excel("test1.xlsx",sheet_name=[0,1])
print(df2)

輸出結果：

這裡也可以指定頁籤讀取資料

4、如果想讀取所有頁籤的值，將sheet_name指定成None

import pandas as pd

df3=pd.read_excel("test1.xlsx",sheet_name=None)
print(df3)

　輸出結果：

5、不指定sheet_name時，預設讀取第一個頁籤資料

import pandas as pd

df4=pd.read_excel("test1.xlsx")
print(df4)

輸出結果：

b、Header：是標題行，透過指定具體的行索引，將該行作為資料的標題行，也就是整個資料的列名。預設首行資料（0-index）作為標題行，如果傳入的是一個整數列表，那這些行將組合成一個多級列索引。沒有標題行使用header=None

import pandas as pd

df5=pd.read_excel("test1.xlsx",sheet_name=0,header=[0,1])
print(df5)

執行結果：

如果是多表頭

import pandas as pd
df5=pd.read_excel("test1.xlsx",sheet_name=0,header=[0,1])
print(df5)

執行結果：

c、 Names:指定列名的列表，如果資料檔案中不包含列名，透過names指定列名，同時應該設定header=None。Names中不允許有重複值。

import pandas as pd
df6=pd.read_excel("test1.xlsx",sheet_name=0,header=0,names=["cols1","cols2","cols3"])
print(df6)

直接使用names進行指定會顯示所有的列，包括無效選中列

d、usecols：要解析的列。預設值None所有列進行解析。使用usecols可以大大加快解析時間並降低記憶體使用率。

import pandas as pd
df7=pd.read_excel("test1.xlsx",sheet_name=0,header=0,usecols=["cols1","cols2","cols3"])
print(df7)

e、 skiprows：可以選擇跳過的列

import pandas as pd
df8=pd.read_excel("test1.xlsx",sheet_name=0,header=0,skiprows=[1,3])
print(df8)

　可以看到輸出的行中跳過了第1行和第3行

三、pandas資料結構

Python 中 Panda 庫處理表格方法
2024-03-14
Python
Python資料處理（二）：處理 Excel 資料
2019-02-16
PythonExcel
資料處理
2024-07-18
海量資料處理
2018-03-08
python 處理資料
2020-10-29
Python
springmvc 資料處理
2020-10-06
SpringMVC
資料預處理
2021-09-09
Excel 資料處理
2022-07-21
Excel
javascript - 資料處理
2020-12-02
JavaScript
資料分析--資料預處理
2023-12-14
資料預處理-資料清理
2020-01-19
資料清洗和資料處理
2020-03-03
Python資料處理(一)：處理 JSON、XML、CSV 三種格式資料
2019-01-27
PythonJSONXML
請求資料處理
2018-11-14
海量資料處理2
2018-08-28
雨滴譜資料處理
2024-04-08
flutter json資料處理
2019-08-26
FlutterJSON
資料預處理 demo
2020-02-19
流資料處理利器
2020-10-09
Hive處理Json資料
2021-11-30
HiveJSON
0701-資料處理
2021-04-27
資料預處理-資料歸約
2020-01-19
資料處理之去除重複資料
2020-03-17
UCI資料集詳解及其資料處理（附148個資料集及處理程式碼）
2022-04-19
下載資料的處理
2018-12-24
spark處理json資料Demo
2019-02-26
SparkJSON
處理圖片流資料
2019-04-15
js資料處理——遍歷
2018-07-16
JS
nlp 中文資料預處理
2019-12-02
處理恢復資料方法
2019-12-25
TANet資料預處理流程
2020-10-07
資料處理及跳轉
2020-07-04
資料清洗處理-常用操作
2020-03-24
MySQL 處理重複資料
2019-07-02
MySql
[資料處理]python基礎
2019-02-02
Python
資料處理--pandas問題
2024-08-04
LLAMA3.1資料處理
2024-07-25
處理json格式的資料
2024-07-23
JSON

Panda資料處理

一、 Pandas簡介

二、安裝Pandas

二、pandas讀寫資料

1、 read_excel()：讀取excel

三、pandas資料結構

相關文章