前言
在使用 Pandas 進行資料分析和處理時,read_csv
是一個非常常用的函式,用於從 CSV 檔案中讀取資料並將其轉換成 DataFrame 物件。read_csv
函式具有多個引數,可以根據不同的需求進行靈活的配置。本文將詳細介紹 read_csv
函式的各個引數及其用法,幫助大家更好地理解和利用這一功能。
常用引數概述
pandas的 read_csv 函式用於讀取CSV檔案。以下是一些常用引數:
filepath_or_buffer
: 要讀取的檔案路徑或物件。sep
: 欄位分隔符,預設為,。delimiter
: 欄位分隔符,sep的別名。header
: 用作列名的行號,預設為0(第一行),如果沒有列名則設為None。names
: 列名列表,用於結果DataFrame。index_col
: 用作索引的列編號或列名。usecols
: 返回的列,可以是列名的列表或由列索引組成的列表。dtype
: 字典或列表,指定某些列的資料型別。skiprows
: 需要忽略的行數(從檔案開頭算起),或需要跳過的行號列表。nrows
: 需要讀取的行數(從檔案開頭算起)。skipfooter
: 檔案尾部需要忽略的行數。encoding
: 檔案編碼(如'utf-8','latin-1'等)。parse_dates
: 將某些列解析為日期。infer_datetime_format
: 如果 True 且 parse_dates 未指定,那麼將嘗試解析日期。iterator
: 如果 True,返回 TextFileReader 物件,用於逐塊讀取檔案。chunksize
: 每個塊的行數,用於逐塊讀取檔案。compression
: 壓縮格式,例如 'gzip' 或 'xz'
filepath_or_buffer要讀取的檔案路徑或物件
filepath_or_buffer: FilePath | ReadCsvBuffer[bytes] | ReadCsvBuffer[str]
可以接收3種型別,檔案路徑,讀取檔案的bytes, 讀取檔案的str。
- 可以接受任何有效的字串路徑。該字串可以是 URL。有效的 URL 方案包括 http、ftp、s3、gs 和 file。對於檔案 URL,需要主機。本地檔案可以是:
file://localhost/path/to/table.csv
。 - 想傳入一個路徑物件,pandas 接受任何 Path
- 類檔案物件是指具有 read() 方法的物件,例如檔案控制代碼(例如透過內建 open 函式)或
StringIO
。
示例如下:
# 讀取字串路徑
import pandas
from pathlib import Path
# 1.相對路徑,或檔案絕對路徑
df1 = pandas.read_csv('data.csv')
print(df1)
# 檔案路徑物件Path
file_path = Path(__file__).parent.joinpath('data.csv')
df2 = pandas.read_csv(file_path)
print(df2)
# 讀取url地址
df3 = pandas.read_csv('http://127.0.0.1:8000/static/data.csv')
print(df3)
# 讀取檔案物件
with open('data.csv', encoding='utf8') as fp:
df4 = pandas.read_csv(fp)
print(df4)
sep: 欄位分隔符,預設為,
- sep 欄位分隔符,預設為
,
- delimiter(同sep,分隔符)
示例如下:
df1 = pandas.read_csv('data.csv', sep=',')
print(df1)
df2 = pandas.read_csv('data.csv', delimiter=',')
print(df2)
header 用作列名的行號
header
: 指定哪一行作為列名,預設為0,即第一行,如果沒有列名則設為None。
如下資料,沒有header
張三,男,22,123@qq.com
李四,男,23,222@qq.com
王五,女,24,233@qq.com
張六,男,22,123@qq.com
# 讀取示例
df6 = pandas.read_csv('data2.csv', header=None)
print(df6)
names自定義列名
names
自定義列名,如果header=None
,則可以使用該引數。
df6 = pandas.read_csv(
'data2.csv',
header=None,
names=['姓名', '性別', '年齡', '郵箱'])
print(df6)
index_col 用作行索引的列編號或列名
index_col
引數在使用pandas的read_csv
函式時用於指定哪一列作為DataFrame的索引。
如果設定為None(預設值),CSV檔案中的行索引將用作DataFrame的索引。如果設定為某個列的位置(整數)或列名(字串),則該列將被用作DataFrame的索引。
import pandas as pd
# 我們想要將'`email`'列作為DataFrame的索引
df8 = pd.read_csv('data.csv', index_col='email')
print(df8)
# 或者,如果我們知道'email'列在第4列的位置,也可以這樣指定
df9 = pd.read_csv('data.csv', index_col=3)
print(df9)
usecols 讀取指定的列
usecols
讀取指定的列,可以是列名或列編號。
import pandas as pd
# 1.指定列的編號
df10 = pd.read_csv('data.csv', usecols=[0, 1])
print(df10)
# 2.指定列的名稱
df11 = pd.read_csv('data.csv', usecols=['name', 'sex'])
print(df11)
skiprows 、nrows 和skipfooter
skiprows
: 需要忽略的行數(從檔案開頭算起),或需要跳過的行號列表。nrows
: 需要讀取的行數(從檔案開頭算起)skipfooter
: 檔案尾部需要忽略的行數。
示例如下:
# skiprpws忽略的行數
import pandas as pd
# 跳過前面2行
df15 = pd.read_csv('data.csv', skiprows=2)
print(df15)
# nrows 需要讀取的行數
import pandas as pd
# 讀取前面2行
df15 = pd.read_csv('data.csv', nrows=2)
print(df15)
# 檔案尾部需要忽略的行數
import pandas as pd
# 忽略檔案尾部3行
df15 = pd.read_csv('data.csv', skipfooter=3)
print(df15)
parse_dates 將某些列解析為日期
示例如下:
name,time,date
Bob,21:33:30,2019-10-10
Jerry,21:30:15,2019-10-10
Tom,21:25:30,2019-10-10
Vince,21:20:10,2019-10-10
Hank,21:40:15,2019-10-10
import pandas as pd
# 1.指定列的編號
df16 = pd.read_csv('data.csv')
print(df16)
-------------
# 結果如下:
name time date
0 Bob 21:33:30 2019-10-10
1 Jerry 21:30:15 2019-10-10
2 Tom 21:25:30 2019-10-10
3 Vince 21:20:10 2019-10-10
4 Hank 21:40:15 2019-10-10
預設讀取的date
日期是字串型別,使用parse_dates
引數轉成datetime
型別。
import pandas as pd
df16 = pd.read_csv('ddd.csv')
print(df16.to_dict()) # 'date': {0: '2019-10-10', 1: '2019-10-10',
df17 = pd.read_csv('ddd.csv', parse_dates=['date'])
print(df17.to_dict()) # 'date': {0: Timestamp('2019-10-10 00:00:00')
總結
透過本文的介紹,大家應該對 Pandas 中 read_csv
函式的引數有了更全面的瞭解。在實際應用中,根據資料的特點和處理需求,靈活使用 read_csv
的各種引數,可以更輕鬆、高效地進行資料讀取和預處理,為資料分析和建模提供更好的基礎。