Python常用的資料檔案儲存的4種格式(txt/json/csv/excel)及操作Excel相關的第三方庫(xlrd/xlwt/pandas/openpyxl)(2021最新版)

南柯樹下發表於2021-11-04

序言:儲存資料的方式各種各樣,最簡單的方式是直接儲存為文字檔案,如TXT、JSON、CSV等,除此之外Excel也是現在比較流行的儲存格式,通過這篇文章你也將掌握通過一些第三方庫(xlrd/xlwt/pandas/openpyxl)去操作Excel進行資料儲存與讀取,此一文足以!

 

一、TXT文字儲存

1.1 使用方式

TXT文字幾乎相容任何平臺,但是不利於檢索,如果對檢索和資料結構要求不高,尋求方便的話,可以採用TXT文字儲存格式

 

1.2 基本寫法

1 file = open('demo.txt','a',encoding='utf-8')
2 file.write(data)
3 file.close()

open()方法第一個參數列示要儲存的目標檔名稱,也可指定絕對路徑,第二個引數a表示以追加的方式寫入到文字,這樣前面寫入的內容就不會被覆蓋,在爬蟲中一般使用的都是這種追加的方式。第三個引數指定檔案的編碼為utf-8,接著寫入資料,最後用close()方法來關閉檔案

 

1.3 開啟方式

上面的引數a表示每次寫入文字時不會清空之前寫入的資料,而是在文字末尾寫入新的資料,這是一種開啟方式,還有其他開啟檔案的方式:

r 以只讀方式開啟檔案
rb 以二進位制只讀方式開啟一個檔案
r+ 以讀寫方式開啟一個檔案
rb+ 以二進位制讀寫方式開啟一個檔案
w 以寫入方式開啟檔案
wb 以二進位制寫入方式開啟一個檔案
w+ 以讀寫方式開啟一個檔案
wb+ 以二進位制讀寫方式開啟一個檔案
a 以追加方式開啟一個檔案
ab 以二進位制追加方式開啟一個檔案
a+ 以讀寫方式開啟一個檔案
ab+ 以二進位制追加方式開啟一個檔案

 上面的b表示二進位制,+表示以讀寫方式,r表示讀,w表示寫

 

1.4 簡化寫法

用with as 語法來寫入資料,檔案會自動關閉,就不需要呼叫close()方法了,簡寫如下:

1 with open('demo.txt','a',encoding='utf-8') as f:
2     f.write(data)

 


 

二、JSON檔案儲存

2.1 適用方式

JSON,全稱為JavaScript Object Notation,也就是JavaScript物件標記,構造簡潔但是結構化程度非常高,採用物件和陣列的組合來表示資料,是一種輕量級的資料交換格式,和XML有點類似,如果對資料結構有要求的話,可根據需求考慮此種方式

 

2.2 基本寫法

Python提供了json庫來實現對json檔案的讀寫操作,通過呼叫json庫的loads()方法可以將json文字字串轉換為json物件,而呼叫dumps()方法可以將json物件轉換為文字字串,如下:

1 import json
2 
3 with open('demo.json','w',encoding='utf-8') as f:
4     f.write(json.dumps(data,indent=2,ensure_ascii=False))
1 import json
2 
3 with open('demo.json','r',encoding='utf-8') as f:
4     data = f.read()
5     data = json.loads(data)
6     price = data.get('price')
7     location = data.get('location'8     size = data.get('size')

indent代表縮排字元個數,ensure_ascii=False規定檔案輸出的編碼,這樣就可以輸出中文

 

注意:JSON的資料需要用雙引號來包圍,不能使用單引號,程式碼如下:

1 [
2     {
3         "name":"makerchen',
4         "gender":"male",
5         "hobby":"running"
6     }  
7 ]

 

2.3 以TXT格式儲存JSON資料

如果我們想要把資料儲存為TXT格式,又想要把資料變為json這樣的結構,可以這樣實現:

1 import json
2 
3 with open('demo.txt','a',encoding='utf-8') as f:
4     f.write(json.dumps(data,indent=4,ensure_ascii=False) + '\n')

 


 

 三、CSV檔案儲存

3.1 適用方式

CSV,全稱為Comma-Separated Values,中文名可以叫做字元分隔值或逗號分隔值,以純文字形式儲存表格資料,文字預設以逗號分隔,CSV相當於一個結構化表的純文字形式,比Excel檔案更加簡潔,儲存資料非常方便

 

3.2 單行寫入

1 import csv
2 
3 with open('demo.csv','w',encoding='utf-8') as csvf:
4     writer = csv.writer(csvf)
5     writer.writerow(['id','name','gender'])
6     writer.writerow(['100','makerchen','male'])
7     writer.writerow(['101','makerliu','female'])
8     writer.writerow(['102','makerqin','male'])

 首先呼叫csv庫的writer()方法初始化寫入物件,然後再呼叫writerow()方法傳入每行的資料即可完成寫入

 

Excel效果如下:

 

如果想修改列與列之間的分隔符,可以傳入引數delimiter,程式碼如下:

1 import csv
2 
3 with open('demo.csv','w',encoding='utf-8') as csvf:
4     writer = csv.writer(csvf,delimiter=' ')
5     writer.writerow(['id','name','gender'])
6     writer.writerow(['100','makerchen','male'])
7     writer.writerow(['101','makerliu','female'])
8     writer.writerow(['102','makerqin','male'])

這裡表示每一列資料以空格分隔

 

3.3 多行寫入

 呼叫writerows()方法就可以同時寫入多行,此時引數需要為二維列表,程式碼如下:

1 import csv
2 
3 with open('demo.csv','w',encoding='utf-8') as csvf:
4     writer = csv.writer(csvf)
5     writer.writerow(['id','name','gender'])
6     writer.writerows(['100','makerchen','male'],
7                      ['101','makerliu','female'],['102','makerqin','male'])

 

 3.4 字典寫入

 一般情況下,爬蟲提取的資料都是結構化資料,我們一般會用字典來表示,程式碼如下:

1 import csv
2 
3 with open('demo.csv','w',encoding='utf-8') as csvf:
4     fieldnames = ['id','name','gender']
5     writer = csv.DictWriter(csvf,fieldnames=fieldnames)
6     writer.writeheader()
7     writer.writerow({'id':'100','name':'makerchen','gender':'male'})
8     writer.writerow({'id':'101','name':'makerliu','gender':'female'})
9     writer.writerow({'id':'102','name':'makerqin','gender':'male'})

 首先用fieldnames定義頭資訊,然後將其傳給DictWriter來初始化一個字典寫入物件,接著用writeheader()方法寫入頭資訊,最後呼叫writerow()方法傳入字典即可

 

如果想追加寫入的話,可將open()方法的第二個引數改為a,程式碼如下:

1 with open('demo.csv','a',encoding='utf-8') as csvf

 

 3.5 讀取CSV檔案

我們可以將剛才寫入的檔案內容讀取出來,程式碼如下:

1 import csv
2 
3 with open('demo.csv','r',encoding='utf-8') as csvf:
4   datas = csv.reader(csvf)
5   for data in datas:
6     print(data)

 

 輸出結果如下:

 

 通過遍歷輸出每行內容,每一行都是一個列表形式

 

注意:如果CSV檔案中包含中文的話,還需要指定檔案編碼

 

當然也可以用pandas庫中的read_csv()方法將資料從CSV中讀取出來:

1 import pandas as pd
2 
3 data = pd.read_csv('demo.csv')
4 print(data)

 

此種方式在做資料分析的時候用的比較多,也是一種比較方便讀取CVS檔案的方法

 


 

四、Excel檔案儲存

4.1 xlwt資料寫入

Excel檔案中包含了文字、數值、公式和格式等內容,而CSV不包含這些,預設開啟編碼為Unicode,是現在比較流行的資料儲存格式

 

基本寫入方式

這裡我們呼叫xlwt庫進行Excel的資料寫入,程式碼如下:

 1 import xlwt
 2 
 3 file = xlwt.Workbook(encoding='utf-8')
 4 table = file.add_sheet('data')
 5 datas = [
 6       ['python實習生','貴陽','本科'],
 7       ['java實習生','杭州','本科'],
 8       ['爬蟲工程師','成都市','碩士']
 9     ]
10 for i,p in enumerate(datas):
11   for j,q in enumerate(p):
12     table.write(i,j,q)
13 file.save('demo.xls')

我們首先匯入xlwt庫,然後呼叫Workbook()方法初始化一個可以操縱Excel表格的物件,並指定編碼格式為utf-8,接著再建立一個我們要寫入資料的指定表,用列表的形式建立二維陣列,再用兩個for迴圈指定我們要新增資料的位置,這裡的i表示外層列表元素所在位置的序號,j表示裡層列表元素所在位置的序號,p和q分別表示外層列表和裡層列表的元素值,table.write(i,j,q)表示在第i行和第j列插入資料q,最後儲存Excel檔案。

 

執行效果如下:

 

帶序號的寫入方式

程式碼如下:

 1 import xlwt
 2 
 3 file = xlwt.Workbook(encoding = 'utf-8')
 4 table = file.add_sheet('data')
 5 data = {
 6   "1":['python實習生','貴陽','本科'],
 7   "2":['java實習生','杭州','本科'],
 8   "3":['爬蟲工程師','成都市','碩士']
 9   }
10 ldata = []
11 num = [a for a in data]
12 #for迴圈指定取出key值存入num中,也就是序號
13 num.sort()
14 print(num)
15 #字典資料取出後需要先排序,避免序號混亂
16 for x in num:
17 #for迴圈將data字典中的鍵和值分批的儲存在ldata中
18   t = [int(x)]
19   for a in data[x]:
20     print(t)
21     t.append(a)
22     print(t)
23   ldata.append(t)
24   print(ldata)
25 
26 for i,p in enumerate(ldata):
27 #將資料寫入檔案,i,j是enumerate()函式返回的序號數
28   for j,q in enumerate(p):
29     # print i,j,q
30     table.write(i,j,q)
31 file.save('demo.xls')

 

控制檯輸出如下:

 從上圖看,num就是一個帶有序號的列表,其值是data中的key,t是一個列表,並且它的第一個值也就是序號我們把它強制轉換成了整型,然後利用for迴圈遍歷data中value的每個欄位值,並把這些欄位值依次新增到列表t中;因為後面我們要以二維陣列的形式把資料插入到Excel中,才能定位插入的位置,所以需要再構建一個列表ldata,最後再把列表t新增到列表ldata中,這樣就構成了二維陣列,後面的寫法和上面的第一種寫法一樣

 

Excel效果如下:

 

注意:由於xlwt支援的Excel版本相容問題,只支援Excel 97-2003(*.xls),不支援Excel 2010(*.xlsx)和Excel 2016(*.xlsx)的,所以在儲存時字尾需為.xls,否則可能會有如下錯誤提示:

 

4.2 xlrd資料讀取

這裡我們用剛剛寫入的資料demo.xls進行讀取,程式碼如下:

 1 import xlrd
 2 
 3 def read(xlsfile):
 4     file = xlrd.open_workbook(xlsfile)  # 得到Excel檔案的book物件,例項化物件
 5     sheet0 = file.sheet_by_index(0)  # 通過sheet索引獲得sheet物件
 6     # sheet1 = book.sheet_by_name(sheet_name)  # 通過sheet名字來獲取,當然如果知道sheet名字就可以直接指定
 7     nrows = sheet0.nrows  # 獲取行總數
 8     ncols = sheet0.ncols  # 獲取列總數
 9     list = []
10     for i in range(nrows):
11         list.append([])
12         for j in range(ncols):
13         # print(sheet0.cell_value(i, j))
14             list[i].append(str(sheet0.cell_value(i, j)))
15     print(list)
16     return list
17 
18 
19 def excel_to_data():
20   list = read('demo.xls')
21   for lis in list:
22       print(lis)
23 
24 if __name__ == '__main__':
25   excel_to_data()

首先呼叫xlrd的open_workbook()方法建立操縱Excel檔案的物件,然後通過sheet_by_index(index)方法或者sheet_by_name(sheet_name)方法根據索引、sheet名獲取sheet物件,然後獲取資料的總行數以及總列數,通過兩個for迴圈,呼叫sheet物件的cell_value(i, j)獲取單元格的值,強制轉換成字串型別之後再根據索引新增到列表list中,以此構成二維陣列,輸出並返回,最後再遍歷二維陣列的每個元素(每個列表)進行輸出即可

 

控制檯輸出如下:

 

注意:xlrd支援對字尾為.xls以及.xlsx的Excel檔案的讀取;並且不論是xlwt還是xlrd,資料的起始索引位置都為0

 

4.3 pandas寫入或讀取Excel

pandas讀取

我們還是用上面的demo.xls進行操作:

1 import pandas as pd
2 
3 data = pd.read_excel('demo.xls')
4 print(data)
5 print(type(data))

 

我們看一下控制檯輸出結果:

我們可以觀察看,通過pandas庫的read_excel()方法,看起來好像更簡單,但它更偏向於資料分析,注意資料型別為DataFrame,輸出的資料中帶有序號

 

pandas寫入

1 import pandas as pd
2 
3 data = pd.DataFrame([['python實習生','貴陽','本科'],['java實習生','杭州','本科'],['爬蟲工程師','成都市','碩士']])
4 data.to_excel('demo.xlsx')

 

Excel效果如下:

 

以pandas庫的DataFrame()方法儲存的資料都是帶有索引序號的,方便進行資料分析、建模等

 

注意:pandas庫支援字尾為.xlsx的Excel表格

 

4.4 openpyxl寫入或讀取Excel

openpyxl寫入

1 import openpyxl
2 
3 wb = openpyxl.Workbook()
4 ws = wb.create_sheet('data')
5 ws.cell(row=1,column=1).value="職位"
6 ws.cell(row=1,column=2).value="位置"
7 ws.cell(row=1,column=3).value="學位"
8 wb.save('demo.xlsx')

 

Excel效果如下:

 

openpyxl讀取

 1 import openpyxl
 2 
 3 wb = openpyxl.load_workbook('demo.xlsx')
 4 ws = wb.get_sheet_by_name('data')
 5 rows = ws.max_row
 6 columns = ws.max_column
 7 datas = []
 8 for i in range(1,rows+1):
 9     for j in range(1,columns+1):
10         datas.append(str(ws.cell(i,j).value))
11 print(datas)

 

控制檯輸出如下:

 

注意:openpyxl只支援字尾為.xlsx的Excel檔案,並且讀取或寫入資料的索引位置均為1

 

個人推薦使用xlrd和xlwt以及pandas,這些庫操作Excel檔案時資料的起始索引位置都為0,比較方便,不過也可以根據個人使用習慣以及需求來決定

 

 


 更多獨家精彩內容  掃碼關注個人公眾號一起Coding吧!


 

——  ——  ——  ——  —  END  ——  ——  ——  ——  ———— 

         歡迎掃碼關注我的公眾號

          小鴻星空科技

       

 

相關文章