[python] 基於Tablib庫處理表格資料

落痕的寒假發表於2023-11-30

Tablib是一個用於處理電子表格(如 Excel,CSV,JSON)的Python 庫。它提供了一種簡單而強大的方式來操作和處理資料。利用Tablib,我們可以輕鬆地讀取、寫入、過濾和轉換各種型別的電子表格資料。Tablib 具有一致且易於使用的 API,以在不同的資料格式之間進行無縫轉換。比如,Tablib可以將資料從Excel表格匯入為Python物件,然後將其轉換為JSON或CSV格式,並進行相應的操作和分析。此外Tablib還支援對資料進行排序、篩選和合並等常見操作。Tablib官方倉庫地址為:tablib,Tablib官方檔案地址為:tablib-doc

Tablib需要在Python3.6+版本下安裝,安裝命令如下:

pip install tablib

import tablib
# 檢視版本
tablib.__version__
'3.4.0'

1 Tablib使用

1.1 表格建立

建立資料結構

# 建立表
data = tablib.Dataset()
type(data)
tablib.core.Dataset
# 檢視錶格名字,預設為空
data.title 
# 設定表的名字
data.title = 'data'
data.title
'data'

資料新增

# 新增行
data.append(['John', 28])
data.append(['Tom', 16])
data.append(['Jane', 32])
# 檢視資料,list格式
data.dict
# 或者
# print(data)
[['John', 28], ['Tom', 16], ['Jane', 32]]
# 新增標題行
data.headers = ['Name', 'Age']
# data.dict
print(data)
Name|Age
----|---
John|28 
Tom |16 
Jane|32 
# 新增列
# 需要和當前行數一致
data.append_col(['USA', 'UK','UK'], header='Country')
# data.dict
print(data)
Name|Age|Country
----|---|-------
John|28 |USA    
Tom |16 |UK     
Jane|32 |UK     

選擇行或列

# 選擇第一行
data[0]
('John', 28, 'USA')
# 選擇第一行第三列
data[0][2]
'USA'
# 選擇列
data['Age']
[28, 16, 32]
# 獲得表頭
data.headers
['Name', 'Age', 'Country']
# 基於索引獲得列
data.get_col(0)
['John', 'Tom', 'Jane']

刪除行或列

# 刪除列
del data['Country']
# 刪除行
# del data[:-1]
print(data)
Name|Age
----|---
John|28 
Tom |16 
Jane|32 

行列高階操作

# 表格轉置
transposed_data = data.transpose()
print(transposed_data)
Name|John|Tom|Jane
----|----|---|----
Age |28  |16 |32  
# 讀取資料維度
data.width,data.height
(2, 3)
# 按照欄位排序
# 年齡從大到小排序
data = data.sort("Age",reverse=True)
print(data)
Name|Age
----|---
Jane|32 
John|28 
Tom |16 
# 計算平均年齡
ages = data['Age']
float(sum(ages)) / len(ages)
25.333333333333332
# 移除第一行
tmp = data.lpop()
print(data)
Name|Age
----|---
John|28 
Tom |16 
# 第一行新增資料
data.lpush(list(tmp))
print(data)
Name|Age
----|---
Jane|32 
John|28 
Tom |16 
# 在最左側插入一列資料
new_column = ['Engineer', 'Doctor','Doctor']
data.lpush_col(new_column, header='Profession')
print(data)
Profession|Name|Age
----------|----|---
Engineer  |Jane|32 
Doctor    |John|28 
Doctor    |Tom |16 
# 移除最後一行
# data.pop()
# print(data)
# 移除重複行
# 建立資料集
data = tablib.Dataset()
data.headers = ['Name', 'Age']
data.append(['Alice', 25])
data.append(['Alice', 30])
data.append(['Alice', 25])  # 重複行

# 去除重複行,必須所有列值一樣
data.remove_duplicates()

print(data)
Name |Age
-----|---
Alice|25 
Alice|30 

表格合併

# 建立兩個表格
data1 = tablib.Dataset()
data1.headers = ['Name', 'Age']
data1.append(['Alice', 25])
data1.append(['Bob', 30])

data2 = tablib.Dataset()
data2.headers = ['Name', 'Occupation']
data2.append(['Alice', 'Engineer'])
data2.append(['Bob', 'Doctor'])
# 按行合併
# 使用stack方法合併兩個表格
stacked_data = data1.stack(data2)
print(stacked_data)
Name |Age     
-----|--------
Alice|25      
Bob  |30      
Alice|Engineer
Bob  |Doctor  
# 按列合併
# 兩個表格行數需要一致
# 使用stack_cols方法合併兩個表格的列
stacked_cols_data = data1.stack_cols(data2)
print(stacked_cols_data)
Name |Age|Name |Occupation
-----|---|-----|----------
Alice|25 |Alice|Engineer  
Bob  |30 |Bob  |Doctor    

1.2 資料匯入與匯出

資料匯出

Tablib使得使用者可以根據具體需求將資料靈活地匯出到不同的環境中,並與其他工具進行無縫整合和互動。轉換的結果是這些格式的物件表示而不是存為本地檔案。這些格式包括但不限於:

  • CSV:常見的電子表格格式,每個欄位由逗號分隔。
  • JSON:一種常見的資料交換格式,以鍵值對的形式儲存資料。
  • Excel:電子表格格式,需要額外安裝庫,可以包含多個工作表,並支援公式和圖表等功能。
  • YAML:一種易讀的資料序列化格式,常用於配置檔案。
  • HTML:用於建立網頁的標記語言。
  • Pandas DataFrame:Pandas是另一個Python庫,用於資料處理和分析。Tablib支援將資料匯出為Pandas DataFrame。

Tablib提供了兩種方式將資料匯出為其他格式,一種是呼叫export函式,一種是呼叫自帶屬性。如下所示data.export('csv') 和data.csv都可以用於獲取Dataset資料的CSV表示:

data.export('csv')
data.csv

具體示例程式碼如下:

# 建立表格
data = tablib.Dataset()
data.headers = ['Name', 'Age']
data.append(['John', 28])
data.append(['Tom', 16])
data.append(['Jane', 32])
# 匯出為csv字元流
data_csv = data.export('csv')
print(type(data_csv))

# 匯出資料到本地csv檔案
with open('data.csv', 'w') as f:
    f.write(data_csv)
<class 'str'>
# 匯出為json字串
data_json = data.export('json')
type(data_json)

# 將json字串解析為Python物件
import json
data_json = json.loads(data_json)
print(data_json)
[{'Name': 'John', 'Age': 28}, {'Name': 'Tom', 'Age': 16}, {'Name': 'Jane', 'Age': 32}]
# 將資料集物件儲存為json檔案
with open('data.json', 'w') as f:
    f.write(data.export('json'))
# 儲存為yaml檔案
with open('data.yml', 'w') as f:
    f.write(data.export('yaml'))
# 將資料集儲存為xls檔案,注意使用wb模式
# 需要安裝額外庫
# pip install xlrd
# pip install xlwt
with open('data.xls', 'wb') as f:
    f.write(data.export('xls'))

with open('data.xlsx', 'wb') as f:
    f.write(data.export('xlsx'))
# 轉換為html
# 需要安裝MarkupPy庫
# pip install MarkupPy 
with open('data.html', 'w') as f:
    f.write(data.export('html'))
# 轉換為pandas的dataframe
# 需要安裝Pandas庫
df = data.export('df')
df.head()
Name Age
0 John 28
1 Tom 16
2 Jane 32

資料匯入

我們可以使用tablib庫匯入多種格式的檔案,以初始化tablib的資料物件。如下所示:

with open('data.csv', 'r') as fh:
    imported_data = tablib.Dataset().load(fh)
print(imported_data)
Name|Age
----|---
John|28 
Tom |16 
Jane|32 

對於表格類格式,如csv格式,也可以不匯入標題行,即不將第一行作為標題行,如下所示:

with open('data.csv', 'r') as fh:
    # headers=False不匯入標題行
    imported_data = tablib.Dataset().load(fh,headers=False)
print(imported_data)
Name|Age
John|28 
Tom |16 
Jane|32 

對於支援多表的xls、xlsx,當前預設開啟第一個表,注意使用rb模式。多表管理見下一節。

with open('data.xls', 'rb') as fh:
    imported_data =  tablib.Dataset().load(fh, 'xls')
print(imported_data)

Name|Age 
----|----
John|28.0
Tom |16.0
Jane|32.0

1.3 多表管理

在Tablib中,Databook是一種資料結構,用於組織和管理多個資料表(Data Table。Databook提供了一種方便的方式來操作和處理多個資料表

建立Databook

# 建立Databook
databook = tablib.Databook()
# 建立第一個資料表
data_table1 = tablib.Dataset()

# 設定資料表的列和資料
data_table1.headers = ['Name', 'Age']
data_table1.append(['John', 25])
data_table1.append(['Alice', 30])
# 設定表名
data_table1.title = "table1"

# 新增資料表到 Databook
databook.add_sheet(data_table1)
# 建立二個資料表
data_table2 = tablib.Dataset()

# 設定資料表的列和資料
data_table2.headers = ['Name', 'Age']
data_table2.append(['Jane', 34])
data_table2.append(['Mike', 14])
# 設定表名
data_table2.title = "table2"

# 新增資料表到 Databook
databook.add_sheet(data_table2)
# 可以利用現有表一次性建立Databoook
tablib.Databook((data_table1, data_table2))
<databook object>

檢視databook

# 檢視子表數量
databook.size
2
# 檢視各表
databook.sheets()
[<table1 dataset>, <table2 dataset>]

根據索引獲得表

for index,table in enumerate(databook.sheets()):
    print(f" \ntable{index}")
    print(table)
table0
Name |Age
-----|---
John |25 
Alice|30 
 
table1
Name|Age
----|---
Jane|34 
Mike|14 

儲存與匯入

databook支援儲存xlsx和xls檔案,但是匯入僅支援xlsx檔案。

# 儲存為xlsx檔案
with open('databook.xlsx', 'wb') as f:
    f.write(databook.export('xlsx'))
# 多表匯入
with open(r'databook.xlsx', 'rb') as fh:
    databook = tablib.Databook().load(fh, 'xlsx')
print(databook.sheets())
[<table1 dataset>, <table2 dataset>]

1.4 進階使用

動態列

Talblib允許在資料表格中隨意建立和管理動態列。這些列不需要預先定義,可以根據需要隨時新增、刪除和修改。如下所示根據隨機函式設定列:

# 匯入資料
with open('data.csv', 'r') as fh:
    data = tablib.Dataset().load(fh)
print(data)
Name|Age
----|---
John|28 
Tom |16 
Jane|32 
import random

# 隨機設定分數
def random_grade(row):
    # 根據傳入的行設定不同資料標準
    if int(row[1]) > 30:
        return (random.randint(59,100)/100.0)
    else:
        return (random.randint(60,99)/100.0)

data.append_col(random_grade, header='Grade')
print(data)
Name|Age|Grade
----|---|-----
John|28 |0.65 
Tom |16 |0.99 
Jane|32 |0.79 

資料過濾

Tablib提供了filter方法,以根據資料集的標籤(tags)來過濾資料。

fruits = tablib.Dataset()  

fruits.headers = ['name', 'color'] 
# 新增tags為fruit與sour的行
fruits.append(['tomato', 'red'], tags=['fruit', 'sour']) 
fruits.append(['strawberry', 'red'], tags=['fruit', 'sweet' ]) 
fruits.append(['corn', 'yellow'], tags=['vegetable', 'sweet']) 

# 轉換為其他格式,tags屬性不會跟隨轉換
print(fruits.yaml)
- {color: red, name: tomato}
- {color: red, name: strawberry}
- {color: yellow, name: corn}
# 過濾出標籤為vegetable的資料
fruits.filter(['vegetable']).df  
name color
0 corn yellow
# 過濾出標籤為vegetable或sweet的資料
fruits.filter(['vegetable', 'sweet']).df  
name color
0 strawberry red
1 corn yellow
# 先過濾出標籤為fruit,再過濾為sour的資料
fruits.filter(['fruit']).filter(['sour']).df  
name color
0 tomato red

分割符

Tablib提供了append_separator函式,以在excel表格中新增分隔符,如下所示:

# Daniel和Suzie的測試資料
daniel_tests = [
    ('11/24/09', 'Apple', 'Red'),
    ('05/24/10', 'Banana', 'Yellow')
]

suzie_tests = [
    ('11/24/09', 'Orange', 'Orange'),
    ('05/24/10', 'Grapes', 'Purple')
]

# 建立新的資料集
tests = tablib.Dataset()
tests.headers = ['Date', 'Fruit Name', 'Color']

# 新增分隔符
tests.append_separator('Fruits A')  
for test_row in daniel_tests:
   tests.append(test_row)

# 新增分隔符
tests.append_separator('')  
for test_row in suzie_tests:
   tests.append(test_row)

# 將資料集寫入磁碟,以xls格式儲存
with open('fruits.xls', 'wb') as f:
    f.write(tests.export('xls'))

透過展示xls資料,可以看到在某些行新增了空行資料。


# 匯入pandas庫
import pandas as pd

# 從xls檔案中讀取資料,並將其儲存在DataFrame中
pd.read_excel('fruits.xls', keep_default_na=False)

Date Fruit Name Color
0 Fruits A
1 11/24/09 Apple Red
2 05/24/10 Banana Yellow
3
4 11/24/09 Orange Orange
5 05/24/10 Grapes Purple

格式化列

Tablib提供add_formatter函式用於向Dataset物件新增自定義格式化程式,以便在匯出資料時按照指定格式進行格式化。

# 建立一個空的 Dataset 物件
data = tablib.Dataset()

# 新增資料到 Dataset
data.headers = ['name','age','role']
data.append(['John', 28, 'Developer'])
data.append(['Amy', 25, 'Designer'])

# 定義一個自定義的格式化函式
def custom_formatter(val):
    if isinstance(val, int):
        return f'Age: {val}'
    elif isinstance(val, str):
        return val.upper()
    else:
        return str(val)

# 新增自定義格式化函式到 Dataset
# 第一個引數可以為列號
data.add_formatter(0,custom_formatter)
# 如果有列名,也可以指定列名
data.add_formatter('age',custom_formatter)

# 匯出資料並應用自定義格式化函式
data.df
name age role
0 JOHN Age: 28 Developer
1 AMY Age: 25 Designer

建立子表格

# 建立表格
data = tablib.Dataset()
data.headers = ['Name', 'Age','Profession']
data.append(['Alice', 25, 'Doctor'])
data.append(['Bob', 30, 'Doctor'])
data.append(['Jack', 28, 'Engineer'])
# subset方法用於從現有的資料集中選擇子集
# rows表示行號,rows=[0, 2]表示選擇第0行和第2行
sub_data = data.subset(rows=[0, 2], cols=['Name', 'Profession'])
sub_data.df
Name Profession
0 Alice Doctor
1 Jack Engineer

2 參考

相關文章