python 讀取PDF表格

ffxyx33發表於2020-09-25

python讀取PDF表格

1.相關庫函式

利用python讀取pdf中的表格部分,並且以EXCEL的形式儲存到本地,主要利用了兩個庫,pdfplumber和pandas,前者用於操作PDF,後者用於操作EXCEL。
先附上相關程式碼:

import pdfplumber
import pandas as pd
def pdf_read():
    pdf = pdfplumber.open("aaaa.pdf")
    #pages=input("轉換表格的頁碼")
    p0=pdf.pages[37]
    table=p0.extract_table()
    print(table)
    df=pd.DataFrame(table[1:], columns=table[0])
    df.to_excel("bbbb.xlsx")

if __name__ == '__main__':
    pdf_read()

首先利用pdfplumber.open載入表格,然後跳轉到表格所在的頁碼。執行extract_table()後,再將提取出的表格放到pandas的dataframe中,然後利用pandas另存為表格,

2.可能遇到的問題

在生成表格的時候,可能會彈出ImportError: No module named openpyxl,xlrd ,這個時候,只需要pip install openpyxl 就可以了。

相關文章