如何用Python批量提取PDF文字內容？

王樹義發表於2018-06-27

原文網址 : https://juejin.im/post/5b339c6f6fb9a00e6044228d

Python

本文為你展示，如何用Python把許多PDF檔案的文字內容批量提取出來，並且整理儲存到資料框中，以便於後續的資料分析。

問題

最近，讀者們在後臺的留言，愈發五花八門了。

寫了幾篇關於自然語言處理的文章後，一種呼聲漸強：

老師，pdf中的文字內容，有沒有什麼方便的方法提取出來呢？

我能體會到讀者的心情。

我展示的例子中，文字資料都是直接可以讀入資料框工具做處理的。它們可能來自開放資料集合、網站API，或者爬蟲。

但是，有的時候，你會遇到需要處理指定格式資料的問題。

例如pdf。

許多的學術論文、研究報告，甚至是資料分享，都採用這種格式釋出。

這時候，已經掌握了諸多自然語言分析工具的你，會頗有“拔劍四顧心茫然”的感覺——明明知道如何處理其中的文字資訊，但就是隔著一個格式轉換的問題，做不來。

怎麼辦？

辦法自然是有的，例如專用工具、線上轉換服務網站，甚至還可以手動複製貼上嘛。

但是，我們們是看重效率的，對不對？

上述辦法，有的需要在網上傳輸大量內容，花費時間較多，而且可能帶來安全和隱私問題；有的需要專門花錢購買；有的乾脆就不現實。

怎麼辦？

好訊息是，Python就可以幫助你高效、快速地批量提取pdf文字內容，而且和資料整理分析工具無縫銜接，為你後續的分析處理做好基礎服務工作。

本文給你詳細展示這一過程。

想不想試試？

資料

為了更好地說明流程，我為你準備好了一個壓縮包。

裡面包括本教程的程式碼，以及我們要用到的資料。

請你到這個網址下載本教程配套的壓縮包。

下載後解壓，你會在生成的目錄（下稱“演示目錄”）裡面看到以下內容。

演示目錄裡面包含：

Pipfile: pipenv 配置檔案，用來準備我們們變成需要用到的依賴包。後文會講解使用方法；
pdf_extractor.py: 利用pdfminer.six編寫的輔助函式。有了它你就可以直接呼叫pdfminer提供的pdf文字內容抽取功能，而不必考慮一大堆惱人的引數；
demo.ipynb: 已經為你寫好的本教程 Python 原始碼（Jupyter Notebook格式）。

另外，演示目錄中還包括了2個資料夾。

這兩個資料夾裡面，都是中文pdf檔案，用來給你展示pdf內容抽取。它們都是我幾年前發表的中文核心期刊論文。

這裡做2點說明：

使用我自己的論文做示例，是因為我怕用別人的論文做文字抽取，會與論文作者及資料庫運營商之間有智慧財產權的糾紛；
分成2個資料夾，是為了向你展示新增新的pdf檔案時，抽取工具會如何處理。

pdf資料夾內容如下：

newpdf資料夾內容如下：

資料準備好了，下面我們來部署程式碼執行環境。

環境

要安裝Python，比較省事的辦法是裝Anaconda套裝。

請到這個網址下載Anaconda的最新版本。

請選擇左側的 Python 3.6 版本下載安裝。

如果你需要具體的步驟指導，或者想知道Windows平臺如何安裝並執行Anaconda命令，請參考我為你準備的視訊教程。

安裝好Anaconda之後，開啟終端，用cd命令進入演示目錄。

如果你不瞭解具體使用方法，也可以參考視訊教程。

我們需要安裝一些環境依賴包。

首先執行：

pip install pipenv
複製程式碼

這裡安裝的，是一個優秀的 Python 軟體包管理工具 pipenv 。安裝後，請執行：

pipenv install --skip-lock
複製程式碼

pipenv 工具會依照Pipfile，自動為我們安裝所需要的全部依賴軟體包。

終端裡面會有進度條，提示所需安裝軟體數量和實際進度。

裝好後，根據提示我們執行：

pipenv shell
複製程式碼

這樣，我們就進入本教程專屬的虛擬執行環境了。

注意一定要執行下面這句：

python -m ipykernel install --user --name=py36
複製程式碼

只有這樣，當前的Python環境才會作為核心（kernel）在系統中註冊，並且命名為py36。

此處請確認你的電腦上已經安裝了 Google Chrome 瀏覽器。

我們執行：

jupyter notebook
複製程式碼

預設瀏覽器（Google Chrome）會開啟，並啟動 Jupyter 筆記本介面：

你可以直接點選檔案列表中的第一項ipynb檔案，可以看到本教程的全部示例程式碼。

你可以一邊看教程的講解，一邊依次執行這些程式碼。

但是，我建議的方法，是回到主介面下，新建一個新的空白 Python 3 筆記本（顯示名稱為 py36 的那個）。

請跟著教程，一個個字元輸入相應的內容。這可以幫助你更為深刻地理解程式碼的含義，更高效地把技能內化。

當你在編寫程式碼中遇到困難的時候，可以返回參照 demo.ipynb 檔案。

準備工作結束，下面我們開始正式輸入程式碼。

程式碼

首先，我們讀入一些模組，以進行檔案操作。

import glob
import os
複製程式碼

前文提到過，演示目錄下，有兩個資料夾，分別是pdf和newpdf。

我們指定 pdf 檔案所在路徑為其中的pdf資料夾。

pdf_path = "pdf/"
複製程式碼

我們希望獲得所有 pdf 檔案的路徑。用glob，一條命令就能完成這個功能。

pdfs = glob.glob("{}/*.pdf".format(pdf_path))
複製程式碼

看看我們獲得的 pdf 檔案路徑是否正確。

pdfs
複製程式碼

['pdf/複雜系統模擬的微部落格虛假資訊擴散模型研究.pdf',
 'pdf/面向影子分析的社交媒體競爭情報蒐集.pdf',
 'pdf/面向人機協同的移動網際網路政務門戶探析.pdf']
複製程式碼

經驗證。準確無誤。

下面我們利用 pdfminer 來從 pdf 檔案中抽取內容。我們需要從輔助 Python 檔案 pdf_extractor.py 中讀入函式 extract_pdf_content。

from pdf_extractor import extract_pdf_content
複製程式碼

用這個函式，我們嘗試從 pdf 檔案列表中的第一篇裡，抽取內容，並且把文字儲存在 content 變數裡。

content = extract_pdf_content(pdfs[0])
複製程式碼

我們看看 content 裡都有什麼：

content
複製程式碼

顯然，內容抽取並不完美，頁首頁尾等資訊都混了進來。

不過，對於我們的許多文字分析用途來說，這無關緊要。

你會看到 content 的內容裡面有許多的 \n，這是什麼呢？

我們用 print 函式，來顯示 content 的內容。

print(content)
複製程式碼

可以清楚看到，那些 \n 是換行符。

通過一個 pdf 檔案的抽取測試，我們建立了信心。

下面，我們該建立辭典，批量抽取和儲存內容了。

mydict = {}
複製程式碼

我們遍歷 pdfs 列表，把檔名稱（不包含目錄）作為鍵值。這樣，我們可以很容易看到，哪些pdf檔案已經被抽取過了，哪些還沒有抽取。

為了讓這個過程更為清晰，我們讓Python輸出正在抽取的 pdf 檔名。

for pdf in pdfs:
    key = pdf.split('/')[-1]
    if not key in mydict:
        print("Extracting content from {} ...".format(pdf))
        mydict[key] = extract_pdf_content(pdf)
複製程式碼

抽取過程中，你會看到這些輸出資訊：

Extracting content from pdf/複雜系統模擬的微部落格虛假資訊擴散模型研究.pdf ...
Extracting content from pdf/面向影子分析的社交媒體競爭情報蒐集.pdf ...
Extracting content from pdf/面向人機協同的移動網際網路政務門戶探析.pdf ...
複製程式碼

看看此時字典中的鍵值都有哪些：

mydict.keys()
複製程式碼

dict_keys(['複雜系統模擬的微部落格虛假資訊擴散模型研究.pdf', '面向影子分析的社交媒體競爭情報蒐集.pdf', '面向人機協同的移動網際網路政務門戶探析.pdf'])
複製程式碼

一切正常。

下面我們呼叫pandas，把字典變成資料框，以利於分析。

import pandas as pd
複製程式碼

下面這條語句，就可以把字典轉換成資料框了。注意後面的reset_index()把原先字典鍵值生成的索引也轉換成了普通的列。

df = pd.DataFrame.from_dict(mydict, orient='index').reset_index()
複製程式碼

然後我們重新命名列，以便於後續使用。

df.columns = ["path", "content"]
複製程式碼

此時的資料框內容如下：

df
複製程式碼

可以看到，我們的資料框擁有了pdf檔案資訊和全部文字內容。這樣你就可以使用關鍵詞抽取、情感分析、相似度計算等等諸多分析工具了。

篇幅所限，我們這裡只用一個字元數量統計的例子來展示基本分析功能。

我們讓 Python 幫我們統計抽取內容的長度。

df["length"] = df.content.apply(lambda x: len(x))
複製程式碼

此時的資料框內容發生以下變化：

df
複製程式碼

多出的一列，就是 pdf 文字內容的字元數量。

為了在 Jupyter Notebook 裡面正確展示繪圖結果，我們需要使用以下語句：

%matplotlib inline
複製程式碼

下面，我們讓 Pandas 把字元長度一列的資訊用柱狀圖示示出來。為了顯示的美觀，我們設定了圖片的長寬比例，並且把對應的pdf檔名稱以傾斜45度來展示。

import matplotlib.pyplot as plt
plt.figure(figsize=(14, 6))
df.set_index('path').length.plot(kind='bar')
plt.xticks(rotation=45)
複製程式碼

視覺化分析完成。

下面我們把剛才的分析流程整理成函式，以便於將來更方便地呼叫。

我們先整合pdf內容提取到字典的模組：

def get_mydict_from_pdf_path(mydict, pdf_path):
    pdfs = glob.glob("{}/*.pdf".format(pdf_path))
    for pdf in pdfs:
        key = pdf.split('/')[-1]
        if not key in mydict:
            print("Extracting content from {} ...".format(pdf))
            mydict[key] = extract_pdf_content(pdf)
    return mydict
複製程式碼

這裡輸入是已有詞典和pdf資料夾路徑。輸出為新的詞典。

你可能會納悶為何還要輸入“已有詞典”。彆著急，一會兒我用實際例子展示給你看。

下面這個函式非常直白——就是把詞典轉換成資料框。

def make_df_from_mydict(mydict):
    df = pd.DataFrame.from_dict(mydict, orient='index').reset_index()
    df.columns = ["path", "content"]
    return df
複製程式碼

最後一個函式，用於繪製統計出來的字元數量。

def draw_df(df):
    df["length"] = df.content.apply(lambda x: len(x))
    plt.figure(figsize=(14, 6))
    df.set_index('path').length.plot(kind='bar')
    plt.xticks(rotation=45)
複製程式碼

函式已經編好，下面我們來嘗試一下。

還記得演示目錄下有個子目錄，叫做newpdf對吧？

我們把其中的2個pdf檔案，移動到pdf目錄下面。

這樣pdf目錄下面，就有了5個檔案：

我們執行新整理出的3個函式。

首先輸入已有的詞典（注意此時裡面已有3條記錄），pdf資料夾路徑沒變化。輸出是新的詞典。

mydict = get_mydict_from_pdf_path(mydict, pdf_path)
複製程式碼

Extracting content from pdf/微部落格 Twitter 的企業競爭情報蒐集.pdf ...
Extracting content from pdf/移動社交媒體使用者隱私保護對策研究.pdf ...
複製程式碼

注意這裡的提示，原先的3個pdf檔案沒有被再次抽取，只有2個新pdf檔案被抽取。

我們們這裡一共只有5個檔案，所以你直觀上可能無法感受出顯著的區別。

但是，假設你原先已經用幾個小時，抽取了成百上千個pdf檔案資訊，結果你的老闆又丟給你3個新的pdf檔案……

如果你必須從頭抽取資訊，恐怕會很崩潰吧。

這時候，使用我們們的函式，你可以在1分鐘之內把新的檔案內容追加進去。

這差別，不小吧？

下面我們用新的詞典，構建資料框。

df = make_df_from_mydict(mydict)
複製程式碼

我們繪製新的資料框裡，pdf抽取文字字元數量。結果如下：

draw_df(df)
複製程式碼

至此，程式碼展示完畢。

小結

總結一下，本文為你介紹了以下知識點：

如何用glob批量讀取目錄下指定格式的檔案路徑；
如何用pdfminer從pdf檔案中抽取文字資訊；
如何構建詞典，儲存與鍵值（本文中為檔名）對應的內容，並且避免重複處理資料；
如何將詞典資料結構輕鬆轉換為Pandas資料框，以便於後續資料分析。
如何用matplotlib和pandas自帶的繪圖函式輕鬆繪製柱狀統計圖形。

討論

你之前做的資料分析工作中，遇到過需要從pdf檔案抽取文字的任務嗎？你是如何處理的？有沒有更好的工具與方法？歡迎留言，把你的經驗和思考分享給大家，我們一起交流討論。

喜歡請點贊。還可以微信關注和置頂我的公眾號“玉樹芝蘭”(nkwangshuyi)。

如果你對資料科學感興趣，不妨閱讀我的系列教程索引貼《如何高效入門資料科學？》，裡面還有更多的有趣問題及解法。

Python提取文字指定內容
2024-03-26
Python
如何用Python從PDF檔案中提取文字詞彙
2018-12-18
Python
Python 提取PDF文字和圖片
2023-10-10
Python
巧用Python的camelot庫批量提取PDF發票資訊
2021-09-23
Python
高效的PDF文字提取技術
2023-11-30
PDF文字怎麼編輯？怎麼編輯PDF檔案內容
2019-08-29
「Python實用祕技04」為pdf檔案批量新增文字水印
2022-01-20
Python
批量提取資料夾內檔名
2018-04-14
【Python】批量提取Excel裡的影像
2019-02-26
PythonExcel
用python3教你任意Html主內容提取
2018-11-05
PythonHTML
Python 爬蟲網頁內容提取工具xpath(二)
2018-12-08
Python爬蟲網頁
Python 爬蟲網頁內容提取工具xpath(一)
2018-12-06
Python爬蟲網頁
python 網頁文字提取
2018-07-25
Python網頁
錄音內容如何轉成文字？從音訊中提取文字的實用方法
2021-04-16
音訊
Python操作PDF-文字和圖片提取（使用PyPDF2和PyMuPDF）
2020-12-25
Python
如何用Python提取中文關鍵詞？
2018-06-28
Python
核對不同資料夾所含內容的差異並提取缺失內容：Python程式碼
2024-07-03
Python
文章內容提取庫 goose 簡介
2018-10-13
Go
提取動態html網頁內容
2018-09-06
HTML網頁
pdf檔案內容怎麼修改 pdf怎麼免費編輯修改內容
2022-03-26
canvas 寫入文字內容
2019-08-25
Canvas
node js 批量處理pdf，提取關鍵資訊，並匯出excel
2018-07-05
JSExcel
【python012】Python根據頁碼處理PDF檔案的內容
2024-06-25
Python
如何使用htmlq提取html檔案內容
2022-12-08
HTML
如何用 Python 指令碼批量下載 Google 影象？
2018-07-13
Python指令碼Go
如何用Python把pdf轉換成word
2021-09-11
Python
上司要我把宣傳欄的內容提取成文字，我拍照識別就搞定
2021-02-01
搜尋本地pdf檔案內容
2024-12-04
Python中用PyPDF2拆分pdf提取頁面
2021-09-11
Python
python讀取文字內容中文亂碼怎麼解決
2021-09-11
Python
提取pdf指定頁
2024-11-21
Python爬蟲十六式 - 第四式: 使用Xpath提取網頁內容
2019-01-10
Python爬蟲網頁
文字內容差異對比
2022-03-23
BatchOutput PDF for Mac(PDF批量列印工具)
2022-06-08
BATMac
grep、sed批量替換檔案內容shell
2019-01-05
如何編輯PDF檔案的內容？
2022-02-23
如何用Python從海量文字抽取主題？
2018-06-28
Python
Python提取文字檔案（.txt）資料的方法
2024-05-24
Python

如何用Python批量提取PDF文字內容？

問題

資料

環境

程式碼

小結

討論

相關文章