如何用Python從PDF檔案中提取文字詞彙

嬌兮心有之發表於2018-12-18

在日常工作中,有時可能需要解析一些 PDF 檔案,提取檔案中的關鍵詞,好讓它們能夠被我們搜尋。解決這個問題的重要部分就是找到如何從 PDF 檔案中提取文字資料的方法。從如果是幾張或者幾十張倒還好辦,那要是幾百幾千張,可能就有點麻煩了。

幸好我們可以用 Python 完成這項工作。下面就分享一下如何用 Python 解析一個PDF檔案,將其轉為一列關鍵字。

設定:

本教程我們使用的是 Python 3.6.3,當然在實際工作中你可以使用任何你喜歡的 Python 版本,只要它支援用到的庫就行。

需要安裝以下 Python 庫:

PyPDF2(用於將簡單的基於文字的 PDF 檔案轉為 Python 可讀的文字)

Textract(用於將 PDF 掃描檔案轉為 Python 可讀的文字)

Nltk(用於清理短語、將短語轉為關鍵字)

可以通過以下命令列安裝這些庫:

pip install PyPDF2

pip install textract

pip install nltk

這樣我們就安裝瞭解析 PDF 檔案所需的庫,一定要確保你的 PDF 檔案放在你編寫指令碼所在的資料夾中。

啟動編輯器,開始敲程式碼吧!

第一步:匯入庫


第2步:讀取 PDF 檔案


第3步:將文字轉換為關鍵字


現在我們就將手中的 PDF 檔案儲存為了列表,可以按自己的需要使用了。如果想讓 PDF 可搜尋,或者解析大量檔案進行聚類分析,還可以將得到的列表儲存在電子表格中。

相關文章