如何用Python從PDF檔案中提取文字詞彙
在日常工作中,有時可能需要解析一些 PDF 檔案,提取檔案中的關鍵詞,好讓它們能夠被我們搜尋。解決這個問題的重要部分就是找到如何從 PDF 檔案中提取文字資料的方法。從如果是幾張或者幾十張倒還好辦,那要是幾百幾千張,可能就有點麻煩了。
幸好我們可以用 Python 完成這項工作。下面就分享一下如何用 Python 解析一個PDF檔案,將其轉為一列關鍵字。
設定:
本教程我們使用的是 Python 3.6.3,當然在實際工作中你可以使用任何你喜歡的 Python 版本,只要它支援用到的庫就行。
需要安裝以下 Python 庫:
PyPDF2(用於將簡單的基於文字的 PDF 檔案轉為 Python 可讀的文字)
Textract(用於將 PDF 掃描檔案轉為 Python 可讀的文字)
Nltk(用於清理短語、將短語轉為關鍵字)
可以通過以下命令列安裝這些庫:
pip install PyPDF2
pip install textract
pip install nltk
這樣我們就安裝瞭解析 PDF 檔案所需的庫,一定要確保你的 PDF 檔案放在你編寫指令碼所在的資料夾中。
啟動編輯器,開始敲程式碼吧!
第一步:匯入庫
第2步:讀取 PDF 檔案
第3步:將文字轉換為關鍵字
現在我們就將手中的 PDF 檔案儲存為了列表,可以按自己的需要使用了。如果想讓 PDF 可搜尋,或者解析大量檔案進行聚類分析,還可以將得到的列表儲存在電子表格中。
相關文章
- 如何用Python批量提取PDF文字內容?Python
- Python 提取PDF文字和圖片Python
- Python提取文字檔案(.txt)資料的方法Python
- 高效的PDF文字提取技術
- 從配置檔案中提取IP
- 想要提取PDF檔案中的美麗圖片,該怎麼辦?
- 如何用Python從海量文字抽取主題?Python
- pdf是圖片還是文件 pdf格式是文字檔案還是影像檔案
- Python批量提取Word檔案題庫中的答案Python
- 「Python實用祕技04」為pdf檔案批量新增文字水印Python
- 提取資料夾中.lib檔名到文字中
- python的應用 | 提取指定資料夾下所有PDF檔案的頁數Python
- Python操作PDF-文字和圖片提取(使用PyPDF2和PyMuPDF)Python
- PDF轉文字檔案的最簡單方法
- PDF檔案掃描文字識別軟體
- python 網頁文字提取Python網頁
- C# 提取PDF中的表格C#
- python 修改文字檔案Python
- PDF文字怎麼編輯?怎麼編輯PDF檔案內容
- Python之合併PDF檔案Python
- Python提取文字指定內容Python
- 怎麼從系統光碟中提取檔案!
- 如何用Python提取中文關鍵詞?Python
- 從spfile二進位制檔案中產生init.ora文字檔案
- 從 HTML 提取文字的 7 個工具HTML
- python 讀取文字檔案Python
- 日誌等大檔案定位並提取中間一部分文字
- 利用html5 file api讀取本地檔案(如圖片、PDF等)HTMLAPI
- Python | 實現pdf檔案分頁Python
- Linux 中sed命令實現從gff檔案中僅僅提取基因名稱Linux
- Oracle從dump檔案中提取DDL語句方法Oracle
- python怎麼建立文字檔案Python
- 提取pdf指定頁
- Python 壓縮PDF減小檔案大小Python
- 如何從 dump 檔案中提取出 C# 原始碼?C#原始碼
- AMDU 從頭部損壞的磁碟中提取檔案
- !!!提取檔案記錄!!!
- 如何使用 pdfgrep 從終端搜尋 PDF 檔案