如何用Python從PDF檔案中提取文字詞彙

嬌兮心有之發表於2018-12-18

原文網址 : https://blog.csdn.net/qq_40925239/article/details/85061776

Python

在日常工作中，有時可能需要解析一些 PDF 檔案，提取檔案中的關鍵詞，好讓它們能夠被我們搜尋。解決這個問題的重要部分就是找到如何從 PDF 檔案中提取文字資料的方法。從如果是幾張或者幾十張倒還好辦，那要是幾百幾千張，可能就有點麻煩了。

幸好我們可以用 Python 完成這項工作。下面就分享一下如何用 Python 解析一個PDF檔案，將其轉為一列關鍵字。

設定：

本教程我們使用的是 Python 3.6.3，當然在實際工作中你可以使用任何你喜歡的 Python 版本，只要它支援用到的庫就行。

需要安裝以下 Python 庫：

PyPDF2（用於將簡單的基於文字的 PDF 檔案轉為 Python 可讀的文字）

Textract（用於將 PDF 掃描檔案轉為 Python 可讀的文字）

Nltk（用於清理短語、將短語轉為關鍵字）

可以通過以下命令列安裝這些庫：

pip install PyPDF2

pip install textract

pip install nltk

這樣我們就安裝瞭解析 PDF 檔案所需的庫，一定要確保你的 PDF 檔案放在你編寫指令碼所在的資料夾中。

啟動編輯器，開始敲程式碼吧！

第一步：匯入庫

第2步：讀取 PDF 檔案

第3步：將文字轉換為關鍵字

現在我們就將手中的 PDF 檔案儲存為了列表，可以按自己的需要使用了。如果想讓 PDF 可搜尋，或者解析大量檔案進行聚類分析，還可以將得到的列表儲存在電子表格中。

如何用Python批量提取PDF文字內容？
2018-06-27
Python
Python 提取PDF文字和圖片
2023-10-10
Python
如何用Python提取中文關鍵詞？
2018-06-28
Python
Python提取文字檔案（.txt）資料的方法
2024-05-24
Python
用Python如何統計文字檔案中的詞頻？(Python練習)
2019-11-26
Python
高效的PDF文字提取技術
2023-11-30
如何用Python從海量文字抽取主題？
2018-06-28
Python
想要提取PDF檔案中的美麗圖片，該怎麼辦？
2020-08-24
「Python實用祕技04」為pdf檔案批量新增文字水印
2022-01-20
Python
python 修改文字檔案
2024-07-30
Python
pdf是圖片還是文件 pdf格式是文字檔案還是影像檔案
2022-04-20
python的應用 | 提取指定資料夾下所有PDF檔案的頁數
2024-03-27
Python
python 網頁文字提取
2018-07-25
Python網頁
Python操作PDF-文字和圖片提取（使用PyPDF2和PyMuPDF）
2020-12-25
Python
PDF轉文字檔案的最簡單方法
2019-07-09
PDF檔案掃描文字識別軟體
2021-10-22
Python之合併PDF檔案
2018-05-18
Python
python 讀取文字檔案
2024-08-10
Python
Python提取文字指定內容
2024-03-26
Python
如何用Python做詞雲？
2018-07-05
Python
文字資料分析——主題提取+詞向量化
2020-10-20
PDF文字怎麼編輯？怎麼編輯PDF檔案內容
2019-08-29
Python | 實現pdf檔案分頁
2021-10-31
Python
如何做好文字關鍵詞提取？從三種演算法說起
2018-11-15
演算法
python怎麼建立文字檔案
2021-09-11
Python
Linux 中sed命令實現從gff檔案中僅僅提取基因名稱
2024-05-03
Linux
如何用Python做中文分詞？
2018-06-28
Python中文分詞
C# 提取PDF中的表格
2021-10-19
C#
日誌等大檔案定位並提取中間一部分文字
2024-06-11
Python 壓縮PDF減小檔案大小
2024-06-24
Python
基於影像視覺詞彙的文字分類方法(完整專案)
2018-03-05
視覺文字分類
利用html5 file api讀取本地檔案（如圖片、PDF等）
2019-03-01
HTMLAPI
！！！提取檔案記錄！！！
2024-11-12
如何用python建立詞雲圖片
2021-09-11
Python
如何從 dump 檔案中提取出 C# 原始碼？
2021-04-12
C#原始碼
VBA建立文字檔案、讀寫文字檔案
2020-04-04
如何用Python把pdf轉換成word
2021-09-11
Python
Python 查詢PDF中的指定文字並高亮顯示
2024-03-18
Python

如何用Python從PDF檔案中提取文字詞彙

相關文章