如何用Python從PDF檔案中提取文字詞彙
在日常工作中,有時可能需要解析一些 PDF 檔案,提取檔案中的關鍵詞,好讓它們能夠被我們搜尋。解決這個問題的重要部分就是找到如何從 PDF 檔案中提取文字資料的方法。從如果是幾張或者幾十張倒還好辦,那要是幾百幾千張,可能就有點麻煩了。
幸好我們可以用 Python 完成這項工作。下面就分享一下如何用 Python 解析一個PDF檔案,將其轉為一列關鍵字。
設定:
本教程我們使用的是 Python 3.6.3,當然在實際工作中你可以使用任何你喜歡的 Python 版本,只要它支援用到的庫就行。
需要安裝以下 Python 庫:
PyPDF2(用於將簡單的基於文字的 PDF 檔案轉為 Python 可讀的文字)
Textract(用於將 PDF 掃描檔案轉為 Python 可讀的文字)
Nltk(用於清理短語、將短語轉為關鍵字)
可以通過以下命令列安裝這些庫:
pip install PyPDF2
pip install textract
pip install nltk
這樣我們就安裝瞭解析 PDF 檔案所需的庫,一定要確保你的 PDF 檔案放在你編寫指令碼所在的資料夾中。
啟動編輯器,開始敲程式碼吧!
第一步:匯入庫
第2步:讀取 PDF 檔案
第3步:將文字轉換為關鍵字
現在我們就將手中的 PDF 檔案儲存為了列表,可以按自己的需要使用了。如果想讓 PDF 可搜尋,或者解析大量檔案進行聚類分析,還可以將得到的列表儲存在電子表格中。
相關文章
- 如何用Python批量提取PDF文字內容?Python
- Python 提取PDF文字和圖片Python
- 如何用Python提取中文關鍵詞?Python
- Python提取文字檔案(.txt)資料的方法Python
- 用Python如何統計文字檔案中的詞頻?(Python練習)Python
- 高效的PDF文字提取技術
- 如何用Python從海量文字抽取主題?Python
- 想要提取PDF檔案中的美麗圖片,該怎麼辦?
- 「Python實用祕技04」為pdf檔案批量新增文字水印Python
- python 修改文字檔案Python
- pdf是圖片還是文件 pdf格式是文字檔案還是影像檔案
- python的應用 | 提取指定資料夾下所有PDF檔案的頁數Python
- python 網頁文字提取Python網頁
- Python操作PDF-文字和圖片提取(使用PyPDF2和PyMuPDF)Python
- PDF轉文字檔案的最簡單方法
- PDF檔案掃描文字識別軟體
- Python之合併PDF檔案Python
- python 讀取文字檔案Python
- Python提取文字指定內容Python
- 如何用Python做詞雲?Python
- 文字資料分析——主題提取+詞向量化
- PDF文字怎麼編輯?怎麼編輯PDF檔案內容
- Python | 實現pdf檔案分頁Python
- 如何做好文字關鍵詞提取?從三種演算法說起演算法
- python怎麼建立文字檔案Python
- Linux 中sed命令實現從gff檔案中僅僅提取基因名稱Linux
- 如何用Python做中文分詞?Python中文分詞
- C# 提取PDF中的表格C#
- 日誌等大檔案定位並提取中間一部分文字
- Python 壓縮PDF減小檔案大小Python
- 基於影像視覺詞彙的文字分類方法(完整專案)視覺文字分類
- 利用html5 file api讀取本地檔案(如圖片、PDF等)HTMLAPI
- !!!提取檔案記錄!!!
- 如何用python建立詞雲圖片Python
- 如何從 dump 檔案中提取出 C# 原始碼?C#原始碼
- VBA建立文字檔案、讀寫文字檔案
- 如何用Python把pdf轉換成wordPython
- Python 查詢PDF中的指定文字並高亮顯示Python