Python操作PDF-文字和圖片提取（使用PyPDF2和PyMuPDF）

師者樂享發表於2020-12-25

原文網址 : https://www.cnblogs.com/neuedu/p/14188218.html

PDF檔案格式

如今，可移植文件格式（PDF）屬於最常用的資料格式。在1990年，PDF文件的結構由Adobe定義。PDF格式的思想是，對於通訊過程中涉及的雙方（建立者，作者或傳送者以及接收者）而言，傳輸的資料/文件看起來完全相同。

工具和庫

適用於Python的PDF工具，模組和庫的可用解決方案範圍有些混亂，需要花一點時間弄清楚什麼是什麼，以及哪些專案需要連續維護。根據我們的研究，以下是最新的候選人：

PyPDF2：一個Python庫，用於提取文件資訊和內容，逐頁拆分文件，合併文件，裁剪頁面並新增水印。PyPDF2支援未加密和加密的文件。
PDFMiner：完全用Python編寫，適用於Python 2.4。對於Python 3，請使用克隆的包PDFMiner.six。這兩個軟體包都允許您解析，分析和轉換PDF文件。這包括對PDF 1.7以及CJK語言（中文，日文和韓文）的支援，以及各種字型型別（Type1，TrueType，Type3和CID）。
pdflib for Python：Poppler庫的擴充套件，為它提供了Python繫結。它使您可以解析，分析和轉換PDF文件。不要將其與具有相同名稱的商業吊墜相混淆。
PyFPDF：一個在Python下生成PDF文件的庫。從FPDF PHP庫移植而來，這是著名的PDFlib擴充套件替換，其中包含許多示例，指令碼和派生類。
PDFTables：一項商業服務，提供從PDF文件附帶的表格中提取的內容。提供一個API，以便PDFTables可以用作SAAS。
PyX -Python圖形包：PyX是用於建立PostScript，PDF和SVG檔案的Python包。它結合了PostScript繪圖模型的抽象和TeX / LaTeX介面。這些基元可以構建複雜的任務，例如以可釋出的質量建立2D和3D繪圖。
ReportLab：一個雄心勃勃的，具有行業實力的圖書館，主要致力於精確建立PDF文件。免費提供開放原始碼版本和名為ReportLab PLUS的商業增強版本。
PyMuPDF（又稱“ fitz”）：MuPDF的Python繫結，這是一種輕量級的PDF和XPS檢視器。該庫可以訪問PDF，XPS，OpenXPS，epub，漫畫和小說書格式的檔案，並且以其最佳效能和高渲染質量而聞名。
pdfrw：一個基於Python的純PDF解析器，用於讀寫PDF。它忠實地再現向量格式而無需光柵化。與ReportLab結合使用時，它有助於在使用ReportLab建立的新PDF中重用現有PDF的一部分。

圖書館	用於
PyPDF2	讀
PyMuPDF	讀
pdflib	讀
PDF表格	讀
PDFMiner.six	讀
PDF查詢	讀
pdfrw	讀，寫/創作
PyFPDF	寫/創作

我們將重點介紹PyPDF2和PyMuPDF，並說明如何以最簡單的方式提取文字和影像。為了瞭解PyPDF2的用法，官方文件和許多其他資源提供的示例的組合對您有所幫助。相比之下，官方PyMuPDF文件更加清晰，並且使用該庫的速度也大大加快。

使用PyPDF2提取文字

$ pip3 install PyPDF2

清單1首先匯入了PdfFileReader該類。接下來，使用該類開啟文件，並使用getDocumentInfo()方法提取文件資訊，使用提取頁數getDocumentInfo()以及第一頁的內容。

請注意，PyPDF2從0開始計數頁面，這就是該呼叫pdf.getPage(0)檢索文件第一頁的原因。最終，提取的資訊被列印到stdout。

清單1：提取文件資訊和內容。

#!/usr/bin/python

from PyPDF2 import PdfFileReader

pdf_document = "example.pdf"
with open(pdf_document, "rb") as filehandle:
    pdf = PdfFileReader(filehandle)
    info = pdf.getDocumentInfo()
    pages = pdf.getNumPages()

    print (info)
    print ("number of pages: %i" % pages)

    page1 = pdf.getPage(0)
    print(page1)
    print(page1.extractText())

如上面的圖1所示，提取的文字是連續列印的。沒有段落或句子分隔。如PyPDF2文件中所述，所有文字資料都按照在頁面內容流中提供的順序返回，並且依靠它可能會導致一些意外。這主要取決於PDF文件的內部結構，以及PDF編寫器過程如何生成PDF指令流。

使用PyMuPDF提取文字

可從PyPi網站上獲取PyMuPDF，並在終端中使用以下命令安裝軟體包：

$ pip3 install PyMuPDF

顯示文件資訊，列印頁數以及提取PDF文件的文字的方式與PyPDF2相似（請參見清單2）。要匯入的模組名為fitz，並返回到PyMuPDF的先前名稱。

清單2：使用PyMuPDF從PDF文件中提取內容。

#!/usr/bin/python

import fitz

pdf_document = "example.pdf"
doc = fitz.open(pdf_document)
print ("number of pages: %i" % doc.pageCount)
print(doc.metadata)

page1 = doc.loadPage(0)
page1text = page1.getText("text")
print(page1text)

PyMuPDF的優點是可以保持原始文件結構完整-帶有換行符的整個段落都保留在PDF文件中（參見圖2）。

使用PyMuPDF從PDF提取影像

PyMuPDF使用該方法簡化了從PDF文件提取影像的過程getPageImageList()。清單3基於PyMuPDF Wiki頁面上的示例，並逐頁地將PDF中的所有影像提取並儲存為PNG檔案。如果影像具有CMYK色彩空間，則將首先將其轉換為RGB。

清單3：提取影像

#!/usr/bin/python

import fitz

pdf_document = fitz.open("file.pdf")
for current_page in range(len(pdf_document)):
    for image in pdf_document.getPageImageList(current_page):
        xref = image[0]
        pix = fitz.Pixmap(pdf_document, xref)
        if pix.n < 5:        # this is GRAY or RGB
            pix.writePNG("page%s-%s.png" % (current_page, xref))
        else:                # CMYK: convert to RGB first
            pix1 = fitz.Pixmap(fitz.csRGB, pix)
            pix1.writePNG("page%s-%s.png" % (current_page, xref))
            pix1 = None
        pix = None

在400頁PDF上執行此Python指令碼，它在不到3秒的時間內提取了117張影像，這真是了不起。單個影像以PNG格式儲存。為了保持原始影像的格式和大小，而不是轉換為PNG，請檢視PyMuPDF Wiki中指令碼的擴充套件版本。

圖3：提取的影像

使用PyPDF2將PDF拆分為頁面

對於此示例，首先需要同時匯入PdfFileReader和和PdfFileWriter類。然後，我們開啟PDF檔案，建立一個閱讀器物件，並使用閱讀器物件的getNumPages方法遍歷所有頁面。

在for迴圈內部，我們建立的新例項PdfFileWriter，該例項尚不包含任何頁面。然後，使用pdfWriter.addPage()方法將當前頁面新增到我們的writer物件。此方法接受一個頁面物件，我們使用該PdfFileReader.getPage()方法獲取該物件。

下一步是建立一個唯一的檔名，我們使用原始檔名加上單詞“ page”以及頁碼來完成。我們在當前頁碼上加1，因為PyPDF2會計算從零開始的頁碼。

最後，我們以“寫二進位制”模式（mode wb）開啟新檔名，並使用該類的write()方法pdfWriter將提取的頁面儲存到磁碟。

清單4：將PDF拆分為單個頁面。

#!/usr/bin/python

from PyPDF2 import PdfFileReader, PdfFileWriter

pdf_document = "example.pdf"
pdf = PdfFileReader(pdf_document)

for page in range(pdf.getNumPages()):
    pdf_writer = PdfFileWriter()
    current_page = pdf.getPage(page)
    pdf_writer.addPage(current_page)

    outputFilename = "example-page-{}.pdf".format(page + 1)
    with open(outputFilename, "wb") as out:
        pdf_writer.write(out)

        print("created", outputFilename)

查詢所有包含文字的頁面

這個用例非常實用，並且工作方式類似於pdfgrep。該指令碼使用PyMuPDF返回包含給定搜尋字串的所有頁碼。頁面一頁接一頁地載入，藉助該searchFor()方法，將檢測到搜尋字串的所有出現情況。如果匹配則在上面印有相應的資訊stdout。

清單5：搜尋給定的文字。

#!/usr/bin/python

import fitz

filename = "example.pdf"
search_term = "invoice"
pdf_document = fitz.open(filename):

for current_page in range(len(pdf_document)):
    page = pdf_document.loadPage(current_page)
    if page.searchFor(search_term):
        print("%s found on page %i" % (search_term, current_page))

下面的圖5顯示了一本400頁的書中“ Debian GNU / Linux”一詞的搜尋結果。

結論

此處顯示的處理PDF方法非常強大。使用相對較少的程式碼行數，很容易獲得結果。

Python 提取PDF文字和圖片
2023-10-10
Python
提取圖片文字的技巧
2018-08-06
Java 程式設計師第一次執行 Python 專案，使用 python-pptx 提取 ppt 中的文字和圖片
2024-03-11
Java程式設計師Python
Python中用PyPDF2拆分pdf提取頁面
2021-09-11
Python
python使用pillow和opencv生成圖片縮圖
2024-03-13
PythonOpenCV
【python】圖片插入文字
2018-11-07
Python
js 如何提取富文字里的圖片路徑
2024-03-22
JS
OCR圖片文字提取工具：Initiater for Mac中文版
2024-01-11
Mac
手機使用python操作圖片檔案
2019-02-18
Python
圖片識別文字具體操作
2021-11-03
手機如何提取圖片中的文字、拍照識別文字的操作
2018-09-17
Java 讀取PDF中的文字和圖片
2019-07-18
Java
.NET 8 使用官方OpenXml SDK，替換Word中的文字和圖片
2024-05-22
XML
Facebook如何使用自我監督學習檢測仇恨文字和圖片？
2021-03-12
從圖片提取文字的終極解決方法 ——【通用文字識別 API】
2023-03-29
API
☀️SVG對映反爬示例練習⚡直接提取SVG文字圖片的文字⚡
2021-09-08
SVG
如何提取圖片中的文字？轉易俠這樣操作
2022-01-06
Java 讀取Word表格中的文字和圖片
2021-07-02
Java
python 網頁文字提取
2018-07-25
Python網頁
請問下有人搞過提取圖片裡的文字嗎?
2024-10-09
python request.post圖片和字典
2020-02-05
Python
PyMuPDF框架學習（pdf文字處理）
2024-05-09
框架
教你用微信小程式快速提取圖片上的文字
2018-08-30
微信小程式
小程式利用Canvas繪製圖片和豎排文字
2018-05-14
Canvas
開發筆記：PDF生成文字和圖片水印
2020-10-25
筆記
使用Python進行Web爬取和資料提取
2020-07-28
PythonWeb
Python提取文字指定內容
2024-03-26
Python
django 實現圖片上傳和顯示操作
2018-03-30
Django
基於python的文字轉圖片工具
2024-08-25
Python
使用 JavaScript 壓縮和翻轉圖片
2019-07-26
JavaScript
C# 10分鐘完成百度圖片提取文字（文字識別）——入門篇
2019-08-01
C#
使用Tesseract進行圖片文字識別
2024-12-06
視訊提取圖片/圖片合成視訊ffmpeg(二十)
2020-10-28
Java 獲取Word批註所標記的文字和圖片
2021-07-22
Java
Python 在Excel中插入、替換、提取、或刪除圖片
2024-10-21
PythonExcel
圖片標註工具labelme安裝和使用
2024-11-16
提取圖片中文字的教程
2018-10-09
mac上如何提取圖片上的文字？幾款不錯的OCR文字識別工具推薦
2021-02-02
Mac