使用Python 實現 PDF 到 HTML 的轉換

E-iceblue發表於2024-04-08

原文網址 : https://www.cnblogs.com/Yesi/p/18120775

PDF 檔案是共享和分發文件的常用選擇，但提取和再利用 PDF 檔案中的內容可能會非常麻煩。而利用 Python 將 PDF 檔案轉換為 HTML 是解決此問題的理想方案之一，這樣做可以增強文件可訪問性，使文件可搜尋，同時增強文件在不同場景中的實用性。此外，HTML 格式使得搜尋引擎能夠對內容進行索引，從而更有可能在網路上被發現。藉助 Python 的靈活性和易用性，無論是初學者還是有經驗的開發人員都可以輕鬆高效地使用 Python 來將 PDF 轉換為 HTML。

本文重點介紹如何在 Python 程式中將 PDF 轉換為 HTML，主要包括以下內容：

使用Python 將 PDF 轉換為 HTML 方法概覽
使用 Python 程式碼將 PDF 轉換為單個 HTML 檔案
使用 Python 將 PDF 轉換為不嵌入影像的 HTML
使用 Python 將 PDF 轉換為多個 HTML 檔案

本文介紹的方法使用了 Spire.PDF for Python 工具，可以從官網下載，也可以透過 PyPI 進行安裝：

pip install Spire.PDF

Python PDF 轉 HTML 方法概覽

在 Spire.PDF for Python 中，PdfDocument 類表示一個 PDF 文件。我們可以使用該類下的 LoadFromFile() 方法載入 PDF 檔案，然後使用 SaveToFile() 方法將文件儲存為其他格式，如 HTML，從而輕鬆實現從 PDF 到 HTML 的轉換。

此外，該 API 還提供了 PdfDocument.ConvertOptions 屬性下的 SetConvertHtmlOptions() 方法，用於在轉換過程中設定轉換選項。以下是可以傳遞給該方法的引數，用於設定最大頁數、SVG 嵌入選項、影像嵌入選項和 SVG 質量選項：

useEmbeddedSvg(bool)：當設定為 True 時，允許在轉換後的 HTML 檔案中嵌入 SVG。生成的 HTML 檔案將包含 PDF 文件中的所有元素，包括影像，都在一個 HTML 檔案中。
useEmbeddedImg(bool)：當設定為 True 時，允許在轉換後的 HTML 檔案中嵌入影像。此引數僅在 useEmbeddedSvg 設定為 False 時起作用。
maxPageOneFile(int)：設定單個 HTML 檔案中包含的最大頁數。如果 PDF 的頁數超過指定的數字，將生成多個 HTML 檔案，每個檔案包含部分頁數。
useHighQualityEmbeddedSvg(bool)：當設定為 True 時，在 HTML 轉換過程中確保使用高質量的嵌入 SVG 影像。

使用 Python 將 PDF 轉換為單個 HTML 檔案

以下程式碼示例展示瞭如何直接使用 Python 將 PDF 轉換為 HTML，不設定任何轉換選項。在這種情況下，我們只需要使用 LoadFromFile 方法載入 PDF 檔案，並使用 SaveToFile 方法將其儲存為 HTML 檔案。轉換後的 HTML 檔案將是一個包含嵌入影像和其他元素的單個 HTML 檔案。

from spire.pdf.common import *
from spire.pdf import *

# 建立一個PdfDocument類的物件
doc = PdfDocument()

# 載入一個PDF文件
doc.LoadFromFile("示例.pdf")

# 將文件轉換為HTML
doc.SaveToFile("output/HTML/PDF轉HTML.html", FileFormat.HTML)
doc.Close()

轉換效果：

使用 Python 將 PDF 轉換為不嵌入影像的 HTML

透過將 useEmbeddedSvg 引數設定為 False，我們可以將 PDF 文件轉換為不嵌入影像等資訊的單 HTML 檔案，文件中的影像和 CSS 檔案與 HTML 分離並儲存在一個資料夾中。這樣可以方便對轉換後的 HTML 檔案進行進一步編輯，以及對影像進行其他操作。

from spire.pdf.common import *
from spire.pdf import *

# 建立一個PdfDocument類的物件
doc = PdfDocument()

# 載入一個PDF文件
doc.LoadFromFile("示例.pdf")

# 禁用SVG嵌入
doc.ConvertOptions.SetPdfToHtmlOptions(False)

# 將文件轉換為HTML
doc.SaveToFile("output/HTML/PDF轉不嵌入SVG的HTML.html", FileFormat.HTML)
doc.Close()

轉換結果：

使用 Python 將 PDF 轉換為多個 HTML 檔案

在 useEmbeddedSvg 設定為 False 的前提下，SetPdfToHtmlOptions 方法允許使用 maxPageOneFile(int) 引數確定每個轉換後的 HTML 檔案中包含的最大頁數。此功能可實現將 PDF 文件在轉換過程中拆分成多個檔案。例如，將該引數設定為 1 將使每個頁面被轉換為一個單獨的 HTML 檔案。

from spire.pdf.common import *
from spire.pdf import *

# 建立一個PdfDocument類的物件
doc = PdfDocument()

# 載入一個PDF文件
doc.LoadFromFile("示例.pdf")

# 禁用SVG嵌入
doc.ConvertOptions.SetPdfToHtmlOptions(False, False, 1, False)

# 將文件轉換為HTML
doc.SaveToFile("output/HTML/PDF轉多個HTML.html", FileFormat.HTML)
doc.Close()

轉換結果：

總結

本文演示瞭如何使用 Python 將 PDF 轉換為 HTML，並提供了多種轉換選項，例如轉換為單個 HTML 檔案、將 HTML 檔案與影像分離以及在轉換過程中拆分 PDF 文件。藉助 Spire.PDF for Python，使用者可以使用簡單高效的方法進行 Python 中的 PDF 到 HTML 轉換，並支援靈活的自定義選項。

如果在使用該 API 進行 PDF 到 HTML 轉換時遇到任何問題，使用者可以在 Spire 產品論壇上尋求技術支援。

使用UiBot實現批次html轉換成PDF檔案
2020-04-14
UIHTML
HTML轉換到PDF的三種方式
2024-03-18
HTML
Python實現批次將ppt轉換為pdf
2023-03-31
Python
JPG轉PDF如何實現？圖片批次轉換PDF的快捷方法
2021-09-09
Laravel 使用 laravel-snappy 包實現 HTML 轉 PDF 和 PNG
2020-10-13
LaravelAPPHTML
轉換不同文件到pdf
2024-07-30
把HTML轉成PDF的4個方案及實現方法
2019-04-01
HTML
Paged.js能使用HTML實現精美PDF
2021-04-05
JSHTML
jspdf + html2canvas 實現html轉pdf (提高解析度版本)
2019-02-16
JSHTMLCanvas
.NET使用DinkToPdf將HTML轉成PDF
2021-02-04
HTML
利用wps的com口用python實現excel轉pdf
2024-07-16
PythonExcel
python實現中文和unicode轉換
2023-05-14
PythonUnicode
python實現字串轉換整數
2019-02-20
Python字串
如何用Python把pdf轉換成word
2021-09-11
Python
html頁面轉PDF的功能
2019-04-04
HTML
PDF轉換器在電腦上怎樣使用？PDF轉換器功能有哪些？
2020-03-02
HTML轉PDF的純客戶端和純服務端實現方案
2020-05-19
HTML客戶端服務端
pdf轉換成word，非常實用
2021-11-19
flask實現python方法轉換服務
2022-05-30
FlaskPython
ABBYY FineReader PDF——PDF轉換工具
2021-10-22
CAD怎麼轉換成PDF格式？CAD轉換PDF的正確方法
2020-03-16
使用Anaconda實現Python2和Python3共存及相互轉換
2018-05-07
Python
PDF轉PPT怎麼轉？好用的PDF轉換方法有哪些？
2020-03-05
PDF檔案轉HTML方法
2018-08-09
HTML
C#將html轉pdf
2020-04-04
C#HTML
Windows 系統，PHP實現PPT轉PDF，PDF轉圖片的操作
2021-08-11
WindowsPHP
pdf轉換成word，免費轉換
2021-11-16
Python 將PDF轉為PDF/A、PDF/X，以及PDF/A轉回PDF
2024-05-08
Python
PDF批次轉換器，批次轉word為pdf，批次轉ppt為pdf
2024-10-23
Cisdem PDF Creator（PDF 生成轉換器）
2020-11-11
PDF轉換工具：ABBYY FineReader PDF Mac
2022-03-02
Mac
ABBYY FineReader PDF for Mac(PDF轉換工具)
2021-10-21
Mac
使用vue實現行列轉換的一種方法。
2019-08-06
Vue
php實現pdf轉圖片
2022-06-07
PHP
PDF轉換器手機版，PPT轉PDF方法
2018-08-29
PDF轉Word？PDF轉換工具推薦：PDF to Word Document Converter for Mac
2023-04-15
Mac
Java 實現 markdown轉Html
2018-11-30
JavaHTML
Java 將Html轉為PDF（二）
2020-10-10
JavaHTML

使用Python 實現 PDF 到 HTML 的轉換

Python PDF 轉 HTML 方法概覽

使用 Python 將 PDF 轉換為單個 HTML 檔案

使用 Python 將 PDF 轉換為不嵌入影像的 HTML

使用 Python 將 PDF 轉換為多個 HTML 檔案

總結

相關文章