很多時候我們都會用Python去取資料檔案，這些檔案中很多都是PDF格式，有些PDF檔案解析的時候只能解析一部分內容出來，大段的文字沒有解析出來，那怎麼樣才能用Python提取這些資訊呢？

下面小千就給大家分享3個Python PDF庫：

1、PDFMiner

PDFMiner是一個從PDF文件中提取資訊的工具。與其他PDF相關的工具不同，它只用於獲取和分析文字資料。PDFMiner能獲取頁面中文字的準確位置，以及字型或行等其他資訊。它還有一個PDF轉換器，可以將PDF檔案轉換成其他文字格式(如HTML)。還有一個可擴充套件的解析器PDF，可以用於文字分析以外的其他用途。

地址：

2、PyPDF2

PyPDF 2是一個python PDF庫，能夠分割、合併、裁剪和轉換PDF檔案的頁面。它還可以向PDF檔案中新增自定義資料、檢視選項和密碼。它可以從PDF檢索文字和後設資料，還可以將整個檔案合併在一起。

地址：

3、ReportLab

ReportLab能快速建立PDF 文件。經過時間證明的、超好用的開源專案，用於建立複雜的、資料驅動的PDF文件和自定義向量圖形。它是免費的，開源的，用Python編寫的。該軟體包每月下載5萬多次，是標準Linux發行版的一部分，嵌入到許多產品中，並被選中為Wikipedia的列印/匯出功能提供動力。

地址：

以上就是小千整理的三個Python PDF庫，無論你是提取資訊、轉換格式、分割剪裁有它們就夠了。

本文來自千鋒教育，轉載請註明出處。

怎樣用Python提取資訊呢？分享這3個Python PDF庫

相關文章