怎樣用Python提取資訊呢?分享這3個Python PDF庫

千鋒武漢發表於2021-08-25

       很多時候我們都會用Python去取資料檔案,這些檔案中很多都是PDF格式,有些PDF檔案解析的時候只能解析一部分內容出來,大段的文字沒有解析出來,那怎麼樣才能用Python提取這些資訊呢?

       下面小千就給大家分享3個Python PDF庫:

       1、PDFMiner

圖片2

       PDFMiner是一個從PDF文件中提取資訊的工具。與其他PDF相關的工具不同,它只用於獲取和分析文字資料。PDFMiner能獲取頁面中文字的準確位置,以及字型或行等其他資訊。它還有一個PDF轉換器,可以將PDF檔案轉換成其他文字格式(如HTML)。還有一個可擴充套件的解析器PDF,可以用於文字分析以外的其他用途。

       地址:

       2、PyPDF2  

圖片3

       PyPDF 2是一個python PDF庫,能夠分割、合併、裁剪和轉換PDF檔案的頁面。它還可以向PDF檔案中新增自定義資料、檢視選項和密碼。它可以從PDF檢索文字和後設資料,還可以將整個檔案合併在一起。

       地址:

       3、ReportLab

圖片4  

       ReportLab能快速建立PDF 文件。經過時間證明的、超好用的開源專案,用於建立複雜的、資料驅動的PDF文件和自定義向量圖形。它是免費的,開源的,用Python編寫的。該軟體包每月下載5萬多次,是標準Linux發行版的一部分,嵌入到許多產品中,並被選中為Wikipedia的列印/匯出功能提供動力。

       地址:

       以上就是小千整理的三個Python PDF庫,無論你是提取資訊、轉換格式、分割剪裁有它們就夠了。

        本文來自千鋒教育,轉載請註明出處。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31548651/viewspace-2788633/,如需轉載,請註明出處,否則將追究法律責任。

相關文章