Python中用PyPDF2拆分pdf提取頁面
有時候我們只需要pdf中的幾頁,或許還想把這幾頁內容整合成新的pdf,那該怎麼做呢?
準備工作:
安裝擴充套件庫PyPDF2,參考命令
pip install PyPDF2
程式碼如下:
from PyPDF2 import PdfFileReader, PdfFileWriter def split_pdf(filename, result, start=0, end=None): """從filename中提取[start,end)之間的頁碼內容儲存為result""" # 開啟原始 pdf 檔案 pdf_src = PdfFileReader(filename) if end is None: # 獲取頁數 end = pdf_src.getNumPages() with open(result, "wb") as fp: # 建立空白pdf檔案 pdf = PdfFileWriter() # 提取頁面內容,寫入空白檔案 for num in range(start, end): pdf.addPage(pdf_src.getPage(num)) # 寫入結果pdf pdf.write(fp) fn = r"G:a001第九天.pdf" split_pdf(fn, "1.pdf", 0, 3) split_pdf(fn, "2.pdf", 1, 3) split_pdf(fn, "3.pdf", 2, 3)
遇見的問題一:
Traceback (most recent call last): File "G:/a001/pdf.py", line 22, insplit_pdf(fn, "1.pdf", 0, 3) File "G:/a001/pdf.py", line 7, in split_pdf pdf_src = PdfFileReader(filename) File "E:project_luffyluffylibsite-packagesPyPDF2pdf.py", line 1084, in __init__ self.read(stream) File "E:project_luffyluffylibsite-packagesPyPDF2pdf.py", line 1901, in read raise utils.PdfReadError("Could not find xref table at specified location") PyPDF2.utils.PdfReadError: Could not find xref table at specified location
還沒有找到好的解決問題的辦法,但是我在操作過程中換了一個新的pdf檔案就成功了,猜測是你的pdf檔案出了問題。
遇見的問題二:
在解決了上面的問題之後,程式可以正常的使用,但是還會出一個問題:
PdfReadWarning: Xref table not zero-indexed. ID numbers for objects will be corrected. [pdf.py:1736]
雖然不影響,但是體驗不好啊 ,繼續解決吧
import sys if not sys.warnoptions: import warnings warnings.simplefilter("ignore")
上面程式碼要加在最上面
關於PyPDF2的內容,昨天有詳細講解過,不會的小夥伴可以檢視:
(推薦作業系統:windows7系統、Python 3.9.1,DELL G3電腦。)
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/1747/viewspace-2832482/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- Python操作PDF-文字和圖片提取(使用PyPDF2和PyMuPDF)Python
- 提取pdf指定頁
- pdf編輯器如何開啟PDF檔案拆分文件頁面
- Python應用【PDF處理-pypdf2】Python
- 使用 Python 旋轉PDF頁面、或調整PDF頁面順序Python
- Python 調整PDF頁面尺寸大小Python
- Python處理pdf檔案庫 - PyPDF2詳解Python
- 如何將一個pdf拆分為多個單頁pdf?
- Python 提取PDF文字和圖片Python
- 如何透過Python程式碼旋轉PDF頁面Python
- vue3.x頁面功能拆分方式Vue
- html頁面轉PDF的功能HTML
- Python爬蟲教程-18-頁面解析和資料提取Python爬蟲
- python 網頁文字提取Python網頁
- 如何用Python批量提取PDF文字內容?Python
- C# iText 7 切分PDF,處理PDF頁面大小C#
- python的應用 | 提取指定資料夾下所有PDF檔案的頁數Python
- C#中用滑鼠移動頁面功能的實現C#
- PDF Merge PDF Splitter for Mac(PDF合併和拆分軟體)Mac
- 巧用Python的camelot庫批量提取PDF發票資訊Python
- 如何用Python從PDF檔案中提取文字詞彙Python
- PDF 分割拆分 API 資料介面API
- C#/VB.NET 合併PDF頁面C#
- html頁面轉PDF、圖片操作記錄HTML
- 怎樣用Python提取資訊呢?分享這3個Python PDF庫Python
- PDFsam Basic for mac合併拆分PDF文件Mac
- Python | 實現pdf檔案分頁Python
- C# 提取PDF中的表格C#
- 高效的PDF文字提取技術
- 提取pdf文件的目錄1.0
- Python lxml :從網頁HTML/XML提取資料PythonXML網頁HTML
- 在pycharm中用python Django來實現登陸首頁PyCharmPythonDjango
- 提取pdf目錄,並且分級
- Web頁面或URL轉換為PDF的線上工具Web
- JS 將HTML頁面轉為PDF或者World 並下載JSHTML
- PDF轉換器可以做到PDF轉Office,TXT,HTM,PDF檔案;PDF合併拆分,壓縮,加密解密!加密解密
- Python 爬蟲網頁內容提取工具xpath(一)Python爬蟲網頁
- Python 爬蟲網頁內容提取工具xpath(二)Python爬蟲網頁