Python如何讀取pdf中的圖片
本篇就在Python中讀取pdf圖片較上篇讀取excel的略微複雜,相信小夥們已經準備好迎接今天的挑戰,接下來一起看看吧:
1.倒入相關庫
import fitz import time import re import os
2.具體實現
為了方便和其他模組組合,我直接寫了個函式完成這個功能,實現如下:
(1)使用正規表示式查詢PDF中的圖片
def pdf2pic(path, pic_path): ''' # 從pdf中提取圖片 :param path: pdf的路徑 :param pic_path: 圖片儲存的路徑 :return: ''' t0 = time.clock() # 使用正規表示式來查詢圖片 checkXO = r"/Type(?= */XObject)" checkIM = r"/Subtype(?= */Image)"
(2)列印PDF的相關資訊
# 開啟pdf doc = fitz.open(path) # 圖片計數 imgcount = 0 lenXREF = doc._getXrefLength() # 列印PDF的資訊 print("檔名:{}, 頁數: {}, 物件: {}".format(path, len(doc), lenXREF - 1))
(3)遍歷PDF中的物件,遇到是影像才進行下一步,不然就continue
並且我們將檔案的名字命名為word所在的路徑
# 遍歷每一個物件 for i in range(1, lenXREF): # 定義物件字串 text = doc.getObjectString(i) isXObject = re.search(checkXO, text) # 使用正規表示式檢視是否是圖片 isImage = re.search(checkIM, text) # 如果不是物件也不是圖片,則continue if not isXObject or not isImage: continue imgcount += 1 # 根據索引生成影像 pix = fitz.Pixmap(doc, i) # 根據pdf的路徑生成圖片的名稱 new_name = path.replace('\', '_') + "_img{}.png".format(imgcount) new_name = new_name.replace(':', '')
(4)將影像存為png格式
# 如果pix.n<5,可以直接存為PNG if pix.n < 5: pix.writePNG(os.path.join(pic_path, new_name)) # 否則先轉換CMYK else: pix0 = fitz.Pixmap(fitz.csRGB, pix) pix0.writePNG(os.path.join(pic_path, new_name)) pix0 = None # 釋放資源 pix = None t1 = time.clock() print("執行時間:{}s".format(t1 - t0)) print("提取了{}張圖片".format(imgcount))
(5)輸入pdf路徑,即可執行
if __name__=='__main__': # pdf路徑 path = r'E:dogcat提取圖片計算機視覺演算法工程師.pdf' pic_path = r'E:dogcat提取圖片測試' # 建立儲存圖片的資料夾 if os.path.exists(pic_path): print("資料夾已存在,請重新建立新資料夾!") raise SystemExit else: os.mkdir(pic_path) m = pdf2pic(path, pic_path)
3.結果預覽
(1)程式結果:
(2)原本的pdf:
(3)提取出來的圖片
到這裡,三種不同軟體用Python讀取圖片的方法全部講完了,大家可以根據需要自由選擇。
更多Python學習推薦:。
(推薦作業系統:windows7系統、Python 3.9.1,DELL G3電腦。)
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/755/viewspace-2832492/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- Java 讀取PDF中的文字和圖片Java
- python opencv讀取網路圖片PythonOpenCV
- python 讀取PDF表格Python
- Java 讀取PDF中的表格Java
- [Android]反射讀取drawable中圖片Android反射
- 讀取本地圖片地圖
- Java 讀取Word表格中的文字和圖片Java
- Python 提取PDF文字和圖片Python
- Java 讀取Word文字框中的文字/圖片/表格Java
- (IOS)根據bundle中的檔名讀取圖片iOS
- python批量ppt轉圖片,pdf轉圖片,word轉圖片指令碼Python指令碼
- 利用html5 file api讀取本地檔案(如圖片、PDF等)HTMLAPI
- 如何從將xcode工程中圖片pdf轉成png?XCode
- python--字串格式化用於批量讀取圖片Python字串格式化
- golang讀取pdfGolang
- 圖片怎麼轉換成PDF,圖片轉PDF教程
- JPG轉PDF如何實現?圖片批次轉換PDF的快捷方法
- Overleaf中插入pdf圖片只顯示圖片路徑的解決方式
- javascript如何獲取圖片的高度JavaScript
- c# 圖片檔案讀取C#
- 如何限制從資料庫中讀出圖片的大小資料庫
- 新手爬蟲教程:Python爬取知乎文章中的圖片爬蟲Python
- win10怎麼將pdf另存為圖片_win10如何把pdf另存為圖片Win10
- 分割pdf為圖片
- 如何在python中讀取配置檔案Python
- javascript如何獲取img圖片的尺寸JavaScript
- 03 #### 讀取靜態檔案-圖片
- 直播平臺製作,利用python批量讀取儲存圖片Python
- 如何用Python讀取xml檔案後,裁剪標註圖片和擴容資料PythonXML
- vb向資料庫中讀取單個圖片檔案資料庫
- python 讀圖片效能測試Python
- iOS儲存網路圖片和讀取本地沙盒圖片iOS
- Excel 讀取圖片並獲取儲存路徑Excel
- 說說在 Python 中,如何讀取檔案中的資料Python
- 爬取微博圖片資料存到Mysql中遇到的各種坑mysql儲存圖片爬取微博圖片MySql
- 如何用幾行程式碼讀取目錄下所有的圖片行程
- 如何通過Restful API的方式讀取SAP Commerce Cloud的Product圖片RESTAPICloud
- MATLAB讀取圖片遇到長寬的問題Matlab