Python如何讀取pdf中的圖片

pswyjz發表於2021-09-11

本篇就在Python中讀取pdf圖片較上篇讀取excel的略微複雜,相信小夥們已經準備好迎接今天的挑戰,接下來一起看看吧:

1.倒入相關庫

import fitz import time import re import os


2.具體實現

為了方便和其他模組組合,我直接寫了個函式完成這個功能,實現如下:

(1)使用正規表示式查詢PDF中的圖片

def pdf2pic(path, pic_path):    '''    # 從pdf中提取圖片    :param path: pdf的路徑    :param pic_path: 圖片儲存的路徑    :return:    '''    t0 = time.clock()    # 使用正規表示式來查詢圖片    checkXO = r"/Type(?= */XObject)"    checkIM = r"/Subtype(?= */Image)"  

(2)列印PDF的相關資訊

   # 開啟pdf    doc = fitz.open(path)    # 圖片計數    imgcount = 0    lenXREF = doc._getXrefLength()    # 列印PDF的資訊    print("檔名:{}, 頁數: {}, 物件: {}".format(path, len(doc), lenXREF - 1))

(3)遍歷PDF中的物件,遇到是影像才進行下一步,不然就continue

並且我們將檔案的名字命名為word所在的路徑

   # 遍歷每一個物件    for i in range(1, lenXREF):        # 定義物件字串        text = doc.getObjectString(i)        isXObject = re.search(checkXO, text)        # 使用正規表示式檢視是否是圖片        isImage = re.search(checkIM, text)        # 如果不是物件也不是圖片,則continue        if not isXObject or not isImage:            continue        imgcount += 1        # 根據索引生成影像        pix = fitz.Pixmap(doc, i)        # 根據pdf的路徑生成圖片的名稱        new_name = path.replace('\', '_') + "_img{}.png".format(imgcount)        new_name = new_name.replace(':', '')

(4)將影像存為png格式

       # 如果pix.n<5,可以直接存為PNG        if pix.n < 5:            pix.writePNG(os.path.join(pic_path, new_name))        # 否則先轉換CMYK        else:            pix0 = fitz.Pixmap(fitz.csRGB, pix)            pix0.writePNG(os.path.join(pic_path, new_name))            pix0 = None        # 釋放資源        pix = None        t1 = time.clock()        print("執行時間:{}s".format(t1 - t0))        print("提取了{}張圖片".format(imgcount))

(5)輸入pdf路徑,即可執行

if __name__=='__main__':    # pdf路徑    path = r'E:dogcat提取圖片計算機視覺演算法工程師.pdf'    pic_path = r'E:dogcat提取圖片測試'    # 建立儲存圖片的資料夾    if os.path.exists(pic_path):        print("資料夾已存在,請重新建立新資料夾!")        raise SystemExit    else:        os.mkdir(pic_path)    m = pdf2pic(path, pic_path)

3.結果預覽

(1)程式結果:

Python如何讀取pdf中的圖片

(2)原本的pdf:

Python如何讀取pdf中的圖片

(3)提取出來的圖片

到這裡,三種不同軟體用Python讀取圖片的方法全部講完了,大家可以根據需要自由選擇。

更多Python學習推薦:

(推薦作業系統:windows7系統、Python 3.9.1,DELL G3電腦。)

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/755/viewspace-2832492/,如需轉載,請註明出處,否則將追究法律責任。

相關文章