[PY] Word 處理, 技術選型, Word 轉 PDF

kingdelee發表於2019-08-03

1. 安裝win32庫

python -m pip install pypiwin32

缺點:
僅windows平臺,且裝有office

優點:
部分API十分靈活,可以直接以微軟的API文件進行操作

整體架構

Tables
-- Table
-- Columns
-- Column
-- Cells
-- Cell
-- Rows
-- Row

微軟api

word:
https://docs.microsoft.com/en-us/dotnet/ap...

https://docs.microsoft.com/zh-cn/office/vb...

excel:
https://docs.microsoft.com/en-us/dotnet/ap...
https://docs.microsoft.com/zh-cn/office/vb...

詳解Row:

注意,當Row有單元格合併,則無法通過 Rows[某行索引] 讀取到某行,會報錯
解決:通過 Cells(行索引, 列索引) 去讀取具體的單元格
注意:行索引與列索引 都是從1開始,對於0的索引與1的索引都是指向同一個

索引如圖:

【PY】Word 處理, 技術選型, Word 轉 PDF

匯出pdf

from win32com.client import Dispatch, constants, gencache

def doc2pdf(input, output):
    w = Dispatch('Word.Application')
    try:
        # 開啟檔案
        doc = w.Documents.Open(input, ReadOnly=1)
        # 轉換檔案
        doc.ExportAsFixedFormat(output, constants.wdExportFormatPDF,
                                Item=constants.wdExportDocumentWithMarkup,
                                CreateBookmarks=constants.wdExportCreateHeadingBookmarks)
        return True
    except:
        return False
    finally:
        w.Quit(constants.wdDoNotSaveChanges)

def GenerateSupport():
    gencache.EnsureModule('{00020905-0000-0000-C000-000000000046}', 0, 8, 4)

def main():
    input = 'C:\\test\\Word_2_PDF\\Docfile.docx'
    output = 'C:\\test\\Word_2_PDF\\2.pdf'
    # GenerateSupport()
    rc = doc2pdf(input, output)
    if rc:
        print('轉換成功')
    else:
        print('轉換失敗')

if __name__ == '__main__':
    main()

2. comtypes

失敗

Traceback (most recent call last):
  File "/Users/kingdelee/PycharmProjects/SIL/src/py/study/toPdf/MyComtypes.py", line 1, in <module>
    from comtypes import client
  File "/usr/local/lib/python3.7/site-packages/comtypes/__init__.py", line 23, in <module>
    from _ctypes import COMError
ImportError: cannot import name 'COMError' from '_ctypes' (/Library/Frameworks/Python.framework/Versions/3.7/lib/python3.7/lib-dynload/_ctypes.cpython-37m-darwin.so)
from comtypes import client

class ComTypes:

    def ppt_pdf(self, path):
        # PPT 轉 PDF
        pdf_path = path.replace('ppt', 'pdf')  # pdf儲存路徑 推薦使用絕對路徑
        try:
            p = client.CreateObject("PowerPoint.Application")
            ppt = p.Presentations.Open(path)
            ppt.ExportAsFixedFormat(pdf_path, 2, PrintRange=None)
            ppt.Close()
            p.Quit()
        except Exception as e:
            pass

    def word_pdf(self, path):
        # Word轉pdf
        pdf_path = path.replace('doc', 'pdf')
        w = client.CreateObject("Word.Application")
        doc = w.Documents.Open(path)
        doc.ExportAsFixedFormat(pdf_path, 17)
        doc.Close()
        w.Quit()

    def excel_pdf(self, path):
        # Excel轉pdf
        pdf_path = path.replace('xls', 'pdf')
        xlApp = client.CreateObject("Excel.Application")
        books = xlApp.Workbooks.Open(path)
        books.ExportAsFixedFormat(0, pdf_path)
        xlApp.Quit()

if __name__ == '__main__':
    comty  = ComTypes()
    comty.word_pdf("/Users/kingdelee/Downloads/Word_2_PDF/Docfile.docx")

3. pdfkit pdf 水印

4. python-docx-template

模板方式
官方文件:
https://docxtpl.readthedocs.io/en/latest/#

參考:
https://blog.csdn.net/weixin_42670653/arti...
https://blog.csdn.net/DaShu0612/article/de...

安裝:
pip install docxtpl

5. python-docx

優點:不依賴作業系統,跨平臺

參考:
https://blog.csdn.net/edogawachia/article/...
https://www.jb51.net/article/143936.htm

5.1 結構說明

docx是以Document為文字,對paragraph、table等重要的結構進行解析

word中某內容是普通的文字,對應用paragraph解析

【PY】Word 處理, 技術選型, Word 轉 PDF

word中某內容是表格,即對應用table解析
而table中的一個單元格的內容,實際上也可以看做是一個paragraph

【PY】Word 處理, 技術選型, Word 轉 PDF

run作為paragraph的內容物件,一般用來處理內容的新增或者修改

【PY】Word 處理, 技術選型, Word 轉 PDF

文字中的樣式由style類進行描繪

【PY】Word 處理, 技術選型, Word 轉 PDF

然而,font是run中的屬性,修改font的時候,需要從run著手

【PY】Word 處理, 技術選型, Word 轉 PDF

PT修改字型大小

【PY】Word 處理, 技術選型, Word 轉 PDF

5.2 讀取文件

document = Document('test.docx')

5.3 讀取表格

for table in document.tables

5.4 讀取行

for row in table.rows

5.4.1 讀取單元格

for cell in row.cells

5.4.2 讀取單元格內容

文字:

text = cell.text

如之前所說,cell的內容實際上也是可以由多個paragraph構成的
一般情況下,cell有且只有一個paragraph,paragraph有且只有一個run

paragraph = cell.paragraphs[0]
run = paragraph.runs[0]

5.4.3 替換內容

可以先清除

paragraph = paragraph.clear()
run = paragraph.add_run("新的內容")

5.5 修改字型的大小、型號、顏色

font = run.font
font.size = Pt(15)
font.name = 'SimSun'
font.color.rgb = RGBColor(54,95,145)
font.bold = True
font.underline = True

5.5.1 設定段落文字居中

paragraph.alignment = WD_PARAGRAPH_ALIGNMENT.CENTER

5.6 單元格與表的關係

【PY】Word 處理, 技術選型, Word 轉 PDF

cell = table.cell(0, 1)

5.6.1 新增行、合併單元格

要想在某個單元格下方新增一行
可以使用組合操作,先對table新增行,再進行cell合併操作,實現特定的結構

本作品採用《CC 協議》,轉載必須註明作者和本文連結

相關文章