1. 安裝win32庫
python -m pip install pypiwin32
缺點:
僅windows平臺,且裝有office
優點:
部分API十分靈活,可以直接以微軟的API文件進行操作
整體架構
Tables
-- Table
-- Columns
-- Column
-- Cells
-- Cell
-- Rows
-- Row
微軟api
word:
https://docs.microsoft.com/en-us/dotnet/ap...
https://docs.microsoft.com/zh-cn/office/vb...
excel:
https://docs.microsoft.com/en-us/dotnet/ap...
https://docs.microsoft.com/zh-cn/office/vb...
詳解Row:
注意,當Row有單元格合併,則無法通過 Rows[某行索引] 讀取到某行,會報錯
解決:通過 Cells(行索引, 列索引) 去讀取具體的單元格
注意:行索引與列索引 都是從1開始,對於0的索引與1的索引都是指向同一個
索引如圖:
匯出pdf
from win32com.client import Dispatch, constants, gencache
def doc2pdf(input, output):
w = Dispatch('Word.Application')
try:
# 開啟檔案
doc = w.Documents.Open(input, ReadOnly=1)
# 轉換檔案
doc.ExportAsFixedFormat(output, constants.wdExportFormatPDF,
Item=constants.wdExportDocumentWithMarkup,
CreateBookmarks=constants.wdExportCreateHeadingBookmarks)
return True
except:
return False
finally:
w.Quit(constants.wdDoNotSaveChanges)
def GenerateSupport():
gencache.EnsureModule('{00020905-0000-0000-C000-000000000046}', 0, 8, 4)
def main():
input = 'C:\\test\\Word_2_PDF\\Docfile.docx'
output = 'C:\\test\\Word_2_PDF\\2.pdf'
# GenerateSupport()
rc = doc2pdf(input, output)
if rc:
print('轉換成功')
else:
print('轉換失敗')
if __name__ == '__main__':
main()
2. comtypes
失敗
Traceback (most recent call last):
File "/Users/kingdelee/PycharmProjects/SIL/src/py/study/toPdf/MyComtypes.py", line 1, in <module>
from comtypes import client
File "/usr/local/lib/python3.7/site-packages/comtypes/__init__.py", line 23, in <module>
from _ctypes import COMError
ImportError: cannot import name 'COMError' from '_ctypes' (/Library/Frameworks/Python.framework/Versions/3.7/lib/python3.7/lib-dynload/_ctypes.cpython-37m-darwin.so)
from comtypes import client
class ComTypes:
def ppt_pdf(self, path):
# PPT 轉 PDF
pdf_path = path.replace('ppt', 'pdf') # pdf儲存路徑 推薦使用絕對路徑
try:
p = client.CreateObject("PowerPoint.Application")
ppt = p.Presentations.Open(path)
ppt.ExportAsFixedFormat(pdf_path, 2, PrintRange=None)
ppt.Close()
p.Quit()
except Exception as e:
pass
def word_pdf(self, path):
# Word轉pdf
pdf_path = path.replace('doc', 'pdf')
w = client.CreateObject("Word.Application")
doc = w.Documents.Open(path)
doc.ExportAsFixedFormat(pdf_path, 17)
doc.Close()
w.Quit()
def excel_pdf(self, path):
# Excel轉pdf
pdf_path = path.replace('xls', 'pdf')
xlApp = client.CreateObject("Excel.Application")
books = xlApp.Workbooks.Open(path)
books.ExportAsFixedFormat(0, pdf_path)
xlApp.Quit()
if __name__ == '__main__':
comty = ComTypes()
comty.word_pdf("/Users/kingdelee/Downloads/Word_2_PDF/Docfile.docx")
3. pdfkit pdf 水印
4. python-docx-template
模板方式
官方文件:
https://docxtpl.readthedocs.io/en/latest/#
參考:
https://blog.csdn.net/weixin_42670653/arti...
https://blog.csdn.net/DaShu0612/article/de...
安裝:
pip install docxtpl
5. python-docx
優點:不依賴作業系統,跨平臺
參考:
https://blog.csdn.net/edogawachia/article/...
https://www.jb51.net/article/143936.htm
5.1 結構說明
docx是以Document為文字,對paragraph、table等重要的結構進行解析
word中某內容是普通的文字,對應用paragraph解析
word中某內容是表格,即對應用table解析
而table中的一個單元格的內容,實際上也可以看做是一個paragraph
run作為paragraph的內容物件,一般用來處理內容的新增或者修改
文字中的樣式由style類進行描繪
然而,font是run中的屬性,修改font的時候,需要從run著手
PT修改字型大小
5.2 讀取文件
document = Document('test.docx')
5.3 讀取表格
for table in document.tables
5.4 讀取行
for row in table.rows
5.4.1 讀取單元格
for cell in row.cells
5.4.2 讀取單元格內容
文字:
text = cell.text
如之前所說,cell的內容實際上也是可以由多個paragraph構成的
一般情況下,cell有且只有一個paragraph,paragraph有且只有一個run
paragraph = cell.paragraphs[0]
run = paragraph.runs[0]
5.4.3 替換內容
可以先清除
paragraph = paragraph.clear()
run = paragraph.add_run("新的內容")
5.5 修改字型的大小、型號、顏色
font = run.font
font.size = Pt(15)
font.name = 'SimSun'
font.color.rgb = RGBColor(54,95,145)
font.bold = True
font.underline = True
5.5.1 設定段落文字居中
paragraph.alignment = WD_PARAGRAPH_ALIGNMENT.CENTER
5.6 單元格與表的關係
cell = table.cell(0, 1)
5.6.1 新增行、合併單元格
要想在某個單元格下方新增一行
可以使用組合操作,先對table新增行,再進行cell合併操作,實現特定的結構
本作品採用《CC 協議》,轉載必須註明作者和本文連結