PyPDF2
用來處理pdf檔案的工具集
提供了一批處理PDF檔案的計算功能,支援獲取資訊、分隔/整合檔案、加密解密等,完全Python語言實現,不需要額外依賴,功能穩定
NLTK
自然語言文字處理第三方庫
提供了一批簡單易用的自然語言文字處理功能,支援語言文字分類、標記、語法句法、語義分析等,是最優秀的Python自然語言處理庫
官方網站:www.nltk.org
Python-docx
建立或更新Microsoft Word檔案的第三方庫
提供建立或更新.doc .docx等檔案的計算功能,增加並配置段落、圖片、表格、文字等功能