提取pdf文件的目錄1.0

redufa發表於2024-11-03

原文網址 : https://www.cnblogs.com/redufa/p/18522834


import fitz  # PyMuPDF
import pandas as pd

# 開啟PDF檔案
pdf_path = '控制之美.pdf'  # 請確保替換為正確的檔案路徑
document = fitz.open(pdf_path)

# 初始化一個列表來儲存目錄資訊
toc_list = []

# 提取目錄資訊的函式
def extract_toc(toc, level=0):
    for item in toc:
        # 確保目錄項至少包含標題
        if len(item) > 1 and item[1]:
            title = item[1]
            # 確保頁碼是數字型別
            page = item[2] if len(item) > 2 and isinstance(item[2], int) else None
            if page is not None:
                # 新增條目到列表
                toc_list.append({
                    'Title': title,
                    'Page': page,
                    'Level': level
                })
            # 如果有子條目，遞迴提取
            if len(item) > 3 and item[3]:  # 子條目在索引3
                extract_toc(item[3], level + 1)

# 獲取PDF的目錄
toc = document.get_toc(simple=False)

# 提取目錄資訊
extract_toc(toc)

# 關閉PDF檔案
document.close()

# 將列表轉換為DataFrame
toc_df = pd.DataFrame(toc_list)

# 將DataFrame輸出到CSV檔案
toc_df.to_csv('output.csv', index=False, encoding='utf-8')

提取pdf目錄，並且分級
2024-11-03
Express 文件（目錄）
2019-02-16
Express
Grafana 文件（目錄）
2018-09-01
Grafana
Xdebug中文文件-目錄
2019-02-16
文件模型中的段落，目錄，文件，是什麼意思？
2019-05-11
模型
獲取和設定pdf目錄
2020-10-26
linux文件和目錄結構
2018-12-26
Linux
提取pdf指定頁
2024-11-21
php檔案操作之提取檔案/目錄的名稱
2021-09-11
PHP
高效的PDF文字提取技術
2023-11-30
C# 提取PDF中的表格
2021-10-19
C#
PDF的資訊提取的問題
2022-01-05
Julia 1.0 中文文件
2018-08-22
文件管理 | 文件目錄結構和檔案情況的檢視與匯出
2024-10-17
文件提取工具 apache/tika
2024-05-07
Apache
Java 生成 PDF 文件
2019-04-23
Java
Python 提取PDF文字和圖片
2023-10-10
Python
librosa 音訊特徵提取的現成文件
2020-05-31
ROS音訊特徵
PDF Expert 2.5.16 中文版-實用的 PDF 文件工具
2021-01-03
PDF文件壓縮工具：Cisdem PDF Compressor for Mac
2024-01-16
Mac
PDF文件搜尋工具：PDF Search Mac版
2022-04-17
Mac
java-pdf-itext7、itextpdf 生成pdf 文件
2020-12-25
Java
Laravel 生成 PDF 文件 - tcpdf
2019-07-10
LaravelTCP
Master PDF Editor for Mac PDF文件編輯軟體
2021-08-18
ASTMac
PDF文件轉換器PDF to Word Document Converter Mac
2022-07-09
Mac
如何用Python批量提取PDF文字內容？
2018-06-27
Python
！！！提取檔案記錄！！！
2024-11-12
UML使用者指南(第2版)【帶目錄高清pdf下載】
2018-05-28
記一次正規表示式實戰，給pdf加目錄
2018-05-30
java生成簡易pdf文件
2019-03-21
Java
pdf轉換成word文件
2024-10-27
巧用Python的camelot庫批量提取PDF發票資訊
2021-09-23
Python
C# 將PDF文件轉換為Markdown文件
2024-11-01
C#
ComPDFKit - 專業的PDF文件處理SDK
2023-03-07
Linux設定中文幫助文件、常見目錄、幫助命令
2020-11-27
Linux
Python 將Word/ Exce/ PDF/ PPT文件轉為OFD文件
2024-06-03
Python
Python中用PyPDF2拆分pdf提取頁面
2021-09-11
Python
C#中PDF文件操作類
2018-09-07
C#

提取pdf文件的目錄1.0

相關文章