Magic-PDF：端到端PDF文件解析神器構建高質量RAG必備！

深度学习机器發表於2024-07-31

原文網址 : https://www.cnblogs.com/deeplearningmachine/p/18335641

專案結構

流程解析

預處理的作用是判斷文件內容是否需要進行OCR識別，如果是普通可編輯的PDF文件，則使用PyMuPDF庫提取元資訊。

模型層除了常規的OCR、版面結構分析外，還有公式檢測模型，可提取公式內容，用於後續把公式轉化為Latex格式。但是目前暫無表格內容識別，官方預計1個月之內會放出。

管線層主要是把上面模型的結果進行加工處理。比如把公式轉化為Latex格式、圖表儲存起來成為圖片、把文字框進行排序和合並以及過濾掉無用的資訊（頁首、頁尾等）。

輸出層其實就是結果資料夾中的內容。結果資料夾中有layout.pdf、span.pdf、xx_middle.json、xx_model.json、xx_content_list.json、xx.md、images資料夾。

layout.pdf 可以看到版面結構的識別結果

span.pdf 可以看到具體每個文字框的內容

xx_middle.json 是用OCR或者PDF庫解析出的文件元資訊，包含文字塊型別、內容和座標。
xx_model.json 是版面分析結果的內容，包含文字塊的型別、座標和置信度。
xx_content_list.json 中是文件的型別和具體內容，圖表則用img_path指定存放的圖片的路徑。

實踐指南

建立一個python環境，建議python3.10以上

conda create -n MinerU python=3.10
conda activate MinerU

接著安裝magic-pdf和detectron2這個包

pip install magic-pdf[full-cpu]
pip install detectron2 --extra-index-url https://myhloli.github.io/wheels/

magic-pdf --version

注意檢視版本是否在0.6.x以上，否則會有問題。英特爾晶片的Mac電腦由於某些庫的依賴原因，只能到0.5.x的版本。對於M系列的晶片，經過實測發現不支援mps加速，還是隻能使用CPU。

接著下載模型權重：模型地址
接著把該倉庫中的magic-pdf.template.json檔案複製到本地，修改models-dir為下載到本地的模型路徑。

{
  "models-dir": "/tmp/models"
}

需要注意的是這個路徑是絕對路徑

總結

優點

比較準確。從上面的圖可以看出，無論是可編輯的PDF還是掃描版的PDF，都能非常好的區分出版面中不同型別的部分，而且最終的結果是以Markdown的格式儲存的，可以很容易把不同章節、不同自然段按需進行切分。

缺點

硬體支援不夠完善，目前存在很多不相容的情況。M系列晶片暫時無法解決Bug，GPU未測過是否存在其他問題。而用CPU實在是太慢了，10幾頁的PDF就需要處理約5分鐘。
版面結構進行排序和組合貌似用的全是自定義的規則函式，不太方便開發者進行復用或者微調。
表格內容暫時無法識別。目前只能把表格部分提取為圖片儲存起來。

後端程式設計師必備：書寫高質量SQL的30條建議
2020-03-21
後端程式設計師SQL
RAG 2.0架構詳解：構建端到端檢索增強生成系統
2024-04-19
架構
mac必備終端神器iTerm2 中文漢化版！
2021-12-29
Mac
RAG文件解析利器：Deepdoc
2024-07-29
[轉載]程式設計師必備：書寫高質量SQL的30條建議
2020-10-22
程式設計師SQL
如何為 5G 網路構建端到端的安全？
2021-06-28
FutureBuilder and StreamBuilder 優雅的構建高質量專案
2020-06-30
Rebuild
Tresorit推出端到端加密文件掃描應用
2019-03-13
加密
端到端-架構收集整理
2024-08-20
架構
Signal如何使用Rust構建大規模端到端加密視訊通話？
2021-12-16
Rust加密
人體解析端到端框架——CE2P
2019-02-21
框架
Web 端的測試 Selenium 用法必備
2019-03-04
Web
看視訊必備：YouTube客戶端
2022-07-06
客戶端
如何使用 FutureBuilder and StreamBuilder 優雅的構建高質量專案
2020-06-30
Rebuild
解構流儲存 — Pravega，與 Flink 構建端到端的大資料流水處理線
2022-02-17
大資料
應雲而生，一文看懂端到端的可觀測體系構建
2022-01-24
移動端質量框架圖例
2024-09-26
框架
Mac 效率工具必備神器 —— Alfred
2020-10-05
MacAlfred
Java 最全工具類（後端開發必備）
2018-09-09
Java後端
IT 專業人士的必備遠端工具——radmin
2020-09-23
iTerm2 v3.4.9中文版,mac必備的一款終端神器
2021-08-22
Mac
2022 re:Invent ：亞馬遜雲科技構建端到端的雲原生資料戰略
2023-01-05
亞馬遜
程式設計師跳槽必備神器
2019-12-10
程式設計師
後端開發必備的 RestFul API 知識
2019-10-11
後端RESTAPI
golang 後端技術開發必備總結
2022-05-02
Golang後端
轉換不同文件到pdf
2024-07-30
利用powershell轉wps文件到pdf
2024-07-07
PostgreSQL WAL解析：構建WAL記錄準備
2019-09-08
SQL
PDCA迴圈——快速提升軟體質量的必備工具
2022-04-24
螞蟻金服 mPaaS 服務端核心元件：億級併發下的移動端到端網路接入架構解析
2018-12-28
服務端元件架構
開發者談如何以實際行動構建高質量遊戲
2022-03-30
遊戲
現代後端開發者必備技能-2018版
2018-05-09
後端
前後端必備Linux基礎知識大科普
2018-08-09
後端Linux
移動端效能測試必備工具 PerfDog 效能狗
2020-09-01
Linux雲端計算-03_必備基礎命令
2021-07-07
Linux
端到端拉通
2018-03-19
LLM學習(四)——構建 RAG 應用
2024-04-24
文盤rust--使用 Rust 構建RAG
2024-10-08
Rust

Magic-PDF：端到端PDF文件解析神器 構建高質量RAG必備！

專案結構

流程解析

實踐指南

總結

優點

缺點

相關文章

Magic-PDF：端到端PDF文件解析神器構建高質量RAG必備！