文件解析Docling、Marker測評

踩坑大王發表於2024-11-26

原文網址 : https://www.cnblogs.com/Gimm/p/18570176

Docling

https://github.com/DS4SD/docling

環境安裝

直接使用文件中的

pip install docling

無法使用，因為torch和nvidia過高，與當前伺服器版本不匹配，最好是低於當前伺服器版本比較保險

python第三方庫中nvidia開頭的版本需要小於12.2，如果使用12.4無法使用

安裝步驟：

pip install torch==2.2.2 torchvision==0.17.2 torchaudio==2.2.2 -i https://pypi.tuna.tsinghua.edu.cn/simple

pip install docling --no-deps

再根據提示缺少的庫手動安裝即可

測試

測試用例1

from docling.document_converter import DocumentConverter
import time

start = time.time()

source = "https://arxiv.org/pdf/2408.09869"  # document per local path or URL
converter = DocumentConverter()
result = converter.convert(source)
print(result.document.export_to_markdown())  # output: "## Docling Technical Report[...]"
end = time.time()
print(end - start)

測試官網提供的demo，9頁pdf耗時169s

pdf中的log不顯示，只是顯示

測試用例2

改成輸入中文ppf轉pdf的檔案，29頁的pdf耗時290s，文字基本能識別出來，但會出現部分識別錯誤

Marker

https://github.com/VikParuchuri/marker?tab=readme-ov-file

文件解析效果全維度測評標準
2024-07-23
文件管理神器大搜羅！10款熱門工具深度評測
2024-09-01
關於HTML文件解析中DOM樹的構建猜測
2021-09-09
HTML
RAG文件解析利器：Deepdoc
2024-07-29
測評 | 國產“芯” · 瑞芯微 RK3568 效能解析
2022-03-30
快寶智慧解析API文件
2022-03-22
API
Element 文件中的 Markdown 解析
2021-03-01
測評 | 家佳保二代測評
2019-02-22
文件評審的四個維度
2020-07-12
pytest 內建和自定義 marker
2020-09-27
Web Page Marker Pen All In One
2024-06-09
Web
評測姬
2024-04-09
週日直播預告：從 0 開始構建 AI 評測平臺 -- 大模型產品中知識庫的測試場景（文件解析，向量化，檢索等）
2024-12-20
AI大模型
等保測評之主機測評——Centos7
2023-11-21
CentOS
安全測評基礎-安全測評常用測試工具講解
2020-10-25
AI概要設計文件評審實踐
2024-11-15
AI
工程進度管理系統測評：2024年10款主流工具全解析
2024-11-25
ABAP和Java的tag(marker) interface
2020-08-23
Java
Hyperledger Composer評測
2018-08-15
測試評論
2018-09-29
webpack5文件解析(下)
2020-10-23
Web
webpack5文件解析(上)
2020-10-16
Web
智慧HR管理系統全解析：10款頂級人事軟體深度評測
2024-07-17
亞馬遜測評是怎麼做的？測評難嗎？
2020-12-28
亞馬遜
SharePlex reader missed marker wait for xx but got xx
2020-01-09
AIGo
答讀者問(1)：非模式物種找marker；如何根據marker定義細胞型別
2021-07-23
模式型別
PHP技能評測（一）
2019-02-16
PHP
elementary OS 6 評測！
2021-09-17
軟體測試文件（終）
2018-06-29
ExoPlayer的使用與解析（官方文件翻譯）
2019-04-28
什麼是等保測評?等保測評資質有哪些?
2024-03-07
什麼是Java Marker Interface（標記介面）
2018-08-29
Java
map元件如何展示marker的callout氣泡
2021-07-28
元件
使用Marker統一關閉mybatis日誌
2020-11-25
MyBatis
等保測評乾貨錦囊，安全管理測評和安全技術測評區別和聯絡是什麼？
2021-10-27
一個好用的線上測評工具——線上測評H5
2020-07-31
H5
等保測評主要評測的內容有哪些?主要包含什麼？
2022-02-08
什麼是等保測評?哪些單位需要做等保測評?
2022-10-18

文件解析Docling、Marker測評

Docling

環境安裝

測試

Marker

相關文章