文件解析Docling、Marker測評

踩坑大王發表於2024-11-26

Docling

https://github.com/DS4SD/docling

環境安裝

直接使用文件中的

pip install docling

無法使用,因為torch和nvidia過高,與當前伺服器版本不匹配,最好是低於當前伺服器版本比較保險
image
image

python第三方庫中nvidia開頭的版本需要小於12.2,如果使用12.4無法使用

安裝步驟:

pip install torch==2.2.2 torchvision==0.17.2 torchaudio==2.2.2 -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install docling --no-deps

再根據提示缺少的庫手動安裝即可

測試

  1. 測試用例1
from docling.document_converter import DocumentConverter
import time

start = time.time()

source = "https://arxiv.org/pdf/2408.09869"  # document per local path or URL
converter = DocumentConverter()
result = converter.convert(source)
print(result.document.export_to_markdown())  # output: "## Docling Technical Report[...]"
end = time.time()
print(end - start)

測試官網提供的demo,9頁pdf耗時169s

image

pdf中的log不顯示,只是顯示

  1. 測試用例2

改成輸入中文ppf轉pdf的檔案,29頁的pdf耗時290s,文字基本能識別出來,但會出現部分識別錯誤
image

image

Marker

https://github.com/VikParuchuri/marker?tab=readme-ov-file

相關文章