Docling
https://github.com/DS4SD/docling
環境安裝
直接使用文件中的
pip install docling
無法使用,因為torch和nvidia過高,與當前伺服器版本不匹配,最好是低於當前伺服器版本比較保險
python第三方庫中nvidia開頭的版本需要小於12.2,如果使用12.4無法使用
安裝步驟:
pip install torch==2.2.2 torchvision==0.17.2 torchaudio==2.2.2 -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install docling --no-deps
再根據提示缺少的庫手動安裝即可
測試
- 測試用例1
from docling.document_converter import DocumentConverter
import time
start = time.time()
source = "https://arxiv.org/pdf/2408.09869" # document per local path or URL
converter = DocumentConverter()
result = converter.convert(source)
print(result.document.export_to_markdown()) # output: "## Docling Technical Report[...]"
end = time.time()
print(end - start)
測試官網提供的demo,9頁pdf耗時169s
pdf中的log不顯示,只是顯示
- 測試用例2
改成輸入中文ppf轉pdf的檔案,29頁的pdf耗時290s,文字基本能識別出來,但會出現部分識別錯誤
Marker
https://github.com/VikParuchuri/marker?tab=readme-ov-file