文件解析效果全維度測評標準

techlead_krischang發表於2024-07-23

TextIn文件解析測評工具，全面評測文件解析產品能力

關注TechLead，復旦AI博士，分享AI領域全維度知識與研究。擁有10+年AI領域研究經驗、復旦機器人智慧實驗室成員，國家級大學生賽事評審專家，發表多篇SCI核心期刊學術論文，上億營收AI產品研發負責人。

file

今天向大家介紹一款全面展示文件解析產品能力的工具——TextIn文件解析測評工具，https://github.com/intsig/markdown_tester

這個工具的主要作用是幫助需要解析PDF的使用者直觀地篩選出最適合自己場景的產品。

使用者需求的多樣性

TextIn團隊在與使用者的交流中發現，使用者的需求非常多樣化，包括年報、財報、論文、政策檔案、企業內部檔案、教科書、試卷和公式等。儘管所有解析產品的目標都是成為“全能選手”，但在當前階段，各產品能力的差異仍然存在。因此，提供一個能節省使用者選擇和測試時間的工具是非常必要的，這也是我們推出TextIn文件解析測評工具的初衷。希望這個工具能夠幫助使用者更好地聚焦於業務場景。

測評指標介紹

TextIn文件解析測評工具將測評指標分為五個維度：表格、段落、標題、閱讀順序和公式。這些維度透過定量測評來展示各解析產品的具體表現。
file

工具使用方法

測評工具的使用方法非常便捷，支援上傳任意樣本。以下是具體的操作步驟：

安裝軟體包

執行以下命令安裝必要的軟體包：

./install.sh

樣本檔案組織

將待測評樣本按照以下結構放置：

dataset/
├── pred/
│   ├── gpt-4o/
│   ├── vendor_A/
│   ├── vendor_B/
│   ├── ...
├── gt/

執行測評命令

使用以下命令進行測評：

python run_test.py --pred_path path_to_pred_md --gt_path path_to_gt_md

其中：

path_to_pred_md：預測值檔案所在資料夾。
path_to_gt_md：真值檔案所在資料夾。

示例與結果展示

TextIn官方提供了一個測試集案例來展示用法。輸出結果包括表格資料結果和直觀的雷達圖。這款工具被稱為文件解析效果評估的“瑞士軍刀”，無論使用者是文件處理的專家，還是有文件解析需求的使用者，都能快速、高效地評估各款解析產品在業務場景下的能力。
file
file

工具公開的初衷

TextIn團隊決定將這款內部使用的“瑞士軍刀”公開，主要是因為近期收到越來越多的測評工具需求。在沒有測試工具之前，使用者評估各款解析產品效果主要依靠問答效果隨機測試，並人工二次檢索文件，這種方式不僅耗費人力，而且科學性低、準確度低。

在使用TextIn團隊分享的測試工具後，客戶不再需要“肉眼觀測”解析效果。這主要是因為大語言模型的發展改變了需求和產品形態。傳統的OCR技術在處理表格時，可能只輸出每個單元格的位置和數值。但當用大模型來回答問題時，更需要的是表格中的資料內容，而且資料越清晰，答案的質量就越高。

評估文件解析產品

如何比較不同文件解析產品在業務場景下的表現？TextIn團隊公開測評工具的目的就是將這些問題透明化。因此，在設計和最佳化這套工具的過程中，TextIn團隊關注以下要素：

確定評測的主要目標和關鍵指標
選擇能夠準確反映效能的評價指標
減少不必要的複雜性
確保符合行業標準和最佳實踐
讓評價結果易於解讀和理解
保持評價過程的透明度

希望TextIn團隊的測評工具能夠幫助大家解決評估所需產品的難題。

測評工具入口連結

如有幫助，請多關注
TeahLead KrisChang，10+年的網際網路和人工智慧從業經驗，10年+技術和業務團隊管理經驗，同濟軟體工程本科，復旦工程管理碩士，阿里雲認證雲服務資深架構師，上億營收AI產品業務負責人。

文件解析Docling、Marker測評
2024-11-26
文件評審的四個維度
2020-07-12
外匯平臺全維度評測｜EBC金融集團優缺點分析評價
2021-08-23
揭秘 VMAF 影片質量評測標準
2020-12-08
工程進度管理系統測評：2024年10款主流工具全解析
2024-11-25
目標檢測模型的評價標準-AP與mAP
2022-12-02
模型
ORACLE RAC的全自動打補丁標準化文件
2022-12-02
Oracle
高階測試和資深測試的評判標準
2025-01-17
18-網路安全測評技術與標準
2024-11-02
軟體測評中心▏軟體產品測試的准入準出標準有哪些?
2022-11-16
評分卡模型的評分標準
2019-01-04
模型
準確率評價指標
2020-10-05
指標
[FFMpeg] 非標準解析度視訊Dump YUV注意事項
2021-10-10
軟體驗收測評報告怎麼做？軟體測評報告費用標準
2022-08-10
多維標度法
2024-10-11
評論稽核標準（暫行版）
2020-04-04
測試標準1
2019-04-09
普益標準：2019年銀行淨值型理財產品全解析
2020-01-02
GB標準文件爬蟲下載程式
2024-04-11
爬蟲
Vue 元件命名，CSS的標準文件流
2022-01-13
Vue元件CSS
多目標跟蹤全解析，全網最全
2020-10-20
模組轉測標準
2020-11-05
垃圾遊戲的17條評判標準
2019-07-16
遊戲
devops工具鏈基建建設評價標準
2023-04-12
dev
數倉中指標-標籤，維度-度量，自然鍵-代理鍵等各名詞解析及關係
2021-09-09
指標
數倉中指標-標籤，維度-度量，自然鍵-代理鍵等各名詞術語深度解析
2021-09-15
指標
智慧HR管理系統全解析：10款頂級人事軟體深度評測
2024-07-17
技保人員評價標準是客觀的
2023-04-14
擁塞控制演算法的評價標準
2019-06-12
演算法
JMeter：效能測試利器全解析
2024-08-25
JMeter
Go net/http 標準庫思維導圖
2020-11-05
GoHTTP
AI應用之根據行業標準生成PRD文件
2024-07-26
AI行業
測試用例設計標準
2023-02-02
如何評價美顏api中人臉識別和人臉檢測的準確度？
2021-11-23
API
OceanBase 通過工信部電子標準院首批開源專案成熟度評估
2021-12-31
OKR與多維度績效指標評估體系融合，有效提升員工執行
2024-10-10
OKR指標
AbutionGraph中的多標籤/多維度
2021-01-01
電話機器人效果的核心標準是什麼
2021-08-04
機器人