文件解析效果全維度測評標準

techlead_krischang發表於2024-07-23

TextIn文件解析測評工具,全面評測文件解析產品能力

關注TechLead,復旦AI博士,分享AI領域全維度知識與研究。擁有10+年AI領域研究經驗、復旦機器人智慧實驗室成員,國家級大學生賽事評審專家,發表多篇SCI核心期刊學術論文,上億營收AI產品研發負責人。

file

今天向大家介紹一款全面展示文件解析產品能力的工具——TextIn文件解析測評工具,https://github.com/intsig/markdown_tester

這個工具的主要作用是幫助需要解析PDF的使用者直觀地篩選出最適合自己場景的產品。

使用者需求的多樣性

TextIn團隊在與使用者的交流中發現,使用者的需求非常多樣化,包括年報、財報、論文、政策檔案、企業內部檔案、教科書、試卷和公式等。儘管所有解析產品的目標都是成為“全能選手”,但在當前階段,各產品能力的差異仍然存在。因此,提供一個能節省使用者選擇和測試時間的工具是非常必要的,這也是我們推出TextIn文件解析測評工具的初衷。希望這個工具能夠幫助使用者更好地聚焦於業務場景。

測評指標介紹

TextIn文件解析測評工具將測評指標分為五個維度:表格、段落、標題、閱讀順序和公式。這些維度透過定量測評來展示各解析產品的具體表現。
file

工具使用方法

測評工具的使用方法非常便捷,支援上傳任意樣本。以下是具體的操作步驟:

安裝軟體包

執行以下命令安裝必要的軟體包:

./install.sh

樣本檔案組織

將待測評樣本按照以下結構放置:

dataset/
├── pred/
│   ├── gpt-4o/
│   ├── vendor_A/
│   ├── vendor_B/
│   ├── ...
├── gt/

執行測評命令

使用以下命令進行測評:

python run_test.py --pred_path path_to_pred_md --gt_path path_to_gt_md

其中:

  • path_to_pred_md:預測值檔案所在資料夾。
  • path_to_gt_md:真值檔案所在資料夾。

示例與結果展示

TextIn官方提供了一個測試集案例來展示用法。輸出結果包括表格資料結果和直觀的雷達圖。這款工具被稱為文件解析效果評估的“瑞士軍刀”,無論使用者是文件處理的專家,還是有文件解析需求的使用者,都能快速、高效地評估各款解析產品在業務場景下的能力。
file
file

工具公開的初衷

TextIn團隊決定將這款內部使用的“瑞士軍刀”公開,主要是因為近期收到越來越多的測評工具需求。在沒有測試工具之前,使用者評估各款解析產品效果主要依靠問答效果隨機測試,並人工二次檢索文件,這種方式不僅耗費人力,而且科學性低、準確度低。

在使用TextIn團隊分享的測試工具後,客戶不再需要“肉眼觀測”解析效果。這主要是因為大語言模型的發展改變了需求和產品形態。傳統的OCR技術在處理表格時,可能只輸出每個單元格的位置和數值。但當用大模型來回答問題時,更需要的是表格中的資料內容,而且資料越清晰,答案的質量就越高。

評估文件解析產品

如何比較不同文件解析產品在業務場景下的表現?TextIn團隊公開測評工具的目的就是將這些問題透明化。因此,在設計和最佳化這套工具的過程中,TextIn團隊關注以下要素:

  1. 確定評測的主要目標和關鍵指標
  2. 選擇能夠準確反映效能的評價指標
  3. 減少不必要的複雜性
  4. 確保符合行業標準和最佳實踐
  5. 讓評價結果易於解讀和理解
  6. 保持評價過程的透明度

希望TextIn團隊的測評工具能夠幫助大家解決評估所需產品的難題。

測評工具入口連結

如有幫助,請多關注
TeahLead KrisChang,10+年的網際網路和人工智慧從業經驗,10年+技術和業務團隊管理經驗,同濟軟體工程本科,復旦工程管理碩士,阿里雲認證雲服務資深架構師,上億營收AI產品業務負責人。

相關文章