從資料提取到管理:合合資訊的智慧文件處理全方位解析【合合資訊智慧文件處理百寶箱】

申公豹發表於2024-10-31

一、引言

在現代資訊時代,文件解析已經成為許多企業和開發者的核心需求。合合資訊在今年的 CSDN 1024 程式設計師節上分享的“智慧文件處理百寶箱”,為開發者提供了一整套高效、精準的文件處理工具,助力各行各業的開發者從容應對不同文件解析場景。本文將深入探討“百寶箱”的主要功能、應用場景以及其背後的核心技術。
image.png
合合資訊智慧文件處理“百寶箱”主要解決了以下幾個核心問題:

  1. 複雜文件解析與展示問題:在面對結構複雜、版式多樣的文件時,傳統解析工具往往效果有限。百寶箱中的 TextIn ParseX 提供了強大的視覺化文件解析能力,支援多種格式的文件展示,幫助開發者直觀地檢視和校對解析結果。
  2. 大模型問答的幻覺問題:在大模型問答系統中,由於長文字資訊的複雜性,模型容易出現“幻覺”,即生成錯誤或不相關的答案。acge 向量化模型透過精確的資訊嵌入和高效的相似度計算,大幅提升了文件塊的召回和檢索準確性,有效減輕了幻覺問題。
  3. 文件解析效果評估問題:目前市面上的文件解析工具種類繁多,但缺乏統一的效果評估標準。百寶箱的 markdown_tester 工具能夠定量評估解析結果的準確性,幫助開發者快速篩選和驗證工具的解析效果,降低選擇和除錯成本。
  4. 知識庫搭建的效率與準確性問題:對於知識庫的構建,資料準確性和可控性至關重要。百寶箱能夠精確解析和提取文件內容,確保知識庫的資料準確性,並且能處理大量多型別文件(如技術文件、政策檔案),加快了知識庫的搭建效率。
  5. 多語言和跨國業務的文件翻譯問題:百寶箱有效助力外語文件解析,支援多語言環境,同時保持文件的原有格式。這對於跨國企業在內容分發和業務擴充套件中,提供了便捷、準確的多語言支援。

透過解決這些問題,合合資訊的智慧文件處理“百寶箱”助力開發者和企業在文件處理領域提高效率、降低成本,實現更高質量的業務支援和資訊管理。

image.png

二、智慧文件處理“百寶箱”概述

智慧文件處理“百寶箱”由合合資訊開發,覆蓋文件解析的多環節,能夠支援批次、高效解析多種文件型別,並適配多語言環境。其核心工具包括:

  1. 視覺化文件解析前端 TextIn ParseX:為複雜文件提供高效的視覺化解析功能;
  2. 向量化模型 acge-embedding:最佳化長文件資訊抽取的精度,支援大規模資訊檢索和內容稽核;
  3. 文件解析測評工具 markdown_tester:提供定量的測評機制,使開發者能便捷、準確地評估文件解析效果。

三、視覺化文件解析前端TextIn ParseX

在當今資訊化高速發展的時代,文件解析技術已成為資料處理不可或缺的一部分。在眾多文件解析工具中,TextIn ParseX憑藉其強大的功能和高效的表現,在眾多使用者中贏得了良好的口碑。本節將詳細介紹TextIn ParseX的技術特點、應用場景以及使用指南,幫助大家更好地理解和應用這一工具。

3.1 TextIn ParseX簡介

TextIn ParseX是TextIn推出的一款通用文件解析工具,它支援將PDF文件、JPG、IMG影像等多種檔案格式快速轉換為Markdown格式,並能解析各類表格和公式。該工具不僅支援簡體中文、繁體中文、英文等50多種語言,還能處理各種複雜格式的文件,如有線表格、無線表格、密集表格等。TextIn ParseX的表格識別效果好,能準確還原各種表格結構,包括合併單元格的識別與還原。同時,它還能理解和還原文件的結構和元素排列,確保閱讀順序的準確性,支援多欄佈局的論文、年報、業務報告等內容。

TextIn ParseX開源地址:https://github.com/intsig-textin/parsex-frontend

image.png

TextIn ParseX 其主要功能包括:

  • 支援多種文件格式(如 PDF)及其解析內容的縮放和旋轉。
  • 提供文件解析元素的詳細展示,支援檢視錶格、公式、影像等結構化資料。
  • 支援文件解析後的目錄樹還原,便於快速定位和檢視解析內容。

3.2 技術特點

  1. 高效解析速度:TextIn ParseX的解析速度非常快,能夠將100頁文件解析速度提升至最快2秒以內。這意味著在資料更新頻繁的情況下,如每年財報、年報季,TextIn ParseX能夠迅速處理大量文件,支援大資料企業完成及時的資料讀取和上線。
  2. 準確度高:TextIn ParseX在文件解析過程中,能夠準確識別文件中的各類元素,包括表格、公式、圖片等,並還原其位置和結構。對於複雜格式的文件,如跨頁表格、合併單元格等,TextIn ParseX也能準確解析,確保資料的準確性。
  3. 良好的相容性:TextIn ParseX支援多種檔案格式和語言,能夠處理各類圖片與掃描文件,包括手機照片、截圖等內容。同時,它還支援多種掃描內容的處理,包括不同解析度、不同格式的文件,降低了解析失敗率。
  4. 豐富的視覺化功能:TextIn ParseX提供了前端視覺化元件,能夠直觀展示文件解析的結果,並支援對解析結果進行編輯修正,獲得更高精度的解析結果。同時,它還支援將解析結果匯出為Markdown檔案,方便使用者進行後續處理。

3.3 TextIn ParseX 功能

專案是基於ES6和React框架開發的,旨在利用TextIn ParseX的文件解析能力,對各類文件進行快速、準確的解析,並透過前端元件將解析結果進行視覺化展示。這不僅可以提高稽核校對的工作效率,還能為效果測評提供有力的支援。

1.TextIn ParseX前端元件為文件解析結果稽核與效果測評提供了豐富的視覺化和互動功能,極大地提高了工作效率和準確性,如下圖。

image.png

2.預覽渲染主流圖片格式和pdf檔案,提供縮放和旋轉功能。

預覽渲染主流圖片格式和PDF檔案,並提供縮放和旋轉功能,是現代文件處理和檢視工具中不可或缺的功能。這些功能不僅提升了使用者體驗,還使得文件處理更加靈活和高效。在實際應用中,這些功能廣泛應用於文件檢視器、線上學習平臺、影像處理軟體等領域。

image.png

3.MarkDown結果渲染,支援各級標題、文字、表格渲染。

這是一個值得關注的亮點。該功能支援各級標題、文字以及表格的渲染,為使用者提供了極大的便利。例如,在文件編輯和排版方面,使用者可以利用該功能將解析後的文件內容轉換為markdown格式,然後進行進一步的編輯和排版操作。在知識分享和筆記記錄方面,使用者可以將學習資料或筆記內容轉換為markdown格式,並新增適當的標題和表格來組織和展示資訊。

image.png

4.各類解析元素提取展示,支援檢視錶格、公式、圖片,和原始 JSON 結果

TextIn ParseX在解析文件時,能夠準確地識別並提取出文件中的各類元素,包括表格、公式、圖片等。這些元素在解析後會被清晰地展示出來,方便使用者檢視和編輯。

image.png

TextIn ParseX的各類解析元素提取展示功能在實際應用中具有廣泛的應用場景。例如,在學術研究領域,學者可以利用該功能從文獻中提取出關鍵的資料和圖表;在商業分析領域,分析師可以利用該功能從報告中提取出重要的資料和趨勢;在文件編輯和排版方面,編輯人員可以利用該功能快速提取文件中的元素並進行排版處理。

5.解析元素文件位置溯源

TextIn ParseX的解析元素文件位置溯源功能是一個極具創新性和實用性的特點。該功能允許使用者在解析文件時,對各個元素進行原文畫框標註,並能夠實現畫框與解析結果之間的雙向跳轉。TextIn ParseX在解析文件時,能夠準確地識別並提取出文件中的各類元素,如表格、公式、圖片等。對於這些元素,TextIn ParseX不僅提供了詳細的解析結果,還能夠在原文中進行畫框標註,明確指示出這些元素在文件中的具體位置。

image.png

原文畫框標註各元素位置,可點選畫框跳轉解析結果,也可點選結果跳轉原文畫框

TextIn ParseX的解析元素文件位置溯源功能在實際應用中具有廣泛的應用場景。例如,在學術研究領域,學者可以利用該功能對論文中的關鍵資料和圖表進行標註和跳轉,以便更好地理解和分析論文內容;在商業分析領域,分析師可以利用該功能對報告中的關鍵資料和趨勢進行標註和跳轉,以便更深入地挖掘和分析資料;在文件編輯和排版方面,編輯人員可以利用該功能對文件中的各個元素進行快速定位和編輯,提高工作效率。

6.各級目錄樹還原展示支援點選跳轉相應章節

TextIn ParseX在解析文件時,能夠智慧地識別並提取出文件中的各級目錄。這些目錄項會被組織成一個清晰的目錄樹結構,並在介面上以樹狀圖的形式展示出來。使用者可以透過瀏覽目錄樹,快速瞭解文件的整體結構和各個章節的內容。

在目錄樹展示的基礎上,TextIn ParseX還提供了點選跳轉功能。使用者只需點選目錄樹中的任意目錄項,系統就會自動跳轉到該目錄項對應的文件章節內容。這一功能極大地提高了使用者在閱讀長文件時的效率和便捷性,使使用者能夠快速定位到感興趣的內容。

image.png

TextIn ParseX能夠實現各級目錄樹還原展示功能,主要得益於其先進的文件解析技術和智慧演算法。這些技術和演算法能夠準確地識別文件中的目錄項和章節內容,並將其組織成清晰的目錄樹結構。同時,TextIn ParseX還支援多種文件格式和排版方式,能夠應對不同型別的文件解析需求。

7.介面呼叫選項引數配置,支援配置不同引數組合

這一功能允許使用者根據不同的解析需求和文件特點,靈活配置不同的引數組合,從而實現對文件的精準解析和高效處理。

TextIn ParseX提供了豐富的介面呼叫選項,使用者可以根據實際需求,對這些選項進行引數配置。這些引數包括但不限於文件的輸入方式、解析精度、輸出格式等。透過合理配置這些引數,使用者可以實現對文件的定製化解析。

image.png

image.png

介面呼叫選項引數配置功能在實際應用中具有廣泛的應用場景。例如,在學術研究領域,學者可以利用這一功能對論文進行精細化解析,提取出論文中的關鍵資料和圖表;在商業分析領域,分析師可以利用這一功能對報告進行定製化解析,快速定位並提取出報告中的關鍵資訊和趨勢;在文件編輯和排版方面,編輯人員可以利用這一功能對文件進行快速處理和最佳化,提高工作效率。

四、向量化acge-embedding模型

acge-embedding模型是合合資訊公司研發的一款文字向量化模型,它在業界權威的中文語義向量評測基準C-MTEB中取得了優異的成績。該模型透過將文字資料轉換為數值向量,為後續的文字處理任務如搜尋、聚類、推薦等提供了堅實的基礎。

acge-embedding 向量化模型利用文字向量化技術,將文字資料轉化為高維向量,從而大幅提升長文件檢索的精度和速度。該模型具有以下特點:

  • 高精度和低計算資源消耗:與其他開源模型相比,acge 模型不僅體積小,還能支援更高的檢索精度。
  • 支援多工混合訓練:acge 透過對比學習技術,將資料進行多場景混合訓練,提升模型的泛化能力與資料處理效率。
  • 支援可變嵌入維度:針對不同場景的需求,acge 模型支援調整向量維度,確保效能與資源的靈活配置。
向量化acge-embedding模型開源地址:https://huggingface.co/aspire/acge_text_embedding

image.png

在C-MTEB評測中,acge-embedding模型展現出了卓越的效能。與目前C-MTEB榜單上排名前五的開源模型相比,該模型在體積和效能上均表現出色。其輸入文字長度達到1024,滿足了絕大部分場景的需求。同時,支援可變輸出維度,進一步增強了模型的實用性和靈活性。

4.1 向量化模型 acge-embedding 技術亮點總結

  1. 俄羅斯套娃表徵學習(MRL)框架

    • acge_text_embedding模型採用了創新的MRL框架,該框架類似於俄羅斯套娃結構,產生的嵌入向量也是一個巢狀結構。
    • 每個較小的向量都是較大向量的一部分,並且可以獨立用於不同的任務。這種結構使得模型能夠學習不同粒度的資訊,同時保持準確性和豐富性。
  2. 策略學習和持續學習訓練方式

    • 模型引入了策略學習和持續學習訓練方式,以針對不同任務進行有針對性的學習。
    • 策略學習顯著提升了檢索、聚類、排序等任務上的效能;而持續學習則克服了神經網路存在的災難性遺忘問題,使模型在迭代訓練過程中保持整體效能。
  3. 高效性和靈活性

    • 透過一次訓練,acge_text_embedding模型能夠獲取不同維度的表徵,實現了從粗到細的層次化表示。
    • 這為推理和部署提供了極大的靈活性,且無需額外成本。同時,模型支援可變輸出維度,使得企業可以根據具體場景合理分配資源,實現高效的資源利用。

4.2 Embedding嵌入/向量化

Embedding,即嵌入/向量化,是一種在機器學習和自然語言處理(NLP)中廣泛應用的技術。

image.png

優勢

  • 降維:Embedding技術可以將高維資料對映到低維空間,減少了模型的複雜度。
  • 捕捉語義資訊:在NLP中,Embedding技術能夠捕捉到單詞或短語之間的語義關係,使得語義上相似的單詞在向量空間中位置相近。
  • 適應性:Embedding是透過資料驅動的方式學習的,能夠自動適應資料的特性,而無需人工設計特徵。
  • 泛化能力:由於Embedding能夠捕捉到資料的一些內在規律,因此對於未見過的資料,Embedding仍然能夠給出合理的表示。

應用

  • NLP任務:如文字分類、情感分析、機器翻譯等。Embedding技術為這些任務提供了有效的特徵表示,提高了模型的效能。
  • 推薦系統:Embedding技術為推薦系統提供了使用者和物品的向量表示,透過捕捉潛在關係提升推薦準確性。
  • 影像處理:如影像分類、檢索等任務。影像嵌入技術簡化了影像處理過程,保留了關鍵資訊,並提高了模型的效能和效率。

向量:有方向的一連串的數值(取值範圍[-1,1])列表,列表越長(維度越多),表達能力越強,精準度越高,但是計算複雜度也越高,容易過擬合

image.png

4.3 向量化模型效果評測標準 MTEB&C-MTEB

MTEB(Massive Text Embedding Benchmark)和C-MTEB是評估文字向量化模型效果的重要基準。MTEB是一個大規模的文字嵌入基準測試,旨在全面評估文字嵌入方法的效能。它涵蓋了多種語言、任務和資料集,為文字向量化模型提供了一個全面的競技臺。C-MTEB是專門針對中文文字向量的評測基準,它基於MTEB的框架,但針對中文文字進行了最佳化和調整。
image.png
C-MTEB使用與MTEB相似的評估指標來衡量模型的效能。這些指標包括準確性、F1分數、平均精度(Average Precision)、平均互資訊檢索(Mean Average Precision, MAP)、歸一化折損累計增益(Normalized Discounted Cumulative Gain, nDCG)等。這些指標有助於全面評估模型在不同任務上的表現。

覆蓋8類任務,58個資料集:文字分類,聚類,成對分類,重排序,檢索,語義文字相似性,摘要、判別

4.4 acge_text_embedding 高精度、高效率

Massive Text Embedding Benchmark (MTEB) 中文榜單(C-MTEB)第一名的成績 (20240311-20240514)

image.png

1.高精度

acge_text_embedding模型的高精度主要得益於其創新的俄羅斯套娃表徵學習(Matryoshka Representation Learning,簡稱MRL)框架。這一框架能夠學習不同粒度的資訊,允許一個嵌入向量在保持準確性和豐富性的同時,適應不同計算資源的需求。

  1. 語義捕捉能力:該模型能夠準確捕捉文字的語義資訊,提供高質量的向量表示。這使得模型在文字分類、情感分析、命名實體識別等NLP任務中表現出色。
  2. 巢狀結構優勢:MRL框架產生的嵌入向量是一個巢狀結構,每個較小的向量都是較大向量的一部分,並且可以獨立用於不同的任務。這種結構使得模型能夠更細緻地捕捉文字中的語義細節,從而提高精度。
  3. 多工適應性:透過一次訓練,acge_text_embedding模型能夠獲取不同維度的表徵,實現從粗到細的層次化表示。這為使用者提供了極大的靈活性,可以根據實際需求輸入維度引數,來得到指定維度的向量,進一步提高了模型的精度。

2.高效率

除了高精度外,acge_text_embedding模型還具備高效率的特點。這主要體現在以下幾個方面:

  1. 快速處理能力:該模型能夠快速準確地對文字進行向量化,提高NLP任務的效率。這使得模型在處理大規模文字資料時能夠保持高效的效能。
  2. 資源佔用少:與多億引數的大型模型相比,acge_text_embedding模型體積較小,佔用資源少。這使得模型在各種場景下都能靈活應用,包括資源受限的環境。
  3. 訓練與推理最佳化:透過策略學習和持續學習訓練方式,acge_text_embedding模型克服了神經網路存在的災難性遺忘問題,使模型訓練迭代能夠達到相對優秀的收斂空間。同時,模型支援可變輸出維度,進一步提高了推理和部署的效率。

acge_text_embedding模型相比其他開源模型體積更小、資源佔用低,支援最長 1024 字的輸入文字以適應大多數應用場景,並能根據需求設定嵌入維度,實現資源最佳化。其特色在於利用對比學習技術最佳化語義表示,透過資料探勘和多工混合訓練增強泛化能力。模型採用 MRL 訓練方法,提升了處理速度並降低了儲存要求,同時具備持續學習能力,有效應對引入新資料時的遺忘問題。

4.5俄羅斯套娃Matryoshka Representation Learning技術

俄羅斯套娃Matryoshka Representation Learning(MRL)技術是一種創新的向量表徵學習方法,其靈感來源於俄羅斯傳統的套娃玩具,這種玩具可以巢狀不同大小的娃娃,類似地,MRL技術可以靈活地變化Embedding的大小。

俄羅斯套娃Matryoshka Representation Learning技術,讓文字嵌入模型在推理時具備可變Embedding大小的能力,可以根據企業場景採用不同的計算和儲存消耗。

image.png

MRL技術的核心在於訓練高維向量中的巢狀低維向量,實現在不同維度上的良好效能和插值效果。它允許使用者選擇較小的維度而不影響表示質量,從而在減小維度的同時保持向量表示能力。具體來說,MRL透過顯式最佳化O(log(d))個低維向量(這些向量以巢狀的方式存在於高維向量中)來學習不同容量的表徵。

技術特點:

  1. 巢狀結構:MRL生成的嵌入向量具有巢狀結構,每個較小的向量都是較大向量的一部分,並且可以獨立用於不同的任務。這種結構使得模型能夠更細緻地捕捉資料中的資訊,同時提供不同粒度的表示。
  2. 靈活性:MRL技術允許使用者根據需要選擇不同維度的向量表示,從而適應不同的應用場景和資源限制。這種靈活性使得MRL在各種NLP任務中都能表現出色。
  3. 高效性:由於MRL技術能夠生成高質量的低維向量表示,因此它可以在保持準確性的同時減少計算資源和儲存需求。這使得MRL在處理大規模資料集時具有顯著的優勢。
  4. 插值效果:MRL訓練好的向量除了在訓練時的指定維度表現很好外,在其他維度上效果也很好,具有插值效果。這意味著即使在使用比最大維度小的任意維度時,也能保持較好的效能。

image.png

俄羅斯套娃Matryoshka Representation Learning技術是一種具有創新性和實用性的向量表徵學習方法。它透過巢狀結構和靈活性等特點為各種NLP任務提供了高質量的向量表示,並在多個領域都展現出了巨大的潛力。未來,隨著技術的不斷發展和完善,MRL技術有望在更多領域發揮重要作用併為人工智慧的發展貢獻力量。

五、文件解析測評工具markdown _ tester

markdown_tester是合合資訊旗下的TextIn團隊開發並推出的文件解析測評工具。

5.1 markdown _ tester簡介

TextIn團隊在與使用者的交流中發現,使用者的需求非常多樣化,包括年報、財報、論文、政策檔案、企業內部檔案、教科書、試卷和公式等。儘管所有解析產品的目標都是成為“全能選手”,但在當前階段,各產品能力的差異仍然存在。因此,TextIn團隊開發並推出了markdown_tester工具,旨在幫助需要解析PDF的使用者直觀地篩選出最適合自己場景的產品,節省使用者選擇和測試的時間。透過雷達圖和資料圖表,開發者可以在表格、段落、標題、公式等多項指標下對工具效果進行對比,使得文件解析產品的效果更透明、可靠。

文件解析測評工具markdown _ tester開源地址:https://github.com/intsig-textin/markdown_tester

image.png

5.2 測評指標與功能

該測評指令碼用於評價markdown文件相似性,從段落、標題、表格和公式四個維度進行評價:

指標說明
段落識別率段落匹配的個數(段落編輯距離小於0.2) / 預測出的總段落數
段落召回率段落匹配的個數(段落編輯距離小於0.2)/ 總的段落數
段落f12 (段落識別率 段落召回率) / (段落識別率 + 段落召回率)
標題識別率標題匹配的個數(標題編輯距離小於0.2) / 預測出的總標題數
標題召回率標題匹配的個數(標題編輯距離小於0.2)/ 總的標題數
標題f12 (標題識別率 標題召回率) / (標題識別率 + 標題召回率)
標題樹狀編輯距離所有標題樹編輯距離分數之和(pred,包含文字)/ 總標題數量(gt)
表格文字全對率文字全對的表格個數(pred)/ 總表格個數(gt)
表格樹狀編輯距離所有表格樹編輯距離分數之和(pred,包含文字)/ 總表格數量(gt)
表格結構樹狀編輯距離所有表格樹編輯距離分數之和(pred,不包含文字)/ 總表格數量(gt)
公式識別率公式匹配的個數(公式編輯距離小於0.2) / 預測出的總公式數
公式召回率公式匹配的個數(公式編輯距離小於0.2)/ 總的公式數
公式f12 ( 公式識別率 公式召回率) / (公式識別率 + 公式召回率)
閱讀順序指標計算預測值和真值中,所有匹配段落的編輯距離

5.3 使用方法與操作流程

markdown_tester工具的使用方法非常便捷,支援上傳任意樣本進行測評。以下是具體的操作流程:

  1. 安裝軟體包:執行安裝命令來安裝必要的軟體包。
  2. 樣本檔案組織:將待測評樣本按照指定的結構放置,包括預測值資料夾和真值資料夾。
  3. 執行測評命令:使用指定的命令進行測評,並指定預測值檔案所在資料夾和真值檔案所在資料夾的路徑。
  4. 檢視輸出結果:輸出結果包括表格資料結果和直觀的雷達圖,使用者可以根據輸出結果來評估各解析產品的效能。

image.png

image.png

5.4 工具優勢與特點

  1. 全面性:該工具涵蓋了文件解析的多個重要維度,能夠全面展示各解析產品的效能。
  2. 客觀性:透過定量測評來評估各解析產品的效能,避免了主觀判斷的干擾。
  3. 便捷性:支援上傳任意樣本進行測評,使用者無需進行復雜的設定和操作。
  4. 視覺化:輸出結果以直觀的雷達圖形式展示,便於使用者理解和比較各解析產品的效能。

綜上所述,markdown_tester工具是一個功能強大、全面客觀的文件解析測評工具,能夠幫助使用者快速、高效地評估各款解析產品在業務場景下的能力。

六、TextIn 文件解析

6.1 概述

TextIn文件解析技術專注於從非結構化或半結構化文字中自動提取關鍵資訊。該技術利用先進的演算法和模型,能夠準確識別文件中的關鍵元素(如日期、金額、姓名等),並將其結構化呈現,極大地提高了資訊處理的效率和準確性。TextIn還支援多種檔案格式(如PDF、Word、Excel等),確保了廣泛的適用性。

image.png

6.2 版面分析演算法框架

版面分析演算法框架分為物理版面分析和邏輯版面分析兩個主要模組。物理版面分析側重於視覺特徵,識別文件中的各個元素,將相關性高的文字聚合到一個區域,這一過程主要關注文件的視覺佈局和結構。邏輯版面分析則側重於語義特徵,聚焦於文件結構,其主要任務是透過語義建模將不同的文字塊形成層次結構,例如透過樹狀結構展示文件的語義層次關係。

image.png

文件影像預處理演算法包括區域提取、干擾去除、形變矯正、影像恢復和影像增強等模組。區域提取可以識別並提取出文件中具有文字資訊的區域,確保後續處理聚焦在有用的部分。形變矯正透過分析形變文件的偏移場,將其矯正為正常的影像,並利用附近的畫素點填充缺失部分,確保影像的完整性。影像恢復和影像增強則進一步最佳化影像質量,使得文字資訊更加清晰和易於識別。

image.png

隨著人工智慧技術的不斷發展,TextIn文件解析技術也在不斷創新和完善。未來,TextIn將更加註重技術的實用性和使用者體驗,不斷提升文件解析的精度和效率,為企業和個人提供更加便捷、智慧的文件處理服務。

綜上所述,TextIn文件解析技術是一款高效、準確、廣泛適用的智慧文件處理產品,能夠滿足不同場景下的文件解析需求,為企業和個人帶來前所未有的便利和智慧體驗。

七、應用場景

7.1 百寶箱應用場景一:知識庫(RAG)

RAG的工作原理主要分為兩個階段:檢索階段和生成階段。在檢索階段,模型透過檢索系統從知識庫中找到與輸入相關的文件或段落;在生成階段,生成模型利用檢索到的資訊作為上下文,生成最終的答案或文字。

image.png

傳統方式:

傳統方法通常基於字元長度,忽視了文字的邏輯結構。導致處理效率低下,且輸出效果不佳。

image.png

ParseX Chunking:

透過內容邏輯來分塊,而不是簡單的字元長度。 生成分塊摘要,識別並提取文件中的文字、影像和表格等元素。

image.png

“百寶箱”在企業知識庫構建中的應用極具代表性。透過 TextIn ParseX 和 acge 模型的配合,開發者可以快速將企業內部的文件進行自動解析和分塊,提升知識庫的準確性與覆蓋度。特別是在處理複雜的工程設計方案、技術規格書等檔案時,該工具能確保資料的完整性和高效性。

7.2 百寶箱應用場景二:智慧文件抽取(OpenKIE)

“百寶箱”在智慧文件抽取(OpenKIE)方面的應用場景,主要體現在高效、準確地處理和分析文件資料,助力技術人員實現個性化、高效率的文件類應用開發工作。

image.png

  1. 解析介面視覺化:透過視覺化的解析介面,技術人員可以直觀地看到文件的解析效果,包括提取的各類解析元素、定位解析元素在文件中的位置,以及還原展示的各級目錄樹等。
  2. 關鍵資訊提取:藉助“百寶箱”中的關鍵資訊提取工具,技術人員可以輕鬆地從文件中提取出所需的關鍵資訊,如實體、關係、事件等,為後續的文件分析和應用開發提供有力的支援。
  3. 解析效果測評:“百寶箱”還配備了文件解析測評工具,透過雷達圖等直觀的視覺化表現,幫助技術人員對各種解析工具進行定量測評,從而選擇出最佳的工具,提升文件處理的效率和準確性。

針對合同、招投標檔案等結構化資訊抽取需求,“百寶箱”支援批次提取文字和表格資訊,實現對文件中的各類資料的精準解析與複用。例如,開發者可以使用 TextIn ParseX 對錶格、圖片等資訊進行視覺化稽核,確保解析內容的準確性和一致性,如下所示。

image.png

文字欄位:[“採購方”]

表格欄位:[“服務明細名稱”,”費用”,”備註”]

提取結果如下:

{“採購方”: ['測試加工服務採購合同', '合同編號:', '上海市大資料中心(以下簡稱“採購方”)與  上海合合資訊科技股份有限公司(以下簡稱“供應商”)根據《中華人民共和國民法典》及相關法律法規規定,在平等協商、互惠互利的基礎上,就以下條款達成一致,簽訂本合同。', '9.採購方的權利義務', '9.1 採購方有權要求供應商按照本合同的規定提供相關服務,對沒有達到本合同約定的服務質量或標準的服務事項,採購方有權要求供應商在約定的時間內加急提供服務,直至符合要求為止。',  ...], ... }
{
    "採購方": "上海市大資料中心",
    "表格": [
        {
            "服務明細名稱": "政務服務事項知識庫和政策領域知識庫安全測試",
            "費用": "140,000",
            "備註": "深度學習演算法的通用文字識別軟體"
        },
        {
            "服務明細名稱": "民生領域無人干預的示範應用安全測試",
            "費用": "80,000",
            "備註": "深度學習演算法的通用文字識別軟體"
        },
        {
            "服務明細名稱": "總計(含稅)",
            "費用": "220,000",
            "備註": "單位:元"
        }
    ]
}

7.3 百寶箱應用場景三:大模型預訓練語料與資料治理快速入庫

大模型預訓練語料與資料治理快速入庫,主要體現了其在處理大規模資料、提高資料質量和加速資料入庫方面的強大能力。

image.png

大模型預訓練語料處理

  1. 高效解析

    • “百寶箱”支援批次、高效、準確地解析多種版式的文件材料,這為大模型預訓練語料的處理提供了堅實的基礎。
    • 透過其強大的文件解析能力,可以快速從大量文件中提取出有用的資訊,作為大模型預訓練的語料。
  2. 多樣化語料支援

    • “百寶箱”能夠處理多種型別的文件,包括但不限於文字、圖片、表格等,這為大模型提供了豐富多樣的語料來源。
    • 多樣化的語料有助於提升大模型的泛化能力和適應性。
  3. 精準提取

    • 藉助“百寶箱”中的關鍵資訊提取工具,可以精準地從文件中提取出與預訓練相關的關鍵資訊,如實體、關係、事件等。
    • 精準提取有助於提高語料的質量和純度,從而提升大模型的訓練效果。

資料治理快速入庫

  1. 資料清洗

    • 在資料治理過程中,“百寶箱”可以幫助識別並去除重複、無效或錯誤的資料,確保入庫資料的準確性和一致性。
    • 透過資料清洗,可以減少資料冗餘和噪聲,提高資料質量。
  2. 資料格式轉換

    • “百寶箱”支援多種資料格式的轉換,如將不同格式的文件轉換為統一的資料格式,方便後續的資料處理和分析。
    • 資料格式轉換有助於簡化資料治理流程,提高資料處理的效率。
  3. 快速入庫

    • 藉助“百寶箱”的資料入庫功能,可以將清洗和轉換後的資料快速匯入到資料庫中,實現資料的快速入庫。
    • 快速入庫有助於縮短資料治理週期,提高資料應用的時效性。

image.png

“百寶箱”在大模型預訓練語料與資料治理快速入庫方面展現出了強大的能力和優勢,為企業提供了高效、準確、靈活的資料處理解決方案。

7.4 百寶箱應用場景四::文件翻譯(Document Translate)

“百寶箱”在文件翻譯(Document Translate)方面的應用場景十分廣泛,其強大的功能和高效的效能使其成為眾多行業進行文件翻譯的首選工具。

image.png

1.多語種支援

“百寶箱”支援多種語言的翻譯,包括但不限於中文、英文、日文、韓文、法文、德文等,能夠滿足不同行業和地區對文件翻譯的需求。無論是生物醫藥、金融、外貿等行業,還是政府機構、教育機構等領域,都可以藉助“百寶箱”實現多語種文件的快速翻譯。

image.png

2.格式保留與精準提取

在文件翻譯過程中,“百寶箱”能夠保留文件的原有格式,包括字型、字號、段落、圖片等,確保翻譯後的文件與原文件在格式上保持一致。同時,“百寶箱”還能實現批次、精確區分並提取多語種資訊,確保翻譯的準確性。這一功能在處理複雜文件時尤為重要,如工程製造業中的產品設計方案、技術規格書等,以及生物醫藥行業中的研究報告、專利文獻等。

image.png

3.審校修正功能

“百寶箱”的前端元件提供了審校修正功能,使用者可以直接在介面上對解析結果進行最佳化,提高翻譯質量。這一功能對於需要高度準確性的文件翻譯尤為重要,如法律檔案、合同協議等。透過審校修正功能,使用者可以及時發現並糾正翻譯中的錯誤,確保翻譯結果的準確性和可靠性。

4.高效與便捷

“百寶箱”的文件翻譯功能高效便捷,使用者只需上傳需要翻譯的文件,選擇目標語言,即可快速獲得翻譯結果。同時,“百寶箱”還支援多種格式的文件上傳和下載,如Word、PDF、Excel等,方便使用者在不同裝置上進行操作。此外,“百寶箱”還支援線上編輯和匯出功能,使用者可以在翻譯結果上進行進一步的編輯和修改,然後匯出為本地檔案,滿足不同的使用需求。

“百寶箱”在文件翻譯方面的應用場景廣泛且多樣,其強大的功能和高效的效能使其成為眾多行業進行文件翻譯的首選工具。無論是多語種支援、格式保留與精準提取、審校修正功能還是高效與便捷性等方面,“百寶箱”都展現出了卓越的效能和廣泛的應用前景。

八、總結

合合資訊的智慧文件處理“百寶箱”憑藉其強大的文件解析技術,全面解決了文件解析中的諸多核心問題,為開發者和企業帶來了極大便利。透過視覺化解析工具 TextIn ParseX、向量化模型 acge-embedding,以及 markdown_tester 測試工具等,百寶箱有效提升了複雜文件解析的效率和精確度。在處理多種文件格式、語言環境、以及知識庫建設和文件翻譯等方面,百寶箱為使用者提供了高效、靈活的解決方案。結合多樣化的功能元件和直觀的視覺化介面,百寶箱助力各行各業從容應對多樣化的文件處理需求,實現了大規模資訊管理與高效文件處理的有機結合,為企業的業務支援和資訊管理帶來了顯著提升。

附錄

TextIn ParseX開源地址:https://github.com/intsig-textin/parsex-frontend

向量化acge-embedding模型開源地址:https://huggingface.co/aspire/acge_text_embedding

文件解析測評工具markdown _ tester開源地址:https://github.com/intsig-textin/markdown_tester

TextIn 文件解析體驗地址:https://www.textin.com/

如需瞭解更多文件處理權益,歡迎點選下方連結,加入交流社群,隨時獲得最新資訊及福利。

https://www.textin.com/activity?tag=znwd-bbx&btn=tj&code=mkt-...

相關文章