合合TextIn - 大模型加速器

techlead_krischang發表於2024-07-11

TextIn是合合資訊旗下的智慧文件處理平臺,在智慧文字識別領域深耕17年,致力於影像處理、模式識別、神經網路、深度學習、STR、NLP、知識圖譜等人工智慧領域研究。憑藉行業領先的技術實力,為掃描全能王、名片全能王等智慧文字識別產品提供強大的底層技術支援,並對企業、開發者、個人使用者提供智慧文字識別引擎、產品、雲端服務。
立足AI時代,TextIn以深厚的技術積累為基礎,接連推出通用文件解析、通用文字向量等技術,賦能大模型文件應用落地、RAG與Agent開發,成為大模型的“加速器”。

file

一、大模型訓練與應用過程的挑戰

在當前的大模型訓練與應用過程中,我們面臨著諸多關鍵環節的挑戰,這些挑戰直接影響著模型的效能和應用效果。

1. 訓練Token耗盡

大模型訓練所需的Token數量非常龐大,隨著模型規模的不斷擴大,Token的消耗量也呈指數級增長。例如,LLAMA2需要2萬億個Token,而GPT-4則需要高達13萬億個Token。這對計算資源和資料獲取提出了極高的要求。如何在有限的資源下,高效獲取並利用這些Token,是一個亟待解決的問題。

2. 高質量訓練語料要求高

隨著大模型的不斷進化,對訓練語料的質量要求也越來越高。傳統的預訓練資料集,如CommonCrawl、C4、Github、Wikipedia、StackExchange和Huggingface資料集,已經無法完全滿足當前大模型的需求。因此,如何高效地獲取更多高質量的資料,成為了一大挑戰。

網際網路資料、書籍、論文等PDF或掃描件是重要的潛在資料來源。然而,這些文件往往結構複雜,包含表格、段落、公式和標題等多種元素。準確識別和解析這些文件元素,並將其快速轉化為訓練資料,是確保資料質量的關鍵。具體的核心訴求包括:版面正確解析、閱讀順序還原、避免混亂語序等。

3. LLM RAG應用中文件解析不精確

在LLM RAG(檢索增強生成)應用中,文件解析的準確性至關重要。不精確的文件解析會導致資訊檢索和生成內容的質量下降,從而影響實際應用效果。當前的解析技術在處理複雜文件結構時,仍存在一定的侷限性,需要進一步的技術突破和最佳化。

二、計算機視角下的文件

在大模型訓練和應用過程中,文件資料是非常重要的一環。為了更好地理解和處理這些文件,我們需要從計算機的視角來區分不同型別的文件。主要可以分為有標記文件和無標記文件兩大類。每種文件型別都有其獨特的特點和處理方法。

1. 有標記文件

有標記文件包括Word文件、Markdown文件和HTML文件等。這些文件具有明確的結構和標籤,能夠將文字組織成段落、單元格、表格等。計算機可以直接讀取和解析這些文件,從而提取其中的有用資訊。

示例:有標記文件的結構

以下是一個Markdown文件的示例:

## 有標記文件Markdown示例
### 第一部分
#### 子標題
|表格列1|表格列2|表格列3|
|--------|--------|--------|
|資料1   |資料2   |資料3   |

正文:有標記的文件能夠被計算機直接讀取和處理,從而提取結構化的資訊。

由於有標記文件的結構清晰,計算機可以高效地進行處理。這對於大模型的訓練和資料提取非常有利,因為可以確保資料的準確性和一致性。

2. 無標記文件

無標記文件包括掃描文件影像和部分PDF文件。這些文件沒有儲存任何結構資訊,如表格或段落。計算機無法直接讀取這些文件,需要透過光學字元識別(OCR)技術將影像轉換為可讀文字。這一過程可能會出現識別錯誤,影響資料的質量和準確性。

示例:無標記文件的結構

以下是一個PDF文件的示例:

%PDF-1.0
4 0 obj <</Length 65>>
stream
1. 0. 0. 1. 50. 700. cm
BT
/F0 36. Tf
(Hello, World!) Tj
ET
endstream
endobj

如上所示,PDF文件通常包含大量的低階別格式資訊,計算機需要透過複雜的解析過程才能提取出有效的文字內容。這種無標記文件處理起來相對困難,需要更多的計算資源和時間。

3. 處理無標記文件的挑戰

無標記文件的處理主要面臨以下挑戰:

  • 結構識別困難:由於沒有明確的標記,計算機需要透過複雜的演算法來識別文件的結構,這可能會出現錯誤。
  • 準確率低:OCR技術在處理複雜文件時,準確率可能不高,尤其是在處理包含表格、公式等複雜內容的文件時。
  • 資源消耗大:無標記文件的處理需要大量的計算資源和時間,可能會影響大模型的訓練效率。

三、文件解析典型技術難點

在智慧文件技術的發展過程中,文件解析面臨著許多技術難點。這些難點主要集中在如何準確地識別和處理文件中的複雜結構和內容。以下是一些典型的技術難點:

1. 單行公式與行內公式

在技術文件中,公式是常見的內容之一。公式可以是獨立的一行(單行公式),也可以嵌入到文字中(行內公式)。對於計算機來說,準確識別這兩種不同型別的公式,並正確地進行解析和轉換,是一項複雜的任務。

2. 表格內公式

表格內公式是另一大挑戰。在技術文件中,表格常用於組織和展示資料,其中也可能包含公式。解析表格內的公式需要同時處理表格結構和公式內容,確保資料的準確提取和轉換。

3. 元素遮蓋重疊

在文件掃描或影像中,常常會出現元素遮蓋重疊的情況,例如印章、簽名覆蓋在文字或其他元素上。計算機需要具備識別和處理這些遮蓋重疊元素的能力,確保被遮蓋資訊的完整性。

4. 元素多樣性與複雜版式

文件中的元素多種多樣,包括文字、影像、表格、公式等。不同文件的版式也千差萬別,有的文件採用雙欄、跨頁甚至三欄的佈局。解析這些複雜版式的文件,需要計算機具備高度的靈活性和準確性。

5. 表格識別技術難點

表格識別是文件解析中的一大難點,尤其是在處理複雜表格時。表格可能包含合併單元格、跨頁表格、多欄表格等,這些情況都對錶格識別技術提出了很高的要求。計算機需要準確地識別表格的邊界、單元格內容和結構,並能夠正確地重建這些資訊。

四、TextIn文件解析演算法

TextIn文件解析是一個高度複雜且功能強大的文件處理工具,專為處理各類電子文件和掃描件而設計。其核心目標是透過高階演算法,將各種文件準確、快速地轉換為結構化資料,以便進一步分析和應用。下面我們詳細介紹TextIn文件解析的演算法邏輯及其實現過程。

1. 演算法框架概述

TextIn文件解析的演算法框架主要包括以下幾個核心步驟:

  1. 文件拆分(Doc Parser)

    • 該步驟負責將輸入的多頁文件拆分為單獨的頁面,並進行初步的文件型別判斷(電子檔PDF或掃描檔)。
    • 對於電子檔PDF,直接進入PDF解析模組;對於掃描檔,先進行文件影像預處理,再進行文字識別。
  2. 版面分析(Layout Analysis)

    • 物理版面分析:識別文件的物理佈局,包括段落、表格、影像等元素的位置和大小。
    • 邏輯版面分析:進一步解析文件的邏輯結構,如章節標題、段落間的關係等。
  3. 文件構建(Doc Construction)

    • 該步驟將解析後的各類資訊進行重組,生成結構化資料。輸出格式可以是Markdown、Word、TXT、Excel、JSON等多種形式,滿足不同應用場景的需求。

2. 文件影像預處理

對於掃描檔的處理,文件影像預處理是一個重要步驟。主要包括以下幾個方面:

  • 影像去噪:去除影像中的噪點和干擾資訊,提高後續識別的準確性。
  • 影像增強:增強影像的對比度和清晰度,使文字和影像元素更加清晰。
  • 傾斜校正:校正掃描過程中可能產生的影像傾斜,保證文字和表格的正常識別。

3. 文字識別

文字識別是將預處理後的影像轉換為可編輯文字的關鍵步驟。TextIn使用先進的OCR(光學字元識別)技術,能夠準確識別各種字型和語言的文字。文字識別過程包括字元檢測、字元分類和文字重組三個主要步驟。

4. 物理版面分析

物理版面分析是對文件的視覺佈局進行解析,識別文件中的各種元素,如文字塊、表格、影像等。具體過程如下:

  • 元素檢測:檢測文件中的各類元素,確定其位置和邊界。
  • 元素分類:將檢測到的元素分類為不同型別,如段落、標題、表格、影像等。
  • 元素組合:根據元素的位置和型別,組合成完整的文件版面結構。

5. 邏輯版面分析

邏輯版面分析是在物理版面分析的基礎上,進一步解析文件的邏輯結構。

6. 輸出內容構建

在完成版面分析後,TextIn將解析得到的資訊進行重組,構建結構化的文件資料。輸出內容的格式可以根據需求進行靈活調整,支援Markdown、Word、TXT、Excel、JSON等多種格式。

7. 演算法最佳化和應用場景

TextIn文件解析系統不斷最佳化演算法,以提高解析速度和準確性。其廣泛應用於金融、法律、教育、醫療等領域,為各行業提供高效的文件處理解決方案。

五、合合TextIn文件解析,賦能智慧文件互動

隨著大模型應用中文件智慧互動在C端、B端各類場景的落地,使用者對快速、準確的文件解析工具的需求逐漸升高。C端場景下,使用者的常用功能包括:要求大模型根據上傳檔案完成知識問答,給出關聯資訊建議,以及提供專業性分析參考等。檔案格式、型別的豐富性導致解析穩定性難以保證。而企業級應用對文件解析精度有更高的要求,企業自建知識庫、RAG系統開發都要求高效穩定的解析工具。
目前,大模型在文件互動中的表現仍有待提升。文件解析的準確度對大模型互動表現相當重要,解析不精準會導致模型無法正確理解文件內容,影響問答的準確性和使用者體驗。當文件中的表格、公式、圖表等複雜元素不能被正確解析時,模型可能會提供錯誤或不完整的答案。
以下圖的學術論文為例,大模型問答產品無法獲取掃描版論文表格中的關鍵資料。
file
使用TextIn文件解析工具,將檔案轉化為Markdown格式後再次上傳大模型並提出相同問題,大模型在解析工具的輔助下,順利給出正確答案。
file
TextIn通用文件解析工具利用強大的文字識別和文件理解能力,識別文件或圖片中的文字資訊,並按常見的閱讀順序進行還原,賦能大語言模型的資料清洗和文件問答任務。支援標準的年報、文書、函件、合同等文件內容,相容掃描文件和電子PDF檔案。
目前,文件解析主流專業產品採用的路線結合了PDF提取技術與OCR識別技術。其中,PDF提取技術主要用於處理PDF格式的文件,透過直接解析PDF檔案的結構來提取文字和其他內容;其優點是處理速度快,適合於結構簡單的PDF文件,但在處理複雜佈局或包含大量圖表、圖片的文件時,準確率可能較低。OCR(Optical Character Recognition)技術透過掃描文件影像,識別其中的文字資訊。這種技術適用於各種格式的文件,特別是掃描的紙質文件或影像格式的電子文件。OCR技術可以處理複雜佈局的文件,但處理速度相對較慢,且對影像質量有一定要求。
TextIn文件解析工具在此基礎上,以多文件元素識別能力和版面分析關鍵技術為核心,突破多項技術難點,具備全量的掃描件識別能力,既支援單張的卡、證、票,也支援數百頁的掃描版文件;擁有精準的表格還原能力,面對無線表、跨頁表格、合併單元格、密集表格、手寫字元、公式等識別解析難點,也能做到不漏檢、不錯檢、內容準確;對多欄、多圖表的複雜版面檔案進行閱讀順序還原,支援Markdown、Json等多種格式輸出,為大模型提供最“便捷舒適”的序列文字。
憑藉文件樹提取關鍵技術,TextIn文件解析可為長文件構建文件樹,判斷邏輯結構,為後續Embedding最佳化提供良好基礎。
file
目前,TextIn通用文件解析完成最新一版產品迭代,將100頁文件解析速度提升至最快1.5秒以內。
TextIn文件解析將100頁文件解析速度提升至最快1.5秒以內,為大模型訓練、微調與檔案量大、時效性高的機構級業務場景保障穩定的技術支撐。
產品試用連結:https://cc.co/16YSIZ

六、RAG解決的問題

檢索增強生成(Retrieval-Augmented Generation,RAG)技術在處理複雜資訊檢索和生成任務中,展現了顯著的優勢。其核心在於結合了檢索和生成的雙重能力,能夠在多個方面解決傳統生成模型所面臨的問題。以下是RAG技術在實踐中解決的一些關鍵問題。

1. 長尾知識

長尾知識是指那些不常見但重要的資訊,傳統生成模型由於訓練資料的侷限性,難以生成準確的長尾知識。而RAG透過檢索資料庫或知識庫,可以找到並利用這些長尾資訊,從而生成更全面和準確的回答。比如在專業技術領域,RAG可以透過檢索相關文獻和資料,提供詳細且權威的解釋。

2. 私有資料

在許多應用場景中,生成模型需要處理和利用私有資料,如企業內部文件、專利資料等。RAG技術能夠整合私有資料進行檢索,確保生成的內容具備高度的相關性和準確性,同時避免洩露敏感資訊。例如,在企業知識管理系統中,RAG可以幫助員工快速找到內部文件中的關鍵資訊,提高工作效率。

3. 資料實時性

資料實時性是許多生成任務中必須解決的問題。傳統生成模型訓練後的資料是靜態的,無法反映最新的資訊。而RAG透過實時檢索最新的資料來源,確保生成的內容與當前資訊同步。例如,在新聞報導和金融分析中,RAG能夠及時檢索最新事件和市場動態,提供實時的內容更新。

4. 來源和可解釋性

生成內容的來源和可解釋性是使用者信任和採用系統的關鍵因素。RAG技術能夠提供檢索到的資訊來源,使生成的內容具有可驗證性和可信度。這對於需要高準確性和透明度的應用場景尤為重要,如醫學診斷和法律諮詢。使用者可以檢視生成內容的來源,增加對系統的信任度。

5. 幻覺問題

生成模型的“幻覺”問題,即生成內容虛構或不準確,是一個長期存在的挑戰。RAG透過檢索真實的文件和資料,可以顯著減少這種現象發生的機率。透過依賴外部可靠資訊源,RAG生成的內容更加可靠和準確,有助於提高使用者體驗和系統的實用性。

七、RAG存在的問題

檢索增強生成(Retrieval-Augmented Generation,RAG)技術在處理複雜文件和資訊檢索時展現了強大的潛力。然而,在實際應用過程中,RAG技術仍然面臨一些亟待解決的問題。以下將詳細探討這些問題,並分析其對文件解析與向量化檢索的影響。

1. 文件內容解析出錯

RAG技術依賴於準確的文件解析來獲取所需的資訊。然而,文件解析過程中可能會出現錯誤,導致資訊提取不準確。這些錯誤可能源於OCR技術的侷限性、複雜文件結構的誤識別等因素。這種情況會直接影響RAG模型生成答案的質量和準確性。

2. 文件存在太多Corner Case

在實際應用中,文件的格式和內容千差萬別,存在大量的特殊情況(Corner Case)。這些特殊情況可能包括非標準的文件格式、不規則的排版、混合語言的使用等。這些Corner Case給文件解析帶來了極大的挑戰,使得RAG技術難以應對所有情況,影響了系統的穩定性和魯棒性。

3. 解析速度慢,使用者體驗差

文件解析和資訊檢索是RAG技術的核心環節。由於文件解析過程複雜且耗時,尤其是在處理大量文件或高解析度掃描件時,解析速度會顯著降低。這種情況下,使用者體驗會受到嚴重影響,難以滿足實時檢索和生成的需求。

4. 知識庫更新耗時長

RAG技術需要定期更新知識庫,以保證生成的答案具有最新的時效性。然而,知識庫的更新過程往往耗時較長,無法及時反映最新的資訊變化。這種滯後性會導致RAG生成的答案過時或不準確,影響使用者的信任度。

5. 機械分chunk丟失語義資訊

在文件解析過程中,常採用將文件分塊(chunking)的方法來處理大規模文字。然而,機械地將文件分塊可能會丟失語義資訊,尤其是當句子或段落被切斷時。這種情況下,RAG技術難以準確理解上下文,導致生成的答案不連貫或不完整。

6. 目標檢索內容召回不到

RAG技術依賴於準確的內容召回來生成高質量的答案。然而,由於檢索演算法的限制,目標檢索內容可能無法被準確召回,導致生成答案的依據不足或錯誤。這種問題在處理大規模文件庫或高度複雜的檢索請求時尤為明顯。

7. 召回結果排序困難

即使檢索到了相關內容,對召回結果的排序也是一項挑戰。如何根據上下文和使用者需求,準確地對召回結果進行排序,直接影響到RAG生成答案的質量和相關性。不合理的排序可能導致最相關的資訊被忽略,影響使用者的滿意度。

8. 答案生成有幻覺

答案生成過程中的“幻覺”現象是指模型生成的內容並非基於真實的資料,而是“編造”出來的。這種現象在RAG技術中並不少見,尤其是在處理不完整或不準確的資訊時。幻覺現象會嚴重影響答案的可靠性,給使用者帶來誤導。

八、通用文字向量,提升檢索召回能力

Embedding 是一種用於機器學習和自然語言處理領域的表示技術,它將高維的離散資料(如單詞、句子或者影像的特徵等)轉換為低維的連續向量,這些向量被稱為嵌入(embeddings),它們能夠捕捉到資料的語義特徵和關係,將單詞、短語或整個文件的語義和上下文資訊封裝在一個密集的、低維的向量空間中;Embedding在自然語言處理和機器學習中起著關鍵作用,是基礎、核心且經典的建模任務,對於各種不同的下游NLP任務是必不可少的,如分類、聚類、檢索、句子相似性判斷等。
從Word2Vec到BERT表徵模型、再到現如今的大模型,Embedding 建模方法在不斷創新迭代。不論在傳統的搜尋、問答場景,還是如今大語言模型(LLM)驅動的檢索增強生成(Retrieval-Augmented Generation, RAG)場景中,Embedding 技術一直扮演著語義理解的核心角色。
file
今年三月,合合資訊釋出的文字向量化模型 acge_text_embedding(簡稱“acge模型”)在中文文字向量化領域取得了重大突破,榮獲 Massive Text Embedding Benchmark (MTEB) 中文榜單(C-MTEB)第一名的成績。
為提高整體模型效果,TextIn團隊採用對比學習技術,透過最小化正對之間的距離和最大化負對之間的距離來呈現文字語義表示;重視資料探勘,構造多場景、數量龐大的資料集提升模型泛化能力,挑選高質量資料集加快模型收斂。技術開發過程中,採用多工混合訓練,多loss適配場景,適應各種下游任務,避免模型“偏科”;引入持續學習訓練方式,改善引入新資料後模型災難性遺忘問題;同時運用MRL技術,訓練可變維度的嵌入,提高處理速度,降低了儲存需求。
與目前C-MTEB榜單上排名前列的開源模型相比,合合資訊釋出的acge模型較小,佔用資源少;模型輸入文字長度為1024,滿足絕大部分場景的需求。此外,acge模型還支援可變輸出維度,使應用者能夠根據具體場景去合理分配資源。
當前,acge模型已在多個應用場景下展現其優勢:
(a) 文件分類:透過ocr技術精確識別圖片、文件等場景中的文字,利用acge強大的文字編碼能力,結合語義相似度匹配技術,構建通用分類模型;
(b) 長文件資訊抽取:透過文件解析引擎與層級切片技術,利用acge生成向量索引,檢索抽取內容塊,提升長文件資訊抽取模型精度;
(c) 知識問答:透過文件解析引擎與層級切片技術,利用acge生成向量索引,定位檔案內容,實現精準問答。
產品試用連結:https://cc.co/16YSIr
TextIn通用文件解析、通用文字向量工具,以專業智慧識別技術儲備為支撐,加速當前大模型開發與應用,與上下游共建LLM+文件互動的智慧生態。

如有幫助,請多關注
TeahLead KrisChang,10+年的網際網路和人工智慧從業經驗,10年+技術和業務團隊管理經驗,同濟軟體工程本科,復旦工程管理碩士,阿里雲認證雲服務資深架構師,上億營收AI產品業務負責人。

相關文章