文件處理效能飆升！浩鯨科技“文件大模型”核心技術揭秘！

机器之心發表於2024-09-25

原文網址 : https://www.jiqizhixin.com/articles/2024-09-25-2

在當今大模型技術日新月異的背景下，資料已躍升為構建企業大模型知識庫、最佳化訓練與微調，乃至驅動模型創新不可或缺的核心要素。

對於企業來說，積累的寶貴知識廣泛散佈於形式多樣的電子文件之中，這些文件不僅格式多樣，其內容質量亦呈現出顯著的差異性。對海量資料進行精細化的清洗與預處理工作，已成為提升資料價值、確保模型精準高效的關鍵一環，如何有效提取並利用這些寶貴的知識資源，成為了擺在所有企業面前的一道難題。

9 月 20 日，老牌數字化轉型技術服務提供商浩鯨科技在雲棲大會期間，成功舉行鯨智大模型技術體系釋出會，作為企業內部的 “資產沉澱專家”，鯨智文件大模型重磅首發。

據瞭解，本次釋出的 “鯨智文件大模型”，專門針對企業文件場景構建了一組垂直領域模型，浩鯨科技大模型創新中心總經理王玉木表示，鯨智文件大模型與同類產品最大的差異在於，它提供了可快速價值落地的整體性方案，不僅包含了文件大模型能力，還提供了多模態文件工具鏈 DocChain 和開箱即用的軟硬體一體機，基於垂直模型能力和軟硬體相互配合，可幫助企業實現文件的知識抽取、知識融合，直至知識推理和問答的全流程覆蓋，為企業知識資產的沉澱、高效管理與利用提供了有效通路。

鯨智文件大模型的實踐邏輯

浩鯨科技成立於 2003 年，立足於電信行業，智慧觸角已觸及政務、電力、泛零售等多個領域，迄今已為全球 80 多個國家和地區的電信運營商、700 + 政企客戶提供全棧數智化產品技術服務。

“鯨智文件大模型” 始於浩鯨科技 20 餘年的資料治理、知識沉澱能力積累，作為垂直領域模型，它從端到端解決場景需求的視角出發，結合了大小模型協作等思路，基於基礎大模型構建一套緊密配合的模型組合，主要分三個層面：

底層，精準知識提取：透過標題提取、表格提取、版面分析等多種模型，精準捕捉文件中的關鍵資訊，確保內容的完整提取。同時，知識密度分類與語義壓縮模型的加入，進一步提升了知識提取的效率與質量。
知識提取中，“標題提取模型” 是最為優先的。文件標題可用於文件知識塊拆分、知識塊召回等場景，可解決指代消歧等問題，具有重要作用，但在服務企業過程中，大部分文件格式不規範，直接影響了知識問答成功率。“標題提取模型” 基於基礎大模型進行微調訓練，強化了標題識別能力，能夠用於從正文中識別標題，補全缺失標題等場景，可以解決企業文件標題和目錄不規範，甚至標缺失的問題，有效提升了成功率。

中間層，深度知識融合：在知識塊的基礎上，進行抽象總結與多模態資料關聯，將碎片化知識整合為系統化的知識體系，並對映至高維向量空間，為後續的知識推理奠定堅實基礎。浩鯨科技積累的的主要模型有：
文字總結模型：生成短文字摘要，為知識萃取提供支援；
文字向量模型：提供更加準確的文字特徵提取能力，為知識的召回提供保障；
介面識別模型：圖片特徵提取模型，支援圖文向量對齊；
文字重排模型：對多模態，多路徑召回的文字內容，進行重排序，進一步提升回答的準確率。
其中，“介面識別模型” 強化了對使用者手冊中最常見軟體介面的支援，主要得益於很多使用者都喜歡使用截圖來對知識庫進行提問。該模型訓練資料提取自浩鯨科技研發雲平臺，將軟體測試報告中的軟體介面圖片和內容來構建訓練集，並使用反轉、隨機擷取、變形、疊加反光等手段擴增圖片庫，實現了一個支援軟體介面匹配的圖片識別模型，解決了現有大模型在軟體介面識別方面效果一般的問題。該模型的應用顯著提升了圖片搜尋的準確率，文字檢索圖片召回成功率提升 25%，圖片檢索圖片召回成功率提升 40%。
上層，智慧知識推理：構建了知識問答模型和 BPO 最佳化模型。面向知識問答任務場景，構建了針對場景最佳化的問答模型，強化根據參考知識資訊進行精準回答，減少幻覺。另外一方面透過最佳化使用者的輸入提示（prompt）來提高模型輸出與人類偏好的對齊程度，提升問答的準確性。

DocChain：文件處理的智慧引擎

為深度賦能企業使用者，浩鯨科技依託先進的鯨智文件大模型，匠心打造了多模態文件工具鏈 ——DocChain。該產品不僅實現了企業文件向寶貴知識資產的轉化，更構建了一個集文件知識精準提取、高效檢索與智慧問答對話於一體的大模型知識服務平臺。DocChain 以其卓越的多模態處理能力、廣泛的文件格式相容性和極致的效能最佳化，成為企業文件處理領域的得力助手。

智慧提取，精準高效：整合前沿 NLP 演算法與模型，實現文件處理速度與精度的雙重飛躍。抽取精度高達 98%，問答響應準確率超越 80%，讓資訊獲取更加智慧、便捷。
格式相容，全面廣泛：擁抱多樣化文件生態，支援超過 30 種檔案格式，特別相容 OFD 等國產信創標準，確保各類文件無縫接入，處理高效且精準，滿足企業多樣化需求。
多模態處理，深度解析：深度解析文件內容，無論是文字、目錄、圖片、表格、連結還是頁碼，均能精準拆分與提取。支援多元模態檢索，無論是文找文、文找圖，還是圖找圖，均能遊刃有餘。

一體機：解決企業私域場景下低成本上線大模型的訴求

浩鯨科技為解決客戶落地大模型過程中算力硬體缺乏、技術人員少、安全要求高等難題，同時推出了文件大模型軟硬體一體機。一體機內建了高效能算力，並且預裝了大模型以及 DocChain 應用，可為企業快速部署和驗證智慧文件處理服務。

從部署上來說，文件大模型一體機具備開箱即用、資料安全可控、效能無憂、快速整合等幾個特點，專為輕量級場景設計，私有化部署解決企業隱私保護、資料安全等痛點，低成本實現企業內部大模型快速上線，覆蓋通用知識檢索、文件問答、服務支撐及品牌宣傳等，可幫助企業迅速構建專屬大模型問答系統。

隨著基礎大模型的發展，以及模型增量訓練的知識衝突問題日益凸顯，RAG 逐漸成為企業智慧知識庫的標準解決方案，然而知識召回的準確率和完整性成為了影響問答效果的關鍵因素。

鯨智文件大模型，借鑑了 “大模型 + 小模型” 的思路，基於基座大模型構建了一套大小模型的組合，形成了一套垂直大模型，可以端到端實現垂直應用場景的需求。當前，鯨智文件大模型在多模態識別、檢索和精準召回上做了很多的嘗試，也取得了一定的成果。

AI 大模型的迅速發展，讓企業沉澱的大量文件的知識理解和處理帶來了轉機，浩鯨科技正透過持續的技術創新與產品最佳化，推動大模型技術與企業領域知識深度融合，實現企業文件向有價值的資產轉化，為企業創造更多價值。

技術文件：基於 Python 的影像處理系統
2024-07-26
Python
OCR技術大揭秘：紙質文件數字化的新選擇
2023-04-18
智慧文件處理IDP關鍵技術與實踐-高翔
2022-11-02
ElasticSearch 文件併發處理以及文件路由
2021-09-09
Elasticsearch路由
技術驅動的文件革命：思通數科智慧文件系統的OCR與自動化表格處理技術解析
2024-09-02
文件解析技術加速大模型訓練與應用路演直播
2024-12-04
大模型
web前端分享：效能最佳化之文件碎片處理
2021-09-13
Web前端
Apache POI處理Excel文件
2019-03-04
ApacheExcel
jQuery 篩選&文件處理
2022-04-16
jQuery
關於技術文件
2018-04-13
技術分享 | tidb 2.1升級到4.0操作文件
2022-04-13
TiDB
如何撰寫技術文件
2018-11-18
墨天輪最受DBA歡迎的資料庫技術文件-故障處理案例篇
2022-04-01
資料庫
QRC20整合技術文件
2018-07-16
MaxCompute執行引擎核心技術DAG揭秘
2021-08-17
用於處理wps文件的快捷鍵，wps文件的快捷鍵大全
2022-05-10
【筆記】jQuery原始碼（文件處理3）
2018-03-31
筆記jQuery原始碼
ComPDFKit - 專業的PDF文件處理SDK
2023-03-07
從零玩轉jQuery-文件處理
2021-09-09
jQuery
文件智慧：通用文件預訓練模型與資料集，推動NLP落地升級
2020-08-19
模型
ICML 2024 | 大語言模型預訓練新前沿：「最佳適配打包」重塑文件處理標準
2024-05-16
模型
SharePlex安裝配置、常用功能配置文件、常見故障處理文件
2020-01-16
宜信技術學院全新升級，理念、工具、案例三大核心解讀金融科技技術解決方案
2019-10-30
什麼是好的技術文件？
2019-05-23
技術文件畫圖工具箱
2022-04-01
墨天輪高分技術文件分享——Oracle升級遷移篇（共96個）
2022-05-25
Oracle
[衝破核心瓶頸，讓I/O效能飆升]DPDK工程師手冊
2021-08-27
工程師
DOM 模型（文件物件模型）重點
2020-12-26
模型物件
ShowDoc v2.7.1 釋出，IT 團隊的線上 API 文件、技術文件工具
2020-06-08
API
ShowDoc v2.8.7 釋出，IT 團隊的線上 API 文件、技術文件工具
2020-10-26
API
ShowDoc v2.9.14 釋出，IT 團隊的線上 API 文件、技術文件工具
2021-12-09
API
ShowDoc v2.10.0 釋出， IT 團隊的線上 API 文件、技術文件工具
2022-01-10
API
如何寫好技術文件——來自Google十多年的文件經驗
2021-08-01
Go
ShowDoc v2.9.9 釋出，IT 團隊的線上 API 文件、技術文件工具
2021-08-24
API
ShowDoc v2.8.14 釋出， IT 團隊的線上 API 文件、技術文件工具
2021-04-13
API
ShowDoc v2.9.0 釋出， IT 團隊的線上 API 文件、技術文件工具
2021-05-06
API
從資料提取到管理：合合資訊的智慧文件處理全方位解析【合合資訊智慧文件處理百寶箱】
2024-10-31
技術專案文件書寫規範指南
2024-12-06

文件處理效能飆升！浩鯨科技“文件大模型”核心技術揭秘！

相關文章