文件處理效能飆升!浩鯨科技“文件大模型”核心技術揭秘!

机器之心發表於2024-09-25

在當今大模型技術日新月異的背景下,資料已躍升為構建企業大模型知識庫、最佳化訓練與微調,乃至驅動模型創新不可或缺的核心要素。

對於企業來說,積累的寶貴知識廣泛散佈於形式多樣的電子文件之中,這些文件不僅格式多樣,其內容質量亦呈現出顯著的差異性。對海量資料進行精細化的清洗與預處理工作,已成為提升資料價值、確保模型精準高效的關鍵一環,如何有效提取並利用這些寶貴的知識資源,成為了擺在所有企業面前的一道難題。

9 月 20 日,老牌數字化轉型技術服務提供商浩鯨科技在雲棲大會期間,成功舉行鯨智大模型技術體系釋出會,作為企業內部的 “資產沉澱專家”,鯨智文件大模型重磅首發。

圖片

據瞭解,本次釋出的 “鯨智文件大模型”,專門針對企業文件場景構建了一組垂直領域模型,浩鯨科技大模型創新中心總經理王玉木表示,鯨智文件大模型與同類產品最大的差異在於,它提供了可快速價值落地的整體性方案,不僅包含了文件大模型能力,還提供了多模態文件工具鏈 DocChain 和開箱即用的軟硬體一體機,基於垂直模型能力和軟硬體相互配合,可幫助企業實現文件的知識抽取、知識融合,直至知識推理和問答的全流程覆蓋,為企業知識資產的沉澱、高效管理與利用提供了有效通路。

鯨智文件大模型的實踐邏輯

浩鯨科技成立於 2003 年,立足於電信行業,智慧觸角已觸及政務、電力、泛零售等多個領域,迄今已為全球 80 多個國家和地區的電信運營商、700 + 政企客戶提供全棧數智化產品技術服務。

“鯨智文件大模型” 始於浩鯨科技 20 餘年的資料治理、知識沉澱能力積累,作為垂直領域模型,它從端到端解決場景需求的視角出發,結合了大小模型協作等思路,基於基礎大模型構建一套緊密配合的模型組合,主要分三個層面:

  • 底層,精準知識提取:透過標題提取、表格提取、版面分析等多種模型,精準捕捉文件中的關鍵資訊,確保內容的完整提取。同時,知識密度分類與語義壓縮模型的加入,進一步提升了知識提取的效率與質量。

    知識提取中,“標題提取模型” 是最為優先的。文件標題可用於文件知識塊拆分、知識塊召回等場景,可解決指代消歧等問題,具有重要作用,但在服務企業過程中,大部分文件格式不規範,直接影響了知識問答成功率。“標題提取模型” 基於基礎大模型進行微調訓練,強化了標題識別能力,能夠用於從正文中識別標題,補全缺失標題等場景,可以解決企業文件標題和目錄不規範,甚至標缺失的問題,有效提升了成功率。

圖片

  • 中間層,深度知識融合:在知識塊的基礎上,進行抽象總結與多模態資料關聯,將碎片化知識整合為系統化的知識體系,並對映至高維向量空間,為後續的知識推理奠定堅實基礎。浩鯨科技積累的的主要模型有:

    文字總結模型:生成短文字摘要,為知識萃取提供支援;

    文字向量模型:提供更加準確的文字特徵提取能力,為知識的召回提供保障;

    介面識別模型:圖片特徵提取模型,支援圖文向量對齊;

    文字重排模型:對多模態,多路徑召回的文字內容,進行重排序,進一步提升回答的準確率

    其中,“介面識別模型” 強化了對使用者手冊中最常見軟體介面的支援,主要得益於很多使用者都喜歡使用截圖來對知識庫進行提問。該模型訓練資料提取自浩鯨科技研發雲平臺,將軟體測試報告中的軟體介面圖片和內容來構建訓練集,並使用反轉、隨機擷取、變形、疊加反光等手段擴增圖片庫,實現了一個支援軟體介面匹配的圖片識別模型,解決了現有大模型在軟體介面識別方面效果一般的問題。該模型的應用顯著提升了圖片搜尋的準確率文字檢索圖片召回成功率提升 25%,圖片檢索圖片召回成功率提升 40%。

  • 上層,智慧知識推理:構建了知識問答模型和 BPO 最佳化模型。面向知識問答任務場景,構建了針對場景最佳化的問答模型,強化根據參考知識資訊進行精準回答,減少幻覺。另外一方面透過最佳化使用者的輸入提示(prompt)來提高模型輸出與人類偏好的對齊程度,提升問答的準確性。

圖片

DocChain:文件處理的智慧引擎

為深度賦能企業使用者,浩鯨科技依託先進的鯨智文件大模型,匠心打造了多模態文件工具鏈 ——DocChain。該產品不僅實現了企業文件向寶貴知識資產的轉化,更構建了一個集文件知識精準提取、高效檢索與智慧問答對話於一體的大模型知識服務平臺。DocChain 以其卓越的多模態處理能力、廣泛的文件格式相容性和極致的效能最佳化,成為企業文件處理領域的得力助手。

  • 智慧提取,精準高效:整合前沿 NLP 演算法與模型,實現文件處理速度與精度的雙重飛躍。抽取精度高達 98%,問答響應準確率超越 80%,讓資訊獲取更加智慧、便捷。

  • 格式相容,全面廣泛:擁抱多樣化文件生態,支援超過 30 種檔案格式,特別相容 OFD 等國產信創標準,確保各類文件無縫接入,處理高效且精準,滿足企業多樣化需求。

  • 多模態處理,深度解析:深度解析文件內容,無論是文字、目錄、圖片、表格、連結還是頁碼,均能精準拆分與提取。支援多元模態檢索,無論是文找文、文找圖,還是圖找圖,均能遊刃有餘。

圖片

一體機:解決企業私域場景下低成本上線大模型的訴求

浩鯨科技為解決客戶落地大模型過程中算力硬體缺乏、技術人員少、安全要求高等難題,同時推出了文件大模型軟硬體一體機。一體機內建了高效能算力,並且預裝了大模型以及 DocChain 應用,可為企業快速部署和驗證智慧文件處理服務。

從部署上來說,文件大模型一體機具備開箱即用、資料安全可控、效能無憂、快速整合等幾個特點,專為輕量級場景設計,私有化部署解決企業隱私保護、資料安全等痛點,低成本實現企業內部大模型快速上線,覆蓋通用知識檢索、文件問答、服務支撐及品牌宣傳等,可幫助企業迅速構建專屬大模型問答系統

圖片

隨著基礎大模型的發展,以及模型增量訓練的知識衝突問題日益凸顯,RAG 逐漸成為企業智慧知識庫的標準解決方案,然而知識召回的準確率和完整性成為了影響問答效果的關鍵因素。

鯨智文件大模型,借鑑了 “大模型 + 小模型” 的思路,基於基座大模型構建了一套大小模型的組合,形成了一套垂直大模型,可以端到端實現垂直應用場景的需求。當前,鯨智文件大模型在多模態識別、檢索和精準召回上做了很多的嘗試,也取得了一定的成果。

AI 大模型的迅速發展,讓企業沉澱的大量文件的知識理解和處理帶來了轉機,浩鯨科技正透過持續的技術創新與產品最佳化,推動大模型技術與企業領域知識深度融合,實現企業文件向有價值的資產轉化,為企業創造更多價值。

相關文章