在當今大模型技術日新月異的背景下,資料已躍升為構建企業大模型知識庫、最佳化訓練與微調,乃至驅動模型創新不可或缺的核心要素。
對於企業來說,積累的寶貴知識廣泛散佈於形式多樣的電子文件之中,這些文件不僅格式多樣,其內容質量亦呈現出顯著的差異性。對海量資料進行精細化的清洗與預處理工作,已成為提升資料價值、確保模型精準高效的關鍵一環,如何有效提取並利用這些寶貴的知識資源,成為了擺在所有企業面前的一道難題。
9 月 20 日,老牌數字化轉型技術服務提供商浩鯨科技在雲棲大會期間,成功舉行鯨智大模型技術體系釋出會,作為企業內部的 “資產沉澱專家”,鯨智文件大模型重磅首發。
據瞭解,本次釋出的 “鯨智文件大模型”,專門針對企業文件場景構建了一組垂直領域模型,浩鯨科技大模型創新中心總經理王玉木表示,鯨智文件大模型與同類產品最大的差異在於,它提供了可快速價值落地的整體性方案,不僅包含了文件大模型能力,還提供了多模態文件工具鏈 DocChain 和開箱即用的軟硬體一體機,基於垂直模型能力和軟硬體相互配合,可幫助企業實現文件的知識抽取、知識融合,直至知識推理和問答的全流程覆蓋,為企業知識資產的沉澱、高效管理與利用提供了有效通路。
鯨智文件大模型的實踐邏輯
浩鯨科技成立於 2003 年,立足於電信行業,智慧觸角已觸及政務、電力、泛零售等多個領域,迄今已為全球 80 多個國家和地區的電信運營商、700 + 政企客戶提供全棧數智化產品技術服務。
“鯨智文件大模型” 始於浩鯨科技 20 餘年的資料治理、知識沉澱能力積累,作為垂直領域模型,它從端到端解決場景需求的視角出發,結合了大小模型協作等思路,基於基礎大模型構建一套緊密配合的模型組合,主要分三個層面:
底層,精準知識提取:透過標題提取、表格提取、版面分析等多種模型,精準捕捉文件中的關鍵資訊,確保內容的完整提取。同時,知識密度分類與語義壓縮模型的加入,進一步提升了知識提取的效率與質量。
知識提取中,“標題提取模型” 是最為優先的。文件標題可用於文件知識塊拆分、知識塊召回等場景,可解決指代消歧等問題,具有重要作用,但在服務企業過程中,大部分文件格式不規範,直接影響了知識問答成功率。“標題提取模型” 基於基礎大模型進行微調訓練,強化了標題識別能力,能夠用於從正文中識別標題,補全缺失標題等場景,可以解決企業文件標題和目錄不規範,甚至標缺失的問題,有效提升了成功率。
中間層,深度知識融合:在知識塊的基礎上,進行抽象總結與多模態資料關聯,將碎片化知識整合為系統化的知識體系,並對映至高維向量空間,為後續的知識推理奠定堅實基礎。浩鯨科技積累的的主要模型有:
文字總結模型:生成短文字摘要,為知識萃取提供支援;
文字向量模型:提供更加準確的文字特徵提取能力,為知識的召回提供保障;
介面識別模型:圖片特徵提取模型,支援圖文向量對齊;
文字重排模型:對多模態,多路徑召回的文字內容,進行重排序,進一步提升回答的準確率。
其中,“介面識別模型” 強化了對使用者手冊中最常見軟體介面的支援,主要得益於很多使用者都喜歡使用截圖來對知識庫進行提問。該模型訓練資料提取自浩鯨科技研發雲平臺,將軟體測試報告中的軟體介面圖片和內容來構建訓練集,並使用反轉、隨機擷取、變形、疊加反光等手段擴增圖片庫,實現了一個支援軟體介面匹配的圖片識別模型,解決了現有大模型在軟體介面識別方面效果一般的問題。該模型的應用顯著提升了圖片搜尋的準確率,文字檢索圖片召回成功率提升 25%,圖片檢索圖片召回成功率提升 40%。
上層,智慧知識推理:構建了知識問答模型和 BPO 最佳化模型。面向知識問答任務場景,構建了針對場景最佳化的問答模型,強化根據參考知識資訊進行精準回答,減少幻覺。另外一方面透過最佳化使用者的輸入提示(prompt)來提高模型輸出與人類偏好的對齊程度,提升問答的準確性。
DocChain:文件處理的智慧引擎
為深度賦能企業使用者,浩鯨科技依託先進的鯨智文件大模型,匠心打造了多模態文件工具鏈 ——DocChain。該產品不僅實現了企業文件向寶貴知識資產的轉化,更構建了一個集文件知識精準提取、高效檢索與智慧問答對話於一體的大模型知識服務平臺。DocChain 以其卓越的多模態處理能力、廣泛的文件格式相容性和極致的效能最佳化,成為企業文件處理領域的得力助手。
智慧提取,精準高效:整合前沿 NLP 演算法與模型,實現文件處理速度與精度的雙重飛躍。抽取精度高達 98%,問答響應準確率超越 80%,讓資訊獲取更加智慧、便捷。
格式相容,全面廣泛:擁抱多樣化文件生態,支援超過 30 種檔案格式,特別相容 OFD 等國產信創標準,確保各類文件無縫接入,處理高效且精準,滿足企業多樣化需求。
多模態處理,深度解析:深度解析文件內容,無論是文字、目錄、圖片、表格、連結還是頁碼,均能精準拆分與提取。支援多元模態檢索,無論是文找文、文找圖,還是圖找圖,均能遊刃有餘。
一體機:解決企業私域場景下低成本上線大模型的訴求
浩鯨科技為解決客戶落地大模型過程中算力硬體缺乏、技術人員少、安全要求高等難題,同時推出了文件大模型軟硬體一體機。一體機內建了高效能算力,並且預裝了大模型以及 DocChain 應用,可為企業快速部署和驗證智慧文件處理服務。
從部署上來說,文件大模型一體機具備開箱即用、資料安全可控、效能無憂、快速整合等幾個特點,專為輕量級場景設計,私有化部署解決企業隱私保護、資料安全等痛點,低成本實現企業內部大模型快速上線,覆蓋通用知識檢索、文件問答、服務支撐及品牌宣傳等,可幫助企業迅速構建專屬大模型問答系統。
隨著基礎大模型的發展,以及模型增量訓練的知識衝突問題日益凸顯,RAG 逐漸成為企業智慧知識庫的標準解決方案,然而知識召回的準確率和完整性成為了影響問答效果的關鍵因素。
鯨智文件大模型,借鑑了 “大模型 + 小模型” 的思路,基於基座大模型構建了一套大小模型的組合,形成了一套垂直大模型,可以端到端實現垂直應用場景的需求。當前,鯨智文件大模型在多模態識別、檢索和精準召回上做了很多的嘗試,也取得了一定的成果。
AI 大模型的迅速發展,讓企業沉澱的大量文件的知識理解和處理帶來了轉機,浩鯨科技正透過持續的技術創新與產品最佳化,推動大模型技術與企業領域知識深度融合,實現企業文件向有價值的資產轉化,為企業創造更多價值。