螞蟻自研知識增強大模型服務框架KAG,可顯著提升知識推理準確率

机器之心發表於2024-09-12
近日,在 2024 Inclusion・外灘大會 “超越平面思維,圖計算讓 AI 洞悉複雜世界” 見解論壇上,螞蟻集團知識圖譜負責人梁磊分享了 “構建知識增強的專業智慧體” 相關工作,並帶來了知識圖譜與大模型結合最新研發成果 —— 知識增強大模型服務框架 KAG

梁磊介紹,專業領域增強大模型服務框架 KAG 透過圖譜邏輯符號引導決策和檢索,顯著提升了垂直領域決策的精準性和邏輯嚴謹性;透過資訊檢索可補全知識圖譜的稀疏性和知識覆蓋的不足,同時充分利用大語言模型的理解和生成能力降低領域知識圖譜的構造門檻。KAG 框架在垂直領域的適用性得到了有效驗證。比如,支付寶最新推出的 AI 原生 App “支小寶” 採用這套框架,在政務問答場景的準確率提升到了 91%,醫療問答垂直的指標解讀準確率可達 90% 以上。梁磊還透露,KAG 框架會進一步向社群開放,並在開源框架 OpenSPG (https://github.com/OpenSPG/openspg) 中原生支援,也歡迎社群共建。

以下是梁磊在外灘大會上的演講內容摘要,機器之心做了不改變原意的整理。

1、可信是大語言模型真正落地應用的前提

語言模型有著很好的理解和生成能力,在垂直領域的應用有巨大的機會,但同時也存在著非常大的挑戰。比如在垂直領域跟專家經驗、一些具體業務結合的時候,依然存在著不懂領域知識、做不了複雜決策、不可靠等問題。

圖片

首先,大語言模型本身不具備比較嚴謹的思考能力。在一些測試中,我們讓大語言模型做複雜問題的拆解,問兩部電影之間的共同主演是誰,結果顯示總體上回復的準確性和一致性相對較低,甚至還有一些拆解錯誤。這種情況下,大語言模型很難嚴格遵從人類的指令。此外,大語言模型還存在事實性不足的問題。今年以來行業嘗試把 RAG、搜尋引擎之類的技術引入到大語言模型,來補充事實性不足的問題,以及 GraphRAG,用圖的方式去重新組織它的檢索。但問題是,即便引入了一些外部知識庫,把一些垂直領域的知識庫和事實文件給到語言模型,模型也不見得能夠完全生成一個準確的答案。

除此以外,大模型在外部知識庫召回的時候,也依然會存在召回不準的問題。舉個基於向量計算的 RAG 的例子。比如問 “怎麼查詢我的養老金”,常見的有兩種做法,一種是直接基於向量計算去召回文件,但是往往和業務專家定義的知識不相關。但在垂直領域,有很多知識在字面上不相似,但卻是很相關的。比如政策明確規定了五險一金的範圍,大模型不能對這些內容做胡亂生成,這就必須有一些預定義的領域知識和預定義的知識結構,來約束大模型的行為,甚至給它提供一個更有效的知識注入,而這些都是模型在文字上不相似,但卻是強相關的。在這種情況下,今年討論引入知識圖譜技術的也越來越多。透過知識圖譜的語義相關性來提升模型內容的相關性,以此可以做更好的語義計算和語義的召回。
大模型幻覺也是阻礙應用的關鍵挑戰之一。那麼,引入了 RAG、知識庫之後,大模型就能解決幻覺問題了嗎?其實不然,而且有些幻覺問題不仔細觀察便難以察覺。舉個例子,比如原文提到功能飲料中的維生素、礦物質等,對運動後補充身體營養、消除疲勞具有一定作用,而大模型重新生成以後,可能會改寫成對於增加疲勞有一定作用。這種其實就會給一個錯誤的引導,但這種錯誤的引導,尤其是大模型生成的文案可能是幾百字,甚至上千字的,這時候就很難從裡面觀察到這類細節問題。透過測評發現,大語言模型即便是加入 RAG 以後,依然有大概 30% 到 40% 的幻覺率。

在真實業務決策場景,挑戰就更多了。以金融場景為例,無論是研報生成,還是醫療問診等等,業務上都有比較嚴格的問題規劃、資訊獲取、決策建議,甚至生成和反饋的過程。也就是說,因為大語言模型還是要為人類服務,應用在一個個垂直業務場景,每一類都需要準確的決策過程,如果這個決策過程不能得到很好的控制的話,就很難真正意義上用在垂直領域。在專業性的知識服務場景,大語言模型服務的首要前提是知識精準。這就包括知識的邊界是完備的,知識的結構及語義清晰、邏輯嚴謹。另外,在垂直領域落地,也一定要對時間、數字和邏輯敏感,無論讓它做多跳推理,還是邏輯規則數字計算,而這些恰好是大語言模型所不擅長的,包括前一段時間熱議的 9.9 和 9.12 比大小的例子。

基於此,我們認為在垂直領域落地的時候,大語言模型一定確保專業和可信。可信是大語言模型真正意義上落地的前提。如果不能保證可信,我們可能不會迎來真正意義上的 AGI 的變革。這也是螞蟻為什麼要做知識增強的重要原因。

2、KAG:專業領域知識增強大模型服務框架

應對大模型在真實應用場景遇到的挑戰,螞蟻研發了基於知識增強在垂直領域的可控生成框架 KAG。

圖片

KAG 可控生成框架是基於開源系統 OpenSPG 升級,並且結合了螞蟻自研的圖資料庫 TuGraph-DB 的能力。TuGraph-DB 作為 KAG 中知識圖譜 SPG 的底層圖引擎,為 KAG 提供了高效的知識儲存與檢索能力。KAG 將抽取的知識儲存於 SPG 中,由 TuGraph-DB 提供圖儲存;在檢索流程中,SPG 透過 TuGraph-DB 的 Cypher 介面檢索與使用者提問相關的知識資訊,並將結果反饋給大模型生成回答。

KAG 框架針對大語言模型和圖譜的結合做了五方面的增強:分別是知識表示的增強、圖結構與文字互索引、符號引導的拆解和推理、基於概念的知識對齊、KAG Model。具體包括以下關鍵能力:

1) KAG: LLMs 友好的知識表示

今年,我們對語義表示進行了升級,旨在進一步發展 OpenSPG 專案,推動知識圖譜從靜態二元結構向多元動態結構持續升級。透過原始文字增強深度上下文感知,我們實現了更豐富的可解釋文字的知識關聯,對大語言模型也更友好,同時,參考 DIKW 層次正規化在同一實體空間中支援 Schema 約束、無模式建模及文字結構的分層表示。

圖片

同時,我們探討了 GraphRAG 正規化的兩種主要實現:微軟的 GraphRAG 和 HippoRAG。儘管微軟的 GraphRAG 在摘要生成類任務上有不錯表現,但在事實問答準確率上表現不佳。而 HippoRAG 透過圖結構構建倒排索引,顯著提升了文件召回的相關性和事實問答的準確性。我們的目標是在專業領域內實現準確的事實性回答和報告生成,融合不同層級知識建立從嚴格到寬鬆的決策正規化。

2) 互索引:結構化知識與文字資料互索引結構

我們將原有的 term-based 倒排索引升級為 graph-based 倒排索引,透過開放資訊抽取獲取原始文件中的關鍵元素和描述性資訊,進行有效的語義切分,最終形成一個包含業務實體、通用概念知識和文字塊的圖結構。這種結構不僅便於遍歷和檢索文字塊,還能有效分析文件間的關聯。

圖片

3) 混合推理:符號決策、向量檢索與大模型混合推理

我們在 KAG 中構建了一個混合推理引擎,旨在解決知識圖譜在嚴謹決策中的應用問題。目標是開發一套技術正規化,支援複雜推理決策的執行,同時透過資訊檢索來彌補知識圖譜的不足。

圖片

該框架採用符號驅動的方法生成邏輯可執行的查詢表示式(Logic form Query)。透過圖結構操作,利用分層知識進行決策:先在邏輯知識層檢索,若無解則轉向開放資訊層,再透過關聯文件檢索提高召回率和準確性。在生成階段,我們應用 query-focused summary 方法,以透過查詢結構提取答案,解決傳統知識圖譜與使用者查詢的粒度匹配問題。同時,基於知識圖譜的反饋有助於抑制語言模型生成中的幻覺,提高準確性。系統將問題拆解為邏輯符號表達,可轉化為 KGDSL 或 GQL。我們的兩階段規劃包含圖譜儲存中的精確匹配和 SPO 子圖檢索,最後整合知識圖譜以減輕幻覺。透過文字抽取的三元組注入語言模型,在生成時遵循結構正規化,有效降低幻覺率。這種方法在內部業務中如區域風險報告生成中已顯著改善,我們將繼續深入探索這一方向。

4) 語義對齊:平衡資訊檢索與專業決策

問題的關鍵在於如何有效整合資訊檢索和專業決策。資訊檢索允許一定的錯誤率,而專業決策對準確性要求則是嚴格的。因此,我們透過開放資訊抽取構建結構化知識,並應用 schema 約束以提升決策的嚴謹性。此外,基於概念的語義對齊讓我們能兼顧這兩者,形成一個基於 SPG 的領域知識圖譜,從而改善資訊檢索和專業決策的能力。

圖片

我們透過傳統圖譜方法,如實體連結和概念分層等,提升了圖結構的稠密性和語義完備性。藉助與浙江大學的 OpenKG 合作,推進 OneGraph 專案,我們致力於透過增強知識對齊能力,降低構建成本。同時,在垂直領域的探索中,例如醫療和法律術語的應用,我們最佳化了開放抽取的效率,顯著提升了與領域知識的對齊準確性。我們的框架在通用資料集上較現有 SOTA 的 F1 提高了 10-20 個百分點,並在實際應用中,比如政務和醫療問答場景,取得了顯著的精度提升,表明其在專業決策中的有效性。

5) KAG 模型:定義 LLMs 與 KGs 之間的協同任務

KAG 模型旨在降低大型語言模型(LLMs)與知識圖譜(KGs)結合的成本,利用指令合成技術使較小模型在效能上接近更大模型。我們對 LLMs 和 KGs 的能力進行對齊,強調自然語言理解、推理和生成能力,確保從文字中提取結構化資訊並提升知識融合效率。結構化、語義化的知識圖譜和原始文件之間形成了良好的雙向對映,從文字到圖譜則是刻畫文字內的關鍵資訊和符號結構,從圖譜到文字則是描述文字生成中所必須滿足的知識和邏輯約束。

圖片

為構建知識圖譜,我們注重知識點的文字可解釋性,要求附帶描述資訊、關聯原始文字段, 避免僅只有原始詞條。知識圖譜的結構化特性有助於生成高質量指令,透過邏輯拆解和語義關係合成提升大語言模型自然語言理解和推理能力。此外,指令的合成和語義對齊使小引數量模型達到接近或超越更大引數模型的效果,同時大幅提升效能。實踐中發現圖譜指令合成微調後的小模型在概念補全、資訊抽取等圖譜專用任務上的準確率均高於更大引數模型。

3. KAG 在垂直領域的典型應用

今年以來,我們在業務應用中不斷完善 KAG 框架。在支付寶 AI 生活管家 “支小寶” 的熱點事件功能、政務民生場景,以及研報生成類任務,KAG 都能夠生成邏輯上更為準確的內容。此外,支付寶今年在政務辦事和醫療健康兩個重要功能升級中也應用了知識圖譜技術。例如,“去醫院針灸能否報銷?” 這一問題包含了特定條件,而帶有條件的檢索是傳統搜尋引擎或向量計算所不具備的功能。透過知識圖譜的方式,我們可以更有效地找到相關知識並生成更加完備的回答。

近期,螞蟻將釋出 KAG 的整體技術報告。我們希望真正融合知識圖譜的符號計算和向量檢索的優勢,因為它們在很多方面是互補的。同時,利用大型語言模型的理解和生成能力,構建一個知識增強的大語言模型生成系統。

圖片

在這個過程中,我們首先需要解決的是垂直領域應用的問題。系統既能進行復雜的符號決策,又能在複雜符號決策無法滿足需求時,透過向量檢索進行補充。在框架的後續版本中,我們將提供一些使用者可調的引數。這意味著,如果使用者對準確率有極高要求,可以減少基於資訊檢索生成的內容;如果對準確率有一定容忍度,則可以適當放寬標準。這為使用者提供了一個可調節的垂直領域解決方案。因為並不是所有垂直領域應用場景都要求絕對的準確率,而是存在一定的容忍範圍。因此,我們可以為使用者提供更多的動態選擇。

除了上述工作,為加速知識圖譜與大語言模型的雙向融通,螞蟻集團也和浙江大學成立了知識圖譜聯合實驗室。聯合實驗室已釋出了大模型抽取框架 OneKE,下一步還將構建增強語言模型的 OneGraph。

後記:在 2024Inclusion・外灘大會 “超越平面思維,圖計算讓 AI 洞悉複雜世界” 見解論壇上,美國伊利諾伊大學芝加哥分校電腦科學與技術系特聘教授俞士綸、國際關聯資料基準委員會(LDBC)副主席 Alastair Green、中國人壽財產保險有限公司人工智慧開發團隊負責人孔宇飛、螞蟻數字科技 AI 技術負責人章鵬、螞蟻集團圖計算解決方案架構師崔安頎等嘉賓也帶來了精彩分享,更多觀點可點選此連結檢視。

相關文章