螞蟻集團、浙江大學聯合釋出開源大模型知識抽取框架OneKE

新闻助手發表於2024-04-19

近日,由螞蟻集團和浙江大學聯合研發的大模型知識抽取框架OneKE宣佈開源,並且捐贈給OpenKG開放知識圖譜社群。


知識圖譜是實現大模型可信可控的關鍵技術之一,知識抽取可助力構建領域知識圖譜。OneKE致力於幫助研究人員和開發者更好地處理資訊抽取、文字資料結構化、知識圖譜構建等問題。

比如,透過OneKE抽取風險事件、人物實體、機構實體等可以清晰呈現事件脈絡、事件發展趨勢和實體之間關聯,構建好的圖譜可以幫助大模型實現跨實體、跨文件的複雜推理 。OneKE支援中英雙語,支援OpenSPG及DeepKE開源框架,可開箱即用。

大語言模型已顯著提升了人工智慧系統處理世界知識的能力。然而,真實世界的資訊高度碎片化、非結構化,使得大語言模型在處理資訊抽取任務時,仍會因抽取內容與自然語言表述之間的巨大差異導致效果不佳;此外,自然語言文字資訊存在較多的歧義、多義、隱喻等,給知識抽取任務帶來較大的挑戰。這也導致以大語言模型為代表的生成式人工智慧依然存在推理能力不足、事實知識匱乏、生成結果不穩定等問題,極大地阻礙了大語言模型的產業化落地。

統一知識抽取框架可大幅降低領域知識圖譜的構建成本,有比較廣闊的應用場景。這是指,透過從海量的資料中萃取結構化知識,構建高質量知識圖譜並建立知識要素間的邏輯關聯,可以實現可解釋的推理決策,也可用於增強大模型緩解幻覺,並提升穩定性,加速大模型垂直領域的落地應用。

如,在醫療領域,透過知識抽取實現醫生經驗的知識化規則化管理,構建可控的輔助診療和醫療問答。在金融領域,知識抽取科用於金融指標、風險事件、因果邏輯及產業鏈等,實現自動的金融研報生成、風險預測、產業鏈分析等。在政務場景,可實現政務法規的知識化,提升政務服務的辦事效率和準確決策。

加速推進生成式人工智慧的產業落地,螞蟻集團和浙江大學成立了知識圖譜聯合實驗室,圍繞大模型增強的知識圖譜構建、知識增強的可信可控生成、領域常識世界圖譜等課題展開全方位合作,以期透過聯合技術攻堅構建大語言模型與知識圖譜雙向增強的可控生成技術正規化。

螞蟻集團和浙江大學聯合構建和升級了螞蟻百靈大模型在知識抽取領域的能力,併發布中英雙語大模型知識抽取框架OneKE,同時開源基於LLaMA2全引數微調的版本。測評指標顯示,OneKE在多個全監督及零樣本實體/關係/事件抽取任務上取得了相對較好的效果。

螞蟻集團、浙江大學聯合釋出開源大模型知識抽取框架OneKE

(OneKE具備相對較好的中英雙語可泛化的知識抽取能力,其中在中文NER命名實體識別類任務、RE關係抽取類任務、EE事件抽取類任務上取得了相對較好的效果)

螞蟻集團知識圖譜負責人梁磊表示,螞蟻將持續最佳化知識抽取的效能,服務不同場景的大模型可控、可信需求。未來也會攜手行業夥伴,將相關的技術體系應用到金融、醫療、政務等各垂直領域,推動知識圖譜與大語言模型雙驅的可控生成技術的產業落地。

OneKE官方主頁:http://oneke.openkg.cn/

OpenSPG GitHub:https://github.com/OpenSPG/openspg

相關文章