專案地址:https://github.com/HKUDS/GraphAgent
論文連結:https://arxiv.org/abs/2412.17029
實驗室主頁: https://sites.google.com/view/chaoh
港大黃超團隊釋出GraphAgent: 實現圖資料與文字資料的智慧融合。GraphAgent透過創新的多智慧體協作架構,構建了一個端到端的自動化系統,包括圖生成、任務規劃和任務執行三個核心智慧體。系統巧妙地將語言模型與圖語言模型結合,實現了結構化圖資料和非結構化文字資料的無縫處理。
透過智慧體間的協同配合,GraphAgent不僅可以自動構建和理解知識圖譜中的複雜語義關係,還能靈活應對預測和生成等多樣化任務,為跨資料型別的智慧分析提供了新的解決方案。
研究背景
現實世界的資料呈現出結構化(如圖連線)與非結構化(如文字、視覺資訊)的雙重特性。這些資料中蘊含著複雜的關係網路:一方面是顯式的連線關係(如社交網路中的使用者互動、行為軌跡),另一方面是實體之間的隱式語義依賴(通常以知識圖譜形式呈現)。這種資料的複雜性為處理和分析帶來了以下關鍵挑戰:
·資料形式多樣化:系統需要高效處理和整合不同形式的資訊。以學術網路為例,論文之間透過引用構成顯式的圖結構關係,而每篇論文的標題、摘要等文字內容則提供了豐富的非結構化語義資訊。這些資訊的有效融合可用於知識總結、科學問答等應用場景。
·關係的顯隱交織:資料中同時存在顯式和隱式兩類關係。以電商場景為例,使用者與商品的互動形成顯式的行為圖譜,而產品評論和描述則構建了隱式的語義關聯。系統需要同時理解和利用這兩種關係,以提供更準確的使用者-商品互動預測。
·任務型別多元化:不同場景需要系統具備多樣化的任務處理能力。在預測型任務方面,系統需要完成節點分類、連結預測等圖分析任務;在生成型任務方面,則需要處理基於圖增強的文字生成、知識圖譜問答等。這要求系統能夠靈活適應不同型別的任務要求,同時在處理過程中有效利用資料中的顯式關係和隱式語義資訊。
為應對上述挑戰,本文提出了GraphAgent系統,這是一個創新的多智慧體自動化框架。該系統能夠同時處理顯式圖依賴關係和隱式圖增強語義關係,有效支援預測性任務(如圖結構預測及節點分類)和生成性任務(如文字生成)。GraphAgent主要包含以下三個核心元件:
1.圖生成智慧體(Graph Generator Agent): 透過多階迭代的知識抽取和描述增強過程,自動構建語義知識圖譜(SKG),以反映複雜的語義依賴關係。該智慧體不僅能從非結構化文字中識別關鍵實體和概念,還能透過知識增強技術豐富圖譜的語義表示,為下游任務提供豐富的結構化知識支援。
2.任務規劃智慧體(Task Planning Agent): 透過智慧體自我規劃,解讀使用者的多樣化查詢並制定相應任務。該智慧體能夠將自然語言查詢轉化為明確的任務目標,同時將圖資料轉換為統一的嵌入結構,以便後續模組有效利用。它實現了從使用者意圖到具體執行計劃的智慧對映。
3.任務執行智慧體(Task Execution Agent): 基於圖語言模型架構,高效執行規劃任務,同時自動匹配和呼叫相應工具來響應使用者查詢。該智慧體透過特殊的圖-指令對齊訓練和課程學習策略,在預測性和生成性任務中都展現出優異效能。
這些智慧體透過精心設計的協作機制無縫配合,將語言模型與圖語言模型的優勢相結合,有效揭示覆雜的關係資訊和資料語義依賴。實驗表明,該框架在多個基準資料集的圖預測和文字生成任務上都取得了顯著的效能提升。
GraphAgent架構
為了應對上述挑戰,GraphAgent提出了一個完整的自動化智慧體框架,其每個元件詳細資訊如下:
圖生成智慧體(Graph Generation Agent)
圖生成智慧體旨在自動構建語義知識圖譜(Semantic Knowledge Graph, SKG),透過創新的迭代兩階段工作流程實現深度的語義資訊捕獲。具體包括:
·知識節點提取階段
1.輸入處理:接收非結構化文字資料,透過定製的系統提示呼叫大語言模型(LLM)
2.多粒度識別:採用迭代式策略,同時捕獲不同層次的知識實體
o高層概念:如"Machine Learning"等領域概念
o細粒度實體:"Self-Supervised Learning"等具體技術
3.分層架構:透過多輪迭代形成層次化的知識體系結構
·知識描述增強階段
1.節點豐富:為每個提取的節點生成詳細的文字描述
2.上下文整合:融入相關的上下文資訊,提供完整的知識表示
3.迭代最佳化:採用創新的迭代更新機制
- 將前一輪描述作為下一輪輸入
- 持續擴充和精煉知識內容
- 最終合併多輪結果,形成完整的語義圖譜
任務規劃智慧體(Task Planning Agent)
作為框架的決策中樞,任務規劃智慧體透過三個關鍵階段完成任務規劃:
·意圖識別與任務制定
1.查詢解析:深度理解使用者輸入意圖
2.任務分類:支援三類核心任務
- opredictive_predefined:預定義圖的預測
- opredictive_wild:非預定義圖的預測
- oopen_generation:開放式生成任務
·圖-符號對映
1.統一處理:使用圖構建工具(GBW_Tool)轉換圖結構
2.雙重支援:同時處理顯式圖(G_exp)和語義知識圖(G_skg)
3.標準化表示:採用統一的異構圖表示方式
·圖符號化
4.雙層編碼:整合預訓練文字編碼器和圖神經網路
5.特徵融合:生成文字和圖結構的雙重表示
6.資訊整合:為後續任務提供豐富的特徵基礎
圖動作智慧體(Graph Action Agent)
作為框架的執行單元,圖動作智慧體透過精細的設計實現高效任務處理:
·跨任務處理機制
1.預測任務:透過定製化系統提示引導模型預測
2.生成任務:利用語義知識圖增強文字生成質量
3.差異化策略:針對不同任務型別最佳化處理流程
·圖-指令對齊最佳化
4.型別內對齊:增強特定型別圖嵌入的理解
5.型別間對齊:提升異構關係的處理能力
6.雙重機制:顯著提升模型泛化效能
·任務微調策略
7.課程學習:從簡單任務逐步過渡到複雜任務
8.漸進訓練:精心設計任務序列確保學習效果
9.效能最佳化:在各類任務上實現穩定表現
實驗
資料集設定
本文實驗採用了6個不同型別的資料集進行全面評估。從Table 1可以看出,這些資料集具有不同的特點和任務型別:
為了全面評估GraphAgent在不同任務場景下的效能,我們採用了6個具有代表性的資料集進行實驗驗證。這些資料集可以分為三類:1) 結構化圖資料集,包括用於節點分類的IMDB(11,616個節點)和ACM(10,942個節點)資料集;2) 文字資料集,包括用於文件分類的Arxiv-Papers(153,555個SKG節點)和用於論文錄用預測的ICLR-Peer Reviews(161,592個SKG節點)資料集;3) 生成型資料集,包括用於相關工作生成的Related Work Generation(包含875,921個SKG節點,基於多篇論文構建)和用於長文件摘要的GovReport(15,621個SKG節點)。這些資料集在規模、任務型別和複雜度上都具有顯著差異,能夠很好地驗證模型在不同應用場景下的表現。特別是,我們的資料集選擇同時涵蓋了需要處理結構化圖關係的任務和需要理解語義依賴的任務,這與GraphAgent的設計目標高度吻合。
實驗效果分析
1.結構化圖預測效能
研究團隊首先透過零樣本學習框架評估了GraphAgent在結構化圖任務中的效能。具體實驗設定為在IMDB資料集上進行少樣本訓練(1-shot和40-shot),隨後在ACM資料集的1000個未見節點上進行評估。實驗結果表明,GraphAgent相比當前最先進的圖語言模型HiGPT,在所有評估指標上取得了顯著提升,平均改進幅度超過28%。在40-shot設定下的表現尤為突出,Micro-F1、Macro-F1和AUC分別達到74.98%、74.98%和80.90%,相比基準模型分別提升了48.5%、63.5%和27.2%。
這些效能上的顯著提升主要得益於GraphAgent的三個核心創新:
·智慧圖生成機制: 透過圖生成智慧體自動構建語義知識圖譜(SKG),為模型提供豐富的補充資訊,有效增強了模型對複雜語義關係的理解能力。
·精確任務規劃: 任務規劃智慧體能夠準確理解和分解使用者意圖,並制定合適的執行策略,使模型能夠更好地適應不同型別的應用場景。
·雙重最佳化策略: 創新性地結合了圖文對齊和任務微調兩種機制,不僅提升了模型的基礎能力,還增強了其遷移學習潛力。這一機制使得GraphAgent即使在1-shot等低資源場景下依然保持穩定的效能,展現出在零樣本學習等具有挑戰性任務中的卓越表現。
2.隱式語義依賴關係的預測任務
研究團隊進一步評估了GraphAgent在處理隱式語義依賴關係的預測任務上的表現。實驗在Arxiv-Papers和ICLR-Peer Reviews兩個資料集上進行,分別考察了論文分類和錄用預測這兩個典型場景。GraphAgent展現出了三個顯著優勢:
實驗結果展現了GraphAgent的三個核心優勢:
·小模型實現大效能: 僅有8B引數規模的GraphAgent在各項評估指標上顯著超越了包括Llama3-70b和Qwen2-72b在內的大規模模型,平均效能提升達31.9%。這主要得益於其透過語義知識圖譜(SKG)有效捕捉複雜語義依賴關係,並在多個語義層次上實現了區域性和全域性資訊的有效整合。
·強大的泛化能力: GraphAgent展現出優秀的跨任務學習能力,其多工變體GraphAgent-General在Arxiv-Papers資料集上甚至超越了專門最佳化的單任務版本。更值得注意的是,即使在零樣本場景下,8B規模的GraphAgent也能達到Deepseek-Chat-V2等大型閉源模型的效能水平。
·高效的架構設計: 相比傳統的監督微調(SFT)方法和GraphRAG系統,GraphAgent透過整合語義知識圖譜和結構化知識表示,不僅提升了模型效能,還顯著降低了輸入開銷,同時有效緩解了大語言模型的幻覺問題。
3.文字生成任務
GraphAgent在圖增強文字生成任務的實驗評估中取得了顯著成果,主要體現在效能評估、與主流模型的對比以及架構效率三個方面。
·在效能評估方面,透過Llama3-70b和Qwen2-72b雙重驗證,GraphAgent在困惑度(PPL)指標上明顯優於基線模型。相比傳統的監督微調(SFT)和GraphRAG方法,GraphAgent透過自動構建語義知識圖譜,有效增強了模型的推理和理解能力。這從根本上解決了簡單輸入輸出微調或知識注入難以捕捉複雜推理模式的問題。
·在模型對比和架構設計上,GraphAgent展現出獨特優勢。採用GPT-4作為評判標準的實驗顯示,GraphAgent較Llama3-8b和Llama3-70b分別提升了114%和45%,在67%的案例中優於同等規模模型,58%的案例中超越主流開源模型。特別值得注意的是,GraphAgent僅需8B引數規模和極少的額外輸入開銷就實現了這些優異表現,充分證明了基於語義知識圖譜的架構設計在提升文字生成能力方面的有效性。
消融實驗
消融實驗(Ablation Study)評估了GraphAgent的三個關鍵元件對模型效能的影響,展示出以下主要發現:
·語義知識圖譜(SKG)的關鍵作用: 在預測任務中,移除SKG元件導致效能顯著下降(-15.2%),表明自動構建的語義知識圖譜為模型提供了至關重要的補充資訊。
·圖文對齊機制的重要性: 在生成任務中,缺失圖文對齊機制造成了最大的效能損失(PPL增加11.282),說明深度的圖文理解對於需要複雜推理能力的生成任務尤為重要。
·課程學習策略的有效性: 儘管影響相對較小(預測任務-4.0%,生成任務PPL+0.503),但課程學習策略的移除仍對兩類任務產生了負面影響,證明了從簡單到複雜任務的漸進式學習安排的重要性。
總結與展望
GraphAgent透過多智慧體架構實現了結構化和非結構化資料的有效整合,在多個任務上取得了優異表現。主要貢獻包括:
1.框架核心亮點:提出了一個能夠無縫整合圖推理和語言建模的多智慧體框架,透過三個核心元件(圖生成智慧體、任務規劃智慧體、任務執行智慧體)實現對結構化和非結構化資料的自動化處理。
2.效能突破:該框架能夠處理預測性任務(如節點分類)和生成性任務(如文字生成),在多個資料集上展現出優異效能,特別是在使用較小規模模型(8B引數)的情況下,仍能與大規模封閉源模型(如GPT-4、Gemini)相媲美。
3.實驗驗證:透過實驗驗證了框架在圖相關預測任務和文字生成任務上的有效性,尤其是在零樣本學習和跨域泛化方面表現突出。
未來研究方向包括:
·多模態擴充套件: 計劃將框架擴充套件到視覺資訊領域,實現關係型、文字和視覺元素的綜合理解與生成。
·效能最佳化: 進一步提升模型在複雜場景下的泛化能力,減少引數量的同時保持或提升效能。
·應用擴充: 探索更多實際應用場景,如科學研究輔助、商業分析等領域的具體落地。