KDD 2024|港大黃超團隊深度解析大模型在圖機器學習領域的「未知邊界」

机器之心發表於2024-07-22
圖片
AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本文的主要作者來自香港大學的資料智慧實驗室 (Data Intelligence Lab)。作者中,第一作者任旭濱和第二作者湯嘉斌都是香港大學資料科學院的一年級博士生,指導老師為 Data Intelligence Lab@HKU 的黃超教授。香港大學資料智慧實驗室致力於人工智慧和資料探勘的相關研究,涵蓋大語言模型、圖神經網路、資訊檢索、推薦系統、時空資料探勘等領域。此前的工作包括了通用圖大語言模型 GraphGPT,HiGPT;智慧城市大語言模型 UrbanGPT;可解釋大語言模型推薦演算法 XRec 等。

在資訊爆炸的當今時代,我們如何從浩如煙海的資料中探尋深層次的聯絡呢?

對此,香港大學、聖母大學等機構的專家學者在圖學習與大型語言模型領域的最新綜述中,為我們揭示了答案。

圖,作為描繪現實世界中各種關係的基礎資料結構,其重要性不言而喻。以往的研究已證明,圖神經網路在圖相關的任務中取得了令人矚目的成果。然而,隨著圖資料應用場景複雜度的不斷提升,圖機器學習的瓶頸問題也越發凸顯。近期,大型語言模型在自然語言處理領域大放異彩,其出色的語言理解和總結能力備受矚目。正因如此,將大語言模型與圖學習技術相融合,以提升圖學習任務的效能,已成為業界新的研究熱點。

這篇綜述針對當前圖學習領域的關鍵技術挑戰,如模型泛化能力、魯棒性,以及複雜圖資料的理解能力等,進行了深入分析,並展望了未來大模型技術在突破這些 "未知邊界" 方面的潛力。

圖片

  • 論文地址:https://arxiv.org/abs/2405.08011

  • 專案地址:https://github.com/HKUDS/Awesome-LLM4Graph-Papers

  • 港大資料智慧實驗室:https://sites.google.com/view/chaoh/home

該綜述深入回顧了最新應用於圖學習中的 LLMs,並提出了一種全新的分類方法,依據框架設計對現有技術進行了系統分類。其詳盡剖析了四種不同的演算法設計思路:一是以圖神經網路為字首,二是以大語言模型為字首,三是大語言模型與圖整合,四是僅使用大語言模型。針對每一類別,我們都著重介紹了其中的核心技術方法。此外,該綜述還深入探討了各種框架的優勢及其侷限性,並指明瞭未來研究的潛在方向。

香港大學資料智慧實驗室的黃超教授領導的研究團隊,將在 KDD 2024 大會上深入探討大模型在圖學習領域所面臨的 "未知邊界"。

1 基本知識

在電腦科學領域,圖(Graph)是一種重要的非線性資料結構,它由節點集(V)和邊集(E)構成。每條邊連線一對節點,並可能是有向的(具有明確的起點和終點)或無向的(不指定方向)。特別值得一提的是,文字屬性圖(Text-Attributed Graph, TAG)作為圖的特殊形式,為每個節點分配了一個序列化的文字特徵,如句子,這一特性在大型語言模型時代顯得尤為關鍵。文字屬性圖可以規範地表示為由節點集 V、邊集 E 和文字特徵集 T 組成的三元組,即 G* = (V, E, T)。

圖神經網路(Graph Neural Networks, GNNs)是針對圖結構資料設計的深度學習框架。它透過聚合鄰近節點的資訊來更新節點的嵌入表示。具體來說,GNN 的每一層都會透過特定的函式來更新節點嵌入 h,該函式綜合考慮當前節點的嵌入狀態以及周邊節點的嵌入資訊,從而生成下一層的節點嵌入。

大型語言模型(Large Language Models, LLMs)是一種強大的迴歸模型。近期研究顯示,包含數十億引數的語言模型在解決多種自然語言任務時表現卓越,如翻譯、摘要生成和指令執行,因而被稱為大型語言模型。目前,大多數前沿的 LLMs 都基於採用查詢 - 鍵 - 值(QKV)機制的 Transformer 塊構建,該機制能高效地在詞元序列中整合資訊。根據注意力的應用方向和訓練方式,語言模型可分為兩大型別:

  • 掩碼語言建模(Masked Language Modeling, MLM)是一種廣受歡迎的 LLMs 預訓練目標。它涉及在序列中選擇性地掩蓋特定的詞元,並訓練模型依據周邊上下文預測這些被掩蓋的詞元。為實現精準預測,模型會綜合考慮被掩蓋詞元的前後文環境。

  • 因果語言建模(Causal Language Modeling, CLM)是另一種主流的 LLMs 預訓練目標。它要求模型根據序列中先前的詞元預測下一個詞元。在此過程中,模型僅依據當前詞元之前的上下文來進行準確的預測。

2 圖學習與大語言模型

圖片

在這篇綜述文章中,作者依據模型的推理流程 —— 即圖資料、文字資料的處理方式以及與大型語言模型(LLMs)的互動方式,提出了一種新的分類方法。具體而言,我們歸納了四種主要的模型架構設計型別,具體如下:

  • GNNs as Prefix(GNNs 作為字首):在此類別中,圖神經網路(GNNs)作為首要元件,負責處理圖資料,併為 LLMs 提供具有結構感知的標記(如節點級、邊級或圖級標記),以供後續推理使用。

  • LLMs as Prefix(LLMs 作為字首):在這一類別中,LLMs 首先處理附帶文字資訊的圖資料,隨後為圖神經網路的訓練提供節點嵌入或生成的標籤。

  • LLMs-Graphs Integration(LLMs 與圖整合):該類別的方法致力於實現 LLMs 與圖資料之間更為深入的整合,例如透過融合訓練或與 GNNs 的對齊。此外,還構建了基於 LLM 的智慧體(agent),以便與圖資訊進行互動。

  • LLMs-Only(僅使用 LLMs):此類別設計了實用的提示技巧,將圖結構化資料嵌入到詞元序列中,從而便於 LLMs 進行推斷。同時,部分方法還融合了多模態標記,進一步豐富了模型的處理能力。

2.1 GNNs as Prefix

圖片

在圖神經網路(GNNs)作為字首的方法體系中,GNNs 發揮著結構編碼器的作用,顯著提升了大型語言模型(LLMs)對圖結構資料的解析能力,從而為多種下游任務帶來益處。這些方法裡,GNNs 主要作為編碼器,負責將複雜的圖資料轉換為包含豐富結構資訊的圖 token 序列,這些序列隨後被輸入到 LLMs 中,與自然語言處理流程相契合。

這些方法大體上可分為兩類:首先是節點級 Token 化,即將圖結構中的每個節點單獨輸入到 LLM 中。這一做法的目的是使 LLM 能夠深入理解細粒度的節點級結構資訊,並準確辨別不同節點間的關聯與差異。其次是圖級 Token 化,它採用特定的池化技術將整個圖壓縮為固定長度的 token 序列,旨在捕捉圖結構的整體高階語義。

對於節點級 Token 化而言,它特別適用於需要建模節點級別精細結構資訊的圖學習任務,如節點分類和連結預測。在這些任務中,模型需要能夠區分不同節點間的細微語義差別。傳統的圖神經網路會根據相鄰節點的資訊為每個節點生成一個獨特的表示,然後基於此進行下游的分類或預測。節點級 Token 化方法能夠最大限度地保留每個節點的特有結構特徵,對下游任務的執行大有裨益。

另一方面,圖級 Token 化則是為了適應那些需要從節點資料中提煉全域性資訊的圖級任務。在 GNN 作為字首的框架下,透過各種池化操作,圖級 Token 化能夠將眾多節點表示綜合成一個統一的圖表示,這樣不僅能夠捕獲圖的全域性語義,還能進一步提升各類下游任務的執行效果。

2.2 LLMs as Prefix

圖片

大語言模型(LLMs)字首法利用大型語言模型生成的豐富資訊來最佳化圖神經網路(GNNs)的訓練過程。這些資訊涵蓋了文字內容、LLMs 產生的標籤或嵌入等多種資料。根據這些資訊的應用方式,相關技術可分為兩大類:一是利用 LLMs 生成的嵌入來助力 GNNs 的訓練;二是將 LLMs 生成的標籤整合到 GNNs 的訓練流程中。

在利用 LLMs 嵌入方面,GNNs 的推理過程涉及節點嵌入的傳遞與聚合。然而,初始節點嵌入的質量和多樣性在不同領域中差異顯著,例如推薦系統中的 ID 基礎嵌入或引文網路中的詞袋模型嵌入,可能缺乏清晰度和豐富性。這種嵌入質量的不足有時會限制 GNNs 的效能表現。此外,缺乏通用的節點嵌入設計也影響了 GNNs 在處理不同節點集時的泛化能力。幸運的是,透過藉助大型語言模型在語言總結和建模方面的卓越能力,我們可以為 GNNs 生成富有意義和效果的嵌入,從而提升其訓練效果。

在整合 LLMs 標籤方面,另一種策略是將這些標籤作為監督訊號,以增強 GNNs 的訓練效果。值得注意的是,這裡的監督標籤不僅限於傳統的分類標籤,還包括嵌入、圖等多種形式。由 LLMs 生成的資訊並不直接作為 GNNs 的輸入資料,而是構成了更為精細的最佳化監督訊號,從而幫助 GNNs 在各種圖相關任務上取得更加卓越的效能。

2.3 LLMs-Graphs Intergration

圖片

該類方法進一步整合了大型語言模型與圖資料,涵蓋多樣化的方法論,不僅提升了大型語言模型(LLMs)在圖處理任務中的能力,同時也最佳化了圖神經網路(GNNs)的引數學習。這些方法可被歸納為三種型別:一是 GNNs 與 LLMs 的融合,旨在實現模型間的深度整合與共同訓練;二是 GNNs 與 LLMs 之間的對齊,專注於兩種模型在表示或任務層面上的對齊;三是構建基於 LLMs 的自主智慧體,以規劃和執行圖相關任務。

GNNs 與 LLMs 的融合方面,通常 GNNs 專注於處理結構化資料,而 LLMs 則擅長處理文字資料,這導致兩者具有不同的特徵空間。為了解決這一問題,並促進兩種資料模態對 GNNs 和 LLMs 學習的共同增益,一些方法採用對比學習或期望最大化(EM)迭代訓練等技術,以對齊兩個模型的特徵空間。這種做法提升了圖和文字資訊的建模精度,從而在各種任務中提高了效能。

關於 GNNs 與 LLMs 的對齊,儘管表示對齊實現了兩個模型的共同最佳化和嵌入級別的對齊,但在推理階段它們仍是獨立的。為了實現 LLMs 和 GNNs 之間更緊密的整合,一些研究聚焦於設計更深層次的模組架構融合,例如將 LLMs 中的變換器層與 GNNs 中的圖神經層相結合。透過共同訓練 GNNs 和 LLMs,可以在圖任務中為兩個模組帶來雙向的增益。

最後,在基於 LLM 的圖智慧體方面,藉助 LLMs 在指令理解和自我規劃解決問題上的出色能力,新的研究方向是構建基於 LLMs 的自主智慧體,以處理人類給出的或與研究相關的任務。通常情況下,這樣的智慧體包括記憶、感知和行動三個模組,形成觀察、記憶回憶和行動的迴圈,用於解決特定任務。在圖論領域,基於 LLMs 的智慧體能夠直接與圖資料進行互動,執行如節點分類和連結預測等任務。

2.4 LLMs-Only

圖片

該綜述在 LLMs-Only 的章節中詳細闡述了直接將大型語言模型(LLMs)應用於各種以圖為導向任務的情況,即所謂的 “僅 LLMs” 類別。這些方法的目標是讓 LLMs 能夠直接接受圖結構資訊,理解它,並結合這些資訊對各種下游任務進行推理。這些方法主要可以分為兩大類:i)無需微調的方法,旨在設計 LLMs 能夠理解的提示,直接促使預訓練的 LLMs 執行以圖為導向的任務;ii)需要微調的方法,專注於將圖轉換為特定方式的序列,並透過微調方法對齊圖 token 序列和自然語言 token 序列。

無需微調的方法:鑑於圖資料獨特的結構特性,出現了兩個關鍵挑戰:一是有效地用自然語言格式構建圖;二是確定大型語言模型(LLMs)是否能夠準確理解以語言形式表示的圖結構。為了解決這些問題,一部分研究人員開發了無需調整的方法,在純文字空間內對圖進行建模和推理,從而探索預訓練 LLMs 在增強結構理解方面的潛力。

需要微調的方法:由於使用純文字表達圖結構資訊存在侷限性,近期的主流方法是在將圖輸入到大型語言模型(LLMs)時,將圖作為節點 token 序列與自然語言 token 序列對齊。與前述的 GNN 作為字首的方法不同,需要調整的僅 LLM 方法放棄了圖編碼器,轉而採用特定的文字描述來體現圖結構,並且在提示中精心設計了 prompts,這在各種下游圖相關任務中取得了有希望的表現。

3 未來的研究方向

該綜述還討論了大型語言模型在圖領域的一些開放問題和潛在的未來研究方向:

多模態圖與大型語言模型(LLMs)的融合。近期研究顯示,大型語言模型在處理和理解影像、影片等多模態資料方面表現出非凡能力。這一進步為將 LLMs 與包含多種模態特徵的多模態圖資料相結合提供了新的契機。研發能夠處理此類圖資料的多模態 LLMs,將使我們在綜合考慮文字、視覺、聽覺等多種資料型別的基礎上,對圖結構進行更為精確和全面的推理。

提升效率與降低計算成本。目前,LLMs 的訓練和推理階段涉及的高昂計算成本已成為其發展的重大瓶頸,制約了它們處理包含數百萬節點的大規模圖資料的能力。當嘗試將 LLMs 與圖神經網路(GNNs)結合時,由於兩種強大模型的融合,這一挑戰變得更為嚴峻。因此,亟待發現並實施有效策略,以降低 LLMs 和 GNNs 的訓練計算成本,這不僅有助於緩解當前面臨的限制,還將進一步擴充 LLMs 在圖相關任務中的應用範圍,從而提升它們在資料科學領域的實用價值和影響力。

應對多樣化的圖任務。當前的研究方法主要集中在傳統的圖相關任務上,例如連結預測和節點分類。但考慮到 LLMs 的強大能力,我們有必要深入探索其在處理更為複雜和生成性任務方面的潛力,如圖生成、圖理解以及基於圖的問題回答等。透過擴充套件基於 LLM 的方法以涵蓋這些複雜任務,我們將為 LLMs 在不同領域的應用開闢無數新機遇。例如,在藥物研發領域,LLMs 可以促進新分子結構的生成;在社交網路分析領域,它們可以提供對複雜關係模式的深入洞察;在知識圖譜構建方面,LLMs 則有助於建立更加全面且上下文準確的知識庫。

構建使用者友好的圖智慧體。目前,大多數為圖相關任務設計的基於 LLM 的智慧體都是針對單一任務定製的。這些智慧體通常採用單次執行模式,旨在一次性解決問題。然而,理想的基於 LLM 的智慧體應具備使用者友好性,並且能夠動態地在圖資料中搜尋答案,以響應使用者提出的多樣化開放式問題。為實現這一目標,我們需要開發一個既靈活又穩健的智慧體,它能夠與使用者進行迭代互動,並熟練應對圖資料的複雜性,提供準確且相關的答案。這將要求智慧體不僅具備高度的適應性,還需展現出強大的穩健性。

4 總結

該綜述對圖資料定製的大型語言模型(LLMs)進行了深入探討,並提出了基於模型的推理框架設的分類方法,將不同的模型細緻地劃分為四種各具特色的框架設計。每一種設計都展現出其獨特的優點與侷限性。不僅如此,該綜述還對這些特性展開了全面的討論,深入挖掘了每一種框架在應對圖資料處理任務時的潛力和挑戰。此項調研工作旨在為那些熱衷於探索並應用大型語言模型來解決圖相關問題的研究人員提供參考資源,並且希望最終透過這項工作,推動對 LLMs 與圖資料結合應用的更深層次理解,進一步催生該領域的技術創新和突破。

相關文章