港大黃超團隊推出AnyGraph, 首次揭秘圖大模型的Scaling Law

机器之心發表於2024-08-29
圖片

AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本文的主要作者來自香港大學的資料智慧實驗室 (Data Intelligence Lab@HKU)。第一作者是香港大學的博士後夏良昊,指導老師為黃超教授。香港大學資料智慧實驗室專注於人工智慧資料探勘的研究,涵蓋大語言模型神經網路資訊檢索推薦系統和時空資料探勘等領域。實驗室的研究成果在多個頂級會議上(如 WWW、SIGIR、KDD)獲得了諸多榮譽,包括最具影響力論文和最佳論文候選。

圖片

AnyGraph 大模型,圖模型泛化性的突破,致力於解決以下關鍵技術挑戰

  • 結構異質性:應對圖結構資訊中的分佈偏移。
  • 特徵異質性:處理跨圖資料集的多樣特徵表示。
  • 快速適配:使模型迅速適應新的不同的圖學習領域,展現敏捷適應力。
  • 大模型能力湧現:隨著資料量和模型引數的增長,效能顯著提升,釋放模型潛能。

AnyGraph 的主要特點:

  • 圖混合專家(GraphMoE):採用一系列專家模型,巧妙解決跨域異質性問題。
  • 輕量級圖專家路由機制:快速適應策略,使模型能夠迅速響應新的資料集和領域。
  • 自適應且高效的圖專家模型:專為處理具有廣泛圖結構模式和特徵空間的模型而定製設計。
  • 廣泛訓練和測試:在 38 個多樣化的圖資料集上經過嚴格驗證,展現出卓越的泛化能力和模型擴充套件性,證明了其湧現能力。

圖片

作為一種重要的資料形式,圖資料在社交網路、學術網路、交通系統和生物網路等多個領域有廣泛應用。圖模型,例如神經網路(GNN),學習圖中節點的表徵向量,來捕捉結構資訊和節點上的特徵資訊,從而進行準確預測。

近年來,圖學習領域取得了顯著進展,主要得益於神經網路(GNNs)的強大功能、一些微調方法的提出、以及最近一些將圖資料空間與自然語言空間進行對齊的嘗試。然而,當前最先進的圖模型在跨領域的泛化效能上仍顯不足。

現有方法往往嚴重依賴繁瑣的微調過程,難以應對真實圖結構複雜、多樣化的特點。這種無法快速無縫適應新圖域的能力,阻礙了圖學習技術的廣泛應用。因此,解決這一挑戰,搭建一個具有跨領域、強泛化效能的圖基礎模型,對於圖學習領域至關重要。

為此,研究團隊推出 AnyGraph, 首次揭秘圖大模型的 Scaling Law。

圖片

  • 論文連結: https://arxiv.org/pdf/2408.10700
  • 專案地址: https://github.com/HKUDS/AnyGraph
  • 實驗室主頁: https://sites.google.com/view/chaoh

考慮到圖資料的特點,以及受到語言和影像資料基礎模型的啟發,研究團隊致力於解決以下幾個關鍵問題:

  • 結構異質性:不同應用領域的圖資料在結構上可以存在極大的差別,例如節點的平均度數、緊密子圖出現的頻率、噪音和缺失邊資料的比例等。圖結構模式的多樣性,對圖基礎模型的容納能力提出了嚴重的挑戰。
  • 特徵異質性:作為圖資料的重要組成部份,節點特徵在不同資料集中卻存在普遍且極大的差異。例如,有的資料集採用離散的類別特徵,有的可能採用連續的數值特徵,有的採用文字語意 embedding,有的採用圖結構的統計資訊。此外,不同資料集的節點特徵在向量維度這一基本特點上甚至都具有極大的差異。如何使圖基礎模型在零樣本情況下處理不同圖的異質特徵,是一個關鍵挑戰。
  • 快速適應以實現廣泛應用。有效的圖基礎模型的關鍵能力之一是能夠高效地適應新的圖資料集和領域。理想模型應能夠迅速調整其引數和學習策略,以處理之前未見過的圖資料集的結構和分佈特徵,而無需進行大量的重新訓練或微調。
  • 圖基礎模型的擴充套件定律與變革效能力。在計算機視覺自然語言處理等領域中,成功的基礎模型具有一個關鍵特性 —— 擴充套件定律(Scaling Law),即隨著模型大小或訓練資料集的增加,效能會系統地提升。探索圖基礎模型是否適用這一定律,也是本文研究的一個重要問題。

為了解決上述問題, AnyGraph 提出了以下關鍵性技術。

圖 MoE 模型

不同圖之間巨大的結構和特徵差異,促使我們採用一種更 “鬆散” 的模型架構。AnyGraph 的 MoE 架構使用完全不同的專家模型來處理差異極大的圖資料,模型無需在高度耦合的單個神經網路中巧妙地容納不同資料的建模和處理過程。

具體來說,AnyGraph 的 MoE 架構包含多個圖資料專家模型,每個專家模型均能對所有輸入的圖資料進行處理和預測,但所擅長的領域和模式不同。例如,有的專家模型擅長處理文字 embedding 特徵,有的擅長處理圖的鄰接矩陣特徵;有的專家模型擅長處理稠密資料,而有的擅長處理稀疏資料。

為了向每個專家模型分配適合的任務,AnyGraph 設計了一種專家路由機制,在訓練和測試過程中,基於專家模型對資料的擅長程度進行匹配。

基於這一 MoE 架構,AnyGraph 對圖資料的知識儲存在不同的專家模型中,而不同的專家模型不需要進行相互的協調和耦合,從而更容易地容納圖資料之間的巨大差異,解決跨領域情況下的結構和特徵異構性問題。

此外,MoE 架構使得 AnyGraph 僅需使用幾分之一的模型引數,就可以完成單個大模型具備的訓練和預測效果,大大提升了模型的快速適應能力。

下圖展示的消融實驗中,我們驗證了採用單個模型(-MoE)相對於使用 MoE 架構的劣勢。

圖片

量化的圖專家路由機制

專家模型路由負責為輸入的資料集匹配適合的專家,以進行更準確的預測、以及更適當的專家訓練。

受到圖自監督學習的啟發,我們的圖專家路由採用一種自監督損失,來衡量不同專家模型完成不同資料集的能力,以進行匹配。

在不引入額外標籤資料的情況下,我們的自監督任務損失可以準確衡量專家模型處理不同圖資料的誤差程度。在模型除錯過程中,我們發現這一自監督路由演算法與遍歷所有分配情況所得到的最優分配方案相差無幾。

下圖展示了我們的路由機制對資料集的分配情況,可以看到,相關的資料集總是被分到同樣的專家模型中,例如 arxiv-ta, Photo, GReads, Fitness 等使用同樣特徵空間的資料集,以及 ML1M 和 ML10M 這兩個同源資料集。此外,路由演算法的準確性,不僅可以在訓練資料集上觀察到,在下圖右半部分中,模型從未見過的測試資料集也可以進行準確路由。這體現了 AnyGraph 路由機制的通用性和模型的泛化效能。

圖片

自適應且高效的圖專家

結構和特徵的異構性,在模型設計的底層帶來了諸多挑戰,例如模型如何處理不同維度的特徵向量、如何處理二維可變長的鄰接矩陣、圖專家如何設計可以高效處理不同圖型別的變換和預測。

我們的圖專家模型採用奇異值分解 SVD 方法對鄰接矩陣和節點特徵矩陣進行了維度統一。同時,這種統一的特徵處理過程,具有一定的語義統一性,為跨資料集的零樣本預測打下了基礎。

由於我們在高層採用了 MoE 架構整合多個預測模型,我們在單個圖專家中採用了簡單的 MLP 網路,希望所有的建模問題都能透過採用合適的特徵變換來解決。這樣做大大增強了模型的效率,使 AnyGraph 甚至在訓練效率上超過傳統的圖網絡模型。

下圖實驗對比了 AnyGraph,以及普通的 GCN 方法、預訓練方法 GraphCL 三種方法,在不同資料集下測試它們訓練 100 個 step 所花費的時間。可以看到,儘管 AnyGraph 採用了更多的引數、更大的模型,但由於單個專家模型的高效性,訓練時間與簡單的基線方法相近、甚至更少。

圖片

此外,文章進一步探究了不同模型在應對新資料時的快速適應能力。下圖實驗對比了三種方法隨著訓練步數的增加,在訓練資料集上效能的提升曲線。實驗對比的方法包括對一個隨機初始化的 GCN 模型進行從頭訓練、對一個預訓練的 GraphCL 模型進行微調、以及對預訓練的 AnyGraph 進行微調。

首先,可以觀察到 AnyGraph 在未經微調時的零樣本預測效果遠優於兩種基線方法。這源於 AnyGraph 出色的跨領域和零樣本泛化能力。其次,AnyGraph 的效果曲線更快到達收斂狀態,這體現了使用 MoE 架構、選擇合適且高效的專家模型進行微調,可以更快地進行模型適應。此外,可以觀察到 GraphCL 的預訓練在 PPA 資料集上不僅沒有為它帶來效能的優勢,反而對學習新資料造成了負面影響。這體現了圖模型進行跨領域遷移的困難,這源於不同領域圖資料巨大的異構性。

圖片

廣泛訓練和測試

資料集

AnyGraph 採用了共 38 個資料集進行訓練和測試,資料集涵蓋了電商、學術網路、生物資訊網路、交通網路、網頁關聯網路、社交網路等多個類別。共包括 14,437,372 個節點和 199,265,688 條邊。不同資料集採用的節點特徵方法不同,囊括了無節點特徵、不同的文字 embedding 方法、詞袋特徵、類別特徵等不同的方法。具體資料集統計資訊如下所示

圖片

為了更好地觀測模型在大規模測試中的效能,我們將測試資料集分為了多個不同的集合。不同集合之間不包含同源資料集,例如收集自同一個網路服務平臺;不同集合的資料集之間也不共享特徵構建方法,例如同一種文字 embedding 方法,只可能出現在 Link1 和 Link2 兩個集合的其中之一。透過這種方式,模型在零樣本測試時完全未接觸過測試資料的資料來源和特徵方法,能測試模型更真實的零樣本效能表現。

圖片

文章提供了兩個版本的預訓練模型,分別在 Link1 和 Link2 兩個集合上訓練得到。在零樣本測試中,這兩個模型只會被用於測試它們未見過的資料集。例如使用在 Link1 上訓練的模型測試 Link2 上的表現。在測試 Ecommerce、Academic、Others 這些包括了 Link1 和 Link2 兩類資料集的情況時,文章分別採用兩個預訓練模型,對未見過的資料集進行測試,再整合計算資料集合的整體預測效能。

AnyGraph 的零樣本預測效能

AnyGraph 在零樣本預測上的效果如下所示:
圖片
除了與現有圖模型的少樣本預測能力進行對比,文章還對比了現有的其他圖基礎模型,一個是基於文字特徵的 GraphGPT,一個是基於結構特徵的 OpenGraph。可以看到,在更多資料集的泛化效能測試上,AnyGraph 取得了更好的效果。並且,文章還對比了一個除了文字特徵的消融版本 AnyGraph-F,從而驗證了 AnyGraph 對結構和文字兩種特徵均能進行有效的利用。

圖片

AnyGraph 的擴充套件定律

為了探索 AnyGraph 的效能增長是否符合擴充套件定律(Scaling Law),文章調整了 AnyGraph 的模型引數量和訓練資料量。前者透過調整模型的表徵維度、網路層數、專家數量,而後者透過從小到大增加訓練資料集的數量。

測試效果如下所示,該實驗分為對跨領域資料集的測試,以及對單個領域跨資料集的測試。在每個子圖的實驗中,包含了以下三項:

  • 左:在模型引數量影響下,對未見過資料集的零樣本預測效能變化
  • 中:在模型引數量影響下,對訓練過資料集的全樣本預測效能變化
  • 右:在訓練資料量影響下,對未見過資料集的零樣本預測效能變化

從結果可以得出以下幾點結論:

  • AnyGraph 的零樣本能力遵循 Scaling Law:雖然模型的全樣本預測能力出現了增長的飽和,但其零樣本能力隨著引數量和資料量的增長不斷上升,這說明 AnyGraph 模型的零樣本能力遵循 Scaling Law,這一觀測結果有兩個重要原因,首先是測試的任務需要具備一定的難度,全樣本預測只需要模型在訓練資料集上具備泛化能力,相對較為簡單,因此容易出現效能增長的飽和;而跨資料集、跨領域的零樣本預測挑戰性高,仍有很大的增長空間。其次,AnyGraph 的 MoE 架構使得它更容易容納不同資料集的多樣化圖資料模式,從而具備更大的潛力隨著引數量和資料量的增大而提升。
  • AnyGraph 的湧現能力:在測試曲線中常常可以觀測到,模型效能常常在經歷了一定的增長停滯後,出現突變式提升。這符合在視覺和文字大模型中觀測到的湧現能力特點,說明 AnyGraph 具備了產生變革式泛化能力的基礎。
  • 不足的訓練資料引入 bias:在資料量增長實驗中可以觀察到一個典型的特徵,在早起的資料量增長中,模型效能經歷了一個斷崖式的下跌,這是由於訓練資料不足,而新引入的訓練資料與測試資料集存在較大的偏離,導致模型訓練存在較大的 bias。這一問題可以透過擴大訓練資料量解決,這樣做不僅增強了模型效能,也可以增強訓練的魯棒性。

圖片

總結

AnyGraph 框架是一個高效且有效的圖基礎模型,專為應對不同圖資料集中結構和特徵異質性的多方面挑戰而設計。AnyGraph 採用創新性的專家混合(MoE)架構,並結合動態專家路由機制,使其在跨域泛化能力方面達到了最先進的水平。在 38 個不同的圖資料集上進行的廣泛實驗不僅突顯了 AnyGraph 在零樣本學習效能上的卓越表現,還證明了其對分佈偏移的魯棒性以及其遵循規模定律的能力,從而隨著模型大小和資料量的增加而提高了預測精度。該模型在訓練和推理效率上的表現,透過與現有方法的比較得到了驗證,進一步鞏固了其實際應用性。

相關文章