編輯 | ScienceAI
圖(Graphs)是描述複雜關係和結構化資料的重要工具,從分子設計到社交網路分析,它們在許多領域都扮演著關鍵角色。然而,圖生成的高效性與靈活性一直是一個挑戰。
今天,我們向大家介紹一項突破性的研究——Graph Generative Pre-trained Transformer,簡稱 G2PT,一個重新定義圖生成和表示方式的自迴歸模型。
這項工作由塔夫茨大學、東北大學和康奈爾大學的研究團隊合作完成,研究團隊充分借鑑了大語言模型(Large Language Models/LLMs)的最新進展,為圖生成帶來了全新的解決方案。🚀
Sequence Tokenization實現高效生成
傳統的圖生成模型大多依賴鄰接矩陣(adjacency matrix)進行表示,這種稠密的表示方式計算成本高、記憶體佔用大。G2PT 提出了基於序列的 tokenization 方法,透過將圖分解為節點集(node set)和邊集(edge set),充分利用圖的稀疏性,從而大幅提升計算效率。
這一創新性的分詞方式使得大型預訓練 Tranformer 可以像處理自然語言一樣逐步生成圖,並透過預測下一個 token 的方式完成整個圖的生成。
📊 圖序列表示方式示意圖如下(來自論文 Figure 1):
這一方法不僅減少了 token 數量,還顯著提升了生成質量。
📽 動態展示:G2PT 的序列生成過程
透過上圖,我們可以直觀地看到 G2PT 如何從節點生成開始,逐步定義邊的連線關係,最終完成整個圖的生成過程。這種序列化的表示不僅有效減少了資料規模,還能充分利用 Tranformer 架構在序列建模上的優勢。
同時,論文中 Table 3 比較了基於同樣的GPT模型用傳統鄰接矩陣表示(A)和序列表示(Ours)在 Planar Graph 上的生成效能,結果顯示 G2PT 的序列表示在多項指標上優於鄰接矩陣方法。
G2PT 的適應性和擴充套件性
G2PT 是一個具備多樣適應能力的通用圖生成模型。透過 Fine-tuning 技術,它在以下任務中表現出色:
目標導向圖生成
G2PT 利用拒絕取樣微調(Rejection Sampling Fine-tuning, RFT)和強化學習(Proximal Policy Optimization, PPO)技術生成特定屬性的圖,例如在藥物設計中最佳化分子圖的理化性質。
📈 結果展示(來自論文 Figure 2):
在目標導向生成任務中,G2PT 能顯著將分佈偏移至目標屬性區域。
圖屬性預測
透過提取預訓練模型的圖嵌入,G2PT 在下游任務中同樣表現卓越。在 8 個分子屬性預測資料集上的 ROC-AUC 分數(見 Table 5)顯示,G2PT 達到了與當前最先進方法相媲美的效能。
通用和分子圖生成的全面超越
在多個基準資料集上的對比實驗表明,G2PT 的表現顯著優於或匹配現有的最先進模型。
通用圖生成效能
📊 Table 2 中展示了 G2PT 在 Planar、Tree、Lobster 和 SBM 資料集上的生成效能。G2PT 在 24 項評測指標中,有 11 項取得了第一,並在 17 項中排名前二。
分子圖生成效能
在 MOSES 和 GuacaMol 資料集上,G2PT 在生成有效性(Validity)、唯一性(Uniqueness)、和分子屬性分佈匹配等指標上表現優異。實驗顯示MOSES 資料集上,G2PT 達到 97.2% 有效性,領先同類方法。同時在 QM9 資料集上,G2PT 的生成分佈和目標分佈的匹配度(FCD)最低,顯示了其生成質量的高度一致性。
模型和資料規模的影響
論文還詳細分析了 G2PT 在模型和資料規模變化下的效能。
📈 結果總結(Figure 3):
實驗表明隨著模型規模的增加(從 10M 到 1.5B 引數),生成效能顯著提升,並在一定規模後趨於飽和。(符合 neural scaling law 的基本規律)除此之外增加每個圖的訓練序列數量能夠提升模型的訓練效果,但多樣性達到一定水平後,收益遞減。
邁向更通用的圖生成模型
儘管 G2PT 在多個任務中表現卓越,但其對生成順序的敏感性表明,不同圖域可能需要不同的順序最佳化策略。未來的研究可以進一步探索通用、表達力更強的順序設計。
G2PT 的提出不僅為圖生成領域帶來了新的方法,也為其他圖相關任務的研究與應用奠定了堅實基礎。
文章連結:https://arxiv.org/pdf/2501.01073