GPT做不好圖生成?Tokenization是關鍵!新方法重新定義圖生成和表示方式

ScienceAI發表於2025-01-06
GPT做不好圖生成?Tokenization是關鍵!新方法重新定義圖生成和表示方式

編輯 | ScienceAI

圖(Graphs)是描述複雜關係和結構化資料的重要工具,從分子設計到社交網路分析,它們在許多領域都扮演著關鍵角色。然而,圖生成的高效性與靈活性一直是一個挑戰。

今天,我們向大家介紹一項突破性的研究——Graph Generative Pre-trained Transformer,簡稱 G2PT,一個重新定義圖生成和表示方式的自迴歸模型

這項工作由塔夫茨大學、東北大學和康奈爾大學的研究團隊合作完成,研究團隊充分借鑑了大語言模型(Large Language Models/LLMs)的最新進展,為圖生成帶來了全新的解決方案。🚀

圖片

Sequence Tokenization實現高效生成

傳統的圖生成模型大多依賴鄰接矩陣(adjacency matrix)進行表示,這種稠密的表示方式計算成本高、記憶體佔用大。G2PT 提出了基於序列的 tokenization 方法,透過將圖分解為節點集(node set)和邊集(edge set),充分利用圖的稀疏性,從而大幅提升計算效率。

這一創新性的分詞方式使得大型預訓練 Tranformer 可以像處理自然語言一樣逐步生成圖,並透過預測下一個 token 的方式完成整個圖的生成。

📊 圖序列表示方式示意圖如下(來自論文 Figure 1):

圖片

這一方法不僅減少了 token 數量,還顯著提升了生成質量。

📽 動態展示:G2PT 的序列生成過程

圖片

透過上圖,我們可以直觀地看到 G2PT 如何從節點生成開始,逐步定義邊的連線關係,最終完成整個圖的生成過程。這種序列化的表示不僅有效減少了資料規模,還能充分利用 Tranformer 架構在序列建模上的優勢。

同時,論文中 Table 3 比較了基於同樣的GPT模型用傳統鄰接矩陣表示(A)和序列表示(Ours)在 Planar Graph 上的生成效能,結果顯示 G2PT 的序列表示在多項指標上優於鄰接矩陣方法。

圖片

G2PT 的適應性和擴充套件性

G2PT 是一個具備多樣適應能力的通用圖生成模型。透過 Fine-tuning 技術,它在以下任務中表現出色:

目標導向圖生成

G2PT 利用拒絕取樣微調(Rejection Sampling Fine-tuning, RFT)和強化學習(Proximal Policy Optimization, PPO)技術生成特定屬性的圖,例如在藥物設計中最佳化分子圖的理化性質。

📈 結果展示(來自論文 Figure 2):

在目標導向生成任務中,G2PT 能顯著將分佈偏移至目標屬性區域。

圖片

圖屬性預測

透過提取預訓練模型的圖嵌入,G2PT 在下游任務中同樣表現卓越。在 8 個分子屬性預測資料集上的 ROC-AUC 分數(見 Table 5)顯示,G2PT 達到了與當前最先進方法相媲美的效能。

圖片

通用和分子圖生成的全面超越

在多個基準資料集上的對比實驗表明,G2PT 的表現顯著優於或匹配現有的最先進模型。

通用圖生成效能

📊 Table 2 中展示了 G2PT 在 Planar、Tree、Lobster 和 SBM 資料集上的生成效能。G2PT 在 24 項評測指標中,有 11 項取得了第一,並在 17 項中排名前二。

圖片

分子圖生成效能

在 MOSES 和 GuacaMol 資料集上,G2PT 在生成有效性(Validity)、唯一性(Uniqueness)、和分子屬性分佈匹配等指標上表現優異。實驗顯示MOSES 資料集上,G2PT 達到 97.2% 有效性,領先同類方法。同時在 QM9 資料集上,G2PT 的生成分佈和目標分佈的匹配度(FCD)最低,顯示了其生成質量的高度一致性。

圖片

模型和資料規模的影響

論文還詳細分析了 G2PT 在模型和資料規模變化下的效能。

📈 結果總結(Figure 3):

圖片

實驗表明隨著模型規模的增加(從 10M 到 1.5B 引數),生成效能顯著提升,並在一定規模後趨於飽和。(符合 neural scaling law 的基本規律)除此之外增加每個圖的訓練序列數量能夠提升模型的訓練效果,但多樣性達到一定水平後,收益遞減。

邁向更通用的圖生成模型

儘管 G2PT 在多個任務中表現卓越,但其對生成順序的敏感性表明,不同圖域可能需要不同的順序最佳化策略。未來的研究可以進一步探索通用、表達力更強的順序設計。

G2PT 的提出不僅為圖生成領域帶來了新的方法,也為其他圖相關任務的研究與應用奠定了堅實基礎。

文章連結:https://arxiv.org/pdf/2501.01073

相關文章