動機
由於傳統方法都將三元組進行獨立的處理,忽略了其相鄰的三元組之間隱藏的固有資訊的缺點,使得無論是轉化模型還是較新的基於卷積神經網路(CNN)的模型都不能獲取在給定三元組附近的豐富的潛在結構資訊。因此本文為解決上述問題嘗試用圖神經網路(GNN),從以下兩方面進行創新:
通過不斷迭代注意力機制網路,來為與給定節點具有不同距離的鄰居結點賦予不同注意力值,使得最終該節點的嵌入向量包含多跳鄰居節點資訊在其中。通過以上方法構建出了針對知識圖譜關係預測的嵌入模型。
為了解決距離越遠連線的實體數量呈指數增長的問題為 n 跳實體引入輔助邊作為輔助關係。
模型
背景知識補充
知識圖譜可以表示為 ζ=(ϵ,R),其中 ϵ 和 R 分別表示集合中的實體(結點)和關係(邊)。對於三元組可以表示兩個實體節點之間存在邊 r。嵌入模型試圖學習實體、關係以及得分函式的有效表示,以達到當給定一個三元組作為輸入時,得分函式 f(t) 可以給出 t 是真實三元組的概率。
圖注意力神經網路(GATs)
圖注意力神經網路 (GANs)不同於圖卷積神經網路(GCNs)將所有鄰居實體的資訊賦予相同權重的策略,採用了按照鄰居實體結點對給定實體結點的不同重要程度分配不同權重的策略。表示該神經網路中一層結點中的輸入特徵集合。該層生成的變換後的特徵向量為,其中和分別表示實體的輸入嵌入向量與輸出嵌入向量,N 表示實體(結點)的個數。單獨的 GAT 層可以描述為下述公式:
其中表示知識圖譜中邊的注意力值,W 是一個可以將輸入特徵對映到更高維的輸出特徵空間中的引數化的線性轉化矩陣,a 是所選擇的注意力函式。
每個邊的注意力值表示邊的特徵對源結點的重要程度。此處相對注意力值通過對鄰居集合中得出的所有注意力值進行 softmax 運算得出。公式(2)展示了一個輸出層。
GAT 運用多頭注意力來穩定學習過程。連線 K 個注意頭的多頭注意過程如公式(3)所示:
其中 || 表示連結方式,σ 表示任意的非線性函式,表示由第 k 個注意力機制計算的邊的歸一化係數,表示第 k 個注意力機制對應的線性轉化矩陣。為達到多頭注意的目的,在最終層的輸出嵌入向量是通過計算平均值得出的而不是採用連線操作得出的。如公式(4)所示:
關係十分重要
雖然 GAT 取得了成功,但是由於忽略了知識圖譜構成中不可或缺的關係(邊)上所具有的特徵,所以 GATs 方法並不適用於知識圖譜。在知識圖譜中,實體依據與它們相連的關係在三元組中具有不同的作用。因此作者提出了一種將關係與相鄰節點特徵相結合的新型方法構建潛入模型。據此,定義了一個單獨的注意層,它是構成本文中提出的模型的構建單元。與 GAT 類似,本文中的框架對注意力機制的特定選擇是不可知的。
本文提出的模型中的每一層都將兩個嵌入矩陣作為輸入。實體嵌入矩陣用矩陣來表示,其中第 i 行表示實體的嵌入向量,表示實體總數,T 表示每個實體嵌入向量的特徵維數。用一個相同結構的矩陣來表示關係的嵌入向量矩陣。然後該層輸出兩個對應的嵌入矩陣和。
為獲得實體的新的嵌入向量,學習了一種與相連的每一個三元組的表示。如公式(5)所示,通過對實體和關係特徵向量的連線進行線性變換來學習這些嵌入,這些特徵向量對應於一個特定的三元組。
其中是一個三元組的一個向量表示。向量、與分別是實體、和關係的嵌入向量。除此之外,表示線性轉化矩陣。該模型學習了每一個三元組的重要程度,用表示。之後用一個權矩陣作為引數進行線性變換,然後應用 LeakyRelu 非線性得到三元組的絕對注意值(如公式(6))。
如公式(7)所示,為了獲得相對注意力值,對所有進行 softmax 運算。圖三展示了對於一個三元組相對注意力值的計算過程:
其中表示所有與實體相鄰的實體的集合,表示連線實體與的關係的集合。實體的新的嵌入向量是由對每一個三元組表示向量按注意力值進行加和得到的。如公式(8)所示:
為了穩定學習過程,且壓縮更多的有關鄰居結點的資訊,採用多頭注意力機制。將 M 個獨立的注意力機制用來計算,將其連線,可以表示如下:
圖四展示了圖注意力層結構。如公式(10)所示,將一個權重矩陣作用於關係嵌入矩陣 G 進行線性變換,其中 T' 是輸出的關係嵌入向量的維度。
在模型的最後一層作者採用對最終的實體的嵌入向量取平均的方式而不是像多頭嵌入一樣採用連線嵌入。具體公式如下:
但是當學習新的嵌入向量時,實體丟失了它們最初的嵌入向量資訊。因此為了解決這個問題,作者通過用一個權重矩陣對進行線性變換得到。其中表示本文模型中作為輸入的實體嵌入向量,表示轉化後的實體嵌入向量,表示初始實體嵌入向量的維度,表示最終實體嵌入向量的維度。作者將最初的實體嵌入向量的資訊加到從模型最終注意力層獲得的實體嵌入向量矩陣上,公式如下:
在本文的架構中,作者通過將兩個實體間存在的多跳關係作為輔助關係的方式將邊的定義擴充為有向路徑。這個輔助關係的嵌入是路徑中所有關係的嵌入之和。本文的模型迭代地從一個實體的遙遠鄰居那裡積累知識。
如圖 2 所述,在本文中模型的第一層,所有實體捕捉了與它們直接相連的鄰居資訊,在第二層中,U.S 結點從實體 BarackObama、EthanHorvath、Chevrolet 和 WashingtonD.C 結點聚集資訊,這些節點中已經從之前層中獲得了他們鄰居節點 MichelleObama 和 SamuelL.Jackson 的資訊。
總之,對於一個 n 層模型來說,傳入的資訊是根據 n 跳相鄰的鄰居計算得出的。學習新的實體嵌入向量的聚合過程和相鄰多跳結點間的輔助邊的引入在圖二中都有所展示。對於每一個主要的迭代過程,在第一層之前,在每一個廣義的 GAT 層之後,作者對實體的嵌入向量進行了規範化處理。
訓練目標
作者提出的模型借鑑了平移得分函式的思想,使得在學習嵌入向量的過程中,假設給定一個真實的三元組,存。作者嘗試學習實體和關係嵌入來最小化由給出的 L1 -範數不相似測度。並用 hinge 損失來訓練本文中的模型,具體公式如下:
其中 γ>0 是一個邊緣超引數,S 是正確的三元組集合,S' 表是不正確的三元組集合。S' 按照如下形式給出:
解碼
本篇模型採用 ConvKB 作為解碼器,卷積層的目的是分析三元組各個維度上的全域性嵌入特性,並歸納出模型中的轉化特性。根據多個特徵對映得到的得分函式可以寫成如下形式:
其中表示第 m 個卷積過濾器,Ω 是表示過濾器數量的超引數,* 是卷積運算子,表示一個用於計算三元組最終得分的線性轉化矩陣。模型用軟邊界損失函式來進行訓練。
當時,;當時,。
實驗與結果
資料集
WN18RR
FB15k-237
NELL-995
Unified Medical Language Systems(UMLS)
Alyawarra Kinship
訓練方法
通過每次隨機用一個無效實體替換有效三元組的頭實體或尾實體來產生兩個無效三元組集合,並從這兩個集合中隨機抽取數目相等的無效三元組,以確保頭尾實體檢測的魯棒性。用 TransE 方法獲得的實體與關係的嵌入向量來初始化本模型。
本文采用一個兩步過程來進行訓練。首先訓練廣義 GAT 來編碼關於圖實體和關係的資訊,然後訓練諸如 ConvKB 模型作為解碼器來進行關係預測任務。傳統的 GAT 模型只根據一跳鄰居的資訊對公式 3 進行更新,但本文的泛化 GAT 則運用多跳鄰居對公式 3 進行更新。並通過引入輔助關係來收集稀疏圖中鄰居的更多資訊。採用 Adam 優化器,將其學習率設定為 0.001。最終層得到的實體、和關係的嵌入向量設定為 200 維。
評估方法
在關係預測任務中,通過用其他所有實體對有效三元組中的頭實體或尾實體進行替換,並在產生一個(N-1)三元組集合,其中 1 為被替換之前的有效三元組,N 表示經過替換後產生的三元組。最後移除該三元組集合中所有經過替換產生的有效三元組,只保留由替換產生的無效三元組,與替換之前的唯一一個有效三元組組成一個三元組集合。對該集合中的所有三元組進行打分,並根據分數進行排序。用平均倒數排名(MRR),平均排名(MR)以及 Hits@N(N = 1, 3, 10) 指標來對模型進行評估。
結果分析
表 2 表 3 上展示了所有資料集上進行預測的結果。結果說明本文提出的模型在資料集 FB15k-237 上,五個指標均達到最好效果。在 WN18RR 資料集上,只有兩個指標達到最好效果。
注意力值 vs 輪數:
本文研究了一個特定節點的注意隨輪數間隔增加的分佈。圖 5 展示了在資料集 FB15k-237 上,注意力值與輪數的關係分佈。在學習過程的初始階段,注意力值隨機分佈。隨著訓練過程地進行,並且本文的模型從鄰居中獲得更多的資訊,更多的注意力集中於直接鄰居,並且從較遠的鄰居中獲得更少的資訊。一旦模型收斂,它就學會從節點的 n-hop 鄰居中收集多跳和聚類關係資訊。
頁面排序分析:
本文假設,相對於稀疏圖,在稠密圖中更容易捕獲實體之間複雜且隱藏的多跳關係。為了驗證這個假設,本文采用了一個與 ConvE 相似的分析過程,研究了平均頁面排名與相對於 Disrmult 中 MRR 的增長的關係,並發現當相關係數為 r=0.808 時具備極強的關聯性。表 4 表明,當平均介面排名得到增長時,MRR 的值也同樣會得到增長。並觀察到 NELL-995 與 WN18RR 之間的相關性出現異常,並將其歸因於 WN18RR 的高度稀疏和層次結構,這對本文的方法提出了挑戰,因為本文的方法不能以自上而下的遞迴方式捕獲資訊。
腐蝕研究
在這裡分析了當移除路徑資訊時(-PG)MR 值的變化。如:移除關係資訊和 n 跳資訊(-relation)。根據圖 7 可以得出當移除關係資訊時會對模型產生巨大影響,並可得出關係資訊在進行關係與測試至關重要的結論。
總結
本文的貢獻:
本文提出的模型學習了新的基於圖注意的嵌入,專門用於知識圖譜上的關係預測。
本文推廣和擴充套件了圖注意機制,以捕獲給定實體的多跳鄰域中的實體和關係特徵。
後續工作方向:
改進本文中的模型以更好地處理層次結構圖。
嘗試在圖注意力模型中捕獲實體之間的高階關係。