李志欣, 孫亞茹, 唐素勤, 等. 雙路注意力引導圖卷積網路的關係抽取[J]. 電子學報, 2021, 49(2): 315.
DAGCN模型
- DAGCN模型主要由3個模組組成,即GCN模組、注意力模組和分類模組。
GCN模組
- 模型的輸入為詞節點的嵌入及節點的鄰接矩陣,透過GCN對節點的隱藏資訊進行表徵,其結果透過一層卷積操作作為注意力模組的輸入。
- 第L層的節點i的輸出向量由第L-1層的節點i及其相鄰節點表示。
- 經過L層的GCN對每個節點向量的處理,得到節點的隱藏表示,利用這些詞表徵可以得到一個句子的特徵表示。
- 函式f(·)將n個向量轉變成一個句子向量,同樣的,對第i個實體:
注意力模組
位置注意力模組
- 為了在區域性特徵上建立豐富的上下文關係,設計了位置注意力模組。如圖3所示,透過以下三個步驟生成空間上下文資訊的新特徵。
- 首先是生成位置注意力矩陣,該矩陣對特徵任意兩個位置之間的空間關係進行建模。
- 接著,對注意力矩陣和原始特徵執行矩陣乘法。
- 最後,將相乘後的矩陣與原始特徵進行元素求和運算,以獲得全域性上下文資訊的最終表示。
關係注意力模組
- 關係注意力模組將節點依賴資訊編碼為關係特徵,從而增強節點間的依賴關係。如圖 4所示,模組經過三個步驟生成節點關係依賴資訊的新特徵。
- 關係注意力矩陣依據節點之間的依賴關係生成。例如,節點i與節點j的關係用pij或 pji表示。初始時,兩個有關聯的節點的值為1,若沒有關係則為0。然後利用自注意力機制生成關係特徵值。
- 接著,對注意力矩陣和原始特徵執行矩陣乘法。
- 最後,將相乘後的矩陣與原始特徵進行元素求和運算,以獲得節點之間的全域性依賴。
- 為了利用大範圍的上下文資訊,最後將兩個注意力模組得到的新特徵進行聚合,透過一層卷積得到最終的節點特徵。
分類模組
- 首先對注意力模組輸出的特徵透過一層前饋神經網路輸出關係特徵表示,實體hei與實體hej的關係rij可表示為:
- 然後,透過softmax函式對輸出的關係特徵做關係的機率預測。
- 分類函式的損失可用交叉熵計算。