論文閱讀:End to End Chinese Lexical Fusion Recognition with Sememe Knowledge

Barn發表於2024-07-31

模型

  • 論文中提出的模型旨在聯合處理提及詞彙共指關係
  • 該模型由一個編碼器、一個用於提及識別的CRF解碼器和一個用於共指識別的BiAffine解碼器組成。
  • 此外,利用HowNet的sememe知識增強了編碼器。

基礎模型

  • 編碼器:利用 BERT 作為基本編碼器:

\[h_1 ... h_n = BERT(c_1,...,c_n) \]

  • 提及識別:利用CRF解碼器獲取序列標記輸出。這有助於識別所有提及的詞彙,包括融合詞和分離詞。(\(L_{mention}\)訓練目標是最小化 gold-standard tagging sequence 的交叉熵)
  • 共指識別:在確定提及對是否為共指關係時,模型利用了BiAffine解碼器。(\(L_{coref}\)採用平均交叉熵損失
  • 聯合訓練:將兩個子任務的損失合併在一起進行聯合訓練。(\(L_{joint} = L_{mention} + \alpha L_{coref}\)

Sememe加強模型

從HowNet構建Sememe。字元表示的語義透過兩個步驟獲得:
1)首先,透過其sememe圖和其源詞的位置偏移得到sememe表示

  • 使用GAT構建sememe圖。
  • 第二部分是透過嵌入意義源詞的位置偏移直接獲得的。 位置偏移量用 [s,e] 表示,其中 s 和 e 表示源詞的開始和結束字元與當前字元的相對位置。
  • 接下來,我們將這兩個部分連線起來,得到意義表示。

2)然後,透過全域性注意力,聚合所有意義表示以達到字元級表示,從而產生 sememe 增強編碼器。

補充

BiAffine解碼器

BiAffine解碼器的核心思想是利用雙仿射(BiAffine)關係來對元素對之間的潛在關係進行建模和評分。BiAffine解碼器通常接受來自神經網路(如LSTM或Transformer)的上下文化特徵表示作為輸入。

  • 特徵提取:從輸入文字中提取特徵,通常這一步是透過預訓練的模型(如BERT)來完成的。
  • 仿射變換:對提取的特徵進行兩次不同的仿射變換,生成兩組向量。每組向量代表文字中的每個元素(如單詞或字元)。
  • BiAffine操作:將兩組向量透過雙仿射操作結合起來,生成一個關係矩陣。矩陣中的每個元素表示一對元素之間的關係得分。
  • 解碼和連結:根據關係矩陣中的得分,進行解碼操作,確定元素對之間的關係(如是否共指、依存關係型別等)。
  • 最佳化:透過訓練資料最佳化模型引數,使得模型能更準確地識別和預測元素之間的真實關係。

GAT:圖注意力網路

GAT是一種專門用於處理圖結構資料的深度學習模型。它的核心是注意力機制,它允許模型聚焦於重要的節點,並動態地從鄰近節點聚合資訊:

  • 節點表示:每個節點都有一個向量表示,這些表示可以是節點的特徵或者是經過嵌入的低維向量。
  • 注意力係數的計算:對於每一對節點,GAT透過一個可學習的函式(通常是一個小型的神經網路)來計算它們之間的注意力係數。這個係數決定了在聚合鄰居節點資訊時,每個鄰居節點的重要性。
  • 加權特徵聚合:每個節點會根據計算出的注意力係數,從其鄰居節點中聚合資訊。這意味著每個節點的更新表示是其鄰居節點表示的加權和,權重即為注意力係數。
  • 多頭注意力:為了增強模型的表達能力,GAT通常會採用多頭注意力機制,類似於Transformer模型。透過多個獨立的注意力機制並行處理資訊,然後將結果聚合,可以提高學習的穩定性和效能。
  • 非線性啟用:聚合完鄰居節點資訊後,通常會應用非線性啟用函式(如ReLU),以增加模型的非線性表達能力。

Liu Y, Zhang M, Ji D. End to end Chinese lexical fusion recognition with sememe knowledge[J]. arXiv preprint arXiv:2004.05456, 2020.

相關文章