模型
- 論文中提出的模型旨在聯合處理
提及詞彙
和共指關係
。 - 該模型由一個
編碼器
、一個用於提及識別的CRF解碼器
和一個用於共指識別的BiAffine解碼器
組成。 - 此外,利用
HowNet的sememe
知識增強了編碼器。
基礎模型
- 編碼器:利用
BERT
作為基本編碼器:
\[h_1 ... h_n = BERT(c_1,...,c_n)
\]
- 提及識別:利用
CRF
解碼器獲取序列標記輸出。這有助於識別所有提及的詞彙,包括融合詞和分離詞。(\(L_{mention}\)訓練目標是最小化 gold-standard tagging sequence
的交叉熵) - 共指識別:在確定提及對是否為共指關係時,模型利用了
BiAffine
解碼器。(\(L_{coref}\)採用平均交叉熵損失
) - 聯合訓練:將兩個子任務的損失合併在一起進行聯合訓練。(\(L_{joint} = L_{mention} + \alpha L_{coref}\))
Sememe加強模型
從HowNet構建Sememe。字元表示的語義透過兩個步驟獲得:
1)首先,透過其sememe圖
和其源詞的位置偏移
得到sememe表示
:
- 使用
GAT
構建sememe圖。 - 第二部分是透過嵌入意義源詞的
位置偏移
直接獲得的。 位置偏移量用 [s,e] 表示,其中 s 和 e 表示源詞的開始和結束字元與當前字元的相對位置。 - 接下來,我們將這兩個部分
連線
起來,得到意義表示。
2)然後,透過全域性注意力
,聚合所有意義表示以達到字元級表示,從而產生 sememe 增強編碼器。
補充
BiAffine解碼器
BiAffine解碼器的核心思想是利用雙仿射
(BiAffine)關係來對元素對之間的潛在關係進行建模和評分。BiAffine解碼器通常接受來自神經網路(如LSTM或Transformer)的上下文化特徵表示作為輸入。
- 特徵提取:從輸入文字中
提取特徵
,通常這一步是透過預訓練的模型(如BERT)來完成的。 - 仿射變換:對提取的特徵進行
兩次不同的仿射變換
,生成兩組向量。每組向量代表文字中的每個元素(如單詞或字元)。 - BiAffine操作:將兩組向量透過雙仿射操作結合起來,生成一個
關係矩陣
。矩陣中的每個元素表示一對元素之間的關係得分。 - 解碼和連結:根據關係矩陣中的得分,進行
解碼操作
,確定元素對之間的關係(如是否共指、依存關係型別等)。 - 最佳化:透過訓練資料最佳化模型引數,使得模型能更準確地識別和預測元素之間的真實關係。
GAT:圖注意力網路
GAT是一種專門用於處理圖結構資料
的深度學習模型。它的核心是注意力機制
,它允許模型聚焦於重要的節點,並動態地從鄰近節點聚合資訊:
- 節點表示:每個節點都有一個
向量表示
,這些表示可以是節點的特徵或者是經過嵌入的低維向量。 - 注意力係數的計算:對於每一對節點,GAT透過一個
可學習的函式
(通常是一個小型的神經網路)來計算它們之間的注意力係數
。這個係數決定了在聚合鄰居節點資訊時,每個鄰居節點的重要性。 - 加權特徵聚合:每個節點會根據計算出的注意力係數,從其鄰居節點中
聚合資訊
。這意味著每個節點的更新表示是其鄰居節點表示的加權和
,權重即為注意力係數。 - 多頭注意力:為了增強模型的表達能力,GAT通常會採用
多頭注意力機制
,類似於Transformer模型。透過多個獨立的注意力機制並行處理資訊,然後將結果聚合,可以提高學習的穩定性和效能。 - 非線性啟用:聚合完鄰居節點資訊後,通常會應用
非線性啟用函式
(如ReLU),以增加模型的非線性表達能力。
Liu Y, Zhang M, Ji D. End to end Chinese lexical fusion recognition with sememe knowledge[J]. arXiv preprint arXiv:2004.05456, 2020.