一種融合指代消解序列標註方法在中文人名識別上的應用(下)

京东技术發表於2024-04-15

二、使用了BERT模型和指代消解演算法:

  • 加入BERT語言預處理模型,獲取到高質量動態詞向量。

  • 融入指代消解演算法,根據指代詞找出符合要求的子串/短語。

【2】融入指代消解演算法,根據指代詞找出符合要求的子串/短語

image.png

  指代消解演算法如圖2所示,簡單來說,就是考慮文件中子串/短語以及學習子串/短語的可能指代。透過分詞器將句子y分割為a~e五個字,將其作為輸入傳給模型中的BiLSTM模組,然後提取實體識別所需的特徵,進行注意力機制任務,將得到的結果進行拼接、剪枝處理,得到可能性最大的指代的子串/短語,進而最佳化目標。
  這裡的指代消解演算法是在使用啟發式Max-Margin損失函式的基礎上,利用增強策略梯度演算法工作的。每個行為 a=(c,m) 的機率定義如公式(1)所示, 損失函式定義如公式(2)所示。

image.png

image.png

  為使獲得獎勵值最大,採用梯度上升法進行引數更新,由於梯度值計算困難,現採用一種梯度估值,定義如公式(3)、(4),進行原文替換。
  調研發現,此處可以引入一個語義匹配層及網頁語義知識,來彌補知識庫不全覆蓋的問題。在此基礎上,本文找到一種基於小文字的BERT-NER的中文指代消解框架,它可以獲得更高的準確率和更好的效果,同時實現主語補齊的功能,功能實現如圖3所示。

image.png

  由於資料中包含人名指代詞的文字在海量資料中佔比較少,所以本文可進行小文字的模型訓練。加入指代消解演算法後,將消解前後的輿情公告資料文字進行比較,測驗效果見圖4。

image.png

【3】融入的指代消解演算法,比加入外部語料和字元級特徵更通用有效

  當下與本文類似的提高人名識別效率的研究中,多特徵BiLSTM-CRF模型(後續簡寫為多特徵模型)識別方法具有代表性,該模型改善了影評中稱謂不明等問題,在電影行業上取得了顯著效果。
  本文為了體現融合指代消解的序列標註方法更勝一籌,利用人民日報資料集和上市公告資料集,比較融合指代消解的序列標註的方法和加入外部人名語料和特定字元級特徵的序列標註的方法,得出融入指代消解的人名識別方法要比加入外部人名語料和特定字元級特徵的模型的效果更好。
  所以在一般情況下,融合指代消解的序列標註方法會比其他形式,諸如加入外部人名語料和特定字元級特徵的序列標註方法更能改進人名識別的準確率。
  在公共資料集和輿情公告資料集上,融合指代消解的序列標註方法和加入外部人名語料和特定字元級特徵方法的比較,前者效果更好。

總結

本文提出的融合指代消解序列標註方法,在以下四個方面有較強的創新性

  • 資料預處理階段,根據職務變更等有效資訊進行資料增強

  • 加入BERT語言預處理模型,獲取到高質量動態詞向量

  • 融入指代消解演算法,根據指代詞找出符合要求的子串/短語

  • 融入的指代消解演算法,比加入外部語料和字元級特徵更通用有效

該演算法未來將擴充至機構名、地名以及其他所有以名稱為標識的實體,能更好的服務於京東小程式客戶體驗中的寄收件地址的文字識別中,提高相關識別的準確率。


來自 “ ITPUB部落格 ” ,連結:https://blog.itpub.net/70037994/viewspace-3012517/,如需轉載,請註明出處,否則將追究法律責任。

相關文章