一種融合指代消解序列標註方法在中文人名識別上的應用(下)
二、使用了BERT模型和指代消解演算法:
-
加入BERT語言預處理模型,獲取到高質量動態詞向量。
-
融入指代消解演算法,根據指代詞找出符合要求的子串/短語。
【2】融入指代消解演算法,根據指代詞找出符合要求的子串/短語
指代消解演算法如圖2所示,簡單來說,就是考慮文件中子串/短語以及學習子串/短語的可能指代。透過分詞器將句子y分割為a~e五個字,將其作為輸入傳給模型中的BiLSTM模組,然後提取實體識別所需的特徵,進行注意力機制任務,將得到的結果進行拼接、剪枝處理,得到可能性最大的指代的子串/短語,進而最佳化目標。 這裡的指代消解演算法是在使用啟發式Max-Margin損失函式的基礎上,利用增強策略梯度演算法工作的。每個行為 a=(c,m) 的機率定義如公式(1)所示, 損失函式定義如公式(2)所示。
為使獲得獎勵值最大,採用梯度上升法進行引數更新,由於梯度值計算困難,現採用一種梯度估值,定義如公式(3)、(4),進行原文替換。 調研發現,此處可以引入一個語義匹配層及網頁語義知識,來彌補知識庫不全覆蓋的問題。在此基礎上,本文找到一種基於小文字的BERT-NER的中文指代消解框架,它可以獲得更高的準確率和更好的效果,同時實現主語補齊的功能,功能實現如圖3所示。
由於資料中包含人名指代詞的文字在海量資料中佔比較少,所以本文可進行小文字的模型訓練。加入指代消解演算法後,將消解前後的輿情公告資料文字進行比較,測驗效果見圖4。
【3】融入的指代消解演算法,比加入外部語料和字元級特徵更通用有效
當下與本文類似的提高人名識別效率的研究中,多特徵BiLSTM-CRF模型(後續簡寫為多特徵模型)識別方法具有代表性,該模型改善了影評中稱謂不明等問題,在電影行業上取得了顯著效果。 本文為了體現融合指代消解的序列標註方法更勝一籌,利用人民日報資料集和上市公告資料集,比較融合指代消解的序列標註的方法和加入外部人名語料和特定字元級特徵的序列標註的方法,得出融入指代消解的人名識別方法要比加入外部人名語料和特定字元級特徵的模型的效果更好。 所以在一般情況下,融合指代消解的序列標註方法會比其他形式,諸如加入外部人名語料和特定字元級特徵的序列標註方法更能改進人名識別的準確率。 在公共資料集和輿情公告資料集上,融合指代消解的序列標註方法和加入外部人名語料和特定字元級特徵方法的比較,前者效果更好。
總結
本文提出的融合指代消解序列標註方法,在以下四個方面有較強的創新性
-
資料預處理階段,根據職務變更等有效資訊進行資料增強
-
加入BERT語言預處理模型,獲取到高質量動態詞向量
-
融入指代消解演算法,根據指代詞找出符合要求的子串/短語
-
融入的指代消解演算法,比加入外部語料和字元級特徵更通用有效
該演算法未來將擴充至機構名、地名以及其他所有以名稱為標識的實體,能更好的服務於京東小程式客戶體驗中的寄收件地址的文字識別中,提高相關識別的準確率。
來自 “ ITPUB部落格 ” ,連結:https://blog.itpub.net/70037994/viewspace-3012517/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- Hanlp實戰HMM-Viterbi角色標註中國人名識別HanLPHMMViterbi
- 深度學習模型在序列標註任務中的應用深度學習模型
- MySQL兩種識別是否有中文字元的方法MySql字元
- HanLP中人名識別分析詳解HanLP
- 禁止演算法識別性別,能消解歧視嗎?演算法
- 全面詳解!圖卷積在動作識別方向的應用(上)卷積
- 車牌識別一體機在智慧領域的應用
- HanLP中的人名識別分析詳解HanLP
- 全面詳解!圖卷積在動作識別方向的應用(下)卷積
- 一文搞懂人臉識別技術的三種應用模式模式
- 雙指標(下標)的應用指標
- 2D3D融合標註案例分享|資料標註3D
- 人臉識別技術及應用,瞭解一下
- 物件導向的方法在遊戲中的應用的一個例子(上)(轉)物件遊戲
- 基於CRF序列標註的中文依存句法分析器的Java實現CRFJava
- 在JavaScript中this到底指代什麼?JavaScript
- 一文看懂詞性標註(基本概念+4種方法+7種工具)詞性標註
- 用python下載自己在聚合圖床上傳的圖片的一種方法Python圖床
- 在銀行領域證件識別儀的應用
- 影像識別(CV)在房地產領域的應用
- 用 Laravel 遷移檔案新增表註釋的一種方法Laravel
- 一種國際化Qt應用程式的方法QT
- 物件導向的方法在遊戲中的應用的一個例子(下)(轉)物件遊戲
- Oracle Package在itpub菠菜上的一點應用OraclePackage
- 從鍵盤上開啟 Mac 應用程式的 4 種方法Mac
- 四種常見的3D點雲標註方法3D
- 用 Tesseract 開發一個你自己的文字識別應用
- 車牌識別相機在智慧加油站的應用
- 物體識別桌在展廳中的應用優勢
- Java身份證識別介面在叫車場景的應用Java
- 裝置唯一標識方法(Unique Identifier):如何在 Windows 系統上獲取裝置的唯一標識IDEWindows
- Json序列化在golang中的應用JSONGolang
- 語音標註的具體應用場景
- 在weblogic中一個domain下的應用能呼叫另外一個domain下的應用嗎?WebAI
- 自定義註解以及註解在反射中的應用反射
- ServletOutputStream在nginx轉發下輸出檔案下載的一種方法ServletNginx
- 一文詳解深度學習在命名實體識別(NER)中的應用深度學習
- 如何使用機器學習進行影像識別 | 資料標註機器學習