一次關於關係抽取(RE)綜述調研的交流心得

坦先生的AI資料室發表於2022-04-01

原文網址 : https://www.cnblogs.com/yushengchn/p/16087124.html

本文來自於一次交流的的記錄，{}內的為個人體會。

基本概念

實事知識：實體-關係-實體的三元組。比如，
知識圖譜：大量實時知識組織在一起，可以構建成知識圖譜。
關係抽取：由於文字中蘊含大量事實知識，需要從非結構化文字中自動地抽取出事實知識
完整的關係抽取抽取系統包括以下，其中，關係分類最核心
- 命名實體識別 (Named Entity Recongnition, NER)
- 實體連結 (Entity Linking)
- 關係分類 (Relation Classification)

關係抽取的任務難點

如何處理句子的結構資訊
- 在複雜句，長難句的實體關係如何
如何更好的利用實體資訊
- 實體的位置資訊
- 實體的型別資訊
如何更好地建立關係語義
- 對於隱晦的表達，如何抽取出真實關係

如何處理結構資訊處理

引入dependecy parsing 資訊，將pasing資訊建模成feature 2004
基於最短依存路徑的 (Xu Yan, et al. Classifying relations via long short tem memory netwworks along shortest dependency paths EMNLP 2015) 簡化實體關係，抽取核心的關係
使用GCN建模依存關係：使用圖網路，在最短依存路徑基礎上，對關係的關注更高效，更全面: Zhang Yuhao, et al. Graph convolution over pruned dependency tress imporoves relation extraction. arXiv:1809.10185(2018)

如何更好地利用實體資訊

位置資訊

position embendding: Zeng,Daojan, et al. Relation classfication via convolutional deep neural network.2014
進一步利用positional embendding指導attention: Zhang et al. Position-aware Attention and Supervised Data ...
BERT 等與訓練模型，在fintue時引入位置資訊：Soares et al. Matching the Blanks: Distributional Similarity for Relation Learning. 2019

型別資訊

在feature-based方法中，將型別作為feature：在與訓練模型出現以前，SOTA關係抽取模型(LSTM-ATT, GCN, AGGCN)在預處理時直接將實體替換成實體型別。 {相當於簡化實體的複雜度}這類方法的魯棒性不行，在實體名字改變之後，往往效果下降的很厲害。
預訓練模型可以更好地建模實體資訊
實體資訊和上下文資訊都很重要。實體的型別資訊在關係抽取時的表現比實體本身更好{換句話說，過於關注實體資訊本身，而減弱對型別、上下文資訊的關注，會降低關係抽取效果}。：Peng, Hao, et al. Learning from context ofr names? an empirical study on neural realation extraction. EMNLP2020 —— 本文采用隨機Mask實體，減少模型對實體資訊的依賴。

如何更好地建立關係語義

已有大量的基於CNN ,RNN, transformers的工作
預訓練語言模型建模關係語義的問題

預訓練表示中包含複雜的語義，並非針對關係抽取設計
關係類別是人工定義的，很難隱式地學習
當前，大量的工作已經投入在了預訓練模型上
面向關係表示的預訓練 Soares, Livio Baldini, et al. Mathcing the blanks:Distributional Similarity for Relation Learning. 2019
同時，傳統關係抽取任務已經的sota已經92%了。

傳統關係抽取的侷限性和當前關係抽取的方向

封閉世界假設：遠端監督關係抽取，開放域關係抽取
大資料假設：少樣本關係抽取
單句關係假設：文件級關係抽取

遠端監督關係抽取

動機：

大規模人工標註很貴
通過遠端監督(distant supervision) 得到大量標註資料

包級別的關係抽取

遠端監督的標註存在大量噪音，因此解決遠端監督監督的核心問題是如何降噪
於是假設：包含一堆實體的多個句子中，至少有一句表達該實體的關係，因此可以使用 multi-instance learning，即使用包級別的演算法抽取關係
基於Multi-instance learning的降噪方法:

soft denoise methods
- PCNN+ATT Lin, Yankai, et al. Neural relation extraction with selective attention over instances. ACL2015
hard denoise methods
RL-based noise selection: Qin, Pengda. Robust distant supervision relation extraction via deep ...
該方案問題：由於使用包級別的關係抽取，無法獲得句子級別的標籤預測

句子級別的關係抽取

如何使用員監督資料實現句子級別關係抽取的挑戰的核心問題是如何降噪：負例學習(Negative Trainning)
SENT:Sentence-level Distant Realation Extraction via Negative Training. ACL 2021

開放域關係抽取 (Open RE)

Openset(開集)
開放域關係抽取：不對關係型別做約束，旨在從開放域的無監督文字中自動發現新的關係
基於聚類的開放域關係發現:Wu Ruidong, et al. Open relation extraction : Relational knowledge transfer from supervised data to unsupervised data. EMNLP2019

使用Relation Siamese Network判斷兩個句子是否表達同一種關係
用作聚類算中的距離度量

少樣本(Few-shot) 關係抽取

通過領域外經驗和少量目標高效學習

基於原型網路的少樣本關係抽取:
Snell Prototypical networks for few-shot learning. Advances in neural information processing system 30(2017)
Large Margin Prototypical Network for Few-shot Relation Classification with Fine-grained Features. CIKM 2019
Prompt-tuning：在低資源場景下如何更好地利用預訓練網路，通過貼近預訓練形式，能夠減少預訓練模型和下游人物的gap，通常更多地複用預訓練模型的引數，這樣對樣本的數量依賴更小。
- 將下游任務重構為何預訓練任務相似的形式
  Han, Xu et al. Ptr: Prompt tuning with rules for text classification. arXiv:2105.11259 2021

文件級關係抽取

傳統關係抽取的假設：實體關係的表達侷限在一個單句中，而實際情況下，很多資訊也存在在更大的範圍外，級文件級關係抽取
文件級關係抽取的挑戰：

文件中存在大量的實體和關係
、
、

典型做法：

基於層級網路的文件級關係抽取，通過不同層級的網路實現token level-> sentence level -> document level的層次化特徵抽取. Tang, et al. Hin: Hierarchical inference network for document-level relation extraction
基於圖神經網路的文件級抽取，通過兩層mention-實體圖構建更好的表示. Double Graph Based Reasoning for Document-level Relation Extraction. EMNLP2020

個人體會

儘管是NLP 關係抽取的調研，但其實和影像模式識別的很多問題的是相似的。
比如，噪聲問題、少樣本問題，這些也都指向機器學習更普遍的問題，即樣本與標籤越來越成為模型瓶頸，也越來越受到研究者的關注。

基於路徑的實體圖關係抽取模型
2018-09-18
模型
關於RE
2024-03-11
AAAI 2019 | 基於分層強化學習的關係抽取
2019-03-28
AI強化學習
[資訊抽取]基於ERNIE3.0的多對多資訊抽取演算法：屬性關係抽取
2022-12-03
演算法
NLP相關論文綜述
2018-11-26
關於LLM-as-a-judge正規化，終於有綜述講明白了
2024-12-03
【論文筆記-16~】多語言關係抽取
2024-04-30
筆記
【關係抽取-R-BERT】載入資料集
2021-03-14
關於AI數學和科學標準化測試的綜述
2018-07-24
AI
搞定實體識別、關係抽取、事件抽取，我用指標網路
2022-12-06
事件指標
論文閱讀：基於無監督整合聚類的開放關係抽取方法
2024-05-13
聚類
python 關於正規表示式re
2020-04-21
Python
深度學習研究綜述
2022-09-17
經典論文復現 | 基於標註策略的實體和關係聯合抽取
2018-11-27
基於標註策略的實體和關係聯合抽取 | 經典論文復現
2019-02-15
React,Redux,React-redux的錯綜複雜關係
2018-08-18
ReactRedux
關注你所關注的 - Golang社群調研報告
2019-12-20
Golang
一個關於wait/notify與鎖關係的探究
2022-03-28
AI
SDN控制器技術綜述：SDN交換機配置技術與控制技術的關係—Vecloud
2020-11-18
Cloud
表的關聯關係
2018-10-08
關於研發效能提升的思考
2020-02-14
關於Hadoop調優
2021-07-18
Hadoop
【關係抽取-R-BERT】定義訓練和驗證迴圈
2021-03-17
調研180多篇論文，這篇綜述終於把大模型做演算法設計理清了
2024-11-06
大模型演算法
IPv6 相關技術調研
2018-12-29
入侵檢測系統綜述文獻研讀
2024-06-01
銀彈谷：整車研發專案綜述
2022-05-26
關於 Angular 部署以及 index.html 裡 base hRef 屬性的關聯關係
2022-11-13
AngularIndexHTML
關於計算機視覺中的自迴歸模型，這篇綜述一網打盡了
2024-12-01
計算機視覺模型
清華、上交等聯合發表：關於“分片線性神經網路”最新綜述！
2022-10-09
神經網路
關於 Service Worker 和 Web 應用對應關係的討論
2024-02-14
Web
Hibernate 的關聯關係對映
2018-03-06
【集合論】二元關係 ( 二元關係記法 | A 到 B 的二元關係 | 二元關係個數 | 二元關係示例 )
2020-10-02
知識圖譜從哪裡來：實體關係抽取的現狀與未來
2019-11-18
資料關係比較：相關性 vs 因果關係
2021-09-24
OGG-整合模式抽取與資料庫引數streams_pool_size關係
2021-04-13
模式資料庫
【人工智慧】人工智慧如何影響社會經濟：關於近期文獻的一個綜述
2018-04-18
人工智慧
關於學習心態的調整
2020-12-05