本文來自於一次交流的的記錄,{}內的為個人體會。
基本概念
- 實事知識:實體-關係-實體的三元組。比如,
- 知識圖譜:大量實時知識組織在一起,可以構建成知識圖譜。
- 關係抽取:由於文字中蘊含大量事實知識,需要從非結構化文字中自動地抽取出事實知識
- 完整的關係抽取抽取系統包括以下,其中,關係分類最核心
- 命名實體識別 (Named Entity Recongnition, NER)
- 實體連結 (Entity Linking)
- 關係分類 (Relation Classification)
關係抽取的任務難點
- 如何處理句子的結構資訊
- 在複雜句,長難句的實體關係如何
- 如何更好的利用實體資訊
- 實體的位置資訊
- 實體的型別資訊
- 如何更好地建立關係語義
- 對於隱晦的表達,如何抽取出真實關係
如何處理結構資訊處理
- 引入dependecy parsing 資訊, 將pasing資訊建模成feature 2004
- 基於最短依存路徑的 (Xu Yan, et al. Classifying relations via long short tem memory netwworks along shortest dependency paths EMNLP 2015) 簡化實體關係,抽取核心的關係
- 使用GCN建模依存關係:使用圖網路,在最短依存路徑基礎上,對關係的關注更高效,更全面: Zhang Yuhao, et al. Graph convolution over pruned dependency tress imporoves relation extraction. arXiv:1809.10185(2018)
如何更好地利用實體資訊
位置資訊
- position embendding: Zeng,Daojan, et al. Relation classfication via convolutional deep neural network.2014
- 進一步利用positional embendding指導attention: Zhang et al. Position-aware Attention and Supervised Data ...
- BERT 等與訓練模型,在fintue時引入位置資訊:Soares et al. Matching the Blanks: Distributional Similarity for Relation Learning. 2019
型別資訊
- 在feature-based方法中,將型別作為feature:在與訓練模型出現以前,SOTA關係 抽取模型(LSTM-ATT, GCN, AGGCN)在預處理時直接將實體替換成實體型別。 {相當於簡化實體的複雜度}這類方法的魯棒性不行,在實體名字改變之後,往往效果下降的很厲害。
- 預訓練模型可以更好地建模實體資訊
- 實體資訊和上下文資訊都很重要。實體的型別資訊在關係抽取時的表現比實體本身更好{換句話說,過於關注實體資訊本身,而減弱對型別、上下文資訊的關注,會降低關係抽取效果}。:Peng, Hao, et al. Learning from context ofr names? an empirical study on neural realation extraction. EMNLP2020 —— 本文采用隨機Mask實體,減少模型對實體資訊的依賴。
如何更好地建立關係語義
已有大量的基於CNN ,RNN, transformers的工作
預訓練語言模型建模關係語義的問題
- 預訓練表示中包含複雜的語義,並非針對關係抽取設計
- 關係類別是人工定義的,很難隱式地學習
當前,大量的工作已經投入在了預訓練模型上
面向關係表示的預訓練 Soares, Livio Baldini, et al. Mathcing the blanks:Distributional Similarity for Relation Learning. 2019
同時,傳統關係抽取任務已經的sota已經92%了。
傳統關係抽取的侷限性和當前關係抽取的方向
- 封閉世界假設 : 遠端監督關係抽取,開放域關係抽取
- 大資料假設:少樣本關係抽取
- 單句關係假設:文件級關係抽取
遠端監督關係抽取
動機:
- 大規模人工標註很貴
- 通過遠端監督(distant supervision) 得到大量標註資料
包級別的關係抽取
遠端監督的標註存在大量噪音,因此解決遠端監督監督的核心問題是如何降噪
於是假設:包含一堆實體的多個句子中,至少有一句表達該實體的關係,因此可以使用 multi-instance learning,即使用包級別的演算法抽取關係
基於Multi-instance learning的降噪方法:
- soft denoise methods
- PCNN+ATT Lin, Yankai, et al. Neural relation extraction with selective attention over instances. ACL2015
- hard denoise methods
RL-based noise selection: Qin, Pengda. Robust distant supervision relation extraction via deep ...
該方案問題: 由於使用包級別的關係抽取,無法獲得句子級別的標籤預測
句子級別的關係抽取
如何使用員監督資料實現句子級別關係抽取的挑戰的核心問題是如何降噪:負例學習(Negative Trainning)
SENT:Sentence-level Distant Realation Extraction via Negative Training. ACL 2021
開放域關係抽取 (Open RE)
Openset(開集)
開放域關係抽取:不對關係型別做約束,旨在從開放域的無監督文字中自動發現新的關係
基於聚類的開放域關係發現:Wu Ruidong, et al. Open relation extraction : Relational knowledge transfer from supervised data to unsupervised data. EMNLP2019
- 使用Relation Siamese Network判斷兩個句子是否表達同一種關係
- 用作聚類算中的距離度量
少樣本(Few-shot) 關係抽取
通過領域外經驗和少量目標高效學習
- 基於原型網路的少樣本關係抽取:
Snell Prototypical networks for few-shot learning. Advances in neural information processing system 30(2017)
Large Margin Prototypical Network for Few-shot Relation Classification with Fine-grained Features. CIKM 2019 - Prompt-tuning:在低資源場景下如何更好地利用預訓練網路,通過貼近預訓練形式,能夠減少預訓練模型和下游人物的gap,通常更多地複用預訓練模型的引數,這樣對樣本的數量依賴更小。
- 將下游任務重構為何預訓練任務相似的形式
Han, Xu et al. Ptr: Prompt tuning with rules for text classification. arXiv:2105.11259 2021
- 將下游任務重構為何預訓練任務相似的形式
文件級關係抽取
傳統關係抽取的假設:實體關係的表達侷限在一個單句中,而實際情況下,很多資訊也存在在更大的範圍外,級文件級關係抽取
文件級關係抽取的挑戰:
- 文件中存在大量的實體和關係
- 、
- 、
典型做法:
- 基於層級網路的文件級關係抽取,通過不同層級的網路實現token level-> sentence level -> document level的層次化特徵抽取. Tang, et al. Hin: Hierarchical inference network for document-level relation extraction
- 基於圖神經網路的文件級抽取,通過兩層mention-實體圖構建更好的表示. Double Graph Based Reasoning for Document-level Relation Extraction. EMNLP2020
個人體會
儘管是NLP 關係抽取的調研,但其實和影像模式識別的很多問題的是相似的。
比如,噪聲問題、少樣本問題,這些也都指向機器學習更普遍的問題,即樣本與標籤越來越成為模型瓶頸,也越來越受到研究者的關注。