[NLP] 知識抽取技術

千千寰宇發表於2024-09-12

1 概述:知識抽取

定義

  • 知識抽取通常指從非結構化文字中挖掘結構化資訊

例如,含有豐富語義資訊的標籤和短語。
這在業界被廣泛應用於內容理解和商品理解等場景,透過從使用者生成的文字資訊中提取有價值的標籤,將其應用於內容或商品上

  • 知識抽取通常伴隨著對所抽取標籤短語的分類
  • 通常被建模為命名實體識別任務,通用的命名實體識別任務就是識別命名實體成分並將成分劃分到地名、人名、機構名等型別上;
  • 領域相關的標籤詞抽取將標籤詞識別,並劃分到領域自定義的類別上,如:系列(空軍一號、音速 9)、品牌(Nike、李寧)、型別(鞋、服裝、數碼)、風格(ins 風、復古風、北歐風)等。

關鍵技術

1、實體抽取:也就是命名實體識別,包括實體的檢測(find)和分類(classify);
2、關係抽取:通常我們說的三元組(triple)抽取,一個謂詞(predicate)帶2個形參(argument);
3、事件抽取:相當於一種多元關係的抽取。

主要應用

  • 1 命名實體作為索引和超連結。
  • 2 情感分析的準備步驟,在情感分析的文字中需要識別公司和產品,才能進一步為情感詞歸類。
  • 3 關係抽取(Relation Extraction)的準備步驟。
  • 4 QA 系統,大多數答案都是命名實體。

知識抽取方法的分類

本文從標籤詞挖掘和標籤詞分類兩個角度介紹知識抽取的經典方法。
將標籤詞挖掘方法分為無監督方法、有監督方法及遠端監督方法,如圖 所示。

標籤詞挖掘透過候選詞挖掘和短語打分兩個步驟篩選高打分的標籤詞,標籤詞分類通常將標籤詞抽取和分類聯合建模,轉化為命名實體識別的序列標註任務。

標籤詞挖掘

無監督方法

基於統計的方法

基於圖的方法 Graph-Based Model

基於表徵的方法 Embedding-Based Model

有監督方法

遠監督方法

AutoPhrase

標籤詞分類

有監督方法

NER 序列標註模型

遠監督方法

AutoNER

BOND

X 參考文獻

  • 第2章 知識抽取:概述、方法 - CSDN
  • 我們一起聊聊知識抽取,你學會了嗎? - PHP中文網
  • 【1】Campos R, Mangaravite V, Pasquali A, et al. Yake! collection-independent automatic keyword extractor[C]//Advances in Information Retrieval: 40th European Conference on IR Research, ECIR 2018, Grenoble, France, March 26-29, 2018, Proceedings 40. Springer International Publishing, 2018: 806-810. https://github.com/LIAAD/yake
  • 【2】Mihalcea R, Tarau P. Textrank: Bringing order into text[C]//Proceedings of the 2004 conference on empirical methods in natural language processing. 2004: 404-411.
  • 【3】Bennani-Smires K, Musat C, Hossmann A, et al. Simple unsupervised keyphrase extraction using sentence embeddings[J]. arXiv preprint arXiv:1801.04470, 2018.
  • 【4】KeyBERT,https://github.com/MaartenGr/KeyBERT
  • 【5】Witten I H, Paynter G W, Frank E, et al. KEA: Practical automatic keyphrase extraction[C]//Proceedings of the fourth ACM conference on Digital libraries. 1999: 254-255.

翻譯內容:

  • 【6】熊L,胡C,熊C,等。超越語言模型的開放領域Web關鍵詞提取[J]。arXiv預印本arXiv:1911.02671,2019年
  • 【7】Sun, S., Xiong, C., Liu, Z., Liu, Z., & Bao, J. (2020). Joint Keyphrase Chunking and Salience Ranking with BERT. arXiv preprint arXiv:2004.13639.

需要重寫的內容是:

  • 【8】張Y,楊J。使用格子LSTM的中文命名實體識別[C]。ACL 2018
  • 【9】Li X, Yan H, Qiu X, et al. FLAT: Chinese NER using flat-lattice transformer[C]. ACL 2020.
  • 【10】Shang J, Liu J, Jiang M, et al. Automated phrase mining from massive text corpora[J]. IEEE Transactions on Knowledge and Data Engineering, 2018, 30(10): 1825-1837.
  • 【11】 Shang J, Liu L, Ren X, et al. Learning named entity tagger using domain-specific dictionary[C]. EMNLP, 2018.
  • 【12】Liang C, Yu Y, Jiang H, et al. Bond: Bert-assisted open-domain named entity recognition with distant supervision[C]//Proceedings of the 26th ACM SIGKDD international conference on knowledge discovery & data mining. 2020: 1054-1064.
  • 【13】美團搜尋中NER技術的探索與實踐,https://zhuanlan.zhihu.com/p/163256192

相關文章