[NLP] 知識抽取技術

千千寰宇發表於2024-09-12

原文網址 : https://www.cnblogs.com/johnnyzen/p/18409362

1 概述：知識抽取

定義

知識抽取通常指從非結構化文字中挖掘結構化資訊。

例如，含有豐富語義資訊的標籤和短語。
這在業界被廣泛應用於內容理解和商品理解等場景，透過從使用者生成的文字資訊中提取有價值的標籤，將其應用於內容或商品上

知識抽取通常伴隨著對所抽取標籤或短語的分類

通常被建模為命名實體識別任務，通用的命名實體識別任務就是識別命名實體成分並將成分劃分到地名、人名、機構名等型別上；

領域相關的標籤詞抽取將標籤詞識別，並劃分到領域自定義的類別上，如：系列（空軍一號、音速 9）、品牌（Nike、李寧）、型別（鞋、服裝、數碼）、風格（ins 風、復古風、北歐風）等。

關鍵技術

1、實體抽取：也就是命名實體識別，包括實體的檢測（find）和分類（classify）；
2、關係抽取：通常我們說的三元組（triple）抽取，一個謂詞（predicate）帶2個形參（argument）；
3、事件抽取：相當於一種多元關係的抽取。

主要應用

1 命名實體作為索引和超連結。

2 情感分析的準備步驟，在情感分析的文字中需要識別公司和產品，才能進一步為情感詞歸類。

3 關係抽取（Relation Extraction）的準備步驟。

4 QA 系統，大多數答案都是命名實體。

知識抽取方法的分類

本文從標籤詞挖掘和標籤詞分類兩個角度介紹知識抽取的經典方法。
將標籤詞挖掘方法分為無監督方法、有監督方法及遠端監督方法，如圖所示。

標籤詞挖掘透過候選詞挖掘和短語打分兩個步驟篩選高打分的標籤詞，標籤詞分類通常將標籤詞抽取和分類聯合建模，轉化為命名實體識別的序列標註任務。

標籤詞挖掘

無監督方法

基於統計的方法

基於圖的方法 Graph-Based Model

基於表徵的方法 Embedding-Based Model

有監督方法

遠監督方法

AutoPhrase

標籤詞分類

有監督方法

NER 序列標註模型

遠監督方法

AutoNER

BOND

X 參考文獻

第2章知識抽取：概述、方法 - CSDN
我們一起聊聊知識抽取，你學會了嗎？ - PHP中文網

【1】Campos R, Mangaravite V, Pasquali A, et al. Yake! collection-independent automatic keyword extractor[C]//Advances in Information Retrieval: 40th European Conference on IR Research, ECIR 2018, Grenoble, France, March 26-29, 2018, Proceedings 40. Springer International Publishing, 2018: 806-810. https://github.com/LIAAD/yake

【2】Mihalcea R, Tarau P. Textrank: Bringing order into text[C]//Proceedings of the 2004 conference on empirical methods in natural language processing. 2004: 404-411.

【3】Bennani-Smires K, Musat C, Hossmann A, et al. Simple unsupervised keyphrase extraction using sentence embeddings[J]. arXiv preprint arXiv:1801.04470, 2018.

【4】KeyBERT，https://github.com/MaartenGr/KeyBERT

【5】Witten I H, Paynter G W, Frank E, et al. KEA: Practical automatic keyphrase extraction[C]//Proceedings of the fourth ACM conference on Digital libraries. 1999: 254-255.

翻譯內容：

【6】熊L，胡C，熊C，等。超越語言模型的開放領域Web關鍵詞提取[J]。arXiv預印本arXiv:1911.02671，2019年

【7】Sun, S., Xiong, C., Liu, Z., Liu, Z., & Bao, J. (2020). Joint Keyphrase Chunking and Salience Ranking with BERT. arXiv preprint arXiv:2004.13639.

需要重寫的內容是：

【8】張Y，楊J。使用格子LSTM的中文命名實體識別[C]。ACL 2018

【9】Li X, Yan H, Qiu X, et al. FLAT: Chinese NER using flat-lattice transformer[C]. ACL 2020.

【10】Shang J, Liu J, Jiang M, et al. Automated phrase mining from massive text corpora[J]. IEEE Transactions on Knowledge and Data Engineering, 2018, 30(10): 1825-1837.

【11】 Shang J, Liu L, Ren X, et al. Learning named entity tagger using domain-specific dictionary[C]. EMNLP, 2018.

【12】Liang C, Yu Y, Jiang H, et al. Bond: Bert-assisted open-domain named entity recognition with distant supervision[C]//Proceedings of the 26th ACM SIGKDD international conference on knowledge discovery & data mining. 2020: 1054-1064.

【13】美團搜尋中NER技術的探索與實踐，https://zhuanlan.zhihu.com/p/163256192

知識抽取簡述｜得物技術
2023-11-14
遊戲技術美術之<技術&美術>知識構成
2021-11-09
遊戲
全方位掌握OpenStack技術知識
2019-06-14
【技術性】OO語言知識
2019-02-17
政策智慧分析詳解，達觀RPA、NLP、知識圖譜技術多場景落地應用
2021-06-25
王昊奮知識圖譜學習筆記--第三講知識抽取與知識挖掘（上）
2020-10-18
筆記
IAST技術知識-Java環境Agent部署知識乾貨分享
2022-06-10
ASTJava
非常硬核的技術知識-CopyOnWrite思想
2019-06-04
NLP知識總結和論文整理
2022-03-26
知識圖譜技術的新成果—KGB知識圖譜介紹
2019-10-22
NLPIR技術運用知識圖譜技術應用於智慧金融
2019-12-31
阿里NLP總監分享-NLP技術的應用與思考
2018-12-09
阿里
OpenStack關鍵技術系列: Libvirt基礎知識
2018-04-28
短連結的一些技術知識
2019-11-05
Docker知識進階與容器編排技術
2020-10-30
Docker
知識圖譜——技術與行業應用
2022-10-14
行業
直播美顏SDK的人臉識別技術進階知識
2022-07-21
NLP第3章中文分詞技術
2018-06-25
中文分詞
Java個人技術知識點總結（框架篇）
2018-11-09
Java框架
學習下區塊鏈技術基礎知識
2018-11-21
區塊鏈
Pytest 實踐：Python 測試技術基礎知識
2024-04-25
Python
乾貨 | 知識圖譜的技術與應用
2019-11-20
藍芽4.0技術知識整理和基本介紹
2020-07-22
藍芽
學習運維技術要掌握哪些知識點？
2020-11-19
運維
如何用NLP與知識圖譜支援MarTech建設？
2019-06-17
NLP技術如何為搜尋引擎賦能
2023-11-13
資訊處理技術基礎知識（2.4多媒體基礎知識）--第2章
2020-09-28
Java個人技術知識點總結（優化篇）
2018-11-08
Java優化
你的知識死角不能否定你的技術能力
2018-05-28
面試圖譜：前端基礎技術知識講解
2018-07-23
面試前端
前端基礎技術知識講解-面試圖譜
2019-01-05
前端面試
SRE 必備知識 - Kafka 探秘之零複製技術
2024-08-27
Kafka
Java核心技術卷1 基礎知識部分筆記
2018-04-13
Java筆記
知識圖譜技術如何賦能智慧安全運營
2021-03-15
NLP漢語自然語言處理入門基礎知識
2018-10-31
自然語言處理
對話清華NLP實驗室劉知遠：NLP搞事情少不了知識庫與圖神經網路
2019-02-07
神經網路
你需要知道這些關於技術美術的知識構成
2021-07-14
NLP 中不同詞嵌入技術的比較 - KDnuggets
2021-11-11

[NLP] 知識抽取技術

1 概述：知識抽取

定義

關鍵技術

主要應用

知識抽取方法的分類

標籤詞挖掘

無監督方法

基於統計的方法

基於圖的方法 Graph-Based Model

基於表徵的方法 Embedding-Based Model

有監督方法

遠監督方法

AutoPhrase

標籤詞分類

有監督方法

NER 序列標註模型

遠監督方法

AutoNER

BOND

X 參考文獻

相關文章