自然語言處理的基本概念--結合spacy軟體的學習

xiaoxiaoqian0519發表於2021-01-02

原文網址 : https://blog.csdn.net/xiaoxiaoqian0519/article/details/112074495

基本概念

doc: 表示document的縮寫，可以結構化地讀取文字相關的資訊，並且不會產生丟失

doc = nlp(text)
for token in doc:
	print(token.text)

token表示文字中的字元，比如一個詞或者一個標點符號。要讀取某個位置的詞符，可以直接使用doc的索引；token中也會包含很多屬性，比如.text就會輸出對應的原文；

doc = nlp(text)
token = doc[1]
print(token.text)

span例項是文字中包含了一個或者更多字元的一段擷取，僅僅是Doc的一個檢視不包含實際的資料；

doc = nlp(text)
span = doc[1:3]
print(span.text)

統計模型

介紹：從語境中抽取到的語言學屬性，包括：詞性標註、依存關係解析、命名實體識別；
從標註過的文字中訓練而來；
可以使用更多的標註資料來更新模型，優化抽取結果；
模型包括：二進位制權重(用於進行屬性預測)，詞彙表和元資訊(配置spacy語言類以及相應的處理流程元件)；
在不瞭解屬性的時候，可以使用spacy.explain("對應屬性名稱")來查詢對應的屬性含義；

基於規則的匹配抽取

基於Doc物件而不是直接在字串上進行匹配；
在詞符和其屬性上進行匹配；
會使用到模型的預測結果；

模板匹配

一個元素是字典的列表，一個字元是一個元素

匹配詞符完全一致的文字

[{"TEXT": "iPhone"}, {"TEXT": "X"}]

匹配詞彙屬性

[{"LOWER": "iphone"}, {"LOWER": "x"}]

匹配任意的詞符屬性

[{"LEMMA": "buy"}, {"POS": "NOUN"}]

example:

import spacy
from spacy.matcher import Matcher
nlp = spacy.load("zh_core_web_sm")
matcher = Matcher(nlp.vocab)
pattern = nlp(text)
matches = matcher(doc)
for match_id, start, end in matches:
	matched_span = doc[start:end]
	print(matched_span.text)

匹配詞彙屬性

找出五個字元：
一個只含有數字的字元；
三個匹配到“國際”，“足聯”和“世界盃”的詞符；
一個標點符號詞符；

pattern = [
		{"IS_DIGIT": True},
		{"LOWER": "國際"}，
		{“”LOWER“: "足聯”},
		{"LOWER": "世界盃"},
		{"IS_PUNCT": True}
]

匹配其他詞符屬性

尋找兩個詞符：
一個詞根是“喜歡”的動詞，後面跟著一個名詞

pattern = [
		{"LEMMA": "喜歡", "POS": ""VERB},
		{"POS": "NOUN"}
]

使用運算子和量詞

使用運算子和量詞來定義一個詞符應該被匹配幾次。可以用OP這個關鍵詞進行新增。其中"?"運算子使得相應的判斷詞符變為可以選

pattern = [
		{"LEMMA": "買"},
		{"POS": "NUM", "OP": "?"},
		{"POS": "NOUN"}
]

使用運算子和量詞

如何用Python處理自然語言？（Spacy與Word Embedding）
2018-06-27
Python
使用 Python+spaCy 進行簡易自然語言處理
2019-03-03
Python自然語言處理
自然語言處理中的遷移學習(下)
2019-10-23
自然語言處理遷移學習
自然語言處理中的遷移學習(上)
2019-10-23
自然語言處理遷移學習
快速掌握spacy在python中進行自然語言處理（附程式碼&連結）
2019-10-25
Python自然語言處理
《深度學習進階：自然語言處理》中的網址
2020-08-11
深度學習自然語言處理
機器學習工作坊 - 自然語言處理
2022-04-21
機器學習自然語言處理
如何將Python自然語言處理速度提升100倍：用spaCy/Cython加速NLP
2018-07-13
Python自然語言處理
自然語言處理背後的資料科學
2019-04-29
自然語言處理資料科學
自然語言處理的最佳實踐
2019-10-28
自然語言處理
自然語言處理中的分詞問題總結
2018-10-26
自然語言處理分詞
基於圖深度學習的自然語言處理方法和應用
2022-05-01
深度學習自然語言處理
《NLP漢語自然語言處理原理與實踐》學習四
2018-09-14
自然語言處理
突破！自然語言強化學習(NLRL)：一個可處理語言反饋的強化學習框架
2024-12-07
強化學習框架
自然語言處理（NLP）系列（一）——自然語言理解（NLU）
2023-02-01
自然語言處理
自然語言處理NLP（四）
2018-10-03
自然語言處理
自然語言處理(NLP)概述
2018-08-11
自然語言處理
HanLP 自然語言處理 for nodejs
2019-04-24
HanLP自然語言處理NodeJS
《Python自然語言處理實戰》連結表
2020-10-23
Python自然語言處理
python自然語言處理學習筆記（八）—— 句法分析
2018-11-06
Python自然語言處理筆記
自然語言處理中的語言模型預訓練方法
2018-10-22
自然語言處理模型
精通Python自然語言處理 3 ：形態學
2018-05-28
Python自然語言處理
[譯] 自然語言處理真是有趣！
2018-08-10
自然語言處理
自然語言處理:分詞方法
2018-03-29
自然語言處理分詞
有趣的自然語言處理資源集錦
2018-11-22
自然語言處理
hanlp自然語言處理包的基本使用--python
2018-09-28
HanLP自然語言處理Python
12 種自然語言處理的開源工具
2020-02-25
自然語言處理開源工具
探索自然語言處理：語言模型的發展與應用
2024-03-13
自然語言處理模型
牛津大學xDeepMind自然語言處理第13講語言模型（3）
2018-10-08
自然語言處理模型
spaCy 學習第二篇：語言模型
2019-05-13
模型
影片場景下的自然語言處理應用
2018-10-19
自然語言處理
人工智慧的研究熱點:自然語言處理
2020-09-27
人工智慧自然語言處理
Pyhanlp自然語言處理中的新詞識別
2019-02-15
HanLP自然語言處理
自然語言處理NLP快速入門
2018-10-24
自然語言處理
配置Hanlp自然語言處理進階
2018-12-07
HanLP自然語言處理
自然語言處理之jieba分詞
2020-08-18
自然語言處理Jieba分詞
人工智慧 (06) 自然語言處理
2019-12-19
人工智慧自然語言處理
自然語言處理與情緒智慧
2024-08-25
自然語言處理

自然語言處理的基本概念--結合spacy軟體的學習

基本概念

統計模型

基於規則的匹配抽取

模板匹配

匹配詞彙屬性

匹配其他詞符屬性

使用運算子和量詞

相關文章