學習筆記CB002:詞幹提取、詞性標註、中文切詞、文件分類

利炳根發表於2018-02-13

英文詞幹提取器，import nltk，porter = nltk.PorterStemmer()，porter.stem(`lying`) 。

詞性標註器，pos_tag處理詞序列，根據句子動態判斷，import nltk，text = nltk.word_tokenize(“And now for something completely different”)，nltk.pos_tag(text) 。CC 連線詞，RB 副詞，IN 介詞，NN 名次，JJ 形容詞。

標註自定義詞性標註語料庫，tagged_token = nltk.tag.str2tuple(`fly/NN`) 。字串轉成二元組。布朗語料庫標註 nltk.corpus.brown.tagged_words() 。

nltk中文語料庫，nltk.download()。下載 Corpora sinica_treebank，臺灣中國研究院。

# coding:utf-8

import sys
import importlib
importlib.reload(sys)
import nltk

for word in nltk.corpus.sinica_treebank.tagged_words():
    print(word[0], word[1])

jieba切詞，https://github.com/fxsjy/jieba，自定義語料中文切詞，自動詞性標註。

詞性自動標註。預設標註器 DefaultTagger，標註為頻率最高詞性。

# coding:utf-8

import sys
import importlib
importlib.reload(sys)
import nltk

default_tagger = nltk.DefaultTagger(`NN`)
raw = `我 好 想 你`
tokens = nltk.word_tokenize(raw)
tags = default_tagger.tag(tokens)
print(tags)

正規表示式標註器，RegexpTagge，滿足特定正規表示式詞性。

# coding:utf-8

import sys
import importlib
importlib.reload(sys)
import nltk

pattern = [(r`.*們$`,`PRO`)]
tagger = nltk.RegexpTagger(pattern)
print(tagger.tag(nltk.word_tokenize(`我們 一起  去 你們 和 他們 去過 的 地方`)))

查詢標註器，多個最頻繁詞和詞性，查詢語料庫，匹配標註，剩餘詞用預設標註器(回退)。

一元標註，已標註語料庫訓練，模型標註新語料。

# coding:utf-8

import sys
import importlib
importlib.reload(sys)
import nltk

tagged_sents = [[(u`我`, u`PRO`), (u`小兔`, u`NN`)]]
unigram_tagger = nltk.UnigramTagger(tagged_sents)
sents = [[u`我`, u`你`, u`小兔`]]
# brown_tagged_sents = nltk.corpus.brown.tagged_sents(categories=`news`)
# unigram_tagger = nltk.UnigramTagger(brown_tagged_sents)
# sents = nltk.corpus.brown.sents(categories=`news`)
tags = unigram_tagger.tag(sents[0])
print(tags)

二元標註、多元標註，一元標註 UnigramTagger 只考慮當前詞，不考慮上下文。二元標註器 BigramTagger 考慮前面詞。三元標註 TrigramTagger。

組合標註器，提高精度和覆蓋率，多種標註器組合。

標註器儲存，訓練好持久化，儲存硬碟。載入。

# coding:utf-8

import sys
import importlib
importlib.reload(sys)
import nltk

train_sents = [[(u`我`, u`PRO`), (u`小兔`, u`NN`)]]
t0 = nltk.DefaultTagger(`NN`)
t1 = nltk.UnigramTagger(train_sents, backoff=t0)
t2 = nltk.BigramTagger(train_sents, backoff=t1)
sents = [[u`我`, u`你`, u`小兔`]]
tags = t2.tag(sents[0])
print(tags)

from pickle import dump
print(t2)
output = open(`t2.pkl`, `wb`)
dump(t2, output, -1)
output.close()

from pickle import load
input = open(`t2.pkl`, `rb`)
tagger = load(input)
input.close()
print(tagger)

機器學習，訓練模型，已知資料統計學習；使用模型，統計學習模型計算未知資料。有監督，訓練樣本資料有確定判斷，斷定新資料。無監督，訓練樣本資料沒有判斷，自發生成結論。最難是選演算法。

貝葉斯，概率論，隨機事件條件概率。公式：P(B|A)=P(A|B)P(B)/P(A)。已知P(A|B)、P(A)、P(B)，計算P(B|A)。貝葉斯分類器：

# coding:utf-8

import sys
import importlib
importlib.reload(sys)
import nltk

my_train_set = [
        ({`feature1`:u`a`},`1`),
        ({`feature1`:u`a`},`2`),
        ({`feature1`:u`a`},`3`),
        ({`feature1`:u`a`},`3`),
        ({`feature1`:u`b`},`2`),
        ({`feature1`:u`b`},`2`),
        ({`feature1`:u`b`},`2`),
        ({`feature1`:u`b`},`2`),
        ({`feature1`:u`b`},`2`),
        ({`feature1`:u`b`},`2`),
        ]
classifier = nltk.NaiveBayesClassifier.train(my_train_set)
print(classifier.classify({`feature1`:u`a`}))
print(classifier.classify({`feature1`:u`b`}))

分類，最重要知道哪些特徵最能反映分類特點，特徵選取。文件分類，最能代表分類詞。特徵提取，找到最優資訊量特徵：

# coding:utf-8

import sys
import importlib
importlib.reload(sys)
import nltk
from nltk.corpus import movie_reviews
import random

documents =[(list(movie_reviews.words(fileid)),category)for category in movie_reviews.categories()for fileid in movie_reviews.fileids(category)]
random.shuffle(documents)
all_words = nltk.FreqDist(w.lower() for w in movie_reviews.words())
word_features = [word for (word, freq) in all_words.most_common(2000)]
def document_features(document):
        document_words = set(document)
        features = {}
        for word in word_features:
                features[`contains(%s)` % word] = (word in document_words)
        return features

featuresets = [(document_features(d), c) for (d,c) in documents]
# classifier = nltk.NaiveBayesClassifier.train(featuresets)
# classifier.classify(document_features(d))

train_set, test_set = featuresets[100:], featuresets[:100]
classifier = nltk.NaiveBayesClassifier.train(train_set)
print(nltk.classify.accuracy(classifier, test_set))
classifier.show_most_informative_features(5)

詞性標註，上下文語境文字分類。句子分割，標點符號分類，選取單獨句子識別符號合並連結串列、資料特徵。識別對話行為，問候、問題、回答、斷言、說明。識別文字蘊含，句子能否得出另一句子結論，真假標籤。

參考資料：
http://www.shareditor.com/blo…
http://www.shareditor.com/blo…
https://www.jianshu.com/p/6e5…
《Python 自然語言處理》

歡迎推薦上海機器學習工作機會，我的微信：qingxingfengzi

pyhanlp 中文詞性標註與分詞簡介
2019-01-07
HanLP詞性標註分詞
jieba 詞性標註 & 並行分詞
2020-12-19
Jieba詞性標註並行分詞
中文分詞工具之基於字標註法的分詞
2019-06-26
中文分詞
自然語言處理工具pyhanlp分詞與詞性標註
2019-05-18
自然語言處理HanLP分詞詞性標註
CodeQL學習筆記(1)-QL語法（邏輯連線詞、量詞、聚合詞、謂詞和類）
2024-10-25
筆記
python的詞性標註
2020-12-24
Python詞性標註
ES[7.6.x]學習筆記（七）IK中文分詞器
2020-05-07
筆記中文分詞
python使用jieba實現中文文件分詞和去停用詞
2019-06-19
PythonJieba分詞
#Elasticsearch中文分詞器 #IK分詞器 @FDDLC
2020-11-07
Elasticsearch中文分詞
古詩詞中文分詞自動化
2018-04-05
分詞
中文分詞原理及常用Python中文分詞庫介紹
2018-04-04
中文分詞Python
[譯] 利用 Keras 深度學習庫進行詞性標註教程
2018-04-28
Keras深度學習詞性標註
中文NLP筆記：3. 關鍵詞提取的幾個方法
2019-01-21
筆記
ElasticSearch7.3學習(十五)----中文分詞器(IK Analyzer)及自定義詞庫
2022-03-28
Elasticsearch中文分詞
【python學習手冊】02|使用Python提取中文關鍵詞？
2018-04-20
Python
系統學習NLP（十）--詞性標註演算法綜述
2019-03-09
詞性標註演算法
NLP之中文分詞
2020-10-12
中文分詞
中文分詞技術
2020-09-18
中文分詞
精通Python自然語言處理 4 ：詞性標註--單詞識別
2018-06-01
Python自然語言處理詞性標註
如何用Python提取中文關鍵詞？
2018-06-28
Python
Hanlp分詞之CRF中文詞法分析詳解
2019-02-18
HanLP分詞CRF詞法分析
分詞工具Hanlp基於感知機的中文分詞框架
2019-04-03
HanLP中文分詞框架
單詞分類記憶_衣服（clothes）
2024-09-11
關鍵詞提取
2024-04-05
python 中文分詞包 jieba
2020-12-18
Python中文分詞Jieba
hanlp中文智慧分詞自動識別文字提取例項
2018-11-30
HanLP分詞
js--class類、super和estends關鍵詞的學習筆記
2021-08-08
JS筆記
中文分詞研究難點-詞語劃分和語言規範
2019-09-04
中文分詞
es筆記四之中文分詞外掛安裝與使用
2023-04-14
筆記中文分詞
分詞
2024-04-02
分詞
中文分詞器，整理自Ai
2024-08-01
中文分詞AI
SCWS PHP 中文簡易分詞
2019-07-12
PHP分詞
HanLP中文分詞Lucene外掛
2019-04-15
HanLP中文分詞
如何用Python做中文分詞？
2018-06-28
Python中文分詞
HanLP分詞命名實體提取詳解
2019-01-11
HanLP分詞
使用cjieba(結巴分詞庫)實現php擴充套件中文分詞
2019-02-16
JiebaPHP套件中文分詞
單詞分類記憶_交通工具（vehicles）
2024-09-11
單詞分類記憶_雜物（other things）
2024-09-11
復旦大學提出中文分詞新方法，Transformer連有歧義的分詞也能學
2019-07-01
中文分詞ORM

學習筆記CB002:詞幹提取、詞性標註、中文切詞、文件分類

相關文章