部分常用分詞工具使用整理

adnb34g發表於2019-05-29


以下分詞工具均能在 Python環境中直接呼叫(排名不分先後)。

1、 jieba(結巴分詞) 免費使用

2、 HanLP(漢語言處理包) 免費使用

3、 SnowNLP(中文的類庫) 免費使用

4、 FoolNLTK(中文處理工具包) 免費使用

5、 Jiagu(甲骨NLP) 免費使用

6、 pyltp(哈工大語言云) 商用需要付費

7、 THULAC(清華中文詞法分析工具包) 商用需要付費

8、 NLPIR(漢語分詞系統) 付費使用

 

1、 jieba(結巴分詞)

“結巴”中文分詞:做最好的 Python 中文分片語件。

專案 Github地址:jieba

安裝

pip install jieba

使用

import jieba

jieba.initialize()

text = '化妝和服裝'

words = jieba.cut(text)

words = list(words)

print(words)

 

2、 HanLP(漢語言處理包)

HanLP是一系列模型與演算法組成的NLP工具包,由大快搜尋主導並完全開源,目標是普及自然語言處理在生產環境中的應用。HanLP具備功能完善、效能高效、架構清晰、語料時新、可自定義的特點。

專案 Github地址:pyhanlp

 

安裝:

pip install pyhanlp

使用

import pyhanlp

text = '化妝和服裝'

words = []

for term in pyhanlp.HanLP.segment(text):

words.append(term.word)

print(words)

 

3、 SnowNLP(中文的類庫)

SnowNLP是一個python寫的類庫,可以方便的處理中文文字內容,是受到了TextBlob的啟發而寫的,由於現在大部分的自然語言處理庫基本都是針對英文的,於是寫了一個方便處理中文的類庫,並且和TextBlob不同的是,這裡沒有用NLTK,所有的演算法都是自己實現的,並且自帶了一些訓練好的字典。

專案 Github地址:snownlp

安裝:

pip install snownlp

使用:

import snownlp

text = '化妝和服裝'

words = snownlp.SnowNLP(text).words

print(words)

 

4、 FoolNLTK(中文處理工具包)

可能不是最快的開源中文分詞,但很可能是最準的開源中文分詞。

專案 Github地址:FoolNLTK

 

安裝:

pip install foolnltk

使用:

import fool

text = '化妝和服裝'

words = fool.cut(text)

print(words)

 

5、 Jiagu(甲骨NLP)

基於 BiLSTM模型,使用大規模語料訓練而成。將提供中文分詞、詞性標註、命名實體識別、關鍵詞抽取、文字摘要、新詞發現等常用自然語言處理功能。參考了各大工具優缺點製作,將Jiagu回饋給大家。

專案 Github地址:jiagu

安裝:

pip3 install jiagu

使用:

import jiagu

jiagu.init()

text = '化妝和服裝'

words = jiagu.seg(text)

print(words)

 

6、 pyltp(哈工大語言云)

pyltp 是 LTP 的 Python 封裝,提供了分詞,詞性標註,命名實體識別,依存句法分析,語義角色標註的功能。

專案 Github地址:pyltp,3.4模型下載連結:網盤

安裝:

pip install pyltp

使用:

import pyltp

segmentor = pyltp.Segmentor()

segmentor.load('model/ltp_data_v3.4.0/cws.model') # 模型放置的路徑

text = '化妝和服裝'

words = segmentor.segment(text)

words = list(words)

print(words)

 

7、 THULAC(清華中文詞法分析工具包)

THULAC(THU Lexical Analyzer for Chinese)由清華大學自然語言處理與社會人文計算實驗室研製推出的一套中文詞法分析工具包,具有中文分詞和詞性標註功能。

專案 Github地址:THULAC-Python

安裝:

pip install thulac

使用:

import thulac

thu = thulac.thulac(seg_only=True)

text = '化妝和服裝'

words = thu.cut(text, text=True).split()

print(words)

 

NLPIR(漢語分詞系統)

主要功能包括中文分詞;英文分詞;詞性標註;命名實體識別;新詞識別;關鍵詞提取;支援使用者專業詞典與微博分析。 NLPIR系統支援多種編碼、多種作業系統、多種開發語言與平臺。

專案 Github地址:pynlpir

安裝:

pip install pynlpir

下載證照覆蓋到安裝目錄, NLPIR.user 例如安裝目錄:/usr/lib64/python3.4/site-packages/pynlpir/Data

 

使用

import pynlpir

pynlpir.open()

text = '化妝和服裝'

words = pynlpir.segment(text, pos_tagging=False)

print(words)

pynlpir.close()

 


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31524777/viewspace-2646003/,如需轉載,請註明出處,否則將追究法律責任。

相關文章