部分常用分詞工具使用整理
以下分詞工具均能在 Python環境中直接呼叫(排名不分先後)。
1、 jieba(結巴分詞) 免費使用
2、 HanLP(漢語言處理包) 免費使用
3、 SnowNLP(中文的類庫) 免費使用
4、 FoolNLTK(中文處理工具包) 免費使用
5、 Jiagu(甲骨NLP) 免費使用
6、 pyltp(哈工大語言云) 商用需要付費
7、 THULAC(清華中文詞法分析工具包) 商用需要付費
8、 NLPIR(漢語分詞系統) 付費使用
1、 jieba(結巴分詞)
“結巴”中文分詞:做最好的 Python 中文分片語件。
專案 Github地址:jieba
安裝 :
pip install jieba
使用 :
import jieba
jieba.initialize()
text = '化妝和服裝'
words = jieba.cut(text)
words = list(words)
print(words)
2、 HanLP(漢語言處理包)
HanLP是一系列模型與演算法組成的NLP工具包,由大快搜尋主導並完全開源,目標是普及自然語言處理在生產環境中的應用。HanLP具備功能完善、效能高效、架構清晰、語料時新、可自定義的特點。
專案 Github地址:pyhanlp
安裝:
pip install pyhanlp
使用 :
import pyhanlp
text = '化妝和服裝'
words = []
for term in pyhanlp.HanLP.segment(text):
words.append(term.word)
print(words)
3、 SnowNLP(中文的類庫)
SnowNLP是一個python寫的類庫,可以方便的處理中文文字內容,是受到了TextBlob的啟發而寫的,由於現在大部分的自然語言處理庫基本都是針對英文的,於是寫了一個方便處理中文的類庫,並且和TextBlob不同的是,這裡沒有用NLTK,所有的演算法都是自己實現的,並且自帶了一些訓練好的字典。
專案 Github地址:snownlp
安裝:
pip install snownlp
使用:
import snownlp
text = '化妝和服裝'
words = snownlp.SnowNLP(text).words
print(words)
4、 FoolNLTK(中文處理工具包)
可能不是最快的開源中文分詞,但很可能是最準的開源中文分詞。
專案 Github地址:FoolNLTK
安裝:
pip install foolnltk
使用:
import fool
text = '化妝和服裝'
words = fool.cut(text)
print(words)
5、 Jiagu(甲骨NLP)
基於 BiLSTM模型,使用大規模語料訓練而成。將提供中文分詞、詞性標註、命名實體識別、關鍵詞抽取、文字摘要、新詞發現等常用自然語言處理功能。參考了各大工具優缺點製作,將Jiagu回饋給大家。
專案 Github地址:jiagu
安裝:
pip3 install jiagu
使用:
import jiagu
jiagu.init()
text = '化妝和服裝'
words = jiagu.seg(text)
print(words)
6、 pyltp(哈工大語言云)
pyltp 是 LTP 的 Python 封裝,提供了分詞,詞性標註,命名實體識別,依存句法分析,語義角色標註的功能。
專案 Github地址:pyltp,3.4模型下載連結:網盤
安裝:
pip install pyltp
使用:
import pyltp
segmentor = pyltp.Segmentor()
segmentor.load('model/ltp_data_v3.4.0/cws.model') # 模型放置的路徑
text = '化妝和服裝'
words = segmentor.segment(text)
words = list(words)
print(words)
7、 THULAC(清華中文詞法分析工具包)
THULAC(THU Lexical Analyzer for Chinese)由清華大學自然語言處理與社會人文計算實驗室研製推出的一套中文詞法分析工具包,具有中文分詞和詞性標註功能。
專案 Github地址:THULAC-Python
安裝:
pip install thulac
使用:
import thulac
thu = thulac.thulac(seg_only=True)
text = '化妝和服裝'
words = thu.cut(text, text=True).split()
print(words)
NLPIR(漢語分詞系統)
主要功能包括中文分詞;英文分詞;詞性標註;命名實體識別;新詞識別;關鍵詞提取;支援使用者專業詞典與微博分析。 NLPIR系統支援多種編碼、多種作業系統、多種開發語言與平臺。
專案 Github地址:pynlpir
安裝:
pip install pynlpir
下載證照覆蓋到安裝目錄, NLPIR.user 例如安裝目錄:/usr/lib64/python3.4/site-packages/pynlpir/Data
使用 :
import pynlpir
pynlpir.open()
text = '化妝和服裝'
words = pynlpir.segment(text, pos_tagging=False)
print(words)
pynlpir.close()
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31524777/viewspace-2646003/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 史上最全中文分詞工具整理中文分詞
- ES6部分常用知識整理
- NLP——史丹佛分詞工具簡單使用分詞
- 中文分詞器,整理自Ai中文分詞AI
- HanLP分詞工具中的ViterbiSegment分詞流程HanLP分詞Viterbi
- 中文分詞原理及常用Python中文分詞庫介紹中文分詞Python
- hutool工具類常用API整理API
- 分詞工具Hanlp基於感知機的中文分詞框架HanLP中文分詞框架
- 中文分詞工具之基於字標註法的分詞中文分詞
- java分詞工具hanlp介紹Java分詞HanLP
- Java常用工具類方法整理Java
- 一些不常用的工具整理
- php-util - 整理了部分常用php方法, composer安裝PHP
- MySQL 部分整理MySql
- [譯] 常用 Phpstorm tips (上/共3部分)PHPORM
- [譯] 常用 Phpstorm tips (下/共3部分)PHPORM
- Ansj與hanlp分詞工具對比HanLP分詞
- ElasticSearch中使用ik分詞器進行實現分詞操作Elasticsearch分詞
- 自然語言處理工具pyhanlp分詞與詞性標註自然語言處理HanLP分詞詞性標註
- 常用詞彙
- 使用cjieba(結巴分詞庫)實現php擴充套件中文分詞JiebaPHP套件中文分詞
- 整理自媒體人5個常用工具
- js 部分學習整理JS
- MySQL部分內容整理MySql
- 單詞分類記憶_交通工具(vehicles)
- 為了收集和整理程式設計的常用單詞,我寫了個背單詞應用程式設計
- 北大開源了中文分詞工具包:準確率遠超THULAC、結巴分詞!中文分詞
- 北大開源全新中文分詞工具包:準確率遠超THULAC、結巴分詞中文分詞
- 分詞分詞
- 中文分詞演算法工具hanlp原始碼解析中文分詞演算法HanLP原始碼
- 第一部分 A股資料下載與整理
- 面試題整理—CSS部分面試題CSS
- python使用jieba實現中文文件分詞和去停用詞PythonJieba分詞
- elasticsearch教程--中文分詞器作用和使用Elasticsearch中文分詞
- elasticsearch安裝和使用ik分詞器Elasticsearch分詞
- ElasticSearch-IK分詞器和整合使用Elasticsearch分詞
- #Elasticsearch中文分詞器 #IK分詞器 @FDDLCElasticsearch中文分詞
- 那些常用的伺服器線上PING檢測工具整理伺服器