python中文分詞jieba的高階應用

Winterto1990發表於2015-11-01

Python中文分詞Jieba

最近在使用python的中文分詞功能，感覺jieba挺不錯的，就轉載了這篇文章，希望對各位CSDN網友有所幫助。

jieba

"結巴"中文分詞：做最好的Python中文分片語件 "Jieba"

Feature

支援三種分詞模式：
- 精確模式，試圖將句子最精確地切開，適合文字分析；
- 全模式，把句子中所有的可以成詞的詞語都掃描出來, 速度非常快，但是不能解決歧義；
- 搜尋引擎模式，在精確模式的基礎上，對長詞再次切分，提高召回率，適合用於搜尋引擎分詞。
支援繁體分詞
支援自定義詞典

線上演示

http://jiebademo.ap01.aws.af.cm/

(Powered by Appfog)

Python 2.x 下的安裝

全自動安裝：easy_install jieba 或者 pip install jieba
半自動安裝：先下載http://pypi.python.org/pypi/jieba/ ，解壓後執行python setup.py install
手動安裝：將jieba目錄放置於當前目錄或者site-packages目錄
通過import jieba 來引用（第一次import時需要構建Trie樹，需要幾秒時間）

Python 3.x 下的安裝

目前master分支是隻支援Python2.x 的
Python3.x 版本的分支也已經基本可用： https://github.com/fxsjy/jieba/tree/jieba3k

git clone https://github.com/fxsjy/jieba.git
git checkout jieba3k
python setup.py install

Algorithm

基於Trie樹結構實現高效的詞圖掃描，生成句子中漢字所有可能成詞情況所構成的有向無環圖（DAG)
採用了動態規劃查詢最大概率路徑, 找出基於詞頻的最大切分組合
對於未登入詞，採用了基於漢字成詞能力的HMM模型，使用了Viterbi演算法

功能 1)：分詞

jieba.cut方法接受兩個輸入引數: 1) 第一個引數為需要分詞的字串 2）cut_all引數用來控制是否採用全模式
jieba.cut_for_search方法接受一個引數：需要分詞的字串,該方法適合用於搜尋引擎構建倒排索引的分詞，粒度比較細
注意：待分詞的字串可以是gbk字串、utf-8字串或者unicode
jieba.cut以及jieba.cut_for_search返回的結構都是一個可迭代的generator，可以使用for迴圈來獲得分詞後得到的每一個詞語(unicode)，也可以用list(jieba.cut(...))轉化為list

程式碼示例( 分詞 )

#encoding=utf-8
import jieba

seg_list = jieba.cut("我來到北京清華大學",cut_all=True)
print "Full Mode:", "/ ".join(seg_list) #全模式

seg_list = jieba.cut("我來到北京清華大學",cut_all=False)
print "Default Mode:", "/ ".join(seg_list) #精確模式

seg_list = jieba.cut("他來到了網易杭研大廈") #預設是精確模式
print ", ".join(seg_list)

seg_list = jieba.cut_for_search("小明碩士畢業於中國科學院計算所，後在日本京都大學深造") #搜尋引擎模式
print ", ".join(seg_list)

Output:

【全模式】: 我/ 來到/ 北京/ 清華/ 清華大學/ 華大/ 大學

【精確模式】: 我/ 來到/ 北京/ 清華大學

【新詞識別】：他, 來到, 了, 網易, 杭研, 大廈    (此處，“杭研”並沒有在詞典中，但是也被Viterbi演算法識別出來了)

【搜尋引擎模式】： 小明, 碩士, 畢業, 於, 中國, 科學, 學院, 科學院, 中國科學院, 計算, 計算所, 後, 在, 日本, 京都, 大學, 日本京都大學, 深造

功能 2) ：新增自定義詞典

開發者可以指定自己自定義的詞典，以便包含jieba詞庫裡沒有的詞。雖然jieba有新詞識別能力，但是自行新增新詞可以保證更高的正確率
用法： jieba.load_userdict(file_name) # file_name為自定義詞典的路徑
詞典格式和dict.txt一樣，一個詞佔一行；每一行分三部分，一部分為詞語，另一部分為詞頻，最後為詞性（可省略），用空格隔開
範例：
- 之前：李小福 / 是 / 創新 / 辦 / 主任 / 也 / 是 / 雲 / 計算 / 方面 / 的 / 專家 /
- 載入自定義詞庫後：　李小福 / 是 / 創新辦 / 主任 / 也 / 是 / 雲端計算 / 方面 / 的 / 專家 /
- 自定義詞典：https://github.com/fxsjy/jieba/blob/master/test/userdict.txt
- 用法示例：https://github.com/fxsjy/jieba/blob/master/test/test_userdict.py
"通過使用者自定義詞典來增強歧義糾錯能力" --- https://github.com/fxsjy/jieba/issues/14

功能 3) ：關鍵詞提取

jieba.analyse.extract_tags(sentence,topK) #需要先import jieba.analyse
setence為待提取的文字
topK為返回幾個TF/IDF權重最大的關鍵詞，預設值為20

程式碼示例（關鍵詞提取）

https://github.com/fxsjy/jieba/blob/master/test/extract_tags.py

功能 4) : 詞性標註

標註句子分詞後每個詞的詞性，採用和ictclas相容的標記法
用法示例

>>> import jieba.posseg as pseg
>>> words =pseg.cut("我愛北京天安門")
>>> for w in words:
...    print w.word,w.flag
...
我 r
愛 v
北京 ns
天安門 ns

功能 5) : 並行分詞

原理：將目標文字按行分隔後，把各行文字分配到多個python程式並行分詞，然後歸併結果，從而獲得分詞速度的可觀提升
基於python自帶的multiprocessing模組，目前暫不支援windows
用法：
- jieba.enable_parallel(4) # 開啟並行分詞模式，引數為並行程式數
- jieba.disable_parallel() # 關閉並行分詞模式
例子： https://github.com/fxsjy/jieba/blob/master/test/parallel/test_file.py
實驗結果：在4核3.4GHz Linux機器上，對金庸全集進行精確分詞，獲得了1MB/s的速度，是單程式版的3.3倍。

功能 6) : Tokenize：返回詞語在原文的起始位置

注意，輸入引數只接受unicode
預設模式

result = jieba.tokenize(u'永和服裝飾品有限公司')

for tk in result:

    print "word %s\t\t start: %d \t\t end:%d" % (tk[0],tk[1],tk[2])

word 永和                start: 0                end:2
word 服裝                start: 2                end:4
word 飾品                start: 4                end:6
word 有限公司            start: 6                end:10

搜尋模式

result = jieba.tokenize(u'永和服裝飾品有限公司',mode='search')

for tk in result:

    print "word %s\t\t start: %d \t\t end:%d" % (tk[0],tk[1],tk[2])

word 永和                start: 0                end:2
word 服裝                start: 2                end:4
word 飾品                start: 4                end:6
word 有限                start: 6                end:8
word 公司                start: 8                end:10
word 有限公司            start: 6                end:10

功能 7) : ChineseAnalyzer for Whoosh搜尋引擎

引用： from jieba.analyse import ChineseAnalyzer
用法示例：https://github.com/fxsjy/jieba/blob/master/test/test_whoosh.py

其他詞典

佔用記憶體較小的詞典檔案 https://github.com/fxsjy/jieba/raw/master/extra_dict/dict.txt.small
支援繁體分詞更好的詞典檔案 https://github.com/fxsjy/jieba/raw/master/extra_dict/dict.txt.big

下載你所需要的詞典，然後覆蓋jieba/dict.txt 即可或者用jieba.set_dictionary('data/dict.txt.big')

模組初始化機制的改變:lazy load （從0.28版本開始）

jieba採用延遲載入，"import jieba"不會立即觸發詞典的載入，一旦有必要才開始載入詞典構建trie。如果你想手工初始jieba，也可以手動初始化。

import jieba
jieba.initialize() #手動初始化（可選）

在0.28之前的版本是不能指定主詞典的路徑的，有了延遲載入機制後，你可以改變主詞典的路徑:

jieba.set_dictionary('data/dict.txt.big')

例子： https://github.com/fxsjy/jieba/blob/master/test/test_change_dictpath.py

分詞速度

1.5 MB / Second in Full Mode
400 KB / Second in Default Mode
Test Env: Intel(R) Core(TM) i7-2600 CPU @ 3.4GHz；《圍城》.txt

常見問題

1）模型的資料是如何生成的？https://github.com/fxsjy/jieba/issues/7

2）這個庫的授權是? https://github.com/fxsjy/jieba/issues/2

Change Log

http://www.oschina.net/p/jieba/news#list

轉載於：http://www.oschina.net/p/jieba

python 中文分詞包 jieba
2020-12-18
Python中文分詞Jieba
Python：Python 中 jieba 庫的使用（中文分詞）
2018-05-12
PythonJieba中文分詞
[Python] 基於 jieba 的中文分詞總結
2021-02-21
PythonJieba中文分詞
python使用jieba實現中文文件分詞和去停用詞
2019-06-19
PythonJieba分詞
python jieba庫，句子分詞
2024-08-25
PythonJieba分詞
jieba 詞性標註 & 並行分詞
2020-12-19
Jieba詞性標註並行分詞
中文分詞原理及常用Python中文分詞庫介紹
2018-04-04
中文分詞Python
Python 自然語言處理（基於jieba分詞和NLTK）
2018-05-11
Python自然語言處理Jieba分詞
如何用Python做中文分詞？
2018-06-28
Python中文分詞
java版JieBa分詞原始碼走讀
2019-03-01
JavaJieba分詞原始碼
自然語言處理之jieba分詞
2020-08-18
自然語言處理Jieba分詞
分享Python的5種高階特徵應用
2020-10-15
Python特徵
python 實現中文分詞統計
2019-02-16
Python中文分詞
Laravel 中使用 PHP 分詞庫 (jieba) 和 (scws)
2018-06-24
LaravelPHP分詞Jieba
將使用jieba分詞的語料庫轉化成TFIDF向量
2020-12-09
Jieba分詞
AWK高階應用
2020-04-06
Redis 高階應用
2024-05-25
Redis
JB的Python之旅-資料分析篇-jieba&wordcloud(詞雲)
2018-06-12
PythonJiebaCloud
#Elasticsearch中文分詞器 #IK分詞器 @FDDLC
2020-11-07
Elasticsearch中文分詞
中文分詞的探索，CRF（條件隨機場）和HMM（隱馬爾可夫模型）用於分詞的對比，以及中文分詞的評估
2018-11-10
中文分詞CRF條件隨機場HMM隱馬爾可夫模型
分詞工具Hanlp基於感知機的中文分詞框架
2019-04-03
HanLP中文分詞框架
NLP之中文分詞
2020-10-12
中文分詞
中文分詞技術
2020-09-18
中文分詞
React 高階應用 -- 高階元件 Heigher Order Component
2019-03-31
React元件
中文分詞工具之基於字標註法的分詞
2019-06-26
中文分詞
python進階學習：Python退火演算法在高次方程的應用
2020-05-06
Python演算法
Coreseek-帶中文分詞的Sphinx
2020-04-05
中文分詞
古詩詞中文分詞自動化
2018-04-05
分詞
react 高階元件的理解和應用
2018-05-16
React元件
向量（高階的隨機化應用）
2024-08-20
隨機
從零開始學Python：21課-函式的高階應用
2020-08-13
Python函式
「Mybatis系列」Mybatis高階應用
2020-02-21
MyBatis
基於PostGIS的高階應用（5）–PolygonSpliting
2018-09-25
Go
LVS高階應用-藉助防火牆標記分類報文
2018-09-11
防火牆
深入 Python 資料分析：高階技術與實戰應用
2024-10-04
Python
HanLP中文分詞Lucene外掛
2019-04-15
HanLP中文分詞
SCWS PHP 中文簡易分詞
2019-07-12
PHP分詞
中文分詞器，整理自Ai
2024-08-01
中文分詞AI
中文搜尋引擎技術揭密：中文分詞
2020-04-05
中文分詞