中文分詞器,整理自Ai

Augustone發表於2024-08-01

1. Jieba(結巴)分詞


pip install jieba
import jieba

# 使用預設模式進行分詞
seg_list = jieba.cut("我愛自然語言處理", cut_all=True)
print(" ".join(seg_list))

2. SnowNLP

pip install snownlp
from snownlp import SnowNLP

s = SnowNLP("我愛自然語言處理")
print(' '.join(s.words))

3. PkuSeg

pip install pkuseg
import pkuseg

pku_seg = pkuseg.pkuseg()
print(' '.join(pku_seg.cut("我愛自然語言處理")))

4. THULAC
由於THULAC需要下載模型檔案,因此安裝步驟稍微複雜一些:
- 首先透過pip安裝THULAC 包:
pip install thulac
- 然後下載模型檔案,通常可以從[THULAC GitHub頁面](https://github.com/thunlp/THULAC-)找到下載連結或說明。
- 載入模型並使用:
import thulac

thu_lac = thulac.thulac(seg_only=True)

print(thu_lac.cut("我愛自然語言處理", text=True))

5. HanLP

pip install pyhanlp
from pyhanlp import HanLP

seg_list = HanLP.segment("我愛自然語言處理")
print(' '.join([term.word for term in seg_list]))

請注意,某些分詞器可能需要額外的步驟來下載和載入模型檔案,具體步驟請參考各個分詞器的官方文件或GitHub頁面上的說明。

上述程式碼示例提供了基本的分詞功能呼叫方式,您可以根據自己的需求調整分詞模式或其他引數。

相關文章