基於中文分詞工具pkuseg-python，我用張小龍的3萬字演講做了測試

劉志軍發表於2019-01-15

原文網址 : https://juejin.im/post/5c3d40c351882525dc62d953

做過搜尋的同學都知道，分詞的好壞直接決定了搜尋的質量，在英文中分詞比中文要簡單，因為英文是一個個單詞通過空格來劃分每個詞的，而中文都一個個句子，單獨一個漢字沒有任何意義，必須聯絡前後文字才能正確表達它的意思。

因此，中文分詞技術一直是nlp領域中的一大挑戰。Python 中有個比較著名的分詞庫是結巴分詞，從易用性來說對使用者是非常友好的，但是準確度不怎麼好。這幾天發現另外一個庫，pkuseg-python，看起來應該是北大的某個學生團隊弄出來的，因為這方面沒看到過多的介紹，pkuseg-python 的亮點是領域細分的中文分詞工具，簡單易用，跟現有開源工具相比提高了分詞的準確率。

於是我想起用張小龍的3萬字演講做下測試，前幾天在朋友圈流傳了一張圖，採銅統計出張小龍演講中各個詞出現的頻率，不知他是怎麼統計的，不過作為技術人，我們用更專業的工具來試試會是什麼效果。

安裝 pkuseg

pip3 install pkuseg
複製程式碼

第一步是將演講內容下載下來，儲存到一個txt檔案中，然後將內容載入到記憶體

content = []
with open("yanjiang.txt", encoding="utf-8") as f:
    content = f.read()
複製程式碼

我統計了一下，文字總數是32546個。

接下來我們用pkuseg對內容進行分詞處理，並統計出現頻率最高的前20個詞語是哪些。

import pkuseg
from collections import Counter
import pprint

content = []
with open("yanjiang.txt", encoding="utf-8") as f:
    content = f.read()

seg = pkuseg.pkuseg()
text = seg.cut(content)
counter = Counter(text)
pprint.pprint(counter.most_common(20))
複製程式碼

輸出結果：

[('，', 1445),
 ('的', 1378),
 ('。', 755),
 ('是', 707),
 ('一', 706),
 ('個', 591),
 ('我', 337),
 ('我們', 335),
 ('不', 279),
 ('你', 231),
 ('在', 230),
 ('會', 220),
 ('了', 214),
 ('有', 197),
 ('人', 190),
 ('就', 178),
 ('這', 172),
 ('它', 170),
 ('微信', 163),
 ('做', 149)]
複製程式碼

什麼鬼，這都是些啥玩意，別急，其實啊，分詞領域還有一個概念叫做停用詞，所謂停用詞就是在語境中沒有具體含義的文字，例如這個、那個，你我他，的得地，以及標點符合等等。因為沒人在搜尋的時候去用這些沒意義的停用詞搜尋，為了使得分詞效果更好，我們就要把這些停用詞過去掉，我們去網上找個停用詞庫。

第二版程式碼：

import pkuseg
from collections import Counter
import pprint

content = []
with open("yanjiang.txt", encoding="utf-8") as f:
    content = f.read()

seg = pkuseg.pkuseg()
text = seg.cut(content)


stopwords = []

with open("stopword.txt", encoding="utf-8") as f:
    stopwords = f.read()

new_text = []

for w in text:
    if w not in stopwords:
        new_text.append(w)


counter = Counter(new_text)
pprint.pprint(counter.most_common(20))
複製程式碼

列印的結果：

[('微信', 163),
 ('使用者', 112),
 ('產品', 89),
 ('朋友', 81),
 ('工具', 56),
 ('程式', 55),
 ('社交', 55),
 ('圈', 47),
 ('視訊', 40),
 ('希望', 39),
 ('時間', 39),
 ('遊戲', 36),
 ('閱讀', 33),
 ('內容', 32),
 ('平臺', 31),
 ('文章', 30),
 ('資訊', 29),
 ('團隊', 27),
 ('AI', 27),
 ('APP', 26)]
複製程式碼

看起來比第一次好多了，因為停用詞都過濾掉了，跟採銅那張圖片有點像了，不過他挑出來的詞可能是從另外一個維度來的，畢竟人家是搞心理學的。但是我們選出來的前20個高頻詞還是不準確，有些不應該分詞的也被拆分了，例如朋友圈，公眾號，小程式等詞，我們認為這是一個整體。

對於這些專有名詞，我們只需要指定一個使用者詞典，分詞時使用者詞典中的詞固定不分開，重新進行分詞。

lexicon = ['小程式', '朋友圈', '公眾號']  #
seg = pkuseg.pkuseg(user_dict=lexicon)  # 載入模型，給定使用者詞典
text = seg.cut(content)
複製程式碼

最後的出來的結果前50個高頻詞是這樣的

163 微信
112 使用者
89 產品
72 朋友圈
56 工具
55 社交
53 小程式
40 視訊
39 希望
39 時間
36 遊戲
33 閱讀
32 內容
31 朋友
31 平臺
30 文章
29 資訊
27 團隊
27 AI
26 APP
25 公眾號
25 服務
24 好友
22 照片
21 時代
21 記錄
20 手機
20 推薦
20 企業
19 原動力
18 功能
18 真實
18 生活
17 流量
16 電腦
15 空間
15 發現
15 創意
15 體現
15 公司
15 價值
14 版本
14 分享
14 未來
13 網際網路
13 釋出
13 能力
13 討論
13 動態
12 設計
複製程式碼

張小龍講得最多的詞就是使用者、朋友、原動力、價值、分享、創意、發現等這些詞，這些詞正是網際網路的精神，如果我們把這些做成詞雲的話，可能效果會更好

本文首發於公眾號：Python之禪

分詞工具Hanlp基於感知機的中文分詞框架
2019-04-03
HanLP中文分詞框架
中文分詞工具之基於字標註法的分詞
2019-06-26
中文分詞
基於 HanLP 的 ES 中文分詞外掛
2018-12-23
HanLP中文分詞
[Python] 基於 jieba 的中文分詞總結
2021-02-21
PythonJieba中文分詞
史上最全中文分詞工具整理
2019-06-03
中文分詞
最新 Flutter 團隊工程師中文演講 | Flutter 的效能測試和理論
2019-08-14
Flutter工程師
中文分詞的探索，CRF（條件隨機場）和HMM（隱馬爾可夫模型）用於分詞的對比，以及中文分詞的評估
2018-11-10
中文分詞CRF條件隨機場HMM隱馬爾可夫模型
MapReduce實現與自定義詞典檔案基於hanLP的中文分詞詳解
2018-10-15
HanLP中文分詞
基於LangChain手工測試用例轉App自動化測試生成工具
2024-09-19
LangChainAPP
基於LangChain手工測試用例轉Web自動化測試生成工具
2024-08-29
LangChainWeb
基於LangChain手工測試用例轉介面自動化測試生成工具
2024-08-16
LangChain
安全測評基礎-安全測評常用測試工具講解
2020-10-25
演講稿 ---- 10年測試開發
2020-08-01
雙向最大匹配演算法——基於詞典規則的中文分詞(Java實現)
2020-09-29
演算法中文分詞Java
科大訊飛語音轉文字以及中文分詞的Java測試程式碼
2019-08-19
中文分詞Java
基於hanlp的es分詞外掛
2019-07-01
HanLP分詞
基於 Django 的 Dubbo 介面測試工具平臺
2020-09-23
Django
基於Dubbo的http自動測試工具分享
2020-04-04
HTTP
中文分詞原理及常用Python中文分詞庫介紹
2018-04-04
中文分詞Python
我瞭解的測試工具
2024-06-01
HanLP分詞工具中的ViterbiSegment分詞流程
2019-08-05
HanLP分詞Viterbi
做了三年黑盒測試，我終於對它有了這些理解
2022-05-17
中文分詞演算法工具hanlp原始碼解析
2019-03-13
中文分詞演算法HanLP原始碼
基於 Tire 樹的敏感詞檢測
2019-04-24
#Elasticsearch中文分詞器 #IK分詞器 @FDDLC
2020-11-07
Elasticsearch中文分詞
NLP之中文分詞
2020-10-12
中文分詞
中文分詞技術
2020-09-18
中文分詞
自然語言處理工具中的中文分詞器介紹
2019-06-24
自然語言處理中文分詞
基於RDD的Spark應用程式開發案列講解（詞頻統計）
2020-11-12
Spark
45種用於前端測試的Chrome外掛工具
2022-03-08
前端Chrome
基於 Coolbpf 的應用可觀測實踐 | 龍蜥技術
2022-10-13
北大開源了中文分詞工具包：準確率遠超THULAC、結巴分詞！
2019-01-11
中文分詞
北大開源全新中文分詞工具包：準確率遠超THULAC、結巴分詞
2019-01-10
中文分詞
Coreseek-帶中文分詞的Sphinx
2020-04-05
中文分詞
古詩詞中文分詞自動化
2018-04-05
分詞
python 中文分詞包 jieba
2020-12-18
Python中文分詞Jieba
中文自然語言處理工具集：分詞，相似度匹配
2018-04-03
自然語言處理分詞
基於 HttpRunner 的介面自動化測試平臺宣講 (已落地)
2020-12-25
HTTP

基於中文分詞工具pkuseg-python，我用張小龍的3萬字演講做了測試

安裝 pkuseg

相關文章