文字挖掘之語料庫、分詞、詞頻統計

txmmy發表於2024-05-20

原文網址 : https://www.cnblogs.com/Gimm/p/18201065

分詞

語料庫
中文分詞
- 基於規則的中文分詞：最大匹配法
  - 正向最大匹配法
  - 逆向最大匹配法
  - 雙向最大匹配法
分詞
- jieba
  - HMM模型 Hidden Markov Model
詞頻統計

語料庫

存放語言真實使用場景、且經過加工的例句，而非脫離具體場景的標準例句。

國家語委現代漢語語料庫:http://corpus.zhonghuayuwen.org

美國國家語料庫:http://www.anc.org

清華大學開放中文詞庫:http://thuocl.thunlp.org

NLPIR-ICTCLAS漢語分詞系統:http://ictclas.nlpir.org

中文分詞

基於規則的中文分詞：最大匹配法

最大匹配法方法簡單，速度快，分詞效果可以滿足基本需求，但嚴重依賴詞典，無法很好處理分詞歧義和未登入詞。

正向最大匹配法

對句子從左到右選擇詞典中最長的詞條進行匹配。

統計分詞詞典，確定詞典中最長詞條的長度m
從左到右取待切分語句的m個字元作為匹配字典，查詢詞典，若匹配成功，則作為一個切分後的詞語，否則去掉待匹配衣

#定義匹配詞典
dictA=['南京市','南京市長','長江大橋','大橋']
# 確定詞典中最長詞條的字元m
maxDictA=max([ len(word) for word in dictA])
sentence="南京市長江大橋"
def cutA(sentence):
    result=[]
    sentenceLen=len(sentence)
    n=0
    while n<sentenceLen:
        matched=0
        # i倒序
        for i in range(maxDictA,0,-1):
            piece=sentence[n:n+i] 
            if piece in dictA:
                result.append(piece)
                matched=1
                n=n+i
                break
        if not matched:
            n+=1
    print(result)

南京市長
江大橋
大橋
['南京市長', '大橋']

逆向最大匹配法

對句子從右到左選擇詞典中最長的詞條進行匹配。

準確性優於正向匹配法

def cutB(sentence):
    result=[]
    sentenceLen=len(sentenct)
    while sentenceLen>0:
        matched=0
        for i in range(maxDictA,0,-1):
            piece=sentence[sentenctLen-i:sentenceLen]
            if piece in dictA:
                result.append(piece)
                sentenctLen-=i
                matched=1
                break
        if matched==0:
            sentenctLen=-1

雙向最大匹配法

當兩種匹配演算法切分的詞彙結果相同，取任一結果；
當兩種匹配演算法切分的詞彙結果不同，分別統計兩種詞彙切分結果切分的詞語的個數，取數目小的作為切分結果；
當兩種匹配演算法切分的詞彙結果不同，且切割後的詞語的數目相同，選擇逆向匹配演算法作為切分結果；

分詞

jieba

jieba分詞利用字首詞典切分句子，得到所有的切分可能，根據切分位置，構造一個有向無環圖；透過動態規劃演算法，得到最大機率的路徑，作為切分結果。
jieba也可以用於關鍵詞提取、詞性標準等。

import jieba
str="利用字首詞典切分句子，得到所有的切分可能。"

'''分詞'''
print(" ".join(jieba.cut(str)))
print(" ".join(jieba.lcut(str)))
print(" ".join(jieba.cut(str,cut_all=True)))
print(" ".join(jieba.cut_for_search(str)))
print(" ".join(jieba.lcut_for_search(str)))

'修改詞典'
jieba.add_word('字首詞典')
print(" ".join(jieba.cut(str)))


'自定義詞典'
# 詞典檔案要求：一詞佔一行 使用空格符 UTF-8編碼
# 格式 詞 詞頻(可省略) 詞性(可省略)
jieba.load_userdict()

利用 字首 詞典 切分 句子 ， 得到 所有 的 切分 可能 。
利用 字首 詞典 切分 句子 ， 得到 所有 的 切分 可能 。
利用 字首 詞典 切分 分句 句子 ， 得到 所有 的 切分 可能 。
利用 字首 詞典 切分 句子 ， 得到 所有 的 切分 可能 。
利用 字首 詞典 切分 句子 ， 得到 所有 的 切分 可能 。
利用 字首詞典 切分 句子 ， 得到 所有 的 切分 可能 。

HMM模型 Hidden Markov Model

jieba.cut(str,HMM=False)

對於未登入詞，jieba使用了基於漢字成詞的HMM模型，採用Viterbi(動態規劃)演算法推導：
使用四個隱藏狀態：單字成詞、片語的開頭、片語的中間、片語的截尾。透過標註好的分詞訓練集，可以得到HMM的各個引數，再使用Viterbi演算法解釋測試集，得到分詞結果。

詞頻統計

詞語詞頻統計
2020-11-19
詞頻統計
2024-06-26
詞頻統計mapreduce
2024-10-27
python 計算txt文字詞頻率
2018-07-29
Python
python如何統計詞頻
2021-09-11
Python
python TK庫統計word文件單詞詞頻程式 UI選擇文件
2020-12-27
PythonUI
python實現詞頻統計
2020-12-08
Python
Javafx-【直方圖】文字頻次統計工具中文/英文單詞統計
2021-11-09
Java直方圖
PostgreSQL全文檢索-詞頻統計
2018-04-18
SQL
用Python如何統計文字檔案中的詞頻？(Python練習)
2019-11-26
Python
elasticsearch之ik分詞器和自定義詞庫實現
2024-06-13
Elasticsearch分詞
已知詞頻生成詞雲圖（資料庫到生成詞雲）--generate_from_frequencies（WordCloud）
2019-08-06
資料庫Cloud
Python文字處理NLP：分詞與詞雲圖
2019-07-08
Python分詞
自然語言處理之jieba分詞
2020-08-18
自然語言處理Jieba分詞
將使用jieba分詞的語料庫轉化成TFIDF向量
2020-12-09
Jieba分詞
詞頻統計任務程式設計實踐
2024-10-14
程式設計
中文分詞研究難點-詞語劃分和語言規範
2019-09-04
中文分詞
Python統計四六級考試的詞頻
2018-09-10
Python
python讀取txt文字資料進行分詞並生成詞雲圖片
2020-11-21
Python分詞
python 實現中文分詞統計
2019-02-16
Python中文分詞
中文分詞原理及常用Python中文分詞庫介紹
2018-04-04
中文分詞Python
Java、Scala、Python ☞ 本地WordCount詞頻統計對比
2018-09-06
JavaPython
python jieba庫，句子分詞
2024-08-25
PythonJieba分詞
Hanlp分詞之CRF中文詞法分析詳解
2019-02-18
HanLP分詞CRF詞法分析
西班牙語皇家學院最高頻西語詞彙
2024-07-21
英語背單詞專案（資料庫中是4級單詞）
2020-12-06
資料庫
中文分詞工具之基於字標註法的分詞
2019-06-26
中文分詞
ElasticSearch之ICU分詞器
2020-04-07
Elasticsearch分詞
引言：分詞與語法解析
2018-10-29
分詞
分詞
2024-04-02
分詞
day88-ElasticSearch-分詞- 自定義擴充套件詞庫
2020-12-21
Elasticsearch分詞套件
使用cjieba(結巴分詞庫)實現php擴充套件中文分詞
2019-02-16
JiebaPHP套件中文分詞
統計英文名著中單詞出現頻率
2018-06-03
自然語言處理工具pyhanlp分詞與詞性標註
2019-05-18
自然語言處理HanLP分詞詞性標註
分詞之後一天
2024-04-02
分詞
處理文字資料（上）:詞袋
2022-06-03
Python實踐之合併WOS文獻資料，並對關鍵詞進行詞頻分析
2021-03-09
Python
1.分詞與語法解析
2018-10-29
分詞