自然語言處理:分詞方法

hit-wxb發表於2018-03-29

原文網址 : https://blog.csdn.net/wxb247217/article/details/79745211

正向最大匹配分詞

最大正向匹配(FMM)的基本思想是:假設自動分詞詞典中的最長詞條所含漢字個數為Ｌ,則從左往右取被處理材料S1的前L個字作為匹配欄位,查詢分詞詞典。若詞典中有這樣的一個長度為L的相同詞,則匹配成功,匹配欄位作為一個詞被切分出來;否則,匹配失敗，匹配欄位去掉最後一個漢字,剩下的字元作為新的匹配欄位,進行新的匹配,如此進行下去,直至切分成功或匹配欄位為單字為止。
舉例說明:詞典wordDict={u"計算語言學",u"課程",u"課時"},待處理材料S1=u"計算語言學課程有三個課時",詞典中所含最大詞條包含的漢字個數為5,那麼正向最大匹配分詞的過程如下:

（1）S2="",S1不為空，從S1左邊取出候選子串W="計算語言學"；

（2）查詞表，“計算語言學”在詞表中，將W加入到S2中，S2=“計算語言學/”,並將W從S1中去掉，此時　S1="課程有三個課時"；

（3）S1不為空，於是從S1左邊取出候選子串W="課程有三個"；
（4）查詞表，W不在詞表中，將W最右邊一個字去掉，得到W="課程有三"；
（5）查詞表，W不在詞表中，將W最右邊一個字去掉，得到W="課程有"；
（6）查詞表，W不在詞表中，將W最右邊一個字去掉，得到W="課程"
（7）查詞表，W在詞表中，將W加入到S2中，S2=“計算語言學/課程/”，並將W從S1中去掉，此時S1="有三個課時"；
（8）S1不為空，於是從S1左邊取出候選子串W="是三個課時"；
（9）查詞表，W不在詞表中，將W最右邊一個字去掉，得到W="有三個課"；
（10）查詞表，W不在詞表中，將W最右邊一個字去掉，得到W="有三個"；
（11）查詞表，W不在詞表中，將W最右邊一個字去掉，得到W="有三"
（12）查詞表，W不在詞表中，將W最右邊一個字去掉，得到W=“有”，這時 W是單字，將W加入到S2中，S2=“計算語言學/課程/有/”，並將W從S1中去掉，此時S1="三個課時"；
（13）S1不為空，從S1左邊取出候選子串W="三個課時"；
（14）查詞表，W不在詞表中，將W最右邊一個字去掉，得到W="三個課"；
（15）查詞表，W不在詞表中，將W最右邊一個字去掉，得到W="三個"；
（16）查詞表，W不在詞表中，將W最右邊一個字去掉，得到W=“三”，這時 W是單字，將W加入到S2中，S2=“計算語言學/課程/有/三/”，並將W從S1中去掉，此時S1="個課時"；
（17）S1不為空，從S1左邊取出候選子串W="個課時"；
（18）查詞表，W不在詞表中，將W最右邊一個字去掉，得到W="個課"；
（19）查詞表，W不在詞表中，將W最右邊一個字去掉，得到W=“個”，這時W是單字，將W加入到S2中，S2=“計算語言學/課程/有/三/個/"，並將W從S1中去掉，此時S1="課時"；
（20）S1不為空，從S1左邊取出候選子串W="課時"；
（21）查詞表，W在詞表中，將W加入到S2中，S2=“計算語言學/課程/有/三/個/課時/"，並將W從S1中去掉，此時S1=""。

（22）S1為空，輸出S2作為分詞結果，分詞過程結束。

演算法流程圖

反向最大匹配分詞

與FMM方法相對應的方法是反向最大匹配分詞方法,也稱為RMM方法。它的分詞過程與FMM方法相同,不過是從句子(或文章)末尾開始處理,每次匹配不成功時去掉的是前面的一個漢字。
python 程式碼示例

#!/usr/bin/env python
# -*- coding: utf-8 -*-

"""
中文分詞演算法
"""

def FMM(wordDict, maxLen, match_string):
    """
    正向最大匹配演算法
    :param wordDict: 詞典
    :param maxLen: 匹配最大長度
    :param match_string: 待匹配字串
    :return: 匹配結果
    """
    wordList = []
    segStrLen = len(match_string)
    while segStrLen > 0:
        if segStrLen > maxLen:
            wordLen = maxLen
        else:
            wordLen = segStrLen
        subStr = match_string[0:wordLen]
        while wordLen > 1:#詞典中有匹配詞/單字,退出
            if subStr in wordDict:
                break
            else:
                wordLen = wordLen - 1
                subStr = subStr[0:wordLen]
        wordList.append(subStr)
        match_string = match_string[wordLen:]
        segStrLen = segStrLen - wordLen

    return "/".join(wordList)

def RMM(wordDict, maxLen, match_string):
    """
    逆向最大匹配演算法
    :param wordDict: 詞典
    :param maxLen: 匹配最大長度
    :param match_string: 待匹配字串
    :return: 匹配結果
    """
    wordList = []
    segStrLen = len(match_string)
    while segStrLen > 0:
        if segStrLen > maxLen:
            wordLen = maxLen
        else:
            wordLen = segStrLen
        subStr = match_string[-wordLen:]
        while wordLen > 1:#詞典中有匹配詞/單字,退出
            if subStr in wordDict:
                break
            else:
                wordLen = wordLen - 1
                subStr = subStr[-wordLen:]
        wordList.append(subStr)
        match_string = match_string[0:-wordLen]
        segStrLen = segStrLen - wordLen

    return "/".join(wordList)

def exper():
    wordDict = [u"計算語言學",u"課程",u"課時"]
    S1 = u"計算語言學課程有三個課時"
    maxLen = 5
    print FMM(wordDict,maxLen,S1)
    print RMM(wordDict, maxLen, S1)

if __name__ == '__main__':
    exper()

基於統計的詞網格分詞

與基於詞網格分詞的第一步是候選詞網格構造:利用詞典匹配,列舉輸入句子所有可能的切分詞語,並以詞網格形式儲存。實際上,詞網格是一個有向無環圖,它蘊含了輸入句子所有可能的切分,其中的每一條路徑代表一種切分。如下圖“中國人民生活“的切分詞網:

詞網分詞的第二步是計算詞網格中的每一條路徑的權值,權值通過計算圖中每一個節點(每一個詞)的一元統計概率和節點之間的二元統計概率的相關資訊。然後根據圖搜尋演算法在圖中找到一條權值最小的路徑,對應的路徑即為最後的分詞結果。

雙向最大匹配分詞

比較FMM法與ＲMM法的切分結果，從而決定正確的切分(比較規則可以自定義),可以識別出分詞中的交叉歧義。

自然語言處理之jieba分詞
2020-08-18
自然語言處理Jieba分詞
自然語言處理中的分詞問題總結
2018-10-26
自然語言處理分詞
Python 自然語言處理（基於jieba分詞和NLTK）
2018-05-11
Python自然語言處理Jieba分詞
NLP自然語言處理中的hanlp分詞例項
2019-02-18
自然語言處理HanLP分詞
Python自然語言處理實戰（3）：中文分詞技術
2018-07-15
Python自然語言處理中文分詞
自然語言處理NLP（6）——詞法分析
2019-02-26
自然語言處理詞法分析
詞！自然語言處理之詞全解和Python實戰！
2023-11-06
自然語言處理Python
自然語言處理工具pyhanlp分詞與詞性標註
2019-05-18
自然語言處理HanLP分詞詞性標註
NPL---自然語言處理單詞界定問題
2024-03-18
自然語言處理
入門自然語言處理必看：圖解詞向量
2019-08-28
自然語言處理圖解
Pyhanlp自然語言處理中的新詞識別
2019-02-15
HanLP自然語言處理
自然語言處理中的語言模型預訓練方法
2018-10-22
自然語言處理模型
Hanlp自然語言處理中的詞典格式說明
2019-03-15
HanLP自然語言處理
中文自然語言處理工具集：分詞，相似度匹配
2018-04-03
自然語言處理分詞
自然語言處理（NLP）系列（一）——自然語言理解（NLU）
2023-02-01
自然語言處理
精通Python自然語言處理 4 ：詞性標註--單詞識別
2018-06-01
Python自然語言處理詞性標註
自然語言處理NLP（四）
2018-10-03
自然語言處理
自然語言處理(NLP)概述
2018-08-11
自然語言處理
HanLP 自然語言處理 for nodejs
2019-04-24
HanLP自然語言處理NodeJS
自然語言處理工具HanLP-N最短路徑分詞
2019-05-17
自然語言處理HanLP分詞
自然語言處理工具中的中文分詞器介紹
2019-06-24
自然語言處理中文分詞
NLP自然語言處理中英文分詞工具集錦與基本使用介紹
2019-05-31
自然語言處理分詞
[譯] 自然語言處理真是有趣！
2018-08-10
自然語言處理
05.序列模型 W2.自然語言處理與詞嵌入
2020-09-30
模型自然語言處理
自然語言處理NLP快速入門
2018-10-24
自然語言處理
配置Hanlp自然語言處理進階
2018-12-07
HanLP自然語言處理
自然語言處理的最佳實踐
2019-10-28
自然語言處理
人工智慧 (06) 自然語言處理
2019-12-19
人工智慧自然語言處理
自然語言處理與情緒智慧
2024-08-25
自然語言處理
Pytorch系列:（六）自然語言處理NLP
2021-05-21
PyTorch自然語言處理
精通Python自然語言處理 2 ：統計語言建模
2018-05-28
Python自然語言處理
中國語文（自然語言處理）作業
2024-08-22
自然語言處理
自然語言處理怎麼最快入門？
2018-11-28
自然語言處理
精通Python自然語言處理 1 ：字串操作
2018-05-28
Python自然語言處理字串
深度解析自然語言處理之篇章分析
2023-11-08
自然語言處理
自然語言處理（NLP）路線圖 - kdnuggets
2020-11-08
自然語言處理
人工智慧--自然語言處理簡介
2024-11-08
人工智慧自然語言處理
自然語言處理中句子相似度計算的幾種方法
2018-06-15
自然語言處理

自然語言處理:分詞方法

正向最大匹配分詞

（1）S2="",S1不為空，從S1左邊取出候選子串W="計算語言學"；

（2）查詞表，“計算語言學”在詞表中，將W加入到S2中，S2=“計算語言學/”,並將W從S1中去掉，此時 S1="課程有三個課時"；

（3）S1不為空，於是從S1左邊取出候選子串W="課程有三個"；

（4）查詞表，W不在詞表中，將W最右邊一個字去掉，得到W="課程有三"；

（5）查詞表，W不在詞表中，將W最右邊一個字去掉，得到W="課程有"；

（6）查詞表，W不在詞表中，將W最右邊一個字去掉，得到W="課程"

（7）查詞表，W在詞表中，將W加入到S2中，S2=“計算語言學/課程/”，並將W從S1中去掉，此時S1="有三個課時"；

（8）S1不為空，於是從S1左邊取出候選子串W="是三個課時"；

（9）查詞表，W不在詞表中，將W最右邊一個字去掉，得到W="有三個課"；

（10）查詞表，W不在詞表中，將W最右邊一個字去掉，得到W="有三個"；

（11）查詞表，W不在詞表中，將W最右邊一個字去掉，得到W="有三"

（12）查詞表，W不在詞表中，將W最右邊一個字去掉，得到W=“有”，這時 W是單字，將W加入到S2中，S2=“計算語言學/課程/有/”，並將W從S1中去掉，此時S1="三個課時"；

（13）S1不為空，從S1左邊取出候選子串W="三個課時"；

（14）查詞表，W不在詞表中，將W最右邊一個字去掉，得到W="三個課"；

（15）查詞表，W不在詞表中，將W最右邊一個字去掉，得到W="三個"；

（16）查詞表，W不在詞表中，將W最右邊一個字去掉，得到W=“三”，這時 W是單字，將W加入到S2中，S2=“計算語言學/課程/有/三/”，並將W從S1中去掉，此時S1="個課時"；

（17）S1不為空，從S1左邊取出候選子串W="個課時"；

（18）查詞表，W不在詞表中，將W最右邊一個字去掉，得到W="個課"；

（19）查詞表，W不在詞表中，將W最右邊一個字去掉，得到W=“個”，這時W是單字，將W加入到S2中，S2=“計算語言學/課程/有/三/個/"，並將W從S1中去掉，此時S1="課時"；

（20）S1不為空，從S1左邊取出候選子串W="課時"；

（21）查詞表，W在詞表中，將W加入到S2中，S2=“計算語言學/課程/有/三/個/課時/"，並將W從S1中去掉，此時S1=""。

（22）S1為空，輸出S2作為分詞結果，分詞過程結束。

相關文章

（2）查詞表，“計算語言學”在詞表中，將W加入到S2中，S2=“計算語言學/”,並將W從S1中去掉，此時　S1="課程有三個課時"；