中文句子的詞分割演算法：MaxMatch

coyan發表於2021-09-09

原文網址 : http://blog.itpub.net/2236/viewspace-2808491/

演算法

今天閱讀的時候，發現了一個分割句子中詞語的演算法：MaxMatch，這個演算法在中文應用中效果很好。

這是一個貪心演算法，在指定的字典(dictionary)中查詢詞彙並進行句子的分割。

下面是一個應用本演算法的例子：

Input: 他特別喜歡北京烤鴨

Output: 他特別喜歡北京烤鴨

演算法的虛擬碼如下：

這個演算法在中文的應用中比英文好很多，因為中文詞彙比英文短。

為了檢驗詞彙分割的效果，我們可以使用詞語錯誤率(word error rate)來衡量。

上述的演算法是傳統的演算法。目前準確率最高的中文詞彙分割演算法是透過監督機器學習(supervised machine learning)訓練的統計序列模型(statistical sequence model)，這個我們以後再寫文章詳細討論。

來自 “ ITPUB部落格 ” ，連結：http://blog.itpub.net/2236/viewspace-2808491/，如需轉載，請註明出處，否則將追究法律責任。

python jieba庫，句子分詞
2024-08-25
PythonJieba分詞
中文地址智慧分詞演算法-Java版
2024-03-29
分詞演算法Java
中文分詞演算法工具hanlp原始碼解析
2019-03-13
中文分詞演算法HanLP原始碼
Ubuntu安裝劃詞翻譯軟體Goldendict 單詞翻譯句子翻譯
2021-01-05
UbuntuGo
雙向最大匹配演算法——基於詞典規則的中文分詞(Java實現)
2020-09-29
演算法中文分詞Java
hanlp原始碼解析之中文分詞演算法詳解
2018-11-07
HanLP原始碼中文分詞演算法
輸入一個英文句子，翻轉句子中的單詞，要求單詞內的字元順序不變。如：I am a student. 轉換成 student. a am I
2018-08-06
字元
中文分詞原理及常用Python中文分詞庫介紹
2018-04-04
中文分詞Python
古詩詞中文分詞自動化
2018-04-05
分詞
NLP之中文分詞
2020-10-12
中文分詞
中文分詞技術
2020-09-18
中文分詞
做人的道理的句子
2020-07-01
Coreseek-帶中文分詞的Sphinx
2020-04-05
中文分詞
分詞工具Hanlp基於感知機的中文分詞框架
2019-04-03
HanLP中文分詞框架
#Elasticsearch中文分詞器 #IK分詞器 @FDDLC
2020-11-07
Elasticsearch中文分詞
中文分詞工具之基於字標註法的分詞
2019-06-26
中文分詞
從字到詞，大詞典中文BERT模型的探索之旅
2019-06-27
模型
word_cloud 中文詞雲
2019-01-19
Cloud
python 中文分詞包 jieba
2020-12-18
Python中文分詞Jieba
中文搜尋引擎技術揭密：中文分詞
2020-04-05
中文分詞
pyhanlp 中文詞性標註與分詞簡介
2019-01-07
HanLP詞性標註分詞
Hanlp分詞之CRF中文詞法分析詳解
2019-02-18
HanLP分詞CRF詞法分析
Python：Python 中 jieba 庫的使用（中文分詞）
2018-05-12
PythonJieba中文分詞
基於 HanLP 的 ES 中文分詞外掛
2018-12-23
HanLP中文分詞
[Python] 基於 jieba 的中文分詞總結
2021-02-21
PythonJieba中文分詞
HanLP中文分詞Lucene外掛
2019-04-15
HanLP中文分詞
如何用Python做中文分詞？
2018-06-28
Python中文分詞
SCWS PHP 中文簡易分詞
2019-07-12
PHP分詞
中文分詞器，整理自Ai
2024-08-01
中文分詞AI
描寫風景的唯美句子大全一句簡短的風景句子
2018-09-12
中文分詞的探索，CRF（條件隨機場）和HMM（隱馬爾可夫模型）用於分詞的對比，以及中文分詞的評估
2018-11-10
中文分詞CRF條件隨機場HMM隱馬爾可夫模型
Edge（Chrome）瀏覽器外掛WordSaver的演示，可以查英語生詞並記錄生詞及所在句子，匯出為anki格式
2024-10-05
Chrome瀏覽器
python:jieba:當你看完個這句子之後就會現發,裡這詞的字序是亂的
2018-09-04
PythonJieba
迭代閾值分割演算法
2020-12-24
演算法
Hanlp在java中文分詞中的使用介紹
2018-11-30
HanLPJava中文分詞
如何在java中去除中文文字的停用詞
2019-05-06
Java
最喜歡的勵志句子
2020-06-09
python 實現中文分詞統計
2019-02-16
Python中文分詞

中文句子的詞分割演算法：MaxMatch

相關文章