中文句子的詞分割演算法:MaxMatch
今天閱讀的時候,發現了一個分割句子中詞語的演算法:MaxMatch,這個演算法在中文應用中效果很好。
這是一個貪心演算法,在指定的字典(dictionary)中查詢詞彙並進行句子的分割。
下面是一個應用本演算法的例子:
Input: 他特別喜歡北京烤鴨
Output: 他 特別 喜歡 北京烤鴨
演算法的虛擬碼如下:
這個演算法在中文的應用中比英文好很多,因為中文詞彙比英文短。
為了檢驗詞彙分割的效果,我們可以使用詞語錯誤率(word error rate)來衡量。
上述的演算法是傳統的演算法。目前準確率最高的中文詞彙分割演算法是透過監督機器學習(supervised machine learning)訓練的統計序列模型(statistical sequence model),這個我們以後再寫文章詳細討論。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/2236/viewspace-2808491/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- python jieba庫,句子分詞PythonJieba分詞
- 中文地址智慧分詞演算法-Java版分詞演算法Java
- 中文分詞演算法工具hanlp原始碼解析中文分詞演算法HanLP原始碼
- Ubuntu安裝劃詞翻譯軟體Goldendict 單詞翻譯 句子翻譯UbuntuGo
- 雙向最大匹配演算法——基於詞典規則的中文分詞(Java實現)演算法中文分詞Java
- hanlp原始碼解析之中文分詞演算法詳解HanLP原始碼中文分詞演算法
- 輸入一個英文句子,翻轉句子中的單詞,要求單詞內的字元順序不變。 如:I am a student. 轉換成 student. a am I字元
- 中文分詞原理及常用Python中文分詞庫介紹中文分詞Python
- 古詩詞 中文 分詞 自動化分詞
- NLP之中文分詞中文分詞
- 中文分詞技術中文分詞
- Coreseek-帶中文分詞的Sphinx中文分詞
- 做人的道理的句子
- 分詞工具Hanlp基於感知機的中文分詞框架HanLP中文分詞框架
- #Elasticsearch中文分詞器 #IK分詞器 @FDDLCElasticsearch中文分詞
- 中文分詞工具之基於字標註法的分詞中文分詞
- 從字到詞,大詞典中文BERT模型的探索之旅模型
- python 中文分詞包 jiebaPython中文分詞Jieba
- word_cloud 中文詞雲Cloud
- 中文搜尋引擎技術揭密:中文分詞中文分詞
- pyhanlp 中文詞性標註與分詞簡介HanLP詞性標註分詞
- Hanlp分詞之CRF中文詞法分析詳解HanLP分詞CRF詞法分析
- [Python] 基於 jieba 的中文分詞總結PythonJieba中文分詞
- 基於 HanLP 的 ES 中文分詞外掛HanLP中文分詞
- Python:Python 中 jieba 庫的使用(中文分詞)PythonJieba中文分詞
- 中文分詞器,整理自Ai中文分詞AI
- SCWS PHP 中文簡易分詞PHP分詞
- HanLP中文分詞Lucene外掛HanLP中文分詞
- 如何用Python做中文分詞?Python中文分詞
- 中文分詞的探索,CRF(條件隨機場)和HMM(隱馬爾可夫模型)用於分詞的對比,以及中文分詞的評估中文分詞CRF條件隨機場HMM隱馬爾可夫模型
- 描寫風景的唯美句子大全 一句簡短的風景句子
- Edge(Chrome)瀏覽器外掛WordSaver的演示,可以查英語生詞並記錄生詞及所在句子,匯出為anki格式Chrome瀏覽器
- python:jieba:當你看完個這句子之後就會現發,裡這詞的字序是亂的PythonJieba
- 迭代閾值分割演算法演算法
- 如何在java中去除中文文字的停用詞Java
- Hanlp在java中文分詞中的使用介紹HanLPJava中文分詞
- 最喜歡的勵志句子
- 史上最全中文分詞工具整理中文分詞