中文句子的詞分割演算法:MaxMatch
今天閱讀的時候,發現了一個分割句子中詞語的演算法:MaxMatch,這個演算法在中文應用中效果很好。
這是一個貪心演算法,在指定的字典(dictionary)中查詢詞彙並進行句子的分割。
下面是一個應用本演算法的例子:
Input: 他特別喜歡北京烤鴨
Output: 他 特別 喜歡 北京烤鴨
演算法的虛擬碼如下:
這個演算法在中文的應用中比英文好很多,因為中文詞彙比英文短。
為了檢驗詞彙分割的效果,我們可以使用詞語錯誤率(word error rate)來衡量。
上述的演算法是傳統的演算法。目前準確率最高的中文詞彙分割演算法是透過監督機器學習(supervised machine learning)訓練的統計序列模型(statistical sequence model),這個我們以後再寫文章詳細討論。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/2236/viewspace-2808491/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- python jieba庫,句子分詞PythonJieba分詞
- iOS中文近似度的演算法及中文分詞(結巴分詞)的整合iOS演算法中文分詞
- 中文分詞演算法總結中文分詞演算法
- 中文地址智慧分詞演算法-Java版分詞演算法Java
- 中文分詞演算法工具hanlp原始碼解析中文分詞演算法HanLP原始碼
- Ubuntu安裝劃詞翻譯軟體Goldendict 單詞翻譯 句子翻譯UbuntuGo
- IKAnalyzer 中文分詞的不同版本切詞方式中文分詞
- 輸入一個英文句子,翻轉句子中的單詞,要求單詞內的字元順序不變。 如:I am a student. 轉換成 student. a am I字元
- 雙向最大匹配演算法——基於詞典規則的中文分詞(Java實現)演算法中文分詞Java
- hanlp原始碼解析之中文分詞演算法詳解HanLP原始碼中文分詞演算法
- lucene中文分片語件(詞典全切分演算法)下載演算法
- 中文分詞原理及常用Python中文分詞庫介紹中文分詞Python
- 中文分詞技術中文分詞
- 分詞工具Hanlp基於感知機的中文分詞框架HanLP中文分詞框架
- #Elasticsearch中文分詞器 #IK分詞器 @FDDLCElasticsearch中文分詞
- 從字到詞,大詞典中文BERT模型的探索之旅模型
- 中文分詞工具之基於字標註法的分詞中文分詞
- word_cloud 中文詞雲Cloud
- 中文搜尋引擎技術揭密:中文分詞中文分詞
- 中文詞法分析的簡單程式 (轉)詞法分析
- Hanlp分詞之CRF中文詞法分析詳解HanLP分詞CRF詞法分析
- pyhanlp 中文詞性標註與分詞簡介HanLP詞性標註分詞
- Python分詞模組推薦:jieba中文分詞PythonJieba中文分詞
- 分詞演算法分詞演算法
- java+lucene中文分詞,搜尋引擎搜詞剖析Java中文分詞
- SCWS PHP 中文簡易分詞PHP分詞
- HanLP中文分詞Lucene外掛HanLP中文分詞
- python 中文分詞包 jiebaPython中文分詞Jieba
- ElasticSearch5.6.1 + 中文分詞(IK)ElasticsearchH5中文分詞
- 分享IKAnalyzer 3.0 中文分詞器中文分詞
- 中文分詞器,整理自Ai中文分詞AI
- 基於 HanLP 的 ES 中文分詞外掛HanLP中文分詞
- (字串)句子翻轉字串
- Edge(Chrome)瀏覽器外掛WordSaver的演示,可以查英語生詞並記錄生詞及所在句子,匯出為anki格式Chrome瀏覽器
- 英語句子的基本結構
- 中文分詞的探索,CRF(條件隨機場)和HMM(隱馬爾可夫模型)用於分詞的對比,以及中文分詞的評估中文分詞CRF條件隨機場HMM隱馬爾可夫模型
- 軟體工程導論課後習題Github作業(把一個英文句子中的單詞次序逆序,單詞中字母正常排列)軟體工程Github
- Lucene中文分析器的中文分詞準確性和效能比較中文分詞