基於單字位置最大概率的Python分詞工具snailseg

jieforest發表於2012-09-22
[i=s] 本帖最後由 jieforest 於 2012-9-22 21:33 編輯

snailseg是一個使用Python編寫的簡單的中文分詞庫。

專案地址:https://github.com/fxsjy/snailseg
線上分詞效果展示:https://snailsegdemo.appspot.com/(使用代理訪問)

使用方法

將snailseg目錄放置於當前目錄或者site-packages目錄
import snailseg
程式碼示例

CODE:

import snailseg  
words = snailseg.cut("南京市長江大橋")  
for w in words:  
    print w  演算法

演算法是統計單字在詞語中出現位置的概率大小,選擇最大可能的分詞方案。演算法很簡單,只有100行純Python程式碼。

效能

測試環境:Intel(R) Core(TM) i7-2600 CPU @ 3.4GHz;《圍城》.txt
速度:700 KB/Second
示例

線上分詞效果展示:https://snailsegdemo.appspot.com/
測試用例:https://github.com/fxsjy/snailseg/blob/master/test.py

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/301743/viewspace-744829/,如需轉載,請註明出處,否則將追究法律責任。

相關文章