中文句子的詞分割演算法:MaxMatch

coyan發表於2021-09-09

今天閱讀的時候,發現了一個分割句子中詞語的演算法:MaxMatch,這個演算法在中文應用中效果很好。

這是一個貪心演算法,在指定的字典(dictionary)中查詢詞彙並進行句子的分割。

下面是一個應用本演算法的例子:

Input: 他特別喜歡北京烤鴨

Output: 他 特別 喜歡 北京烤鴨

演算法的虛擬碼如下:

圖片描述


這個演算法在中文的應用中比英文好很多,因為中文詞彙比英文短。


為了檢驗詞彙分割的效果,我們可以使用詞語錯誤率(word error rate)來衡量。

上述的演算法是傳統的演算法。目前準確率最高的中文詞彙分割演算法是透過監督機器學習(supervised machine learning)訓練的統計序列模型(statistical sequence model),這個我們以後再寫文章詳細討論。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/2236/viewspace-2808491/,如需轉載,請註明出處,否則將追究法律責任。

相關文章