使用 add_word(word, freq=None, tag=None)
和 del_word(word)
可在程式中動態修改詞典。
使用 get_FREQ(word)
用來統計當前詞的詞頻。
使用 suggest_freq(segment, tune=True)
可調節單個詞語的詞頻,使其能(或不能)被分出來。
注意:自動計算的詞頻在使用 HMM 新詞發現功能時可能無效。
# test frequency tune testlist = [ ('今天天氣不錯', ('今天', '天氣')), ('如果放到post中將出錯。', ('中', '將')), ('我們中出了一個叛徒', ('中', '出')), ] for sent, seg in testlist: print('/'.join(jieba.cut(sent, HMM=False))) word = ''.join(seg) print('%s Before: %s, After: %s' % (word, jieba.get_FREQ(word), jieba.suggest_freq(seg, True))) print('/'.join(jieba.cut(sent, HMM=False))) print("-"*40)
今天天氣/不錯 今天天氣 Before: 3, After: 0 今天/天氣/不錯 如果/放到/post/中將/出錯/ 中將 Before: 763, After: 494 如果/放到/post/中/將/出錯/。 我們/中/出/了/一個/叛徒 中出 Before: 3, After: 3 我們/中/出/了/一個/叛徒