調整字典

小张睡醒了發表於2024-04-02

使用 add_word(word, freq=None, tag=None)del_word(word) 可在程式中動態修改詞典。

使用 get_FREQ(word) 用來統計當前詞的詞頻。

使用 suggest_freq(segment, tune=True) 可調節單個詞語的詞頻,使其能(或不能)被分出來。

注意:自動計算的詞頻在使用 HMM 新詞發現功能時可能無效。

# test frequency tune
testlist = [
('今天天氣不錯', ('今天', '天氣')),
('如果放到post中將出錯。', ('', '')),
('我們中出了一個叛徒', ('', '')),
]
 
for sent, seg in testlist:
    print('/'.join(jieba.cut(sent, HMM=False)))
    word = ''.join(seg)
    print('%s Before: %s, After: %s' % (word, jieba.get_FREQ(word), jieba.suggest_freq(seg, True)))
    print('/'.join(jieba.cut(sent, HMM=False)))
    print("-"*40)

今天天氣/不錯
今天天氣 Before: 3, After: 0
今天/天氣/不錯

如果/放到/post/中將/出錯/
中將 Before: 763, After: 494
如果/放到/post/中/將/出錯/。

我們/中/出/了/一個/叛徒
中出 Before: 3, After: 3
我們/中/出/了/一個/叛徒
 

  

相關文章