中文分詞的探索,CRF(條件隨機場)和HMM(隱馬爾可夫模型)用於分詞的對比,以及中文分詞的評估
在中文分詞這個應用上我試驗得比較多了,所以這裡想對自己做過關於分詞的做一些對比,總結。
可能很多人在入門隱馬爾科夫模型的時候都舉例過分詞這個模型,我也是,當時覺得好神奇,竟然這麼準確,但是後面當我越來越深入做分詞這一塊,學到條件隨機場,並且自己實現測試,發現純序列標註用HMM分詞實際上一般般,下面就我這2個標註模型在分詞種做一個對比。
1.CRF和HMM模型特點的對比
首先,先說一下2個模型的特點:
HMM相比CRF模型要小得多,我儲存一個java的HMM物件也就2mb,但是CRF大致150mb,CRF囊括了HMM,因此它也強大得多,但是代價就是模型大,解碼,訓練都要慢一些。
為什麼CRF更強大?這從原理上基本可以解釋,如果你還記得HMM的3個引數,PI,A,B,其中pi是初始狀態分佈,A是轉移概率,B是發射矩陣,也就是狀態下的觀測分佈,最重要的區別就在於CRF可以考察當前序列位置狀態下的前後觀測分佈,也就是說CRF能更利用資料的上下文資訊,至於上下文的範圍這個可以由CRF特徵模板決定,關於特徵模板我已經在另一篇文章種比較詳細的說了,https://blog.csdn.net/qq_37667364/article/details/82919560
可以說CRF和HMM的差別就在於資料上下文的利用。
這2個模型的特點說完了,下面就直觀的感受下這2個模型在分詞上應用的對比:
1.CRF和HMM模型分詞應用的對比
1.1 分詞的評估
要說分詞效果就先說一下分詞的評估,我基本是參照一篇文章的,請看另一篇轉載文章。
如果你不想看,只需要記住,下面評測中提到的精確率(precision),召回率(recall),f越大越好(f Measure),而錯誤率(error rate)越小越好,f值是一個綜合指標,不想看其他的只需要關注f值即可
1.2 關於使用語料和測試語料
我手上有5份訓練語料和測試語料:
對訓練語料標記一個順序,這將在後面用到:
[pku 0 ],[sku 1].[ctb6 2],[cityu, 3],[as 4]
在下面的對比中提到的索引組合就是這些語料的不同標號組合來作為訓練資料。
1.3 對比
下面的表格中分值是5分制。
使用同一份語料對比如下:
分詞器 | 語料 | 總精確率 | 總召回率 | 總f值 | 備註 | |
1HMMSeg | 2 | 3.828388 | 3.938759 | 3.882353 | 一階HMM | |
2HMMSeg | 2 | 3.947924 | 3.94826 | 3.947588 | 二階HMM | |
CRFSeg | 2 | 4.28639 | 4.296123 | 4.290709 | 特徵函式個數:875035 |
可以看到CRF提升還是挺大的,注意到此時CRF的特徵函式只有87035個,特徵函式越多,越佔用記憶體,相對分詞效率也要稍低一些。
在所有語料組合中,分詞器的最優值:
分詞器 | 語料 | 總精確率 | 總召回率 | 總f值 | 備註 | |
1HMMSeg | 0,1,2,3 | 3.95901 | 3.997896 | 3.977901 | 一階HMM | |
2HMMSeg | 0,1,2 | 3.964506 | 3.990632 | 3.97707 | 二階HMM | |
CRFSeg | 1,2,3 | 4.33911 | 4.33609 | 4.337031 | 特徵函式個數:1869221 |
此時CRF的特徵函式已經1869221了。
完整的評測結果請看結尾。
對於最優狀態下的分詞器給出直觀的分詞感受如下:
1.一階HMM
[HanLP, 是, 由, 一, 系列, 模型, 與, 演算法, 組成, 的, Java工, 具包, ,, 目標, 是, 普及, 自然, 語言, 處理, 在, 生產, 環境, 中, 的, 應用, 。]
[高錳酸, 鉀, ,, 強氧化劑, ,, 紫紅色晶體, ,, 可, 溶於, 水, ,, 遇, 乙醇, 即, 被, 還, 原, 。, 常用, 作消, 毒劑, 、, 水淨, 化劑, 、, 氧化劑, 、, 漂白劑, 、, 毒氣, 吸收劑, 、, 二氧化, 碳精, 製劑, 等, 。]
[《, 夜晚, 的, 骰子, 》, 通過, 描述, 淺草, 的, 舞女, 在, 暗夜, 中, 扔, 骰子, 的, 情景, ,, 寄託, 了, 作者, 對庶, 民生, 活區, 的, 情感]
[這, 個, 像, 是, 真的[委, 屈], 前面, 那, 個, 打扮, 太, 江戶, 了, ,, 一點, 不, 上, 品...@hankcs]
[鼎, 泰豐, 的, 小籠, 一點, 味道, 也, 沒有..., 每樣, 都, 淡淡, 的, ...淡淡, 的, ,, 哪有, 食堂, 2A, 的, 好, 次]
[克里斯蒂娜·克羅爾, 說, :, 不, ,, 我, 不, 是, 虎媽, 。, 我, 全家, 都, 熱愛, 音樂, ,, 我, 也, 鼓勵, 他們, 這麼, 做, 。]
[今日, APPS, :, Sago , Mini Toolbox培養, 孩子, 動手, 能力]
[財政部, 副, 部長, 王, 保安, 調任, 國家, 統計, 局黨, 組書, 記]
[2.34米, 男子, 娶, 1.53米, 女粉, 絲 , 稱, 夫妻, 生活, 沒, 問題, 。]
[一, 名, 男子, 娶, 了, 一, 名, 女子, !]
[你, 看過, 穆赫蘭道, 嗎]
[你, 看過, 穆赫蘭道, 這部, 電影, 嗎]
[樂視, 超級, 手機, 能否, 承載, 賈, 布斯, 的, 生態, 夢]
[原標題, :, 日媒, 拍到, 了, 現場, 罕見, 一幕, ,, 據, 日本, 新聞網, (, NNN, ), 9月, 8日, 報導, ,, 日前, ,, 日本, 海上, 自衛隊, 現役, 最, 大, 戰艦, 之, 一, 的, 直升, 機航母, “, 加賀, ”, 號, 在, 南海, 航行, 時, ,, 遭多, 艘, 中國, 海軍, 戰艦, 抵近, 跟蹤, 監視, 。, ]
耗時:2毫秒
2.二階HMM
[HanLP, 是, 由, 一, 系列, 模型, 與, 演算法, 組成, 的, Java工, 具包, ,, 目標, 是, 普及, 自然, 語言, 處理, 在, 生產, 環境, 中, 的, 應用, 。]
[高錳酸, 鉀, ,, 強氧化劑, ,, 紫紅色晶體, ,, 可, 溶於, 水, ,, 遇, 乙醇, 即, 被, 還, 原, 。, 常用, 作消, 毒劑, 、, 水淨, 化劑, 、, 氧化劑, 、, 漂白劑, 、, 毒氣, 吸收劑, 、, 二氧化, 碳, 精製劑, 等, 。]
[《, 夜晚, 的, 骰子, 》, 通過, 描述, 淺草, 的, 舞女, 在, 暗夜, 中, 扔, 骰子, 的, 情景, ,, 寄託, 了, 作者, 對庶, 民生, 活區, 的, 情感]
[這, 個, 像, 是, 真的[委, 屈], 前面, 那, 個, 打扮, 太, 江戶, 了, ,, 一點, 不, 上, 品...@hankcs]
[鼎, 泰豐, 的, 小籠, 一點, 味道, 也, 沒有..., 每樣, 都, 淡淡, 的, ...淡淡, 的, ,, 哪有, 食堂, 2A, 的, 好, 次]
[克里斯蒂娜·克羅爾, 說, :, 不, ,, 我, 不, 是, 虎媽, 。, 我, 全家, 都, 熱愛, 音樂, ,, 我, 也, 鼓勵, 他們, 這麼, 做, 。]
[今日, APPS, :, Sago Mini Toolbox培養, 孩子, 動手, 能力]
[財政部, 副, 部長, 王, 保安, 調任, 國家, 統計, 局黨, 組書, 記]
[2.34米, 男子, 娶, 1.53米, 女粉, 絲 , 稱, 夫妻, 生活, 沒, 問題, 。]
[一, 名, 男子, 娶, 了, 一, 名, 女子, !]
[你, 看過, 穆赫蘭道, 嗎]
[你, 看過, 穆赫蘭道, 這部, 電影, 嗎]
[樂視, 超級, 手機, 能否, 承載, 賈, 布斯, 的, 生態, 夢]
[原標題, :, 日媒, 拍到, 了, 現場, 罕見, 一幕, ,, 據, 日本, 新聞網, (, NNN, ), 9月, 8日, 報導, ,, 日前, ,, 日本, 海上, 自衛隊, 現役, 最大, 戰艦, 之, 一, 的, 直升, 機航母, “, 加賀, ”, 號, 在, 南海, 航行, 時, ,, 遭, 多, 艘, 中國, 海軍, 戰艦, 抵近, 跟蹤, 監視, 。, ]
耗時:4毫秒
3.CRF
[HanLP, 是, 由, 一, 系列, 模型, 與, 演算法, 組成, 的, Java, 工具, 包, ,, 目標, 是, 普及, 自然, 語言, 處理, 在, 生產, 環境, 中的, 應用, 。]
[高錳酸鉀, ,, 強, 氧化劑, ,, 紫紅色, 晶體, ,, 可, 溶於, 水, ,, 遇, 乙, 醇即, 被, 還原, 。, 常, 用作, 消毒劑, 、, 水, 淨化劑, 、, 氧化劑, 、, 漂白劑, 、, 毒氣, 吸收劑, 、, 二氧化碳, 精, 製劑, 等, 。]
[《, 夜晚, 的, 骰子, 》, 通過, 描述, 淺草, 的, 舞女, 在, 暗夜, 中, 扔, 骰子, 的, 情景, ,, 寄託, 了, 作者, 對, 庶民, 生活區, 的, 情感]
[這, 個, 像, 是, 真, 的, [, 委屈, ], 前面, 那, 個, 打扮, 太江戶, 了, ,, 一點, 不, 上, 品...@, hankcs]
[鼎泰豐, 的, 小籠, 一點, 味道, 也, 沒有, ..., 每樣, 都, 淡淡, 的, ..., 淡淡, 的, ,, 哪, 有, 食堂, 2, A, 的, 好, 次]
[克里斯蒂娜·克羅爾, 說, :, 不, ,, 我, 不, 是, 虎媽, 。, 我, 全, 家, 都, 熱愛, 音樂, ,, 我, 也, 鼓勵, 他們, 這麼, 做, 。]
[今日, APPS, :, Sago , Mini , Toolbox, 培養, 孩子, 動手, 能力]
[財政部, 副部長, 王保安, 調任, 國家, 統計局, 黨組, 書記]
[2.34, 米, 男子娶, 1.53, 米, 女, 粉絲, 稱, 夫妻, 生活, 沒, 問題, 。]
[一, 名, 男子, 娶, 了, 一, 名, 女子, !]
[你, 看, 過, 穆赫蘭道, 嗎]
[你, 看, 過, 穆赫蘭道, 這, 部, 電影, 嗎]
[樂視, 超級, 手機, 能否, 承載, 賈布斯, 的, 生態, 夢]
[原, 標題, :, 日媒, 拍, 到, 了, 現場, 罕見, 一幕, ,, 據, 日本, 新聞網, (, NNN, ), 9月, 8, 日, 報導, ,, 日前, ,, 日本, 海上, 自衛隊, 現役, 最大, 戰艦, 之一, 的, 直升機, 航母, “, 加賀, ”, 號, 在, 南海, 航行, 時, ,, 遭, 多, 艘, 中國, 海軍, 戰艦, 抵近, 跟蹤, 監視, 。, ]
耗時:5毫秒
直觀的感受可以看出來CRF確實要精確些。
另外值得一提這裡的CRF模型是我自己實現的監督學習的CRF,可能存在過擬合現象,當我用精度最高的去測試直觀感受反而比稍次一點沒那麼好,這裡使用的CRF模板如下:
"# Unigram\n" +
"U0:%x[-1,0]\n" +
"U1:%x[0,0]\n" +
"U2:%x[1,0]\n" +
"U3:%x[-2,0]%x[-1,0]\n" +
"U4:%x[-1,0]%x[0,0]\n" +
"U5:%x[0,0]%x[1,0]\n" +
"U6:%x[1,0]%x[2,0]\n" +
"\n" +
"# Bigram\n" +
"B";
差不多就說這些,歡迎探討,後面再來更新關於演算法細節問題吧。
附上完整的評測結果,沒有整理:
從5個語料中選1個
1HMMSeg 索引組合:[0]
總精確率:3.8708949607249705,總召回率:3.889121403335314,總f得分:3.87942300416638
1HMMSeg 索引組合:[1]
總精確率:3.8283881476912494,總召回率:3.9387593944636228,總f得分:3.8823530530362946
1HMMSeg 索引組合:[2]
總精確率:3.94241179823124,總召回率:3.9579542988098573,總f得分:3.949673859508631
1HMMSeg 索引組合:[3]
總精確率:3.8416830615273123,總召回率:3.9324793589998968,總f得分:3.8860192044871473
1HMMSeg 索引組合:[4]
總精確率:3.8461342310762707,總召回率:3.915014635167027,總f得分:3.8798549520252656
從5個語料中選2個
1HMMSeg 索引組合:[0, 1]
總精確率:3.8890430262055267,總召回率:3.913733678263338,總f得分:3.9007844211182405
1HMMSeg 索引組合:[0, 2]
總精確率:3.9408737057977485,總召回率:3.954779237013928,總f得分:3.9472949423480976
1HMMSeg 索引組合:[0, 3]
總精確率:3.9214777541009833,總召回率:3.9624929085330303,總f得分:3.9414353227096335
1HMMSeg 索引組合:[0, 4]
總精確率:3.876368047689259,總召回率:3.9348182990640055,總f得分:3.904834087344106
1HMMSeg 索引組合:[1, 2]
總精確率:3.951289234592444,總召回率:3.988877155584667,總f得分:3.969529050841981
1HMMSeg 索引組合:[1, 3]
總精確率:3.905858027878659,總召回率:3.978788047388324,總f得分:3.9415931761907306
1HMMSeg 索引組合:[1, 4]
總精確率:3.8696696138240494,總召回率:3.9354676261984527,總f得分:3.9018639999404874
1HMMSeg 索引組合:[2, 3]
總精確率:3.947087390105352,總召回率:3.9785645535200764,總f得分:3.9622955394104924
1HMMSeg 索引組合:[2, 4]
總精確率:3.8928522039063918,總召回率:3.9516823030423005,總f得分:3.9216293617371942
1HMMSeg 索引組合:[3, 4]
總精確率:3.8901985141689437,總召回率:3.953131242821945,總f得分:3.921008045652149
從5個語料中選3個
1HMMSeg 索引組合:[0, 1, 2]
總精確率:3.948507792083814,總召回率:3.976600636359775,總f得分:3.9619773307522497
1HMMSeg 索引組合:[0, 1, 3]
總精確率:3.9277744861221002,總召回率:3.9801556837604917,總f得分:3.9533497127524733
1HMMSeg 索引組合:[0, 1, 4]
總精確率:3.886999486976185,總召回率:3.94116958314083,總f得分:3.9133545079309915
1HMMSeg 索引組合:[0, 2, 3]
總精確率:3.9601669318291974,總召回率:3.990127227415235,總f得分:3.974633149110835
1HMMSeg 索引組合:[0, 2, 4]
總精確率:3.9130908412559933,總召回率:3.9661995325667974,總f得分:3.938984469548849
1HMMSeg 索引組合:[0, 3, 4]
總精確率:3.9142189559249374,總召回率:3.9775081943142188,總f得分:3.9451989095825115
1HMMSeg 索引組合:[1, 2, 3]
總精確率:3.9568080960602994,總召回率:3.997435873155621,總f得分:3.9765695009602213
1HMMSeg 索引組合:[1, 2, 4]
總精確率:3.9062162326669823,總召回率:3.9685886366245633,總f得分:3.9367237718893993
1HMMSeg 索引組合:[1, 3, 4]
總精確率:3.903550497225802,總召回率:3.968920869620439,總f得分:3.935541563570684
1HMMSeg 索引組合:[2, 3, 4]
總精確率:3.915108745245354,總召回率:3.974989088634333,總f得分:3.9444204498331032
從5個語料中選4個
1HMMSeg 索引組合:[0, 1, 2, 3]
總精確率:3.95901032814125,總召回率:3.9978956850832423,總f得分:3.9779014116957696
1HMMSeg 索引組合:[0, 1, 2, 4]
總精確率:3.915517393853136,總召回率:3.971165346799785,總f得分:3.9426514690471364
1HMMSeg 索引組合:[0, 1, 3, 4]
總精確率:3.9232493142759775,總召回率:3.9852525414959525,總f得分:3.953579064805121
1HMMSeg 索引組合:[1, 2, 3, 4]
總精確率:3.922357353802763,總召回率:3.9846515149432995,總f得分:3.95284391901355
1HMMSeg 索引組合:[0, 2, 3, 4]
總精確率:3.935534713241168,總召回率:3.994308827374849,總f得分:3.964302595249541
從5個語料中選5個
1HMMSeg 索引組合:[0, 1, 2, 3, 4]
總精確率:3.9433541023648138,總召回率:4.003168214322818,總f得分:3.972616120622181
從5個語料中選1個
2HMMSeg 索引組合:[0]
總精確率:3.8734400567744016,總召回率:3.886465879706925,總f得分:3.8793912590241466
2HMMSeg 索引組合:[1]
總精確率:3.834190072299533,總召回率:3.93460429285655,總f得分:3.883323459039823
2HMMSeg 索引組合:[2]
總精確率:3.947923521151429,總召回率:3.9482598282266737,總f得分:3.9475876989611303
2HMMSeg 索引組合:[3]
總精確率:3.8455600698344057,總召回率:3.924073984304348,總f得分:3.883896176222332
2HMMSeg 索引組合:[4]
總精確率:3.8591622856550325,總召回率:3.8980584575408983,總f得分:3.878073999666234
從5個語料中選2個
2HMMSeg 索引組合:[0, 1]
總精確率:3.8915047588214797,總召回率:3.9102646521873337,總f得分:3.90030893332647
2HMMSeg 索引組合:[0, 2]
總精確率:3.9456009304079958,總召回率:3.948329608788575,總f得分:3.9464426634016982
2HMMSeg 索引組合:[0, 3]
總精確率:3.92355355035803,總召回率:3.9554795529737308,總f得分:3.9390150212832884
2HMMSeg 索引組合:[0, 4]
總精確率:3.887914059515162,總召回率:3.9204648385890524,總f得分:3.903559455769132
2HMMSeg 索引組合:[1, 2]
總精確率:3.9584061609225714,總召回率:3.9835742305020645,總f得分:3.97047514852768
2HMMSeg 索引組合:[1, 3]
總精確率:3.9121722607587834,總召回率:3.9711604081639855,總f得分:3.941044212440074
2HMMSeg 索引組合:[1, 4]
總精確率:3.8856086525240463,總召回率:3.920455162427377,總f得分:3.902484944542904
2HMMSeg 索引組合:[2, 3]
總精確率:3.9485347238244604,總召回率:3.9674642816818926,總f得分:3.957494283264194
2HMMSeg 索引組合:[2, 4]
總精確率:3.9052929396300473,總召回率:3.93527145496443,總f得分:3.9197846702313655
2HMMSeg 索引組合:[3, 4]
總精確率:3.904888329762847,總召回率:3.9383799575291625,總f得分:3.9211245221512856
從5個語料中選3個
2HMMSeg 索引組合:[0, 1, 2]
總精確率:3.9561284063334745,總召回率:3.972216009603809,總f得分:3.963637091540601
2HMMSeg 索引組合:[0, 1, 3]
總精確率:3.9322468118407397,總召回率:3.9746339357591163,總f得分:3.9528891092861427
2HMMSeg 索引組合:[0, 1, 4]
總精確率:3.9022864134752466,總召回率:3.9302161901251176,總f得分:3.9156383047720658
2HMMSeg 索引組合:[0, 2, 3]
總精確率:3.962825587263973,總召回率:3.9812043086190276,總f得分:3.9715412726156467
2HMMSeg 索引組合:[0, 2, 4]
總精確率:3.923165032697388,總召回率:3.951857160517961,總f得分:3.9369606319931165
2HMMSeg 索引組合:[0, 3, 4]
總精確率:3.9240126294853193,總召回率:3.9618006991715924,總f得分:3.942391692554999
2HMMSeg 索引組合:[1, 2, 3]
總精確率:3.9596678431303385,總召回率:3.988698589649854,總f得分:3.9736675867715725
2HMMSeg 索引組合:[1, 2, 4]
總精確率:3.9200601016782497,總召回率:3.9539534689300213,總f得分:3.9364742431007294
2HMMSeg 索引組合:[1, 3, 4]
總精確率:3.9145975057020745,總召回率:3.9536180700844192,總f得分:3.9335552053998253
2HMMSeg 索引組合:[2, 3, 4]
總精確率:3.9282362703056304,總召回率:3.9631970960936957,總f得分:3.945218375779641
從5個語料中選4個
2HMMSeg 索引組合:[0, 1, 2, 3]
總精確率:3.9645059027584013,總召回率:3.9906321017399224,總f得分:3.9770697361459986
2HMMSeg 索引組合:[0, 1, 2, 4]
總精確率:3.9308214918574245,總召回率:3.962314654157765,總f得分:3.9459917741145945
2HMMSeg 索引組合:[0, 1, 3, 4]
總精確率:3.930910435769432,總召回率:3.970625750900794,總f得分:3.950219650775339
2HMMSeg 索引組合:[1, 2, 3, 4]
總精確率:3.9349029362220964,總召回率:3.973672380967142,總f得分:3.95375701602984
2HMMSeg 索引組合:[0, 2, 3, 4]
總精確率:3.9434480959812417,總召回率:3.980649128356055,總f得分:3.961546900215837
從5個語料中選5個
2HMMSeg 索引組合:[0, 1, 2, 3, 4]
總精確率:3.949573735350932,總召回率:3.9882521649639324,總f得分:3.9683863267478445
從5個語料中選1個
總的Unigram特徵函式個數:1136499
crfSegmenter 索引組合:[0]
總精確率:4.256375812965886,總召回率:4.257803745132337,總f得分:4.256448196349558
總的Unigram特徵函式個數:727777
crfSegmenter 索引組合:[1]
總精確率:4.208733088860235,總召回率:4.2619096455147645,總f得分:4.234698719786066
總的Unigram特徵函式個數:875035
crfSegmenter 索引組合:[2]
總精確率:4.286389518392307,總召回率:4.296123341643277,總f得分:4.2907094316046495
總的Unigram特徵函式個數:1508401
crfSegmenter 索引組合:[3]
總精確率:4.224722216392761,總召回率:4.258815339599848,總f得分:4.241079844839651
總的Unigram特徵函式個數:2893306
crfSegmenter 索引組合:[4]
總精確率:4.234315308459842,總召回率:4.288691151328337,總f得分:4.260832243030232
總的Unigram特徵函式個數:1452659
crfSegmenter 索引組合:[0, 1]
總精確率:4.29509040187884,總召回率:4.3002257117978715,總f得分:4.297000972590617
總的Unigram特徵函式個數:1552251
crfSegmenter 索引組合:[0, 2]
總精確率:4.321303338515831,總召回率:4.3171506187145745,總f得分:4.318661490489362
總的Unigram特徵函式個數:2054278
crfSegmenter 索引組合:[0, 3]
總精確率:4.31780687829845,總召回率:4.319843045281019,總f得分:4.318213966319677
總的Unigram特徵函式個數:3250980
crfSegmenter 索引組合:[0, 4]
總精確率:4.293289286705298,總召回率:4.295956443930624,總f得分:4.293989757828687
總的Unigram特徵函式個數:1253315
crfSegmenter 索引組合:[1, 2]
總精確率:4.326710506393448,總召回率:4.338521835049587,總f得分:4.33208400874604
總的Unigram特徵函式個數:1798763
crfSegmenter 索引組合:[1, 3]
總精確率:4.3130820391565186,總召回率:4.341231605029004,總f得分:4.326514383797707
總的Unigram特徵函式個數:3071024
crfSegmenter 索引組合:[1, 4]
總精確率:4.292810028821696,總召回率:4.317526546238065,總f得分:4.304571494515318
總的Unigram特徵函式個數:1869221
crfSegmenter 索引組合:[2, 3]
總精確率:4.339109999777037,總召回率:4.336089665088207,總f得分:4.337030776105888
總的Unigram特徵函式個數:3121168
crfSegmenter 索引組合:[2, 4]
總精確率:4.303815379905947,總召回率:4.319278844674585,總f得分:4.3110250314863805
總的Unigram特徵函式個數:3451088
crfSegmenter 索引組合:[3, 4]
總精確率:4.301584825129588,總召回率:4.313496993334974,總f得分:4.306981460885512
總的Unigram特徵函式個數:1807132
crfSegmenter 索引組合:[0, 1, 2]
總精確率:4.336198629407074,總召回率:4.3380218510367,總f得分:4.336555027225279
總的Unigram特徵函式個數:2265043
crfSegmenter 索引組合:[0, 1, 3]
總精確率:4.328251017743472,總召回率:4.3401766630044465,總f得分:4.333603057084105
總的Unigram特徵函式個數:3393738
crfSegmenter 索引組合:[0, 1, 4]
總精確率:4.309423068560654,總召回率:4.3055980993507905,總f得分:4.306860566527684
總的Unigram特徵函式個數:2324296
crfSegmenter 索引組合:[0, 2, 3]
總精確率:4.3362176999141635,總召回率:4.326000061514508,總f得分:4.330519709525633
總的Unigram特徵函式個數:3437246
crfSegmenter 索引組合:[0, 2, 4]
總精確率:4.309660342806946,總召回率:4.306351776885001,總f得分:4.3074591804276094
總的Unigram特徵函式個數:3741094
crfSegmenter 索引組合:[0, 3, 4]
總精確率:4.30275825431282,總召回率:4.304430311027441,總f得分:4.303007535324407
總的Unigram特徵函式個數:2107239
crfSegmenter 索引組合:[1, 2, 3]
總精確率:4.347279501022128,總召回率:4.348538072250367,總f得分:4.347382274041837
總的Unigram特徵函式個數:3277709
crfSegmenter 索引組合:[1, 2, 4]
總精確率:4.320703559544421,總召回率:4.330356554563042,總f得分:4.325007886653665
總的Unigram特徵函式個數:3591918
crfSegmenter 索引組合:[1, 3, 4]
總精確率:4.314629941864543,總召回率:4.325656488777164,總f得分:4.319581815232458
總的Unigram特徵函式個數:3629110
crfSegmenter 索引組合:[2, 3, 4]
總精確率:4.319223301467417,總召回率:4.320357557189831,總f得分:4.319273932068687
總的Unigram特徵函式個數:2512791
crfSegmenter 索引組合:[0, 1, 2, 3]
總精確率:4.342177977903567,總召回率:4.339490183620515,總f得分:4.340292058767584
總的Unigram特徵函式個數:3569840
crfSegmenter 索引組合:[0, 1, 2, 4]
總精確率:4.319390204433497,總召回率:4.315819417531209,總f得分:4.317053502662063
總的Unigram特徵函式個數:3861972
crfSegmenter 索引組合:[0, 1, 3, 4]
總精確率:4.3103564835753705,總召回率:4.3132556212746165,總f得分:4.311226205914882
總的Unigram特徵函式個數:3759092
crfSegmenter 索引組合:[1, 2, 3, 4]
總精確率:4.324385980484043,總召回率:4.3263572005287925,總f得分:4.324874072540238
總的Unigram特徵函式個數:3895565
crfSegmenter 索引組合:[0, 2, 3, 4]
總精確率:4.308663909378264,總召回率:4.303066912536404,總f得分:4.305327828827322
總的Unigram特徵函式個數:4010207
crfSegmenter 索引組合:[0, 1, 2, 3, 4]
總精確率:4.3142094471590475,總召回率:4.310626916544051,總f得分:4.311899688134844
感謝觀看,覺得不錯的話可以考慮支援下我,用我的AI大師碼0415在滴滴雲上購買GPU/vGPU/機器學習產品可享受9折優惠,點選www.didiyun.com前往滴滴雲官網。
GPU:https://www.didiyun.com/production/gpu.html
VGPU:https://www.didiyun.com/production/vgpu.html
機器學習工作室(DAI):https://www.didiyun.com/production/dai.html
相關文章
- 隱馬爾可夫模型(HMM)中文分詞隱馬爾可夫模型HMM中文分詞
- 隱馬爾可夫模型(HMM)實現分詞隱馬爾可夫模型HMM分詞
- 隱馬爾科夫模型(HMM)分詞研究馬爾科夫模型HMM分詞
- 一個隱馬爾科夫模型的應用例項:中文分詞馬爾科夫模型中文分詞
- 分詞工具Hanlp基於感知機的中文分詞框架HanLP中文分詞框架
- Hanlp分詞之CRF中文詞法分析詳解HanLP分詞CRF詞法分析
- 中文分詞工具之基於字標註法的分詞中文分詞
- HMM隱馬爾可夫模型HMM隱馬爾可夫模型
- 11個Java開源中文分詞器使用方法和分詞效果對比Java中文分詞
- #Elasticsearch中文分詞器 #IK分詞器 @FDDLCElasticsearch中文分詞
- IKAnalyzer 中文分詞的不同版本切詞方式中文分詞
- iOS中文近似度的演算法及中文分詞(結巴分詞)的整合iOS演算法中文分詞
- 中文分詞原理及常用Python中文分詞庫介紹中文分詞Python
- Python分詞模組推薦:jieba中文分詞PythonJieba中文分詞
- 中文分詞技術中文分詞
- 基於 HanLP 的 ES 中文分詞外掛HanLP中文分詞
- 隱馬爾可夫模型(HMM)詳解隱馬爾可夫模型HMM
- 中文分詞研究難點-詞語劃分和語言規範中文分詞
- Lucene中文分析器的中文分詞準確性和效能比較中文分詞
- 隱馬爾科夫模型HMM(一)HMM模型馬爾科夫模型HMM
- [Python] 基於 jieba 的中文分詞總結PythonJieba中文分詞
- 【HMM】隱馬爾科夫模型HMM馬爾科夫模型
- python中文分詞jieba的高階應用Python中文分詞Jieba
- SCWS PHP 中文簡易分詞PHP分詞
- HanLP中文分詞Lucene外掛HanLP中文分詞
- python 中文分詞包 jiebaPython中文分詞Jieba
- ElasticSearch5.6.1 + 中文分詞(IK)ElasticsearchH5中文分詞
- 分享IKAnalyzer 3.0 中文分詞器中文分詞
- 中文分詞器,整理自Ai中文分詞AI
- pyhanlp 中文詞性標註與分詞簡介HanLP詞性標註分詞
- 大資料語義分析:靈玖中文分詞的分詞處理大資料中文分詞
- 使用Docker快速安裝部署ES和Kibana並配置IK中文分詞器以及自定義分詞擴充詞庫Docker中文分詞
- elasticsearch教程--中文分詞器作用和使用Elasticsearch中文分詞
- Java中文分片語件 - word分詞(skycto JEEditor)Java分詞
- crf(條件隨機場)用於遙感影像分類結果的優化CRF條件隨機場優化
- 幾種常見的中文分詞包的分析與比較中文分詞
- HanLP分詞工具中的ViterbiSegment分詞流程HanLP分詞Viterbi
- 使用cjieba(結巴分詞庫)實現php擴充套件中文分詞JiebaPHP套件中文分詞