中文分詞的探索,CRF(條件隨機場)和HMM(隱馬爾可夫模型)用於分詞的對比,以及中文分詞的評估

outsider0007發表於2018-11-10

在中文分詞這個應用上我試驗得比較多了,所以這裡想對自己做過關於分詞的做一些對比,總結。

可能很多人在入門隱馬爾科夫模型的時候都舉例過分詞這個模型,我也是,當時覺得好神奇,竟然這麼準確,但是後面當我越來越深入做分詞這一塊,學到條件隨機場,並且自己實現測試,發現純序列標註用HMM分詞實際上一般般,下面就我這2個標註模型在分詞種做一個對比。

1.CRF和HMM模型特點的對比

首先,先說一下2個模型的特點:

HMM相比CRF模型要小得多,我儲存一個java的HMM物件也就2mb,但是CRF大致150mb,CRF囊括了HMM,因此它也強大得多,但是代價就是模型大,解碼,訓練都要慢一些。

為什麼CRF更強大?這從原理上基本可以解釋,如果你還記得HMM的3個引數,PI,A,B,其中pi是初始狀態分佈,A是轉移概率,B是發射矩陣,也就是狀態下的觀測分佈,最重要的區別就在於CRF可以考察當前序列位置狀態下的前後觀測分佈,也就是說CRF能更利用資料的上下文資訊,至於上下文的範圍這個可以由CRF特徵模板決定,關於特徵模板我已經在另一篇文章種比較詳細的說了,https://blog.csdn.net/qq_37667364/article/details/82919560

可以說CRF和HMM的差別就在於資料上下文的利用。

 

這2個模型的特點說完了,下面就直觀的感受下這2個模型在分詞上應用的對比:

1.CRF和HMM模型分詞應用的對比

1.1 分詞的評估

要說分詞效果就先說一下分詞的評估,我基本是參照一篇文章的,請看另一篇轉載文章。

如果你不想看,只需要記住,下面評測中提到的精確率(precision),召回率(recall),f越大越好(f Measure),而錯誤率(error rate)越小越好,f值是一個綜合指標,不想看其他的只需要關注f值即可

1.2 關於使用語料和測試語料

我手上有5份訓練語料和測試語料:

對訓練語料標記一個順序,這將在後面用到:

[pku 0 ],[sku 1].[ctb6 2],[cityu, 3],[as 4]

在下面的對比中提到的索引組合就是這些語料的不同標號組合來作為訓練資料。

1.3 對比

下面的表格中分值是5分制。

 使用同一份語料對比如下:

分詞器語料總精確率總召回率總f值 備註
1HMMSeg23.8283883.9387593.882353 一階HMM
2HMMSeg23.9479243.948263.947588 二階HMM
CRFSeg24.286394.2961234.290709 特徵函式個數:875035

可以看到CRF提升還是挺大的,注意到此時CRF的特徵函式只有87035個,特徵函式越多,越佔用記憶體,相對分詞效率也要稍低一些。

在所有語料組合中,分詞器的最優值:

分詞器語料總精確率總召回率總f值 備註
1HMMSeg0,1,2,33.959013.9978963.977901 一階HMM
2HMMSeg0,1,23.9645063.9906323.97707 二階HMM
CRFSeg1,2,34.339114.336094.337031 特徵函式個數:1869221

此時CRF的特徵函式已經1869221了。

完整的評測結果請看結尾。

對於最優狀態下的分詞器給出直觀的分詞感受如下:

1.一階HMM
[HanLP, 是, 由, 一, 系列, 模型, 與, 演算法, 組成, 的, Java工, 具包, ,, 目標, 是, 普及, 自然, 語言, 處理, 在, 生產, 環境, 中, 的, 應用, 。]
[高錳酸, 鉀, ,, 強氧化劑, ,, 紫紅色晶體, ,, 可, 溶於, 水, ,, 遇, 乙醇, 即, 被, 還, 原, 。, 常用, 作消, 毒劑, 、, 水淨, 化劑, 、, 氧化劑, 、, 漂白劑, 、, 毒氣, 吸收劑, 、, 二氧化, 碳精, 製劑, 等, 。]
[《, 夜晚, 的, 骰子, 》, 通過, 描述, 淺草, 的, 舞女, 在, 暗夜, 中, 扔, 骰子, 的, 情景, ,, 寄託, 了, 作者, 對庶, 民生, 活區, 的, 情感]
[這, 個, 像, 是, 真的[委, 屈], 前面, 那, 個, 打扮, 太, 江戶, 了, ,, 一點, 不, 上, 品...@hankcs]
[鼎, 泰豐, 的, 小籠, 一點, 味道, 也, 沒有..., 每樣, 都, 淡淡, 的, ...淡淡, 的, ,, 哪有, 食堂, 2A, 的, 好, 次]
[克里斯蒂娜·克羅爾, 說, :, 不, ,, 我, 不, 是, 虎媽, 。, 我, 全家, 都, 熱愛, 音樂, ,, 我, 也, 鼓勵, 他們, 這麼, 做, 。]
[今日, APPS, :, Sago , Mini Toolbox培養, 孩子, 動手, 能力]
[財政部, 副, 部長, 王, 保安, 調任, 國家, 統計, 局黨, 組書, 記]
[2.34米, 男子, 娶, 1.53米, 女粉, 絲 , 稱, 夫妻, 生活, 沒, 問題, 。]
[一, 名, 男子, 娶, 了, 一, 名, 女子, !]
[你, 看過, 穆赫蘭道, 嗎]
[你, 看過, 穆赫蘭道, 這部, 電影, 嗎]
[樂視, 超級, 手機, 能否, 承載, 賈, 布斯, 的, 生態, 夢]
[原標題, :, 日媒, 拍到, 了, 現場, 罕見, 一幕, ,, 據, 日本, 新聞網, (, NNN, ), 9月, 8日, 報導, ,, 日前, ,, 日本, 海上, 自衛隊, 現役, 最, 大, 戰艦, 之, 一, 的, 直升, 機航母, “, 加賀, ”, 號, 在, 南海, 航行, 時, ,, 遭多, 艘, 中國, 海軍, 戰艦, 抵近, 跟蹤, 監視, 。,  ]
耗時:2毫秒


2.二階HMM
[HanLP, 是, 由, 一, 系列, 模型, 與, 演算法, 組成, 的, Java工, 具包, ,, 目標, 是, 普及, 自然, 語言, 處理, 在, 生產, 環境, 中, 的, 應用, 。]
[高錳酸, 鉀, ,, 強氧化劑, ,, 紫紅色晶體, ,, 可, 溶於, 水, ,, 遇, 乙醇, 即, 被, 還, 原, 。, 常用, 作消, 毒劑, 、, 水淨, 化劑, 、, 氧化劑, 、, 漂白劑, 、, 毒氣, 吸收劑, 、, 二氧化, 碳, 精製劑, 等, 。]
[《, 夜晚, 的, 骰子, 》, 通過, 描述, 淺草, 的, 舞女, 在, 暗夜, 中, 扔, 骰子, 的, 情景, ,, 寄託, 了, 作者, 對庶, 民生, 活區, 的, 情感]
[這, 個, 像, 是, 真的[委, 屈], 前面, 那, 個, 打扮, 太, 江戶, 了, ,, 一點, 不, 上, 品...@hankcs]
[鼎, 泰豐, 的, 小籠, 一點, 味道, 也, 沒有..., 每樣, 都, 淡淡, 的, ...淡淡, 的, ,, 哪有, 食堂, 2A, 的, 好, 次]
[克里斯蒂娜·克羅爾, 說, :, 不, ,, 我, 不, 是, 虎媽, 。, 我, 全家, 都, 熱愛, 音樂, ,, 我, 也, 鼓勵, 他們, 這麼, 做, 。]
[今日, APPS, :, Sago Mini Toolbox培養, 孩子, 動手, 能力]
[財政部, 副, 部長, 王, 保安, 調任, 國家, 統計, 局黨, 組書, 記]
[2.34米, 男子, 娶, 1.53米, 女粉, 絲 , 稱, 夫妻, 生活, 沒, 問題, 。]
[一, 名, 男子, 娶, 了, 一, 名, 女子, !]
[你, 看過, 穆赫蘭道, 嗎]
[你, 看過, 穆赫蘭道, 這部, 電影, 嗎]
[樂視, 超級, 手機, 能否, 承載, 賈, 布斯, 的, 生態, 夢]
[原標題, :, 日媒, 拍到, 了, 現場, 罕見, 一幕, ,, 據, 日本, 新聞網, (, NNN, ), 9月, 8日, 報導, ,, 日前, ,, 日本, 海上, 自衛隊, 現役, 最大, 戰艦, 之, 一, 的, 直升, 機航母, “, 加賀, ”, 號, 在, 南海, 航行, 時, ,, 遭, 多, 艘, 中國, 海軍, 戰艦, 抵近, 跟蹤, 監視, 。,  ]
耗時:4毫秒


3.CRF

[HanLP, 是, 由, 一, 系列, 模型, 與, 演算法, 組成, 的, Java, 工具, 包, ,, 目標, 是, 普及, 自然, 語言, 處理, 在, 生產, 環境, 中的, 應用, 。]
[高錳酸鉀, ,, 強, 氧化劑, ,, 紫紅色, 晶體, ,, 可, 溶於, 水, ,, 遇, 乙, 醇即, 被, 還原, 。, 常, 用作, 消毒劑, 、, 水, 淨化劑, 、, 氧化劑, 、, 漂白劑, 、, 毒氣, 吸收劑, 、, 二氧化碳, 精, 製劑, 等, 。]
[《, 夜晚, 的, 骰子, 》, 通過, 描述, 淺草, 的, 舞女, 在, 暗夜, 中, 扔, 骰子, 的, 情景, ,, 寄託, 了, 作者, 對, 庶民, 生活區, 的, 情感]
[這, 個, 像, 是, 真, 的, [, 委屈, ], 前面, 那, 個, 打扮, 太江戶, 了, ,, 一點, 不, 上, 品...@, hankcs]
[鼎泰豐, 的, 小籠, 一點, 味道, 也, 沒有, ..., 每樣, 都, 淡淡, 的, ..., 淡淡, 的, ,, 哪, 有, 食堂, 2, A, 的, 好, 次]
[克里斯蒂娜·克羅爾, 說, :, 不, ,, 我, 不, 是, 虎媽, 。, 我, 全, 家, 都, 熱愛, 音樂, ,, 我, 也, 鼓勵, 他們, 這麼, 做, 。]
[今日, APPS, :, Sago , Mini , Toolbox, 培養, 孩子, 動手, 能力]
[財政部, 副部長, 王保安, 調任, 國家, 統計局, 黨組, 書記]
[2.34, 米, 男子娶, 1.53, 米, 女, 粉絲,  稱, 夫妻, 生活, 沒, 問題, 。]
[一, 名, 男子, 娶, 了, 一, 名, 女子, !]
[你, 看, 過, 穆赫蘭道, 嗎]
[你, 看, 過, 穆赫蘭道, 這, 部, 電影, 嗎]
[樂視, 超級, 手機, 能否, 承載, 賈布斯, 的, 生態, 夢]
[原, 標題, :, 日媒, 拍, 到, 了, 現場, 罕見, 一幕, ,, 據, 日本, 新聞網, (, NNN, ), 9月, 8, 日, 報導, ,, 日前, ,, 日本, 海上, 自衛隊, 現役, 最大, 戰艦, 之一, 的, 直升機, 航母, “, 加賀, ”, 號, 在, 南海, 航行, 時, ,, 遭, 多, 艘, 中國, 海軍, 戰艦, 抵近, 跟蹤, 監視, 。,  ]
耗時:5毫秒

直觀的感受可以看出來CRF確實要精確些。

另外值得一提這裡的CRF模型是我自己實現的監督學習的CRF,可能存在過擬合現象,當我用精度最高的去測試直觀感受反而比稍次一點沒那麼好,這裡使用的CRF模板如下:

"# Unigram\n" +
                "U0:%x[-1,0]\n" +
                "U1:%x[0,0]\n" +
                "U2:%x[1,0]\n" +
                "U3:%x[-2,0]%x[-1,0]\n" +
                "U4:%x[-1,0]%x[0,0]\n" +
                "U5:%x[0,0]%x[1,0]\n" +
                "U6:%x[1,0]%x[2,0]\n" +
                "\n" +
                "# Bigram\n" +
                "B";

差不多就說這些,歡迎探討,後面再來更新關於演算法細節問題吧。

附上完整的評測結果,沒有整理:

從5個語料中選1個
1HMMSeg 索引組合:[0]
總精確率:3.8708949607249705,總召回率:3.889121403335314,總f得分:3.87942300416638

1HMMSeg 索引組合:[1]
總精確率:3.8283881476912494,總召回率:3.9387593944636228,總f得分:3.8823530530362946

1HMMSeg 索引組合:[2]
總精確率:3.94241179823124,總召回率:3.9579542988098573,總f得分:3.949673859508631

1HMMSeg 索引組合:[3]
總精確率:3.8416830615273123,總召回率:3.9324793589998968,總f得分:3.8860192044871473

1HMMSeg 索引組合:[4]
總精確率:3.8461342310762707,總召回率:3.915014635167027,總f得分:3.8798549520252656

從5個語料中選2個
1HMMSeg 索引組合:[0, 1]
總精確率:3.8890430262055267,總召回率:3.913733678263338,總f得分:3.9007844211182405

1HMMSeg 索引組合:[0, 2]
總精確率:3.9408737057977485,總召回率:3.954779237013928,總f得分:3.9472949423480976

1HMMSeg 索引組合:[0, 3]
總精確率:3.9214777541009833,總召回率:3.9624929085330303,總f得分:3.9414353227096335

1HMMSeg 索引組合:[0, 4]
總精確率:3.876368047689259,總召回率:3.9348182990640055,總f得分:3.904834087344106

1HMMSeg 索引組合:[1, 2]
總精確率:3.951289234592444,總召回率:3.988877155584667,總f得分:3.969529050841981

1HMMSeg 索引組合:[1, 3]
總精確率:3.905858027878659,總召回率:3.978788047388324,總f得分:3.9415931761907306

1HMMSeg 索引組合:[1, 4]
總精確率:3.8696696138240494,總召回率:3.9354676261984527,總f得分:3.9018639999404874

1HMMSeg 索引組合:[2, 3]
總精確率:3.947087390105352,總召回率:3.9785645535200764,總f得分:3.9622955394104924

1HMMSeg 索引組合:[2, 4]
總精確率:3.8928522039063918,總召回率:3.9516823030423005,總f得分:3.9216293617371942

1HMMSeg 索引組合:[3, 4]
總精確率:3.8901985141689437,總召回率:3.953131242821945,總f得分:3.921008045652149


從5個語料中選3個
1HMMSeg 索引組合:[0, 1, 2]
總精確率:3.948507792083814,總召回率:3.976600636359775,總f得分:3.9619773307522497

1HMMSeg 索引組合:[0, 1, 3]
總精確率:3.9277744861221002,總召回率:3.9801556837604917,總f得分:3.9533497127524733

1HMMSeg 索引組合:[0, 1, 4]
總精確率:3.886999486976185,總召回率:3.94116958314083,總f得分:3.9133545079309915

1HMMSeg 索引組合:[0, 2, 3]
總精確率:3.9601669318291974,總召回率:3.990127227415235,總f得分:3.974633149110835

1HMMSeg 索引組合:[0, 2, 4]
總精確率:3.9130908412559933,總召回率:3.9661995325667974,總f得分:3.938984469548849

1HMMSeg 索引組合:[0, 3, 4]
總精確率:3.9142189559249374,總召回率:3.9775081943142188,總f得分:3.9451989095825115

1HMMSeg 索引組合:[1, 2, 3]
總精確率:3.9568080960602994,總召回率:3.997435873155621,總f得分:3.9765695009602213

1HMMSeg 索引組合:[1, 2, 4]
總精確率:3.9062162326669823,總召回率:3.9685886366245633,總f得分:3.9367237718893993

1HMMSeg 索引組合:[1, 3, 4]
總精確率:3.903550497225802,總召回率:3.968920869620439,總f得分:3.935541563570684

1HMMSeg 索引組合:[2, 3, 4]
總精確率:3.915108745245354,總召回率:3.974989088634333,總f得分:3.9444204498331032

從5個語料中選4個
1HMMSeg 索引組合:[0, 1, 2, 3]
總精確率:3.95901032814125,總召回率:3.9978956850832423,總f得分:3.9779014116957696

1HMMSeg 索引組合:[0, 1, 2, 4]
總精確率:3.915517393853136,總召回率:3.971165346799785,總f得分:3.9426514690471364

1HMMSeg 索引組合:[0, 1, 3, 4]
總精確率:3.9232493142759775,總召回率:3.9852525414959525,總f得分:3.953579064805121

1HMMSeg 索引組合:[1, 2, 3, 4]
總精確率:3.922357353802763,總召回率:3.9846515149432995,總f得分:3.95284391901355

1HMMSeg 索引組合:[0, 2, 3, 4]
總精確率:3.935534713241168,總召回率:3.994308827374849,總f得分:3.964302595249541

從5個語料中選5個
1HMMSeg 索引組合:[0, 1, 2, 3, 4]
總精確率:3.9433541023648138,總召回率:4.003168214322818,總f得分:3.972616120622181


從5個語料中選1個
2HMMSeg 索引組合:[0]
總精確率:3.8734400567744016,總召回率:3.886465879706925,總f得分:3.8793912590241466

2HMMSeg 索引組合:[1]
總精確率:3.834190072299533,總召回率:3.93460429285655,總f得分:3.883323459039823

2HMMSeg 索引組合:[2]
總精確率:3.947923521151429,總召回率:3.9482598282266737,總f得分:3.9475876989611303

2HMMSeg 索引組合:[3]
總精確率:3.8455600698344057,總召回率:3.924073984304348,總f得分:3.883896176222332

2HMMSeg 索引組合:[4]
總精確率:3.8591622856550325,總召回率:3.8980584575408983,總f得分:3.878073999666234

從5個語料中選2個
2HMMSeg 索引組合:[0, 1]
總精確率:3.8915047588214797,總召回率:3.9102646521873337,總f得分:3.90030893332647

2HMMSeg 索引組合:[0, 2]
總精確率:3.9456009304079958,總召回率:3.948329608788575,總f得分:3.9464426634016982

2HMMSeg 索引組合:[0, 3]
總精確率:3.92355355035803,總召回率:3.9554795529737308,總f得分:3.9390150212832884

2HMMSeg 索引組合:[0, 4]
總精確率:3.887914059515162,總召回率:3.9204648385890524,總f得分:3.903559455769132

2HMMSeg 索引組合:[1, 2]
總精確率:3.9584061609225714,總召回率:3.9835742305020645,總f得分:3.97047514852768

2HMMSeg 索引組合:[1, 3]
總精確率:3.9121722607587834,總召回率:3.9711604081639855,總f得分:3.941044212440074

2HMMSeg 索引組合:[1, 4]
總精確率:3.8856086525240463,總召回率:3.920455162427377,總f得分:3.902484944542904

2HMMSeg 索引組合:[2, 3]
總精確率:3.9485347238244604,總召回率:3.9674642816818926,總f得分:3.957494283264194

2HMMSeg 索引組合:[2, 4]
總精確率:3.9052929396300473,總召回率:3.93527145496443,總f得分:3.9197846702313655

2HMMSeg 索引組合:[3, 4]
總精確率:3.904888329762847,總召回率:3.9383799575291625,總f得分:3.9211245221512856

從5個語料中選3個
2HMMSeg 索引組合:[0, 1, 2]
總精確率:3.9561284063334745,總召回率:3.972216009603809,總f得分:3.963637091540601

2HMMSeg 索引組合:[0, 1, 3]
總精確率:3.9322468118407397,總召回率:3.9746339357591163,總f得分:3.9528891092861427

2HMMSeg 索引組合:[0, 1, 4]
總精確率:3.9022864134752466,總召回率:3.9302161901251176,總f得分:3.9156383047720658

2HMMSeg 索引組合:[0, 2, 3]
總精確率:3.962825587263973,總召回率:3.9812043086190276,總f得分:3.9715412726156467

2HMMSeg 索引組合:[0, 2, 4]
總精確率:3.923165032697388,總召回率:3.951857160517961,總f得分:3.9369606319931165

2HMMSeg 索引組合:[0, 3, 4]
總精確率:3.9240126294853193,總召回率:3.9618006991715924,總f得分:3.942391692554999

2HMMSeg 索引組合:[1, 2, 3]
總精確率:3.9596678431303385,總召回率:3.988698589649854,總f得分:3.9736675867715725

2HMMSeg 索引組合:[1, 2, 4]
總精確率:3.9200601016782497,總召回率:3.9539534689300213,總f得分:3.9364742431007294

2HMMSeg 索引組合:[1, 3, 4]
總精確率:3.9145975057020745,總召回率:3.9536180700844192,總f得分:3.9335552053998253

2HMMSeg 索引組合:[2, 3, 4]
總精確率:3.9282362703056304,總召回率:3.9631970960936957,總f得分:3.945218375779641

從5個語料中選4個
2HMMSeg 索引組合:[0, 1, 2, 3]
總精確率:3.9645059027584013,總召回率:3.9906321017399224,總f得分:3.9770697361459986

2HMMSeg 索引組合:[0, 1, 2, 4]
總精確率:3.9308214918574245,總召回率:3.962314654157765,總f得分:3.9459917741145945

2HMMSeg 索引組合:[0, 1, 3, 4]
總精確率:3.930910435769432,總召回率:3.970625750900794,總f得分:3.950219650775339

2HMMSeg 索引組合:[1, 2, 3, 4]
總精確率:3.9349029362220964,總召回率:3.973672380967142,總f得分:3.95375701602984

2HMMSeg 索引組合:[0, 2, 3, 4]
總精確率:3.9434480959812417,總召回率:3.980649128356055,總f得分:3.961546900215837

從5個語料中選5個
2HMMSeg 索引組合:[0, 1, 2, 3, 4]
總精確率:3.949573735350932,總召回率:3.9882521649639324,總f得分:3.9683863267478445

從5個語料中選1個
總的Unigram特徵函式個數:1136499
crfSegmenter 索引組合:[0]
總精確率:4.256375812965886,總召回率:4.257803745132337,總f得分:4.256448196349558


總的Unigram特徵函式個數:727777
crfSegmenter 索引組合:[1]
總精確率:4.208733088860235,總召回率:4.2619096455147645,總f得分:4.234698719786066

總的Unigram特徵函式個數:875035
crfSegmenter 索引組合:[2]
總精確率:4.286389518392307,總召回率:4.296123341643277,總f得分:4.2907094316046495

總的Unigram特徵函式個數:1508401
crfSegmenter 索引組合:[3]
總精確率:4.224722216392761,總召回率:4.258815339599848,總f得分:4.241079844839651

總的Unigram特徵函式個數:2893306
crfSegmenter 索引組合:[4]
總精確率:4.234315308459842,總召回率:4.288691151328337,總f得分:4.260832243030232

總的Unigram特徵函式個數:1452659
crfSegmenter 索引組合:[0, 1]
總精確率:4.29509040187884,總召回率:4.3002257117978715,總f得分:4.297000972590617

總的Unigram特徵函式個數:1552251
crfSegmenter 索引組合:[0, 2]
總精確率:4.321303338515831,總召回率:4.3171506187145745,總f得分:4.318661490489362

總的Unigram特徵函式個數:2054278
crfSegmenter 索引組合:[0, 3]
總精確率:4.31780687829845,總召回率:4.319843045281019,總f得分:4.318213966319677

總的Unigram特徵函式個數:3250980
crfSegmenter 索引組合:[0, 4]
總精確率:4.293289286705298,總召回率:4.295956443930624,總f得分:4.293989757828687

總的Unigram特徵函式個數:1253315
crfSegmenter 索引組合:[1, 2]
總精確率:4.326710506393448,總召回率:4.338521835049587,總f得分:4.33208400874604

總的Unigram特徵函式個數:1798763
crfSegmenter 索引組合:[1, 3]
總精確率:4.3130820391565186,總召回率:4.341231605029004,總f得分:4.326514383797707

總的Unigram特徵函式個數:3071024
crfSegmenter 索引組合:[1, 4]
總精確率:4.292810028821696,總召回率:4.317526546238065,總f得分:4.304571494515318

總的Unigram特徵函式個數:1869221
crfSegmenter 索引組合:[2, 3]
總精確率:4.339109999777037,總召回率:4.336089665088207,總f得分:4.337030776105888

總的Unigram特徵函式個數:3121168
crfSegmenter 索引組合:[2, 4]
總精確率:4.303815379905947,總召回率:4.319278844674585,總f得分:4.3110250314863805

總的Unigram特徵函式個數:3451088
crfSegmenter 索引組合:[3, 4]
總精確率:4.301584825129588,總召回率:4.313496993334974,總f得分:4.306981460885512

總的Unigram特徵函式個數:1807132
crfSegmenter 索引組合:[0, 1, 2]
總精確率:4.336198629407074,總召回率:4.3380218510367,總f得分:4.336555027225279

總的Unigram特徵函式個數:2265043
crfSegmenter 索引組合:[0, 1, 3]
總精確率:4.328251017743472,總召回率:4.3401766630044465,總f得分:4.333603057084105

總的Unigram特徵函式個數:3393738
crfSegmenter 索引組合:[0, 1, 4]
總精確率:4.309423068560654,總召回率:4.3055980993507905,總f得分:4.306860566527684

總的Unigram特徵函式個數:2324296
crfSegmenter 索引組合:[0, 2, 3]
總精確率:4.3362176999141635,總召回率:4.326000061514508,總f得分:4.330519709525633

總的Unigram特徵函式個數:3437246
crfSegmenter 索引組合:[0, 2, 4]
總精確率:4.309660342806946,總召回率:4.306351776885001,總f得分:4.3074591804276094

總的Unigram特徵函式個數:3741094
crfSegmenter 索引組合:[0, 3, 4]
總精確率:4.30275825431282,總召回率:4.304430311027441,總f得分:4.303007535324407

總的Unigram特徵函式個數:2107239
crfSegmenter 索引組合:[1, 2, 3]
總精確率:4.347279501022128,總召回率:4.348538072250367,總f得分:4.347382274041837

總的Unigram特徵函式個數:3277709
crfSegmenter 索引組合:[1, 2, 4]
總精確率:4.320703559544421,總召回率:4.330356554563042,總f得分:4.325007886653665

總的Unigram特徵函式個數:3591918
crfSegmenter 索引組合:[1, 3, 4]
總精確率:4.314629941864543,總召回率:4.325656488777164,總f得分:4.319581815232458

總的Unigram特徵函式個數:3629110
crfSegmenter 索引組合:[2, 3, 4]
總精確率:4.319223301467417,總召回率:4.320357557189831,總f得分:4.319273932068687

總的Unigram特徵函式個數:2512791
crfSegmenter 索引組合:[0, 1, 2, 3]
總精確率:4.342177977903567,總召回率:4.339490183620515,總f得分:4.340292058767584

總的Unigram特徵函式個數:3569840
crfSegmenter 索引組合:[0, 1, 2, 4]
總精確率:4.319390204433497,總召回率:4.315819417531209,總f得分:4.317053502662063

總的Unigram特徵函式個數:3861972
crfSegmenter 索引組合:[0, 1, 3, 4]
總精確率:4.3103564835753705,總召回率:4.3132556212746165,總f得分:4.311226205914882

總的Unigram特徵函式個數:3759092
crfSegmenter 索引組合:[1, 2, 3, 4]
總精確率:4.324385980484043,總召回率:4.3263572005287925,總f得分:4.324874072540238

總的Unigram特徵函式個數:3895565
crfSegmenter 索引組合:[0, 2, 3, 4]
總精確率:4.308663909378264,總召回率:4.303066912536404,總f得分:4.305327828827322

總的Unigram特徵函式個數:4010207
crfSegmenter 索引組合:[0, 1, 2, 3, 4]
總精確率:4.3142094471590475,總召回率:4.310626916544051,總f得分:4.311899688134844

感謝觀看,覺得不錯的話可以考慮支援下我,用我的AI大師碼0415在滴滴雲上購買GPU/vGPU/機器學習產品可享受9折優惠,點選www.didiyun.com前往滴滴雲官網。
GPU:https://www.didiyun.com/production/gpu.html
VGPU:https://www.didiyun.com/production/vgpu.html
機器學習工作室(DAI):https://www.didiyun.com/production/dai.html

相關文章