Java實現：拋開jieba等工具，寫HMM+維特比演算法進行詞性標註

Charzueus發表於2020-10-21

一、前言：詞性標註

　　詞性標註（Part-Of-Speech tagging, POS tagging），是語料庫語言學中將語料庫中單詞的詞性按其含義和上下文內容進行標記的文字資料處理技術。詞性標註可以由人工或特定演算法完成，使用機器學習（machine learning）方法實現詞性標註是自然語言處理（NLP）的研究內容。常見的詞性標註演算法包括隱馬爾可夫模型（Hidden Markov Model, HMM）、條件隨機場（Conditional random fields, CRFs）等。

在進入本篇演算法的應用和實踐之前，建議學習以下兩篇內容，會有更好更容易的理解。

1、隱馬爾可夫模型(HMM)來龍去脈（一）(https://www.cnblogs.com/chenzhenhong/p/13537680.html)

2、隱馬爾可夫模型(HMM)來龍去脈（二）(https://www.cnblogs.com/chenzhenhong/p/13592058.html)

本篇實踐的目標：

除了用jieba等分詞詞性標註工具，不如自行寫一個演算法實現同樣的功能，這個過程可以對理論知識更好地理解和應用。下面將詳細介紹使用HMM+維特比演算法實現詞性標註。在給定的單詞發射矩陣和詞性狀態轉移矩陣，完成特定句子的詞性標註。

二、經典維特比演算法(Viterbi)

詞性標註使用隱馬爾可夫模型原理，結合維特比演算法(Viterbi)，具體演算法虛擬碼如下：

維特比演算法正是解決HMM的三個基本問題中的第二個問題：在給定的觀察序列中，找出最優的隱狀態序列。應用在詞性標註上，就是找到概率最大化的單詞的詞性。

下面是對維特比演算法更加容易的解釋：

觀察序列長度 T，狀態個數N

for 狀態s from 1 to N：do

//計算每個狀態的概率，相當於計算第一觀察值的隱狀態t=1

v[s,1] = a(0,s)*b(O1|s) //初始狀態概率 * 發射概率

//回溯儲存最大概率狀態

back[s,1]=0

//計算每個觀察（詞語）取各個詞性的概率，儲存最大者

for from 觀察序列第二個 to T do：

for 狀態s from 1 to N：do

//當前狀態由前一個狀態*轉移*發射（該狀態/詞性下詞t的概率），儲存最大者

v[s,t]=max v[i,t-1]*a[i,s]*b(Ot | s)

//儲存回溯點，該點為前一個狀態轉移到當前狀態的最大概率點

back[s,t]=arg{1,N} max v[i,t-1]*a(i,s)

//最後

v[T]=max v[T]

back[T] = arg{1,N} max v[T]

//回溯輸出隱狀態序列

三、演算法實現

第一步，拆分演算法計算問題，計算狀態轉移概率矩陣和符號發射概率矩陣方法：

根據給出的單詞出現次數和詞性狀態矩陣，使用computeProp()方法計算得到發射概率矩陣和狀態轉移矩陣。

public void computeProp(float[][] A) {//計算概率矩陣
        int i, j;
        float[] t = new float[A.length];
        //平滑資料，對陣列每個元素值加一
        for (i = 0; i < A.length; i++) {
            for (j = 0; j < A[i].length; j++) {
                A[i][j] += 1;
                t[i] += A[i][j];
            }
        }
        //計算當前元素在該行中的概率
        for (i = 0; i < A.length; i++)
            for (j = 0; j < A[i].length; j++)
                A[i][j] /= t[i];
 
    }

得到狀態轉移概率矩陣如下：

得到符號發射概率矩陣如下：

第二步，核心演算法。本程式的關鍵部分是維特比演算法的實現，計算得到最大概率的隱狀態，然後儲存最佳狀態轉移位置。對於每個觀察值，先計算對應的可能的隱狀態。

public int[] Viterbi(float[][] A, float[][] B, String[] O,double[] init) {
        int back[][] = new int[A.length][O.length];
        float V[][] = new float[A.length][O.length];
        int i, s, k, t;
 
        for (i = 0; i < A.length; i++) {
            V[i][0] = (float) (init[i] * B[i][0]);
            back[i][0] = i;
        }
        //計算每個觀察值的取隱狀態中的最大概率
        for (t = 1; t < O.length; t++) {
            int[][] path = new int[A.length][O.length];
            //遍歷每個隱狀態，計算狀態轉移到當前狀態的概率,得到最大概率狀態
            for (s = 0; s < A.length; s++) {
                float maxSProb = -1;
                int preS = 0;
                for (i = 0; i < A.length; i++) {
                    float prob = V[i][t - 1] * A[i][s] * B[s][t];//B[s][t]為隱狀態s到觀察值t的發射概率
                    if (prob > maxSProb) {
                        maxSProb = prob;
                        preS = i;
                    }
                }
                //儲存該狀態的最大概率
                V[s][t] = maxSProb;
                //記錄路徑
                System.arraycopy(back[preS],0,path[s],0,t);
                path[s][t]=s;//最大概率狀態轉移記錄
            }
            back=path;//更新最優路徑
        }
 
        //回溯路徑，找到最後狀態
        float maxP = -1;
        int lastS = 0;
        for (s = 0; s < A.length; s++) {
            if (V[s][O.length - 1] > maxP) {
                maxP = V[s][O.length - 1];
                lastS = s;
            }
        }
        return back[lastS];//返回最佳路徑
    }

以上是維特比演算法，重要的程式碼語句解析可見註釋。演算法實現了將待標註句子使用維特比演算法計算最大概率，得到最佳路徑。

網上大部分使用了python實現該演算法，python寫起來簡單，所以我嘗試使用java實現，略有不同，期間遇到了一些小問題，後來不斷debug解決問題。得到正確的java編寫的維特比演算法。

四、完整程式碼

 
 
/*
 *  hmm_viterbi.java
 * Copyright (c) 2020-10-17
 * author : Charzous
 * All right reserved.
 */
 
public class hmm_viterbi {
 
    public int[] Viterbi(float[][] A, float[][] B, String[] O) {
        int back[][] = new int[A.length][O.length];
        float V[][] = new float[A.length][O.length];
        double[] init = {0.2, 0.1, 0.1, 0.2, 0.3, 0.1};
        int i, s, k, t;
 
        for (i = 0; i < A.length; i++) {
            V[i][0] = (float) (init[i] * B[i][0]);
            back[i][0] = i;
        }
        //計算每個觀察值的取隱狀態中的最大概率
        for (t = 1; t < O.length; t++) {
            int[][] path = new int[A.length][O.length];
            //遍歷每個隱狀態，計算狀態轉移到當前狀態的最大概率
            for (s = 0; s < A.length; s++) {
                float maxSProb = -1;
                int preS = 0;
                for (i = 0; i < A.length; i++) {
                    float prob = V[i][t - 1] * A[i][s] * B[s][t];//B[s][t]為隱狀態s到觀察值t的發射概率
                    if (prob > maxSProb) {
                        maxSProb = prob;
                        preS = i;
                    }
                }
                //儲存該狀態的最大概率
                V[s][t] = maxSProb;
                //記錄路徑
                System.arraycopy(back[preS],0,path[s],0,t);
                path[s][t]=s;
            }
            back=path;
        }
 
 
        //回溯路徑
        float maxP = -1;
        int lastS = 0;
        for (s = 0; s < A.length; s++) {
            if (V[s][O.length - 1] > maxP) {
                maxP = V[s][O.length - 1];
                lastS = s;
            }
        }
        return back[lastS];
    }
 
    public void computeProp(float[][] A) {
        int i, j;
        float[] t = new float[A.length];
        //平滑資料，對陣列每個元素值加一
        for (i = 0; i < A.length; i++) {
            for (j = 0; j < A[i].length; j++) {
                A[i][j] += 1;
                t[i] += A[i][j];
            }
        }
        //計算當前元素在該行中的概率
        for (i = 0; i < A.length; i++)
            for (j = 0; j < A[i].length; j++)
                A[i][j] /= t[i];
 
        System.out.println();
//        for (i = 0; i < A.length; i++) {
//            for (j = 0; j < A[i].length; j++)
//                System.out.print(A[i][j] + " ");
//            System.out.println();
//        }
 
    }
 
    public static void main(String[] args) {
        //狀態轉移矩陣
        float A[][] = {{0, 0, 0, 48636, 0, 19}, {1973, 0, 426, 187, 0, 38}, {43322, 0, 1325, 17314, 0, 185}, {1067, 3720, 42470, 11773, 614, 21392}, {6072, 42, 4758, 1476, 129, 1522}, {8016, 75, 4656, 1329, 954, 0}};
        //發射矩陣
        float B[][] = {{0, 0, 0, 0, 0, 0, 69016, 0}, {0, 10065, 0, 0, 0, 0, 0, 0}, {0, 0, 0, 5484, 0, 0, 0, 0}, {10, 0, 36, 0, 382, 108, 0, 0}, {43, 0, 133, 0, 0, 4, 0, 0}, {0, 0, 0, 0, 0, 0, 0, 48809}};
 
        int i, j;
        //語料庫詞語
        String[] word = {"bear", "is", "move", "on", "president", "progress", "the", "."};
        //待標註句子
        String O[] = {"The", "bear", "is", "on", "the", "move", "."};
        //語料庫詞性
        String Q[] = {"/AT ", "/BEZ ", "/IN ", "/NN ", "/VB ", "/PERIOD "};
        String seq="Bear move on the president .";
        String Os[]=seq.split(" ");
        for (String w:O)
            System.out.println(w);
 
        float emission[][] = new float[B.length][O.length];
 
        hmm_viterbi hmmViterbi = new hmm_viterbi();
        hmmViterbi.computeProp(A);
 
        //計算觀察序列的轉移矩陣
        //根據待標註句子的詞計算出每個單詞的出現次數矩陣
        for (i = 0; i < O.length; i++) {
            int r = 0;
            for (int t = 0; t < word.length; t++) {
                if (O[i].equalsIgnoreCase(word[t]))
                    r = t;
            }
            for (j = 0; j < B.length; j++)
                emission[j][i] = B[j][r];
        }
        hmmViterbi.computeProp(emission);
        int path[];
        path=hmmViterbi.Viterbi(A, emission, O);
 
        for (i=0;i<O.length;i++){
            System.out.print(O[i]+Q[path[i]]);
        }
 
//        for (int p:path)
//            System.out.print(p+" ");
 
    }
}

View Code

五、效果演示：

對於本實驗的詞性標註，簡單設計了互動介面，方面測試不同句子的標註結果。在給定的測試句子”The bear is on the move .”上，實驗結果如下：

The/AT bear/NN is/BEZ on/IN the/AT move/NN ./PERIOD

然後根據語料庫自己造了一個句子，僅供測試用：”The president is bear .”實驗結果：The/AT president/NN is/IN bear/NN ./PERIOD

感覺還可以，當然這只是一個例子，更確切需要更大的語料庫。

六、總結

　　本篇詳細介紹Java實現的HMM+維特比演算法實現詞性標註。在給定的單詞發射矩陣和詞性狀態轉移矩陣，完成特定句子的詞性標註。這個任務可以在剛接觸HMM和維特比演算法進行詞性標註作為實踐，為之後實現特定語料庫的詞性標註鋪墊。在完成本任務時，java程式設計實現演算法時遇到了一些的問題，如：最佳路徑的儲存，回溯路徑的返回。經過了一段時間的debug，實現了最基本的演算法對句子進行詞性標註。完成這個任務後，對HMM+Viterbi 演算法的詞性標註有了更深刻的理解，之後準備完成第三個任務：基於人民日報資料集的中文詞性標註，可以對該演算法進行更實際的應用，加深知識的理解。

我的部落格園：https://www.cnblogs.com/chenzhenhong/p/13850687.html

我的CSDN部落格：https://blog.csdn.net/Charzous/article/details/109138830

版權宣告：本文為博主原創文章，遵循 CC 4.0 BY-SA 版權協議，轉載請附上原文出處連結和本宣告。

本文連結：https://blog.csdn.net/Charzous/article/details/109138830

jieba 詞性標註 & 並行分詞
2020-12-19
Jieba詞性標註並行分詞
[譯] 利用 Keras 深度學習庫進行詞性標註教程
2018-04-28
Keras深度學習詞性標註
自然語言處理工具pyhanlp分詞與詞性標註
2019-05-18
自然語言處理HanLP分詞詞性標註
python的詞性標註
2020-12-24
Python詞性標註
HMM-維特比演算法理解與實現（python）
2020-05-13
HMM維特比演算法Python
pyhanlp 中文詞性標註與分詞簡介
2019-01-07
HanLP詞性標註分詞
python使用jieba實現中文文件分詞和去停用詞
2019-06-19
PythonJieba分詞
系統學習NLP（十）--詞性標註演算法綜述
2019-03-09
詞性標註演算法
java版JieBa分詞原始碼走讀
2019-03-01
JavaJieba分詞原始碼
NLP標籤/關鍵詞-提取工具-java開發
2020-10-30
Java
hanlp和jieba等六大中文分工具的測試對比
2019-02-25
HanLPJieba
一文看懂詞性標註（基本概念+4種方法+7種工具）
2019-09-13
詞性標註
中文分詞工具之基於字標註法的分詞
2019-06-26
中文分詞
textrank-jieba 演算法復現
2019-02-16
Jieba演算法
精通Python自然語言處理 4 ：詞性標註--單詞識別
2018-06-01
Python自然語言處理詞性標註
ElasticSearch中使用ik分詞器進行實現分詞操作
2024-03-21
Elasticsearch分詞
Hanlp分詞例項：Java實現TFIDF演算法
2018-11-14
HanLP分詞Java演算法
Python自然語言處理實戰（4）：詞性標註與命名實體識別
2018-07-16
Python自然語言處理詞性標註
python jieba庫，句子分詞
2024-08-25
PythonJieba分詞
python 中文分詞包 jieba
2020-12-18
Python中文分詞Jieba
商標註冊|以後要開特產店？“鵝廠特產”商標被申請註冊
2021-10-28
線性表及其演算法（java實現）
2019-01-19
演算法Java
用Python寫一個圖片標註工具
2018-12-27
Python
CAD中如何進行尺寸標註
2021-07-20
jieba 基於 TF-IDF 演算法的關鍵詞提取
2020-12-19
Jieba演算法
基於結構化感知機的詞性標註與命名實體識別框架
2019-04-08
詞性標註框架
介面冪等性如何實現？
2020-04-01
Java使用正規表示式對註冊頁面進行驗證功能實現
2022-03-20
Java
Part 1.2 基於維特比演算法來優化上述流程
2020-12-19
維特比演算法優化
Java十四種開發工具及其特點
2019-06-11
Java
維特比演算法和隱馬爾可夫模型的解碼
2021-10-28
維特比演算法隱馬爾可夫模型
數倉中指標-標籤，維度-度量，自然鍵-代理鍵等各名詞解析及關係
2021-09-09
指標
數倉中指標-標籤，維度-度量，自然鍵-代理鍵等各名詞術語深度解析
2021-09-15
指標
雙向最大匹配演算法——基於詞典規則的中文分詞(Java實現)
2020-09-29
演算法中文分詞Java
GoodNotes 5—手寫筆記和PDF標註必備工具
2020-07-06
Go筆記
自然語言處理之jieba分詞
2020-08-18
自然語言處理Jieba分詞
利用齊次座標進行二維座標轉換
2021-12-17
使用思維導圖工具MindManager幫助實現目標設定
2019-02-11