kmp演算法實現原理及簡單示例

侯凱的部落格發表於2014-09-18

以前看過kmp演算法,當時接觸後總感覺好深奧啊,抱著資料結構的數啃了一中午,最終才大致看懂,後來提起kmp也只剩下“奧,它是做模式匹配的”這點乾貨。最近有空,翻出來演算法導論看看,原來就是這麼簡單(下不說程式實現,思想很簡單)。

模式匹配的經典應用:從一個字串中找到模式字串的位置。如“abcdef”中“cde”出現在原串第三個位置。從基礎看起

樸素的模式匹配演算法

A:abcdefg  B:cde

首先B從A的第一位開始比較,B++==A++,如果全部成立,返回即可;如果不成立,跳出,從A的第二位開始比較,以此類推。

/*
 *侯凱,2014-9-16
 *功能:模式匹配
 */
#include<iostream>
#include <string>
using namespace std;

int index(char *a,char *b)
{
    int tarindex = 0;
    while(a[tarindex]!='\0')
    {
        int tarlen = tarindex;
        int patlen;
        for(patlen=0;b[patlen]!='\0';patlen++)
        {
            if(a[tarlen++]!=b[patlen])
            {
                break;
            }
        }
        if(b[patlen]=='\0')
        {
            return tarindex;
        }
        tarindex++;
    }
    return -1;
}
int main()
{
    char *a = "abcdef";
    char *b = "cdf";
    cout<<index(a,b)<<endl;
      system("Pause");
}

思路樸實無華,十分有效,但是時間複雜度是O(mn),m、n分別是字串和模式串的長度。模式匹配是一個常見的應用問題,用的廣了,就有人想法去優化了。Rabin-Karp演算法、有限自動機等等,前仆後繼,最終出現了KMP(Knuth-Morris-Pratt)演算法。

kmp演算法

image

優化的地方:如果我們知道模式中a和後面的是不相等的,那麼第一次比較後,發現後面的的4個字元均對應相等,可見a下次匹配的位置可以直接定位到f了。說明主串對應位置i的回溯是不必要的。這是kmp最基本最關鍵的思想和目標。

再比如:

image

由於abc 與後面的abc相等,可以直接得到紅色的部分。而且根據前一次比較的結果,abc就不需要比較了,現在只需從f-a處開始比較即可。說明主串對應位置i的回溯是不必要的。要變化的是模式串中j的位置(j不一定是從1開始的,比如第二個例子)

j的變化取決於模式串的前字尾的相似度,例2中abc和abc(靠近x的),字首為abc,j=4開始執行。

j是前一次執行的模式子串(前幾個,上例為6)中字首的個數+1;它與模式字串中從前向後的字首和從後向前的字尾的相同子串是有關係的,因為下次這部分相同的字首就會移動到這部分字尾的位置,因為如果移動到字尾的前面位置,看圖:

image

所以如果這次是j,下次的位置應該就是j前面的子串的最大字首的長度+1,用這個新的位置再和原字串的i位置進行比較就很幸福了。

這次是j,下次到底是多少呢,這就涉及到怎麼計算的問題了?其實只看模式串我們就可以構建出這個j->x的關係,關係稱為字首函式,結果儲存在陣列中,稱為字首陣列。

虛擬碼:

compiter-prefix-function(P)
    m<-length[p]
    pi[1]<-0
    k<-0
    for q<-2 to m
        do while k>0 and P[k+1]!=P[q]
                    do k<-pi[k] //字首的字首...
           if P[k+1]==P[q]
                    then k<-k+1
           pi[q]<-k
    return pi

使用字首陣列可很快地實現模式匹配,程式匹配字串中模式出現的所有位置。

kmp-matcher(T, P)
    n<-length[T]
    m<-length[P]
    pi<-compiter-prefix-function(P)
    q<-0
    for i<-1 to n
        do while q>0 and P[q+1]!=T[i]
            do q<-pi[q] //字首的字首...
        if P[q+1]==T[i]
            then q<-q+1
        if q==m
            then print “Pattern occurs with shift”i-m
                    q<-pi[q]

這兩段程式碼思想完全相同,如果和字首不同就比較字首的字首…,比較巧妙。如果kmp有難理解的地方,估計就是這段偽碼的了。

KMP演算法的時間複雜度為O(n+m)。

這裡需要強調一下,KMP演算法的僅當模式與主串之間存在很多部分匹配情況下才能體現它的優勢,部分匹配時KMP的i不需要回溯,否則和樸素模式匹配沒有什麼差別。

相關文章