白話 KMP 演算法

彌宣發表於2019-03-02

KMP 演算法是計算機字串匹配的常規演算法。wiki
本篇文章藉助簡單示例,用通俗易懂的方式描述對 KMP 演算法的理解。

匹配值表

對於 KMP 來說,“匹配值表”是很關鍵的。下面我們從簡單示例出發描述匹配值表是如何產生的,以便理解。

現在 我們需要查詢的字串是 “ABABABCA”。

在描述“匹配值表“之前,我們需要簡短的介紹下字首和字尾的概念:

字首:從 0 位,依次擷取 1 到(len – 1)長度字串的集合
字尾:從 len – 1 位反序,依次擷取 1 到(len – 1)長度字串的集合

字串 字首集合 字尾集合 字首字尾交集
“A” [] [] []
“AB” [A] [B] []
“ABA” [A,AB] [A, BA] [A]
“ABAB” [A, AB, ABA] [B, AB, BAB] [AB]
“ABABA” [A, AB, ABA, ABAB] [A, BA, ABA, BABA] [A, ABA]
“ABABAB” [A, AB, ABA, ABAB, ABABA] [B, AB, BAB, ABAB, BABAB] [AB, ABAB]
“ABABABC” [A, AB, ABA, ABAB, ABABA, ABABAB] [C, BC, ABC, BABC, ABABC, BABABC] []
“ABABABCA” [A, AB, ABA, ABAB, ABABA, ABABAB, ABABABC] [A, CA, BCA, ABCA, BABCA, ABABCA, BABABCA] [A]

從上表,如果耐心看,完全可以理解字首和字尾的概念。

那麼“匹配值”又是指什麼呢?

“匹配值”是指字首和字尾集合,最長共有元素的長度,即交集中最長元素的長度

那麼不難從上表中得出每一位(index)字元對應“匹配值(value)”:

char: | A | B | A | B | A | B | C | A |
index:| 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 |
value:| 0 | 0 | 1 | 2 | 3 | 4 | 0 | 1 |
複製程式碼

匹配值表的使用

我們可以根據匹配值表來加速查詢匹配的過程。

下面還是舉例說明問題:

在字串”BACBABABAABCBABABABCA”(text)中查詢上文中的字串”ABABABCA”(pattern),
下文中對兩個字串的代稱為括號之內的單詞。

從 text 第一位開始匹配,第一次匹配成功是這樣:

BACBABABAABCBABABABCA
 |
 ABABABCA
複製程式碼

那麼開始往後匹配,發現 text 的第二位”C”和 pattern 的第二位”B”不匹配,
所以當前部分匹配長度為1(只有一個A),並且根據上文的匹配值表得到,當前的匹配值為 0。

移動位數 = 已匹配字元長度 - 對應位的匹配值

即 移動位數 = 1 – 0,所以我們繼續向後移一位進行匹配。

再一次匹配成功的情形:

BACBABABAABCBABABABCA
    |||||
    ABABABCA
複製程式碼

此時,text 中的”A”與 pattern 中的 “B” 不匹配,如果不按照演算法,肯定是繼續後移一位進行匹配。
如果根據上述計算公式:

移動位數 = “ABABA”.length – pattern[4]的匹配值
即 5 – 3 = 2

所以我們可以一次後移兩位:

BACBABABAABCBABABABCA
    xx|||
      ABABABCA
複製程式碼

又不匹配了,此時應該後移
“ABA”.length – pattern[2]的匹配值
即 3 – 1 = 2

繼續後移兩位:

BACBABABAABCBABABABCA
      xx|
        ABABABCA
複製程式碼

繼續後移
“A”.length – pattern[0]的匹配值
即 1 – 0 = 1

後移一位:

BACBABABAABCBABABABCA
        x||
         ABABABCA
複製程式碼

繼續後移
“AB”.length – pattern[1]的匹配值
即 2 – 0 = 2

後移兩位:

BACBABABAABCBABABABCA
         xx|
           ABABABCA
複製程式碼


第一位都不匹配,我們繼續往後移動直到匹配成功

BACBABABAABCBABABABCA
             ||||||||
             ABABABCA
複製程式碼

移動幾次之後(step=1),找到了最終匹配結果。

參考:
jakeboxer.com/blog/2009/1…

相關文章