白話 KMP 演算法

彌宣發表於2019-03-02

原文網址 : https://flycode.co/archives/263773

KMP演算法

KMP 演算法是計算機字串匹配的常規演算法。wiki
本篇文章藉助簡單示例，用通俗易懂的方式描述對 KMP 演算法的理解。

匹配值表

對於 KMP 來說，“匹配值表”是很關鍵的。下面我們從簡單示例出發描述匹配值表是如何產生的，以便理解。

現在我們需要查詢的字串是 “ABABABCA”。

在描述“匹配值表“之前，我們需要簡短的介紹下字首和字尾的概念:

字首：從 0 位，依次擷取 1 到(len – 1)長度字串的集合
字尾：從 len – 1 位反序，依次擷取 1 到(len – 1)長度字串的集合

字串	字首集合	字尾集合	字首字尾交集
“A”	[]	[]	[]
“AB”	[A]	[B]	[]
“ABA”	[A,AB]	[A, BA]	[A]
“ABAB”	[A, AB, ABA]	[B, AB, BAB]	[AB]
“ABABA”	[A, AB, ABA, ABAB]	[A, BA, ABA, BABA]	[A, ABA]
“ABABAB”	[A, AB, ABA, ABAB, ABABA]	[B, AB, BAB, ABAB, BABAB]	[AB, ABAB]
“ABABABC”	[A, AB, ABA, ABAB, ABABA, ABABAB]	[C, BC, ABC, BABC, ABABC, BABABC]	[]
“ABABABCA”	[A, AB, ABA, ABAB, ABABA, ABABAB, ABABABC]	[A, CA, BCA, ABCA, BABCA, ABABCA, BABABCA]	[A]

從上表，如果耐心看，完全可以理解字首和字尾的概念。

那麼“匹配值”又是指什麼呢？

“匹配值”是指字首和字尾集合，最長共有元素的長度，即交集中最長元素的長度

那麼不難從上表中得出每一位(index)字元對應“匹配值(value)”:

char: | A | B | A | B | A | B | C | A |
index:| 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 |
value:| 0 | 0 | 1 | 2 | 3 | 4 | 0 | 1 |
複製程式碼

匹配值表的使用

我們可以根據匹配值表來加速查詢匹配的過程。

下面還是舉例說明問題：

在字串”BACBABABAABCBABABABCA”(text)中查詢上文中的字串”ABABABCA”(pattern)，
下文中對兩個字串的代稱為括號之內的單詞。

從 text 第一位開始匹配，第一次匹配成功是這樣：

BACBABABAABCBABABABCA
 |
 ABABABCA
複製程式碼

那麼開始往後匹配，發現 text 的第二位”C”和 pattern 的第二位”B”不匹配，
所以當前部分匹配長度為1(只有一個A)，並且根據上文的匹配值表得到，當前的匹配值為 0。

移動位數 = 已匹配字元長度 - 對應位的匹配值

即移動位數 = 1 – 0，所以我們繼續向後移一位進行匹配。

再一次匹配成功的情形：

BACBABABAABCBABABABCA
    |||||
    ABABABCA
複製程式碼

此時，text 中的”A”與 pattern 中的 “B” 不匹配，如果不按照演算法，肯定是繼續後移一位進行匹配。
如果根據上述計算公式：

移動位數 = “ABABA”.length – pattern[4]的匹配值
即 5 – 3 = 2

所以我們可以一次後移兩位：

BACBABABAABCBABABABCA
    xx|||
      ABABABCA
複製程式碼

又不匹配了，此時應該後移
“ABA”.length – pattern[2]的匹配值
即 3 – 1 = 2

繼續後移兩位：

BACBABABAABCBABABABCA
      xx|
        ABABABCA
複製程式碼

繼續後移
“A”.length – pattern[0]的匹配值
即 1 – 0 = 1

後移一位：

BACBABABAABCBABABABCA
        x||
         ABABABCA
複製程式碼

繼續後移
“AB”.length – pattern[1]的匹配值
即 2 – 0 = 2

後移兩位：

BACBABABAABCBABABABCA
         xx|
           ABABABCA
複製程式碼

第一位都不匹配，我們繼續往後移動直到匹配成功

BACBABABAABCBABABABCA
             ||||||||
             ABABABCA
複製程式碼

移動幾次之後(step=1)，找到了最終匹配結果。

參考：
jakeboxer.com/blog/2009/1…

白話EM演算法
2018-09-04
演算法
KMP 演算法
2024-09-04
KMP演算法
KMP演算法
2024-07-16
KMP演算法
白話異常檢測演算法Isolation Forest
2018-09-29
演算法REST
白話HTTPS
2018-11-09
HTTP
【演算法】KMP演算法
2021-02-13
演算法KMP
演算法之KMP
2020-09-30
演算法KMP
白話說大資料演算法C4.5
2018-09-25
大資料演算法
演算法（2）KMP演算法
2019-04-08
演算法KMP
白話說框架
2020-11-22
框架
【演算法】KMP初識
2018-08-06
演算法KMP
KMP演算法詳解
2021-04-30
KMP演算法
解讀KMP演算法
2021-03-03
KMP演算法
白話Angular詞彙
2019-02-22
Angular
KMP模式匹配演算法
2018-10-05
KMP模式演算法
KMP字串匹配演算法
2023-10-01
KMP字串匹配演算法
KMP演算法 Java實現
2024-04-17
KMP演算法Java
字串匹配演算法：KMP
2023-11-04
字串匹配演算法KMP
【大話資料結構C語言】22 串的快速模式匹配演算法（KMP演算法）
2020-11-18
資料結構C語言模式演算法KMP
KMP演算法和bfprt演算法總結
2020-11-15
KMP演算法
字串匹配演算法(三)-KMP演算法
2021-08-02
字串匹配演算法KMP
字串匹配-BF演算法和KMP演算法
2021-03-13
字串匹配演算法KMP
模式匹配kmp演算法（c++）
2020-11-14
模式KMP演算法C++
演算法·理論：KMP 筆記
2024-08-02
演算法KMP筆記
字串匹配問題——KMP演算法
2018-03-23
字串匹配KMP演算法
KMP演算法（Leetcode第28題）
2020-12-07
KMP演算法LeetCode
字串匹配之KMP《演算法很美》
2021-01-04
字串匹配KMP演算法
白話深度神經網路
2019-08-20
神經網路
白話理解和使用DOCKER VOLUME
2024-06-11
Docker
"白話"PHP檔案包含漏洞
2021-08-06
PHP
概念剖析：白話主資料
2022-05-10
白話說https執行原理
2020-11-29
HTTP
字串匹配基礎下——KMP 演算法
2018-12-11
字串匹配KMP演算法
資料結構-KMP模式演算法
2019-04-12
資料結構KMP模式演算法
kmp字串匹配，A星尋路演算法
2018-09-21
KMP字串匹配演算法
把KMP演算法嚼碎！（C++）
2023-01-20
KMP演算法C++
字串演算法--$\mathcal{KMP，Trie}$樹
2023-03-29
字串演算法KMP
《白話強化學習與Pytorch》
2024-04-29
強化學習PyTorch

白話 KMP 演算法

匹配值表

匹配值表的使用

相關文章