KMP演算法詳解

mrmrwjk發表於2021-04-30

原文網址 : https://www.cnblogs.com/mrmrwjk/p/14720650.html

KMP演算法

KMP演算法是解決字串匹配的常用演算法之一，也就是在主串（比如aabbccdd）中的子串（bc）定位問題。子串稱為P，如果它在一個主串稱為T中出現，就返回它的具體位置，我們先來看看普通的字串匹配是怎麼做的

最基礎的匹配

思路：從左到右一個個匹配，如果這個過程中有某個字元不匹配，將子串向右移動一位，繼續從左到右一一匹配。

當匹配到如圖第四個字元位置後，匹配失敗，子串後移，繼續匹配

第一位匹配失敗，繼續後移...

直到匹配成功

程式碼如下：

public class Normal {
	
	public static void main(String[] args) {
		int index = bf("ABCABCEFG", "ABCE");
		System.out.println(index);
	}
	
	public static int bf(String ts, String ps) {
		char[] t = ts.toCharArray();
		char[] p = ps.toCharArray();
		int i = 0; // 主串的位置
		int j = 0; // 子串的位置

		while (i < t.length && j < p.length) {
			if (t[i] == p[j]) { // 當兩個字元相同，就比較下一個
				i++;
				j++;
			} else {
				i = i - j + 1; // 一旦不匹配，i後退
				j = 0; // j歸0
			}
		}

		if (j == p.length) {
			return i - j;
		} else {
			return -1;
		}
	}
}
複製程式碼

這種方式是效率最低，匹配次數最多的情況，接下來看KMP的解決思路

KMP中的PMT

KMP在遇到下圖位置時，不會很無腦的把子串的j移動到第0位，主串的i移動到第1位，然後進行T[i]==P[j]的比較

因為從圖上可以看得出

後移一位後子串前三位（ABC）和主串的T[1-4]（BCA）肯定是不匹配的，無需白白浪費這幾次比較

，最好應該是直接讓i不變，j==0，如下圖

從這裡開始匹配，省去了前面的幾次無用匹配。

KMP思想：利用前面匹配的資訊，保持i指標不變，通過修改j指標，讓子串儘量地移動到有效的位置。

整個KMP的重點就在於當某一個字元與主串不匹配時，我們應該知道j指標要移動到哪？

先用肉眼來看一下規律：

如圖：C和D不匹配了，我們要把j移動到哪？顯然是第1位。為什麼？因為前面有一個A相同可以用：

再看一種：

可以把j指標移動到第2位，因為前面有兩個字母是一樣的：

我們可以看出來，匹配失敗的時候，j變為k,j前面的的n個字元等於子串開頭到k位置的n個字元的值

即：P[0 ~ k-1] == P[j-k ~ j-1]

這時我們發現規律了，其實就是要求當前j之前的字串也就是ABCAB它的首尾對稱的長度最大長度也就是PMT值。

PMT中的值是字串的字首集合與字尾集合的交集中最長元素的長度。

例如，對於”aba”，它的字首集合為{”a”, ”ab”}，字尾集合為{”ba”, ”a”}。
兩個集合的交集為{”a”}，
那麼長度最長的元素就是字串”a”了，長度為1，所以對於”aba”而言，它在PMT表中對應的值就是1。
再比如，對於字串”ababa”，它的字首集合為{”a”, ”ab”, ”aba”, ”abab”}，
它的字尾集合為{”baba”, ”aba”, ”ba”, ”a”}， 
兩個集合的交集為{”a”, ”aba”}，其中最長的元素為”aba”，長度為3。
複製程式碼

所以上面最後一個圖的情況下，j位置之前的字串的PMT值為2，所以j的值變成2。

KMP之next陣列

那麼好了接下來核心就是求得P串每個下標元素對應的k值即可，因為在P的每一個位置都可能發生不匹配，我們要計算每一個位置j對應的k，所以用一個陣列next來儲存，next[j] = k，表示當T[i] != P[j]時，j應該變為k。

求next陣列程式碼如下

public class Next {
	
	public static int[] getNext(String ps) {
		char[] p = ps.toCharArray();
		int[] next = new int[p.length];
		next[0] = -1;
		int j = 0;
		int k = -1;
		while (j < p.length - 1) {
			if (k == -1 || p[j] == p[k]) {
				next[++j] = ++k;
			} else {
				k = next[k];
			}
		}
		return next;
	}
}

複製程式碼

通過上面程式碼可以直接算出j為0和1時的k，當j為0時，已經無法後退了所以設定為-1初始化值，當j為1時，它的前面只有下標0了，所以next[0]=-1,next[1]=0.

接下來就是兩種主要情況了

if (k == -1 || p[j] == p[k]) {   第一種p[j] == p[k]
    next[++j] = ++k;
} else {                         第二種p[j] != p[k]
    k = next[k];
}
複製程式碼

第一種p[j] == p[k]

p[j] == p[k]時，有next[++j] = ++k; 因為當在p[j-1]處匹配失敗後，j-1變為k-1，從k-1處重新開始匹配，原因就是他們共同有一個字首A，所以當p[j] == p[k]後，他們就擁有了字首AB所以k++；

第二種p[j] != p[k]

此時程式碼是：k = next[k];原因看下圖

像上邊的例子，我們已經不可能找到[ A，B，A，B ]這個最長的字尾串了，但我們還是可能找到[ A，B ]、[ B ]這樣的字首串的。所以這個過程就像在定位[ A，B，A，C ]這個串，當C和主串不一樣了（也就是k位置不一樣了），那當然是把指標移動到next[k]。

有了next陣列之後就一切好辦了，我們可以動手寫KMP演算法了：

public class Kmp {
	public static int KMP(String ts, String ps) {
		char[] t = ts.toCharArray();
		char[] p = ps.toCharArray();
		int i = 0; // 主串的位置
		int j = 0; // 模式串的位置
		int[] next = getNext(ps);

		while (i < t.length && j < p.length) {
			if (j == -1 || t[i] == p[j]) { // 當j為-1時，要移動的是i，當然j也要歸0
				i++;
				j++;
			} else {
				// i不需要回溯了
				// i = i - j + 1;
				j = next[j]; // j回到指定位置
			}
		}

		if (j == p.length) {
			return i - j;
		} else {
			return -1;
		}
	}
}
複製程式碼

KMP改進

KMP演算法是存在缺陷的，來看一個例子：比如主串是aaaabcde，子串是aaaaax，next值為012345，當i=5時，如下圖：

我們發現，當中的②③④⑤步驟，其實是多餘的判斷。由於子串的第二、三、四、五位置的字元都與首位的“a”相等，那麼可以用首位next[1]的值去取代與它相等的字元後續next[j]的值，這是個很好的辦法。因此我們對求next函式進行了改良。

public class Next2 {
	public static int[] getNext(String ps) {
		char[] p = ps.toCharArray();
		int[] next = new int[p.length];
		next[0] = -1;
		int j = 0;
		int k = -1;
		while (j < p.length - 1) {
			if (k == -1 || p[j] == p[k]) {
				if (p[++j] == p[++k]) { // 當兩個字元相等時要跳過
					next[j] = next[k];
				} else {
					next[j] = k;
				}
			} else {
				k = next[k];
			}
		}
		return next;
	}
}
複製程式碼

動態規劃之 KMP 演算法詳解
2022-12-05
動態規劃KMP演算法
KMP演算法超詳解與其應用
2020-11-25
KMP演算法
解讀KMP演算法
2021-03-03
KMP演算法
KMP字串模式匹配詳解
2020-04-07
KMP字串模式
[資料結構]KMP演算法(含next陣列詳解）
2023-01-25
資料結構KMP演算法陣列
KMP 演算法
2024-09-04
KMP演算法
KMP演算法
2024-07-16
KMP演算法
【演算法】KMP演算法
2021-02-13
演算法KMP
演算法之KMP
2020-09-30
演算法KMP
演算法（2）KMP演算法
2019-04-08
演算法KMP
白話 KMP 演算法
2019-03-02
KMP演算法
【演算法】KMP初識
2018-08-06
演算法KMP
字串匹配演算法之 BF 和 KMP 講解
2019-11-23
字串匹配演算法KMP
圖解KMP字串匹配演算法+程式碼實現
2022-05-10
圖解KMP字串匹配演算法
KMP模式匹配演算法
2018-10-05
KMP模式演算法
KMP字串匹配演算法
2023-10-01
KMP字串匹配演算法
KMP演算法 Java實現
2024-04-17
KMP演算法Java
字串匹配演算法：KMP
2023-11-04
字串匹配演算法KMP
KMP演算法和bfprt演算法總結
2020-11-15
KMP演算法
字串匹配演算法(三)-KMP演算法
2021-08-02
字串匹配演算法KMP
字串匹配-BF演算法和KMP演算法
2021-03-13
字串匹配演算法KMP
模式匹配kmp演算法（c++）
2020-11-14
模式KMP演算法C++
演算法·理論：KMP 筆記
2024-08-02
演算法KMP筆記
字串匹配問題——KMP演算法
2018-03-23
字串匹配KMP演算法
KMP演算法（Leetcode第28題）
2020-12-07
KMP演算法LeetCode
字串匹配之KMP《演算法很美》
2021-01-04
字串匹配KMP演算法
KMP（梅開三度之資料結構詳解版
2021-04-30
KMP資料結構
串的應用與kmp演算法講解--學習筆記
2019-06-06
KMP演算法筆記
字串匹配基礎下——KMP 演算法
2018-12-11
字串匹配KMP演算法
資料結構-KMP模式演算法
2019-04-12
資料結構KMP模式演算法
kmp字串匹配，A星尋路演算法
2018-09-21
KMP字串匹配演算法
把KMP演算法嚼碎！（C++）
2023-01-20
KMP演算法C++
字串演算法--$\mathcal{KMP，Trie}$樹
2023-03-29
字串演算法KMP
BitMap演算法詳解
2019-03-09
演算法
Manacher演算法詳解
2019-06-07
演算法
詳解BitMap演算法
2019-05-28
演算法
CTC演算法詳解
2022-07-14
演算法
匹配字串之——KMP演算法深入理解
2018-11-20
字串KMP演算法