【字串匹配】KMP

Kodori發表於2024-08-28
2024-8-28 ·最後更新時間 2024-8-28

\(\Large\mathcal{1,Recommendation}\)
Knuth-Morris-Pratt 字串查詢演算法,簡稱為KMP演算法,常用於在一個文字串 S 內查詢另一個文字 P 的出現位置,因為時間複雜度優異而被廣泛使用。

這個演算法由 Donald Knuth、Vaughan Pratt、James H. Morris 三人於 1977 年聯合發表,故取這 3 人的姓氏命名此演算法。

\(\Large\mathcal{2,Prefix\ function}\)
在正式學習 KMP 演算法之前我們要對字首函式有一定的瞭解。
比如給你一個字串:\(S=ABADABA\)
那麼字首字尾相同時的最長長度是多少?很顯然一定 \(3\) \(\color{red}{ABA}\)\(D\)\(\color{red}{ABA}\)
那麼在數學中我們就會給這種形式的數值常用 \(\pi\) 來表示。
那麼我們如果把所有 \(S\) 的字首給列出來,並且對與每個字首都求出對應的 \(\pi\) 那麼就形成了字首函式,如:

\(i\) 1 2 3 4 5 6 7
\(S\) \(A\) \(AB\) \(ABA\) \(ABAD\) \(ABADA\) \(ABADAB\) \(ABADABA\)
\(\pi\) \(0\) \(0\) \(1\) \(0\) \(1\) \(2\) \(3\)

這就是我們的字首函式,但是...它和 KMP 有什麼關係呢?

\(\Large\mathcal{3,KMP}\)
接下來我就要根據字首函式來推演出 KMP 演算法。
假設文字串 \(S=EACEEABC\),模式串 \(P=EAB\)
考慮什麼時候 \(P\) 可以匹配上 \(S\) 的字串。
我們可以這樣,先用一個奇妙字元給他們銜接起來就變成了 \(EAB\#EACEEABC\)
然後我們就可以輕而易舉地根據字首函式得知,當且僅當 \(\pi_i = len(P)\) 的時候才可以匹配上。
我們可以淺淺證明一下,因為字首函式的定義就是到了 \(i\)\(\pi_i\) 為字首字尾相同時的最長長度,因為有特殊符號所以 \(max\{\pi_i\} = len(P)\) 所以 \(P\) 匹配上時,\(\pi_i=len(P)\)

\[接下來文中出現的 S 均為一般的字串 \]

那麼接下來的問題就是如何求 \(\pi_i\) 了。
我們可以把字串想象成一些點,那麼就變成了:

那麼如果我們現在知道 \(\pi_{i-1}\) 的數值的話:

那麼輕而易舉地我們可以知道當 \(S_{\pi_{i-1}+1}\)\(S_i\) 相等時 \(\pi_i = \pi_{i-1}+1\),於是我們可以寫出一個不完整的程式碼:

for(int i=1;i<=s.size();++i){
  int len=pi[i-1];
  if(s[i]==s[len]){
    pi[i]=len+1;
  }
}

BUT 不相等怎麼辦?那我們是不是儘量考慮次小的 \(\pi_i\)?那我們是不是又可以寫出一個程式碼:

for(int i=1;i<=s.size();++i){
  int len=pi[i-1];
  while(s[i]!=s[len]){
    len=next_pi(i-1);
  }
  if(s[i]==s[len]){
    pi[i]=len+1;
  }
}

接下來我們就要解決 next_pi(x) 這個函式怎麼求,我們可以再畫一個圖:

別問為什麼圖變了,如果我們仔細觀察 \(\pi^{'}_{i-1}\)\(\pi_{i-1}\) 的關係我們可以發現,\([0,\pi^{'}_{i-1}]\) 這段字串本質上是 \([0,\pi_{i-1}]\) 的一段字尾,又根據字首函式可知,\([i-\pi^{'}_{i-1},i-1]\) 一定是與 \([0,\pi^{'}_{i-1}]\) 相等的,所以 \([0,\pi^{'}_{i-1}]\) 是等於 \([0,\pi_{i-1}]\) 的字尾的!也就是 \(\pi^{'}_{i-1}\) 是等同於 \(\pi_{pi_{i-1}}\) 的所以我們終於可以把程式碼補全了qwq:

for(int i=1;i<=s.size();++i){
  int len=pi[i-1];
  while(len&&s[i]!=s[len]){
    len=pi[len-1];
  }
  if(s[i]==s[len]){
    pi[i]=len+1;
  }
}

那麼,如果你完完整整的看完了這篇部落格,你可能會覺得這和你印象中的 KMP 不太一樣,但是如果你把到 \(\#\) 之前的和之後的單獨拆開你會發現這就變成了你熟悉的 KMP,但這也表示著重要的一點,你需要點贊,收藏,關注我qwq。

相關文章