Manacher's Algorithm 馬拉車演算法

Grandyang發表於2015-05-04

 

這個馬拉車演算法Manacher‘s Algorithm是用來查詢一個字串的最長迴文子串的線性方法,由一個叫Manacher的人在1975年發明的,這個方法的最大貢獻是在於將時間複雜度提升到了線性,這是非常了不起的。對於迴文串想必大家都不陌生,就是正讀反讀都一樣的字串,比如 "bob", "level", "noon" 等等,那麼如何在一個字串中找出最長迴文子串呢,可以以每一個字元為中心,向兩邊尋找回文子串,在遍歷完整個陣列後,就可以找到最長的迴文子串。但是這個方法的時間複雜度為O(n*n),並不是很高效,下面我們來看時間複雜度為O(n)的馬拉車演算法。

由於迴文串的長度可奇可偶,比如"bob"是奇數形式的迴文,"noon"就是偶數形式的迴文,馬拉車演算法的第一步是預處理,做法是在每一個字元的左右都加上一個特殊字元,比如加上'#',那麼

bob    -->    #b#o#b#

noon    -->    #n#o#o#n# 

這樣做的好處是不論原字串是奇數還是偶數個,處理之後得到的字串的個數都是奇數個,這樣就不用分情況討論了,而可以一起搞定。接下來我們還需要和處理後的字串t等長的陣列p,其中p[i]表示以t[i]字元為中心的迴文子串的半徑,若p[i] = 1,則該回文子串就是t[i]本身,那麼我們來看一個簡單的例子:

# 1 # 2 # 2 # 1 # 2 # 2 #
1 2 1 2 5 2 1 6 1 2 3 2 1

為啥我們關心迴文子串的半徑呢?看上面那個例子,以中間的 '1' 為中心的迴文子串 "#2#2#1#2#2#" 的半徑是6,而未新增#號的迴文子串為 "22122",長度是5,為半徑減1。這是個普遍的規律麼?我們再看看之前的那個 "#b#o#b#",我們很容易看出來以中間的 'o' 為中心的迴文串的半徑是4,而 "bob"的長度是3,符合規律。再來看偶數個的情況"noon",新增#號後的迴文串為 "#n#o#o#n#",以最中間的 '#' 為中心的迴文串的半徑是5,而 "noon" 的長度是4,完美符合規律。所以我們只要找到了最大的半徑,就知道最長的迴文子串的字元個數了。只知道長度無法定位子串,我們還需要知道子串的起始位置。   

我們還是先來看中間的 '1' 在字串 "#1#2#2#1#2#2#" 中的位置是7,而半徑是6,貌似7-6=1,剛好就是迴文子串 "22122" 在原串 "122122" 中的起始位置1。那麼我們再來驗證下 "bob","o" 在 "#b#o#b#" 中的位置是3,但是半徑是4,這一減成負的了,肯定不對。所以我們應該至少把中心位置向後移動一位,才能為0啊,那麼我們就需要在前面增加一個字元,這個字元不能是#號,也不能是s中可能出現的字元,所以我們暫且就用美元號吧,畢竟是博主最愛的東西嘛。這樣都不相同的話就不會改變p值了,那麼末尾要不要對應的也新增呢,其實不用的,不用加的原因是字串的結尾標識為'\0',等於預設加過了。那此時 "o" 在 "\$#b#o#b#" 中的位置是4,半徑是4,一減就是0了,貌似沒啥問題。我們再來驗證一下那個數字串,中間的 '1' 在字串 "\$#1#2#2#1#2#2#" 中的位置是8,而半徑是6,這一減就是2了,而我們需要的是1,所以我們要除以2。之前的 "bob" 因為相減已經是0了,除以2還是0,沒有問題。再來驗證一下 "noon",中間的 '#' 在字串 "$#n#o#o#n#" 中的位置是5,半徑也是5,相減併除以2還是0,完美。可以任意試試其他的例子,都是符合這個規律的,最長子串的長度是半徑減1,起始位置是中間位置減去半徑再除以2。

那麼下面我們就來看如何求p陣列,需要新增兩個輔助變數mx和id,其中id為能延伸到最右端的位置的那個迴文子串的中心點位置,mx是迴文串能延伸到的最右端的位置,這個演算法的最核心的一行如下:

 

p[i] = mx > i ? min(p[2 * id - i], mx - i) : 1;

 

可以這麼說,這行要是理解了,那麼馬拉車演算法基本上就沒啥問題了,那麼這一行程式碼拆開來看就是

如果 mx > i, 則 p[i] = min( p[2 * id - i] , mx - i )

否則,p[i] = 1

當 mx - i > P[j] 的時候,以S[j]為中心的迴文子串包含在以S[id]為中心的迴文子串中,由於 i 和 j 對稱,以S[i]為中心的迴文子串必然包含在以S[id]為中心的迴文子串中,所以必有 P[i] = P[j],其中 j = 2*id - i,因為 j 到 id 之間到距離等於 id 到 i 之間到距離,為 i - id,所以 j = id - (i - id) = 2*id - i,參見下圖。

 

 

當 P[j] >= mx - i 的時候,以S[j]為中心的迴文子串不一定完全包含於以S[id]為中心的迴文子串中,但是基於對稱性可知,下圖中兩個綠框所包圍的部分是相同的,也就是說以S[i]為中心的迴文子串,其向右至少會擴張到mx的位置,也就是說 P[i] = mx - i。至於mx之後的部分是否對稱,就只能老老實實去匹配了,這就是後面緊跟到while迴圈的作用。


 

對於 mx <= i 的情況,無法對 P[i]做更多的假設,只能P[i] = 1,然後再去匹配了。

 

參見如下實現程式碼:

 

#include <vector>
#include <iostream>
#include <string>

using namespace std;

string Manacher(string s) {
    // Insert '#'
    string t = "$#";
    for (int i = 0; i < s.size(); ++i) {
        t += s[i];
        t += "#";
    }
    // Process t
    vector<int> p(t.size(), 0);
    int mx = 0, id = 0, resLen = 0, resCenter = 0;
    for (int i = 1; i < t.size(); ++i) {
        p[i] = mx > i ? min(p[2 * id - i], mx - i) : 1;
        while (t[i + p[i]] == t[i - p[i]]) ++p[i];
        if (mx < i + p[i]) {
            mx = i + p[i];
            id = i;
        }
        if (resLen < p[i]) {
            resLen = p[i];
            resCenter = i;
        }
    }
    return s.substr((resCenter - resLen) / 2, resLen - 1);
}

int main() {
    string s1 = "12212";
    cout << Manacher(s1) << endl;
    string s2 = "122122";
    cout << Manacher(s2) << endl;
    string s = "waabwswfd";
    cout << Manacher(s) << endl;
}

 

相關文章