這個馬拉車演算法Manacher‘s Algorithm是用來查詢一個字串的最長迴文子串的線性方法,由一個叫Manacher的人在1975年發明的,這個方法的最大貢獻是在於將時間複雜度提升到了線性,這是非常了不起的。對於迴文串想必大家都不陌生,就是正讀反讀都一樣的字串,比如 "bob", "level", "noon" 等等,那麼如何在一個字串中找出最長迴文子串呢,可以以每一個字元為中心,向兩邊尋找回文子串,在遍歷完整個陣列後,就可以找到最長的迴文子串。但是這個方法的時間複雜度為O(n*n),並不是很高效,下面我們來看時間複雜度為O(n)的馬拉車演算法。
由於迴文串的長度可奇可偶,比如"bob"是奇數形式的迴文,"noon"就是偶數形式的迴文,馬拉車演算法的第一步是預處理,做法是在每一個字元的左右都加上一個特殊字元,比如加上'#',那麼
bob --> #b#o#b#
noon --> #n#o#o#n#
這樣做的好處是不論原字串是奇數還是偶數個,處理之後得到的字串的個數都是奇數個,這樣就不用分情況討論了,而可以一起搞定。接下來我們還需要和處理後的字串t等長的陣列p,其中p[i]表示以t[i]字元為中心的迴文子串的半徑,若p[i] = 1,則該回文子串就是t[i]本身,那麼我們來看一個簡單的例子:
# 1 # 2 # 2 # 1 # 2 # 2 #
1 2 1 2 5 2 1 6 1 2 3 2 1
為啥我們關心迴文子串的半徑呢?看上面那個例子,以中間的 '1' 為中心的迴文子串 "#2#2#1#2#2#" 的半徑是6,而未新增#號的迴文子串為 "22122",長度是5,為半徑減1。這是個普遍的規律麼?我們再看看之前的那個 "#b#o#b#",我們很容易看出來以中間的 'o' 為中心的迴文串的半徑是4,而 "bob"的長度是3,符合規律。再來看偶數個的情況"noon",新增#號後的迴文串為 "#n#o#o#n#",以最中間的 '#' 為中心的迴文串的半徑是5,而 "noon" 的長度是4,完美符合規律。所以我們只要找到了最大的半徑,就知道最長的迴文子串的字元個數了。只知道長度無法定位子串,我們還需要知道子串的起始位置。
我們還是先來看中間的 '1' 在字串 "#1#2#2#1#2#2#" 中的位置是7,而半徑是6,貌似7-6=1,剛好就是迴文子串 "22122" 在原串 "122122" 中的起始位置1。那麼我們再來驗證下 "bob","o" 在 "#b#o#b#" 中的位置是3,但是半徑是4,這一減成負的了,肯定不對。所以我們應該至少把中心位置向後移動一位,才能為0啊,那麼我們就需要在前面增加一個字元,這個字元不能是#號,也不能是s中可能出現的字元,所以我們暫且就用美元號吧,畢竟是博主最愛的東西嘛。這樣都不相同的話就不會改變p值了,那麼末尾要不要對應的也新增呢,其實不用的,不用加的原因是字串的結尾標識為'\0',等於預設加過了。那此時 "o" 在 "\$#b#o#b#" 中的位置是4,半徑是4,一減就是0了,貌似沒啥問題。我們再來驗證一下那個數字串,中間的 '1' 在字串 "\$#1#2#2#1#2#2#" 中的位置是8,而半徑是6,這一減就是2了,而我們需要的是1,所以我們要除以2。之前的 "bob" 因為相減已經是0了,除以2還是0,沒有問題。再來驗證一下 "noon",中間的 '#' 在字串 "$#n#o#o#n#" 中的位置是5,半徑也是5,相減併除以2還是0,完美。可以任意試試其他的例子,都是符合這個規律的,最長子串的長度是半徑減1,起始位置是中間位置減去半徑再除以2。
那麼下面我們就來看如何求p陣列,需要新增兩個輔助變數mx和id,其中id為能延伸到最右端的位置的那個迴文子串的中心點位置,mx是迴文串能延伸到的最右端的位置,這個演算法的最核心的一行如下:
p[i] = mx > i ? min(p[2 * id - i], mx - i) : 1;
可以這麼說,這行要是理解了,那麼馬拉車演算法基本上就沒啥問題了,那麼這一行程式碼拆開來看就是
如果 mx > i, 則 p[i] = min( p[2 * id - i] , mx - i )
否則,p[i] = 1
當 mx - i > P[j] 的時候,以S[j]為中心的迴文子串包含在以S[id]為中心的迴文子串中,由於 i 和 j 對稱,以S[i]為中心的迴文子串必然包含在以S[id]為中心的迴文子串中,所以必有 P[i] = P[j],其中 j = 2*id - i,因為 j 到 id 之間到距離等於 id 到 i 之間到距離,為 i - id,所以 j = id - (i - id) = 2*id - i,參見下圖。
當 P[j] >= mx - i 的時候,以S[j]為中心的迴文子串不一定完全包含於以S[id]為中心的迴文子串中,但是基於對稱性可知,下圖中兩個綠框所包圍的部分是相同的,也就是說以S[i]為中心的迴文子串,其向右至少會擴張到mx的位置,也就是說 P[i] = mx - i。至於mx之後的部分是否對稱,就只能老老實實去匹配了,這就是後面緊跟到while迴圈的作用。
對於 mx <= i 的情況,無法對 P[i]做更多的假設,只能P[i] = 1,然後再去匹配了。
參見如下實現程式碼:
#include <vector> #include <iostream> #include <string> using namespace std; string Manacher(string s) { // Insert '#' string t = "$#"; for (int i = 0; i < s.size(); ++i) { t += s[i]; t += "#"; } // Process t vector<int> p(t.size(), 0); int mx = 0, id = 0, resLen = 0, resCenter = 0; for (int i = 1; i < t.size(); ++i) { p[i] = mx > i ? min(p[2 * id - i], mx - i) : 1; while (t[i + p[i]] == t[i - p[i]]) ++p[i]; if (mx < i + p[i]) { mx = i + p[i]; id = i; } if (resLen < p[i]) { resLen = p[i]; resCenter = i; } } return s.substr((resCenter - resLen) / 2, resLen - 1); } int main() { string s1 = "12212"; cout << Manacher(s1) << endl; string s2 = "122122"; cout << Manacher(s2) << endl; string s = "waabwswfd"; cout << Manacher(s) << endl; }