圖解KMP字串匹配演算法+程式碼實現

Carol淋發表於2022-05-10

  kmp演算法跟之前講的bm演算法思想有一定的相似性。之前提到過,bm演算法中有個好字尾的概念,而在kmp中有個好字首的概念,什麼是好字首,我們先來看下面這個例子。

  觀察上面這個例子,已經匹配的abcde稱為好字首,a與之後的bcde都不匹配,所以沒有必要再比一次,直接滑動到e之後即可。

  那如果好字首中有互相匹配的字元呢?

  

  觀察上面這個例子,這個時候如果我們直接滑到好字首之後,則會過度滑動,錯失匹配子串。那我們如何根據好字首來進行合理滑動?

  其實就是看當前的好字首的字首和字尾是否有匹配的,找到最長匹配長度,直接滑動。鑑於不止一次找最長匹配長度,我們完全可以先初始化一個陣列,儲存在當前好字首情況下,最長匹配長度是多少,這時候我們的next陣列就出來了。

  我們定義一個next陣列,表示在當前好字首下,好字首的字首和字尾的最長匹配子串長度,這個最長匹配長度表示這個子串之前已經匹配過匹配了,不需要再次進行匹配,直接從子串的下一個字元開始匹配。

   

  我們是否每次算next[i]時都需要每一個字元進行匹配,是否可以根據next[i - 1]進行推導以便減少不必要的比較。
  帶著這個思路我們來看看下面的步驟:
  假設next[i - 1] = k - 1;
  如果modelStr[k] = modelStr[i] 則next[i]=k

  

  如果modelStr[k] != modelStr[i],我們是否可以直接認定next[i] = next[i - 1]?

  

  通過上面這個例子,我們可以很清晰的看到,next[i]!=next[i-1],那當modelStr[k]!=modelStr[i]時候,我們已知next[0],next[1]…next[i-1],如何推倒出next[i]呢?
  假設modelStr[x…i]是字首字尾能匹配的最長字尾子串,那麼最長匹配字首子串為modelStr[0…i-x]

   

  我們在求這個最長匹配串的時候,他的前面的次長匹配串(不包含當前i的),也就是modelStr[x…i-1]在之前應該是已經求解出來了的,因此我們只需要找到這個某一個已經求解的匹配串,假設字首子串為modelStr[0…i-x-1],字尾子串為modelStr[x…i-1],且modelStr[i-x] == modelStr[i],這個字首字尾子串即為次字首子串,加上當前字元即為最長匹配字首字尾子串。
程式碼實現
  首先在kmp演算法中最主要的next陣列,這個陣列標誌著截止到當前下標的最長字首字尾匹配子串字元個數,kmp演算法裡面,如果某個字首是好字首,即與模式串字首匹配,我們就可以利用一定的技巧不止向前滑動一個字元,具體看前面的講解。我們提前不知道哪些是好字首,並且匹配過程不止一次,因此我們在最開始呼叫一個初始化方法,初始化next陣列。
  1.如果上一個字元的最長字首子串的下一個字元==當前字元,上一個字元的最長字首子串直接加上當前字元即可
  2.如果不等於,需要找到之前存在的最長字首子串的下一個字元等於當前子串的,然後設定當前字元子串的最長字首字尾子串

int[] next ;
    /**
     * 初始化next陣列
     * @param modelStr
     */
    public void init(char[] modelStr) {
        //首先計算next陣列
        //遍歷modelStr,遍歷到的字元與之前字元組成一個串
        next = new int[modelStr.length];
        int start = 0;
        while (start < modelStr.length) {
            next[start] = this.recursion(start, modelStr);
            ++ start;
        }
    }

    /**
     *
     * @param i 當前遍歷到的字元
     * @return
     */
    private int recursion(int i, char[] modelStr) {
        //next記錄的是個數,不是下標
        if (0 == i) {
            return 0;
        }
        int last = next[i -1];
        //沒有匹配的,直接判斷第一個是否匹配
        if (0 == last) {
            if (modelStr[last] == modelStr[i]) {
                return 1;
            }
            return 0;
        }
        //如果last不為0,有值,可以作為最長匹配的字首
        if (modelStr[last] == modelStr[i]) {
            return next[i - 1] + 1;
        }
        //當next[i-1]對應的子串的下一個值與modelStr不匹配時,需要找到當前要找的最長匹配子串的次長子串
        //依據就是次長子串對應的子串的下一個字元==modelStr[i];
        int tempIndex = i;
        while (tempIndex > 0) {
            last = next[tempIndex - 1];
            //找到第一個下一個字元是當前字元的匹配子串
            if (modelStr[last] == modelStr[i]) {
                return last + 1;
            }
            -- tempIndex;
        }
        return 0;
    }

  然後開始利用next陣列進行匹配,從第一個字元開始匹配進行匹配,找到第一個不匹配的字元,這時候之前的都是匹配的,接下來先判斷是否已經是完全匹配,是直接返回,不是,判斷是否第一個就不匹配,是直接往後面匹配。如果有好字首,這時候就利用到了next陣列,通過next陣列知道當前可以從哪個開始匹配,之前的都不用進行匹配。

public int kmp(char[] mainStr, char[] modelStr) {
        //開始進行匹配
        int i = 0, j = 0;
        while (i + modelStr.length <= mainStr.length) {
            while (j < modelStr.length) {
                //找到第一個不匹配的位置
                if (modelStr[j] != mainStr[i]) {
                    break;
                }
                ++ i;
                ++ j;
            }
            if (j == modelStr.length) {
                //證明完全匹配
                return i - j;
            }
            //走到這裡找到的是第一個不匹配的位置
            if (j == 0) {
                ++ i;
                continue;
            }
            //從好字首後一個匹配
            j = next[j - 1];
        }
        return -1;
    }

 

相關文章