AC 自動機——多模式串匹配

seniusen發表於2018-12-15

原文網址 : https://juejin.im/post/5c14f19af265da614a3a6393

模式

網站上的敏感詞過濾是怎麼實現的呢？

實際上，這些功能最基本的原理就是字串匹配演算法，也就是通過維護一個敏感詞的字典，當使用者輸入一段文字內容後，通過字串匹配演算法來檢查使用者輸入的內容是否包含敏感詞。

BF、RK、BM、KMP 演算法都是針對只有一個模式串的字串匹配演算法，而要實現一個高效能的敏感詞過濾系統，就需要用到多模式匹配演算法了。

1. 基於單模式和 Trie 樹實現的敏感詞過濾

多模式匹配演算法，就是在多個模式串和一個主串之間做匹配，也就是在一個主串中查詢多個模式串。

敏感詞過濾，也可以通過單模式匹配演算法來實現，那就是針對每個敏感值都做一遍單模式匹配。但如果敏感詞很多，並且主串很長，那我們就需要遍歷很多次主串，顯然這種方法是非常低效的。

而多模式匹配演算法只需要掃描一遍主串，就可以一次性查詢多個模式串是否存在，匹配效率就大大提高了。那如何基於 Trie 樹實現敏感詞過濾功能呢？

我們可以首先對敏感詞字典進行預處理，構建成 Trie 樹。這個預處理的操作只需要做一次，如果敏感詞字典動態更新了，我們只需要在 Trie 樹中新增或刪除一個字串即可。

使用者輸入一個文字內容後，我們把使用者輸入的內容作為主串，從第一個字元開始在 Trie 樹中進行匹配。當匹配到葉子節點或者中途遇到不匹配字元的時候，我們就將主串的匹配位置後移一位，重新進行匹配。

基於 Trie 樹的這種處理方法，有點類似單模式匹配的 BF 演算法。我們知道 KMP 演算法在 BF 演算法基礎上進行了改進，每次匹配失敗時，儘可能地將模式串往後多滑動幾位。同樣，在這裡，我們是否也可以對多模式串 Trie 樹進行同樣的改進呢？這就要用到 AC 自動機演算法了。

2. AC 自動機多模式匹配演算法

AC 自動機演算法，全稱是 Aho-Corasick 演算法。AC 自動機實際上就是在 Trie 樹之上，加了類似於 KMP 演算法的 next 陣列，只不過此處的陣列是構建在樹上罷了。

class ACNode
{
public:

    char data;
    bool is_ending_char;   // 是否結束字元
    int length;            // 當前節點為結束字元時記錄模式串長度
    ACNode *fail;          // 失敗指標
    ACNode *children[26];  // 字符集只包含 a-z 這 26 個字元

    ACNode(char ch)
    {
        data = ch;
        is_ending_char = false;
        length = -1;
        fail = NULL;
        for (int i = 0; i < 26; i++)
            children[i] = NULL;
    }
};
複製程式碼

AC 自動機的構建包含兩個操作：

將多個模式串構建成 Trie 樹；
在 Trie 樹上構建失敗指標，就相當於 KMP 演算法中的失效函式 next 陣列。

構建 Trie 樹的過程可以參考 Trie 樹——搜尋關鍵詞提示，這裡只是多了一個模式串的長度而已。假設我們的 4 個模式串分別為 c，bc，bcd，abcd，那麼構建好的 Trie 樹如下所示。

Trie 樹中的每一個節點都有一個失敗指標，它的作用和構建過程，和 KMP 演算法中 next 陣列極其相似。

假設我們沿著 Trie 樹走到 p 節點，也就是下圖中的紫色節點，那 p 的失敗指標也就是從根節點走到當前節點所形成的字串 abc，和所有模式串字首匹配的最長可匹配字尾子串，這裡就是 bc 模式串。

字串 abc 的字尾子串有 c 和 bc，我們拿它們和其它模式串進行匹配，如果能夠匹配上，那這個字尾就叫作可匹配字尾子串。在一個字串的所有可匹配字尾子串中，長度最長的那個叫作最長可匹配字尾子串。我們就將一個節點的失敗指標指向其最長可匹配字尾子串對應的模式串字首的最後一個節點。

其實，如果我們把樹中相同深度的節點放到同一層，那麼某個節點的失敗指標只有可能出現在它所在層的上面。因此，我們可以像 KMP 演算法那樣，利用已經求得的、深度更小的那些節點的失敗指標來推匯出下面節點的失敗指標。

首先，根節點的失敗指標指向 NULL，第一層節點的失敗指標都指向根節點。然後，繼續往下遍歷，如果 p 節點的失敗指標指向 q，那麼我們需要看節點 p 的子節點 pc 對應的字元，是否也可以在節點 q 的子節點 qc 中找到。如果找到了一個子節點 qc 和 pc 的字元相同，則將 pc 的失敗指標指向 qc。

如果找不到一個子節點 qc 和 pc 的字元相同，那麼我們繼續令 q = q->fail，重複上面的查詢過程，直到 q 為根節點為止。如果還沒有找到，那就將 pc 的失敗指標指向根節點。

// 構建失敗指標
    void build_failure_pointer()
    {
        queue<ACNode *> AC_queue;
        AC_queue.push(root);

        while (!AC_queue.empty())
        {
            ACNode *p = AC_queue.front();
            AC_queue.pop();
            for (int i = 0; i < 26; i++)
            {
                ACNode *pc = p->children[i];

                if (pc == NULL) continue;
                if (p == root) pc->fail = root;
                else
                {
                    ACNode *q = p->fail;
                    while (q != NULL)
                    {
                        ACNode *qc = q->children[pc->data - 'a'];
                        if (qc != NULL)
                        {
                            pc->fail = qc;
                            break;
                        }
                        q = q->fail;
                    }

                    if (q == NULL) pc->fail = root;
                }
                AC_queue.push(pc);
            }
        }
    }
複製程式碼

通過按層來計算每個節點的子節點的失敗指標，例中最後構建完之後的 AC 自動機就是下面這個樣子。

接下來，我們看如何在 AC 自動機上匹配子串？首先，主串從 i=0 開始，AC 自動機從指標 p=root 開始，假設模式串是 b，主串是 a。

如果 p 指向的節點有一個等於 a[i] 的子節點 x，我們就更新 p 指向 x，這時候我們還要檢查這個子節點的一系列失敗指標對應的路徑是否為一個完整的模式串，之後我們將 i 增 1，繼續重複這兩個過程；
如果 p 指向的節點沒有等於 a[i] 的子節點，我們就更新 p = p->fial，繼續重複這兩個過程。

    // 在 AC 自動機中匹配字串
    void match_string(const char str[])
    {
        ACNode *p = root;
        for (unsigned int i = 0; i < strlen(str); i++)
        {
            int index = int(str[i] - 'a');
            while (p->children[index] == NULL && p != root)
            {
                p = p->fail;
            }
            p = p->children[index];

            if (p == NULL) p = root; // 沒有可匹配的，從根節點開始重新匹配
            ACNode *temp = p;
            while (temp != root)
            {
                if (temp->is_ending_char == true)
                {
                    int pos = i - temp->length + 1;
                    cout << "Fing a match which begins at position " << pos << ' '
                    << "and has a length of " << temp->length << '!'<< endl;
                }
                temp = temp->fail;
            }
        }
    }
複製程式碼

全部程式碼如下：

#include <iostream>
#include <cstring>
#include <queue>

using namespace std;

class ACNode
{
public:

    char data;
    bool is_ending_char;   // 是否結束字元
    int length;            // 當前節點為結束字元時記錄模式串長度
    ACNode *fail;          // 失敗指標
    ACNode *children[26];  // 字符集只包含 a-z 這 26 個字元

    ACNode(char ch)
    {
        data = ch;
        is_ending_char = false;
        length = -1;
        fail = NULL;
        for (int i = 0; i < 26; i++)
            children[i] = NULL;
    }
};

class AC
{
private:

    ACNode *root;

public:

    // 建構函式，根節點儲存無意義字元 '/'
    AC()
    {
        root = new ACNode('/');
    }

    // 向 Trie 樹中新增一個字串
    void insert_string(const char str[])
    {
        ACNode *cur = root;
        for (unsigned int i = 0; i < strlen(str); i++)
        {
            int index = int(str[i] - 'a');
            if (cur->children[index] == NULL)
            {
                ACNode *temp = new ACNode(str[i]);
                cur->children[index] = temp;
            }
            cur = cur->children[index];
        }
        cur->is_ending_char = true;
        cur->length = strlen(str);
    }

    // 構建失敗指標
    void build_failure_pointer()
    {
        queue<ACNode *> AC_queue;
        AC_queue.push(root);

        while (!AC_queue.empty())
        {
            ACNode *p = AC_queue.front();
            AC_queue.pop();
            for (int i = 0; i < 26; i++)
            {
                ACNode *pc = p->children[i];

                if (pc == NULL) continue;
                if (p == root) pc->fail = root;
                else
                {
                    ACNode *q = p->fail;
                    while (q != NULL)
                    {
                        ACNode *qc = q->children[pc->data - 'a'];
                        if (qc != NULL)
                        {
                            pc->fail = qc;
                            break;
                        }
                        q = q->fail;
                    }

                    if (q == NULL) pc->fail = root;
                }
                AC_queue.push(pc);
            }
        }
    }

    // 在 AC 自動機中匹配字串
    void match_string(const char str[])
    {
        ACNode *p = root;
        for (unsigned int i = 0; i < strlen(str); i++)
        {
            int index = int(str[i] - 'a');
            while (p->children[index] == NULL && p != root)
            {
                p = p->fail;
            }
            p = p->children[index];

            if (p == NULL) p = root; // 沒有可匹配的，從根節點開始重新匹配
            ACNode *temp = p;
            while (temp != root)
            {
                if (temp->is_ending_char == true)
                {
                    int pos = i - temp->length + 1;
                    cout << "Fing a match which begins at position " << pos << ' '
                    << "and has a length of " << temp->length << '!'<< endl;
                }
                temp = temp->fail;
            }
        }
    }
};

int main()
{
    //char str[][8] = {"how", "he", "her", "hello", "so", "see", "however"};
    char str[][5] = {"abce", "bcd", "ce"};

    AC test;
    for (int i = 0; i < 7; i++)
    {
        test.insert_string(str[i]);
    }

    test.build_failure_pointer();
    //test.match_string("however, what about her boyfriend?");
    test.match_string("abcfabce");

    return 0;
}
複製程式碼

3. AC 自動機的複雜度分析

首先，構建 Trie 樹的時間複雜度為 O(m*len)，其中 len 表示敏感詞的平均長度，m 表示敏感詞的個數。

其次，假設 Trie 樹中總共有 k 個節點，每個節點在構建失敗指標的時候，最耗時的就是 while 迴圈部分，這裡 q = q->fail，每次節點的深度都在減小，樹的最大深度為 len，因此每個節點構建失敗指標的時間複雜度為 O(len)，整個失敗指標構建過程的時間複雜度為 O(k*len)。不過，AC 自動機的構建過程都是預先處理好的，構建好之後並不會頻繁更新。

最後，假設主串的長度為 n，匹配的時候每一個 for 迴圈裡面的時間複雜度也為 O(len)，總的匹配時間複雜度就為 O(n*len)。因為敏感詞不會很長，而且這個時間複雜度只是一個非常寬泛的上限，實際情況下，可能近似於 O(n)，所以，AC 自動機匹配的效率非常高。

從時間複雜度上看，AC 自動機匹配的效率和 Trie 樹一樣，但是一般情況下，大部分節點的失敗指標都指向根節點，AC 自動機實際匹配的效率要遠高於 O(n*len)。只有在極端情況下，AC 自動機的效能才會退化為和 Trie 樹一樣。

參考資料-極客時間專欄《資料結構與演算法之美》

獲取更多精彩，請關注「seniusen」!

AC自動機+trie樹實現高效多模式匹配字典
2018-07-09
模式
[複習] AC自動機
2024-10-24
AC自動機提高篇
2024-07-30
hdu-5384Danganronpa+多校訓練+AC自動機
2020-04-04
簡單版AC自動機
2019-02-23
AC自動機：Tire樹+KMP
2022-05-15
KMP
專題十七 AC自動機【Kuangbin】
2019-02-14
AC自動機學習筆記
2020-10-25
筆記
AC 自動機學習筆記
2024-07-28
筆記
從零開始發明 AC 自動機
2024-03-09
AC自動機+字典序+樹狀陣列
2024-08-16
陣列
自動機都收到了什麼串
2024-08-02
hdu2222--Keywords Search+AC自動機模板
2020-04-04
Aho-Corasick 演算法 AC自動機實現
2023-09-26
演算法
子串匹配 BF法
2020-12-05
poj--2778DNA Sequence+AC自動機+矩陣快速冪
2020-04-04
矩陣
poj--1625Censored!+AC自動機上的dp+大數
2020-04-04
hdu 1277 AC自動機入門（指標版和陣列版）
2020-04-04
指標陣列
在匹配模式中玩人機對戰？
2019-09-27
模式
【演算法框架套路】滑動視窗演算法：匹配子串
2021-07-30
演算法框架
Rust -- 模式與匹配
2023-04-26
Rust模式
C# 模式匹配
2024-07-18
C#模式
資料結構篇_程式設計思想板塊_第四章串的模式匹配
2022-05-23
資料結構程式設計模式
實現動態自動匹配輸入的內容
2020-04-05
Ansible 多機自動化工具初學筆記
2023-02-23
筆記
win10開機自動啟動飛航模式如何解決 win10自動啟動飛航模式怎麼解除
2020-12-03
Win10模式
HanLP — Aho-Corasick DoubleArrayTire 演算法 ACDAT - 基於雙陣列字典樹的AC自動機
2023-11-06
HanLP演算法陣列
自研AC配置（上電過程）
2024-05-06
聊聊 scala 的模式匹配
2019-01-19
模式
Swift中的模式匹配
2018-08-14
Swift模式
字串匹配模式問題
2018-07-03
字串匹配模式
Scala模式匹配詳解
2020-10-22
模式
Glob Patterns匹配模式使用
2018-12-29
模式
ac79啟動流程
2024-08-28
Activity的啟動模式及IntentFilter匹配規則總結
2019-02-08
模式IntentFilter
自動機
2024-07-19
vivo 手機自動關閉開發者模式問題
2020-08-27
模式
jquery 多條件匹配
2018-06-13
jQuery

AC 自動機——多模式串匹配

1. 基於單模式和 Trie 樹實現的敏感詞過濾

2. AC 自動機多模式匹配演算法

3. AC 自動機的複雜度分析

相關文章