DFA演算法之內容敏感詞過濾

fdzwdt發表於2022-04-21

原文網址 : https://www.cnblogs.com/fdzwdt/p/16174752.html

DFA 演算法是通過提前構造出一個樹狀查詢結構，之後根據輸入在該樹狀結構中就可以進行非常高效的查詢。

設我們有一個敏感詞庫，詞酷中的詞彙為：
我愛你
我愛他
我愛她
我愛你呀
我愛他呀
我愛她呀
我愛她啊

那麼就可以構造出這樣的樹狀結構：

設玩家輸入的字串為：白菊我愛你呀哈哈哈

我們遍歷玩家輸入的字串 str，並設指標 i 指向樹狀結構的根節點，即最左邊的空白節點：
str[0] = ‘白’ 時，此時 tree[i] 沒有指向值為 ‘白’ 的節點，所以不滿足匹配條件，繼續往下遍歷
str[1] = ‘菊’，同樣不滿足匹配條件，繼續遍歷
str[2] = ‘我’，此時 tree[i] 有一條路徑連線著 ‘我’ 這個節點，滿足匹配條件，i 指向 ‘我’ 這個節點，然後繼續遍歷
str[3] = ‘愛’，此時 tree[i] 有一條路徑連著 ‘愛’ 這個節點，滿足匹配條件，i 指向 ‘愛’，繼續遍歷
str[4] = ‘你’，同樣有路徑，i 指向 ‘你’，繼續遍歷
str[5] = ‘呀’，同樣有路徑，i 指向 ‘呀’
此時，我們的指標 i 已經指向了樹狀結構的末尾，即此時已經完成了一次敏感詞判斷。我們可以用變數來記錄下這次敏感詞匹配開始時玩家輸入字串的下標，和匹配結束時的下標，然後再遍歷一次將字元替換為 * 即可。
結束一次匹配後，我們把指標 i 重新指向樹狀結構的根節點處。
此時我們玩家輸入的字串還沒有遍歷到頭，所以繼續遍歷：
str[6] = ‘哈’，不滿足匹配條件，繼續遍歷
str[7] = ‘哈’ …
str[8] = ‘哈’ …

可以看出我們遍歷了一次玩家輸入的字串，就找到了其中的敏感詞彙。

設玩家輸入的字串為：白菊我愛你呀哈哈哈

可以看出我們遍歷了一次玩家輸入的字串，就找到了其中的敏感詞彙。

DFA演算法python實現：

 1 class DFA:
 2     """DFA 演算法
 3        敏感字中“*”代表任意一個字元
 4     """
 5 
 6     def __init__(self, sensitive_words: list, skip_words: list):  # 對於敏感詞sensitive_words及無意義的詞skip_words可以通過資料庫、檔案或者其他儲存介質進行儲存
 7         self.state_event_dict = self._generate_state_event(sensitive_words)
 8         self.skip_words = skip_words
 9 
10     def __repr__(self):
11         return '{}'.format(self.state_event_dict)
12 
13     @staticmethod
14     def _generate_state_event(sensitive_words) -> dict:
15         state_event_dict = {}
16         for word in sensitive_words:
17             tmp_dict = state_event_dict
18             length = len(word)
19             for index, char in enumerate(word):
20                 if char not in tmp_dict:
21                     next_dict = {'is_end': False}
22                     tmp_dict[char] = next_dict
23                     tmp_dict = next_dict
24                 else:
25                     next_dict = tmp_dict[char]
26                     tmp_dict = next_dict
27                 if index == length - 1:
28                     tmp_dict['is_end'] = True
29         return state_event_dict
30 
31     def match(self, content: str):
32         match_list = []
33         state_list = []
34         temp_match_list = []
35 
36         for char_pos, char in enumerate(content):
37             if char in self.skip_words:
38                 continue
39             if char in self.state_event_dict:
40                 state_list.append(self.state_event_dict)
41                 temp_match_list.append({
42                     "start": char_pos,
43                     "match": ""
44                 })
45             for index, state in enumerate(state_list):
46                 is_match = False
47                 state_char = None
48                 if '*' in state: # 對於一些敏感詞，比如大傻X，可能是大傻B，大傻×，大傻...，採用萬用字元*，一個*代表一個字元
49                     state_list[index] = state['*']
50                     state_char = state['*']
51                     is_match = True
52                 if char in state:
53                     state_list[index] = state[char]
54                     state_char = state[char]
55                     is_match = True
56                 if is_match:
57                     if state_char["is_end"]:
58                         stop = char_pos + 1
59                         temp_match_list[index]['match'] = content[
60                                                           temp_match_list[index]['start']:stop]
61                         match_list.append(copy.deepcopy(temp_match_list[index]))
62                         if len(state_char.keys()) == 1:
63                             state_list.pop(index)
64                             temp_match_list.pop(index)
65                 else:
66                     state_list.pop(index)
67                     temp_match_list.pop(index)
68         for index, match_words in enumerate(match_list):
69             print(match_words['start'])
70         return match_list

_generate_state_event方法生成敏感詞的樹狀結構，（以字典儲存），對於上面的例子，生成的樹狀結構儲存如下：

if __name__ == '__main__':
    dfa = DFA(['我愛你', '我愛他', '我愛她', '我愛你呀', '我愛他呀', '我愛她呀', '我愛她啊'], skip_words=[])  # 暫時不配置skip_words
    print(dfa)

結果：
{'我': {'is_end': False, '愛': {'is_end': False, '你': {'is_end': True, '呀': {'is_end': True}}, '他': {'is_end': True, '呀': {'is_end': True}}, '她': {'is_end': True, '呀': {'is_end': True}, '啊': {'is_end': True}}}}}

然後呼叫match方法，輸入內容進行敏感詞匹配：

if __name__ == '__main__':
    dfa = DFA(['我愛你', '我愛他', '我愛她', '我愛你呀', '我愛他呀', '我愛她呀', '我愛她啊'], ['\n', '\r\n', '\r'])
    # print(dfa)
    print(dfa.match('白菊我愛你呀哈哈哈'))

結果：
[{'start': 2, 'match': '我愛你'}, {'start': 2, 'match': '我愛你呀'}]

而對於一些敏感詞，比如大傻X，可能是大傻B，大傻×，大傻...，那是不是可以通過一個萬用字元*來解決？

見程式碼：48 ~51行

DFA 演算法是通過提前構造出一個樹狀查詢結構，之後根據輸入在該樹狀結構中就可以進行非常高效的查詢。

設我們有一個敏感詞庫，詞酷中的詞彙為：
我愛你
我愛他
我愛她
我愛你呀
我愛他呀
我愛她呀
我愛她啊

那麼就可以構造出這樣的樹狀結構：

設玩家輸入的字串為：白菊我愛你呀哈哈哈

可以看出我們遍歷了一次玩家輸入的字串，就找到了其中的敏感詞彙。

設玩家輸入的字串為：白菊我愛你呀哈哈哈

可以看出我們遍歷了一次玩家輸入的字串，就找到了其中的敏感詞彙。

DFA演算法python實現：

 1 class DFA:
 2     """DFA 演算法
 3        敏感字中“*”代表任意一個字元
 4     """
 5 
 6     def __init__(self, sensitive_words: list, skip_words: list):
 7         self.state_event_dict = self._generate_state_event(sensitive_words)
 8         self.skip_words = skip_words
 9 
10     def __repr__(self):
11         return '{}'.format(self.state_event_dict)
12 
13     @staticmethod
14     def _generate_state_event(sensitive_words) -> dict:
15         state_event_dict = {}
16         for word in sensitive_words:
17             tmp_dict = state_event_dict
18             length = len(word)
19             for index, char in enumerate(word):
20                 if char not in tmp_dict:
21                     next_dict = {'is_end': False}
22                     tmp_dict[char] = next_dict
23                     tmp_dict = next_dict
24                 else:
25                     next_dict = tmp_dict[char]
26                     tmp_dict = next_dict
27                 if index == length - 1:
28                     tmp_dict['is_end'] = True
29         return state_event_dict
30 
31     def match(self, content: str):
32         match_list = []
33         state_list = []
34         temp_match_list = []
35 
36         for char_pos, char in enumerate(content):
37             if char in self.skip_words:
38                 continue
39             if char in self.state_event_dict:
40                 state_list.append(self.state_event_dict)
41                 temp_match_list.append({
42                     "start": char_pos,
43                     "match": ""
44                 })
45             for index, state in enumerate(state_list):
46                 is_match = False
47                 state_char = None
48                 if '*' in state:
49                     state_list[index] = state['*']
50                     state_char = state['*']
51                     is_match = True
52                 if char in state:
53                     state_list[index] = state[char]
54                     state_char = state[char]
55                     is_match = True
56                 if is_match:
57                     if state_char["is_end"]:
58                         stop = char_pos + 1
59                         temp_match_list[index]['match'] = content[
60                                                           temp_match_list[index]['start']:stop]
61                         match_list.append(copy.deepcopy(temp_match_list[index]))
62                         if len(state_char.keys()) == 1:
63                             state_list.pop(index)
64                             temp_match_list.pop(index)
65                 else:
66                     state_list.pop(index)
67                     temp_match_list.pop(index)
68         return match_list

View Code

_generate_state_event方法生成敏感詞的樹狀結構，（以字典儲存），對於上面的例子，生成的樹狀結構儲存如下：

if __name__ == '__main__':
    dfa = DFA(['我愛你', '我愛他', '我愛她', '我愛你呀', '我愛他呀', '我愛她呀', '我愛她啊'], skip_words=[])  # 暫時不配置skip_words
    print(dfa)

結果：
{'我': {'is_end': False, '愛': {'is_end': False, '你': {'is_end': True, '呀': {'is_end': True}}, '他': {'is_end': True, '呀': {'is_end': True}}, '她': {'is_end': True, '呀': {'is_end': True}, '啊': {'is_end': True}}}}}

然後呼叫match方法，輸入內容進行敏感詞匹配：

if __name__ == '__main__':
    dfa = DFA(['我愛你', '我愛他', '我愛她', '我愛你呀', '我愛他呀', '我愛她呀', '我愛她啊'], ['\n', '\r\n', '\r'])
    # print(dfa)
    print(dfa.match('白菊我愛你呀哈哈哈'))

結果：
[{'start': 2, 'match': '我愛你'}, {'start': 2, 'match': '我愛你呀'}]

而對於一些敏感詞，比如大傻X，可能是大傻B，大傻×，大傻...，那是不是可以通過一個萬用字元*來解決？

見程式碼：48 ~51行

48                 if '*' in state: # 對於一些敏感詞，比如大傻X，可能是大傻B，大傻×，大傻...，採用萬用字元*，一個*代表一個字元
49                     state_list[index] = state['*']
50                     state_char = state['*']
51                     is_match = True

驗證一下：

if __name__ == '__main__':
    dfa = DFA(['大傻*'], [])
    print(dfa)
    print(dfa.match('大傻X安樂飛大傻B'))

結果：
{'大': {'is_end': False, '傻': {'is_end': False, '*': {'is_end': True}}}}
[{'start': 0, 'match': '大傻X'}, {'start': 6, 'match': '大傻B'}]

上列中如果輸入的內容中，“大傻X安樂飛大傻B”寫成“大%傻X安樂飛大&傻B”，看看是否能識別出敏感詞呢？識別不出了！

if __name__ == '__main__':
    dfa = DFA(['大傻*'], [])
    print(dfa)
    print(dfa.match('大%傻X安樂飛大&傻B'))
結果：
{'大': {'is_end': False, '傻': {'is_end': False, '*': {'is_end': True}}}}
[

諸如“,&,!,！,@,#,$,￥,*,^,%,?,？,<,>,《,》"，這些特殊符號無實際意義，但是可以在敏感詞中間插入而破壞敏感詞的結構規避敏感詞檢查

進行無意義詞配置，再進行敏感詞檢查，如下，可見對於被破壞的敏感詞也能識別

if __name__ == '__main__':
    dfa = DFA(['大傻*'], ['%', '&'])
    print(dfa)
    print(dfa.match('大%傻X安樂飛大&傻B'))

結果：
{'大': {'is_end': False, '傻': {'is_end': False, '*': {'is_end': True}}}}
[{'start': 0, 'match': '大%傻X'}, {'start': 7, 'match': '大&傻B'}]

48                 if '*' in state: # 對於一些敏感詞，比如大傻X，可能是大傻B，大傻×，大傻...，採用萬用字元*，一個*代表一個字元
49                     state_list[index] = state['*']
50                     state_char = state['*']
51                     is_match = True

驗證一下：

if __name__ == '__main__':
    dfa = DFA(['大傻*'], [])
    print(dfa)
    print(dfa.match('大傻X安樂飛大傻B'))

結果：
{'大': {'is_end': False, '傻': {'is_end': False, '*': {'is_end': True}}}}
[{'start': 0, 'match': '大傻X'}, {'start': 6, 'match': '大傻B'}]

上列中如果輸入的內容中，“大傻X安樂飛大傻B”寫成“大%傻X安樂飛大&傻B”，看看是否能識別出敏感詞呢？識別不出了！

if __name__ == '__main__':
    dfa = DFA(['大傻*'], [])
    print(dfa)
    print(dfa.match('大%傻X安樂飛大&傻B'))
結果：
{'大': {'is_end': False, '傻': {'is_end': False, '*': {'is_end': True}}}}
[

諸如“,&,!,！,@,#,$,￥,*,^,%,?,？,<,>,《,》"，這些特殊符號無實際意義，但是可以在敏感詞中間插入而破壞敏感詞的結構規避敏感詞檢查

進行無意義詞配置，再進行敏感詞檢查，如下，可見對於被破壞的敏感詞也能識別

if __name__ == '__main__':
    dfa = DFA(['大傻*'], ['%', '&'])
    print(dfa)
    print(dfa.match('大%傻X安樂飛大&傻B'))

結果：
{'大': {'is_end': False, '傻': {'is_end': False, '*': {'is_end': True}}}}
[{'start': 0, 'match': '大%傻X'}, {'start': 7, 'match': '大&傻B'}]

JAVA使用DFA演算法過濾敏感詞
2024-03-09
Java演算法
過濾或者查詢敏感詞（DFA 演算法）
2020-07-04
演算法
DFA在C#中的實現：過濾敏感詞
2021-12-14
C#
js實現敏感詞過濾演算法
2018-07-22
JS演算法
JavaWeb - 【Filter】敏感詞過濾
2020-10-29
JavaWebFilter
基於PHP + TRIE樹實現敏感詞過濾演算法
2019-04-16
PHP演算法
JavaScript評論敏感詞過濾程式碼
2018-12-23
JavaScript
教你如何實現Python 過濾敏感詞
2021-09-16
Python
高效的關鍵詞替換和敏感詞過濾工具
2020-08-19
用laravel框架實現敏感詞彙過濾功能
2021-01-27
Laravel框架
開源了一個 JavaScript 版敏感詞過濾庫
2019-03-04
JavaScript
協同過濾演算法概述與python 實現協同過濾演算法基於內容（usr-it
2021-09-09
演算法Python
阿里雲內容安全介面敏感詞 green scan、圖片 image scan
2021-05-20
阿里
python輕鬆過濾處理髒話與特殊敏感詞彙的方法
2022-08-11
Python
springboot專案結合filter，jdk代理實現敏感詞過濾（簡單版）
2020-09-29
Spring BootFilterJDK
非法詞彙過濾
2022-09-07
【面試被虐】說說遊戲中的敏感詞過濾是如何實現的？
2019-05-08
面試遊戲
PbootCMS設定當前站點模板,模板子目錄,黑白名單,敏感詞過濾等
2024-09-12
boot
IM敏感詞演算法原理和實現
2021-08-24
演算法
基於Spring Security Role過濾Jackson JSON輸出內容
2019-02-15
SpringJSON
敏感詞 v0.19.0 新特性之敏感詞單個編輯，不必重複初始化
2024-09-19
匹配關鍵詞和敏感詞
2020-07-05
【log4j2日誌框架】敏感字元過濾
2020-10-21
框架字元
Safari網頁敏感文字過濾外掛：Profanity Filter for Mac
2021-09-20
網頁FilterMac
那些有趣的演算法之布隆過濾器
2019-02-26
演算法過濾器
Linux檔案過濾及內容編輯處理命令總結！
2021-11-17
Linux
ElasticSearch多層nested查詢、nested過濾排除非結果內容
2020-11-29
Elasticsearch
Liunx運維(三)-檔案過濾及內容編輯處理
2020-12-19
運維
RxSwift 之過濾操作
2019-01-23
Swift
jQuery之過濾元素
2018-07-30
jQuery
短視訊推出＂防沉迷系統＂內容過濾築起＂防火牆
2019-04-10
防火牆
基於JavaScript的關鍵詞過濾示例
2024-11-06
JavaScript
編譯器前端之如何實現基於DFA的詞法分析器
2021-09-21
編譯前端詞法分析
第三章檔案過濾及內容編輯處理命令
2018-09-30
wireshark 實用過濾表示式（針對ip、協議、埠、長度和內容）
2019-02-27
協議
Amazon SageMaker助力行者AI實現遊戲內容過濾準確率96%
2020-09-23
AI遊戲
GO語言敏感詞檢測
2021-04-28
Go
爬蟲敏感圖片的識別與過濾，瞭解一下？
2019-03-01
爬蟲

DFA演算法之內容敏感詞過濾

相關文章